我有一个运行icinga / collectd / graphite的监控服务器,大约有50台主机.我注意到盒子上的高负载/段塞性能.如果你看一下top,你会看到:
cpu(s):0.6%us,0.2%sy,0.0%ni,7.6%id,23.4%wa,0.0%hi,0.2%si,0.0%st
注意HUGE%wa值,据我所知,这意味着网络或磁盘瓶颈. ifconfig显示没有丢包,并且没有大量的带宽,所以这会留下磁盘问题,对吧?还没有很多磁盘写入… iotop报告说我们每秒只写1 MB以上,RAID工具报告一切都是A-OK并且启用了写入缓存.
我该如何试图弄清楚如何解决这个问题?
更新:
iostat -x输出是:
avg-cpu: %user %nice %system %iowait %steal %idle 0.62 0.10 0.31 9.65 0.00 89.31 Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util sda 0.21 33.34 83.55 16.54 1599.94 399.07 19.97 43.21 416.98 3.71 37.13