我想知道的是,在我不太了解服务器的情况下,通常监控哪些指标是一个很好的默认值?并且,就警报而言,什么是“理智的默认值”?
我的计划是部署一个监控方案,以默认的默认值作为开始,而我绘制出不同系统的角色 – 我希望这需要一些时间.
也可以用不同的方式询问这个问题:
If you were designing a monitoring-appliance – what should its default Linux-monitoring template contain?
解决方法
我使用的标准警告级别包括(警告,严重).您可能希望根据许多因素调整值.较高的值会减少警报的数量,而较低的值会使您有更多的时间来应对发展中的问题.这可能是模板的合适起点.
>持续的cpu利用率(80%,100%).排除niced进程的时间.
>每个cpu的平均负载(2,5).
>每个分区的磁盘利用率(80%,90%).
>邮件队列(10,50).在非邮件服务器上使用较低的值.
>繁忙的Web服务器(10,25).
>网络吞吐量(80%,100%).网络备份和其他此类过程可能超出值.如果它们可用,我会使用限制设置.
> NTP偏移量,以秒为单位(0.2,1).
Munin很好地收集了这些统计数据和其他数据.它还具有在阈值通过时触发警报的功能.它的警告能力不如Nagios的警告能力.它收集和显示历史数据使其成为一个很好的选择,能够检查当前值是否与过去的值显着不同.它易于设置,可以在不产生警告的情况下运行.主要问题是捕获的数据量以及收集信息的固定频率.您可能希望按需生成图表. Munin提供了许多我在系统遇到麻烦时使用sar检查的统计数据.它的概述页面可用于识别可能的问题.
Nagios非常擅长警报,但历史上并不擅长以适合与当前值进行比较的方式收集历史数据.它似乎正在发生变化,新版本在收集这些数据方面要好得多.当出现问题时,它是一个很好的选择,可以在没有生成警报的情况下安排停机. Nagios是非常善于提醒服务何时停止.这特别适用于关键服务器和服务.