在使用Debian 6的raid 10中使用4xSSD的新Xeon 55XX服务器中,我在服务器构建后的两周内经历了2次随机关闭.在关闭之前查看带宽日志并不表示任何异常.服务器负载通常非常低(大约1)并且远远地并置.当服务器发生故障时,似乎没有停电.
我知道我查看/ var / log但不确定我应该调查哪些日志以及我应该寻找什么.所以感谢你的提示.
解决方法
首先,我必须问:“停工”?你的意思是机器重新启动或实际停止吗?如果它停止,则它可能是错误配置的(可能在B
IOS中)或某些东西正在主动关闭机器(即初始化0).
如果没有,您的主要候选者将是/ var / log / syslog和/var/log/kern.log,因为您的问题听起来像内核恐慌或软件触发的硬件故障.当然,如果服务器运行某些服务(例如apache)也可能给你一个线索.
通常,在这种情况下,会生成日志条目,但由于计算机遇到困难,因此无法将条目写入磁盘.如果该盒子是共同的,那么它很可能是由colo伙伴连接到串行控制台.如果我在上面的日志中找不到任何可疑的东西,那就是我要看的地方.
如果计算机未连接到串行控制台且日志中没有任何内容,您可能需要考虑通过网络将syslog发送到其他框.也许网络接口可以存活更长时间,并且可以在syslog服务器上读取日志消息.看看rsyslog或syslog-ng.
更新:
我同意下面的@Johann.停机的最可能原因是处理器温度监视器.尝试通过lmsensors或smartctl(通常最简单)检查/绘制框中的温度.我发现collectd在跟踪大量变量的过程中是无与伦比的.它可以同时执行IPMI和lm-sensors以及hddtemp.此外,一些BIOS:es log temperature halt events.