Node0: DRAM uncorrectable ECC Error
Node1: HT Link SYNC Error
硬重置后系统启动正常,还没有报告edac-util上的任何内容.
我的研究告诉我,即使ECC内存和系统处于理想状态,仍然可能出现无法纠正的错误,并且很可能在系统的生命周期中发生错误;一些报告建议至少每年一次或更早.
服务器使用多个ECC模块运行CentOS 6.5.我已经在尝试诊断哪个模块抛出错误,以评估这是一个错误还是宇宙射线等不可避免的结果.
我的研究还表明,当系统像这样停止时,无法写入日志,并且唯一可行的方法是将系统连接到另一个系统,并通过串行端口写出日志.
除了通常的edac-util,memtest,压力测试和预防性替换之外,在解决这个错误时还有什么我应该考虑的吗?
我无法在我搜索的任何CentOS日志中找到任何此崩溃的记录,这与我认为无法将此错误记录到本地磁盘相关.该错误仅在自动重启后由BIOS报告给我.是否建议始终将系统日志写入串行以记录这些类型的错误?
使用单一系统是否可以避免这种故障,或者只能使用昂贵的企业解决方案?
在单个生产服务器的这些故障情况下,我该怎么做才能提供后备措施;例如,生产服务器本身不跨越多台机器,但可以存在后备服务器.
解决方法
使用我管理的系统,磁盘最常出现故障,其次是RAM,电源,风扇,系统板和cpu.
记忆可能会失败……你无能为力.
见:Is it necessary to burn-in RAM for server-class hardware?
由于您无法真正防止ECC错误和RAM故障,因此请为此做好准备.保留备件.可以物理访问您的系统并维护组件的保修.我绝对不会在环境中引入“预防性替代”.其中一些是你硬件的功能……你有IPMI吗?有时硬件日志会在那里结束.
这是更好的服务器硬件的增值之一.以下是来自HP ProLiant DL580 G4服务器的片段,其中超出了RAM的ECC阈值,然后进入禁用的DIMM ……然后最终服务器崩溃(ASR)并在停用坏DIMM的情况下重新启动自身.
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001 LOG: Corrected Memory Error threshold exceeded (Slot 1,Memory Module 1) 0005 Repaired 20:41 12/06/2008 20:43 12/06/2008 0002 LOG: POST Error: 201-Memory Error Single-bit error occured during memory initialization,Board 1,DIMM 1. Bank containing DIMM(s) has been disabled. 0006 Repaired 21:37 12/06/2008 21:41 12/06/2008 0002 LOG: POST Error: 201-Memory Error Single-bit error occured during memory initialization,DIMM 1. Bank containing DIMM(s) has been disabled. 0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001 LOG: POST Error: 201-Memory Error Single-bit error occured during memory initialization,DIMM 1. Bank containing DIMM(s) has been disabled. 0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001 LOG: ASR Detected by System ROM