我们总共有16个服务器(2×8),它们都在dmesg中随机地发出这些消息:
[4661350.802707] ata2.00: Failed command: WRITE FPDMA QUEUED [4661350.802734] ata2.00: cmd 61/00:28:00:d0:fc/04:00:0f:00:00/40 tag 5 ncq 524288 out [4661350.802735] res 40/00:0c:00:f8:fc/00:00:0f:00:00/40 Emask 0x10 (ATA bus error) [4661350.802821] ata2.00: status: { DRDY }
即使由于错误,一切似乎都很好,但忽略它们感觉非常错误.它主要发生在磁盘活动较多的时期.
在一台服务器上,即使在高磁盘活动期间,它也会随机停止.
谷歌搜索表明它可能是由于连接器松动或驱动器故障,但它发生在16个不同类型硬盘驱动器的不同服务器上(8个使用7200转WD黑色SATA驱动器,另外8个使用10000 RPM VelociRaptors).
我们尝试了两个不同的Linux内核,2.6.32(Debian Squeeze)和3.2.44(Debian Wheezy).
服务器供应商建议升级到最新的BIOS,但我们已经在运行它.
所以现在我们被卡住了:)有人有建议吗?
完整的dmesg:http://pastebin.com/Z9k1kXbc
更新:Jim Garrison指向AskUbuntu Question,他们提到有缺陷的英特尔芯片组.我现在担心我们受此影响了,虽然它已经在2011年被发现了.(服务器是在2012年第四季度建造的,但SuperMicro可能在2011年有一个旧批次 – 他们制造自己的主板).
“lspci”给了我这个:
00:00.0 Host bridge: Intel Corporation Sandy Bridge DMI2 (rev 07) 00:1f.2 SATA controller: Intel Corporation Patsburg 6-Port SATA AHCI Controller (rev 06)
A softpedia news article提到“rev04”受到影响.我应该从lspci的“rev 07”中收集到我们不受影响吗?
Intel errata from June 2013提到了一些类似的问题:
Due to a circuit design issue on Intel 6 Series Chipset and Intel C200 Series Chipset,electrical lifetime wear out may affect clock distribution for SATA ports 2-5. This may manifest itself as a functional issue on SATA ports 2-5 over time.
这些芯片组在勘误表中被命名为“英特尔®Q67芯片组”,“英特尔®Q65芯片组”等.如何从Debian命令提示符中找出我所拥有的哪种芯片组(如此命名)?
更新:I have now located the correct errata for the chipset,我想. (是BD82C602J).似乎没有什么太严重了.