我最近开始尝试在我们的数据中心设置/管理Linux(Ubuntu 10.04.2 LTS)服务器(所有其他服务器都是Windows机箱).服务器定期挂起并变得无响应,我无法在任何日志中找到指示特定原因的任何内容.有时它会持续数小时,有时是几天(最长的14天).挂起后将显示器插入机器根本不显示任何内容.为了解决我们试图禁用APIC的问题,更多的是出于“受过教育的绝望”而不是其他任何问题.不幸的是,我们在一些故障排除方面受到限制,因为我们在盒子上托管了一个客户端网站(我们设置它的原因)所以任何涉及大量停机的问题都是一个问题.
由于这是我们第一次尝试设置Linux机箱,我们使用的是“装备精良”的台式机,但不是我称之为“服务器级”的硬件.这是一个独立的盒子,而不是VPS.我们使用的是硬件,而不是软件,RAID阵列,并且盒子里有足够的内存.
警告/背景:
>总的来说,我对Linux比较陌生.
>我花费更多时间编写代码而不是管理服务器.我很喜欢在盒子上工作,但我不是一个真正的系统管理员.
>我对命令行感到满意,但对OS X(BSD)有更多经验.
>我不确定所有可用的工具/信息/日志,尽管我试图彻底检查我所知道的内容.
>我没有物理配置硬件,所以我不确定所有的规格,但我可以得到我需要解决的任何信息.
>我可能正在跳过非常基本的步骤或错过明显的地方,在不知情的情况下寻找信息.
更多细节:
>真实内存:8GB
> Ubuntu 10.04.2 LTS
>硬件RAID 10
>使用Webmin版本1.550管理站点
>服务器位于远程数据中心.动手排除故障很困难.
我们此时尝试了两种Linux设置.第一个是与此相同的硬件配置,但没有重复使用的实际硬件.该尝试使用的是CentOS,我们正在尝试设置CPanel.我们因为同样的问题(定期崩溃/挂起)而取消了该安装.
第二次尝试(这一次)表现出相同的行为.我唯一能看到的共同点是硬件配置(虽然CentOS和Ubuntu可能有比我想象的更多共同点).
该盒子可以正常运行数小时,数天甚至数周,然后完全停止响应.我检查了我知道检查的所有日志(主要是消息,syslog和kern.log),但我没有看到任何对我来说似乎是错误的内容.我确实看到了我不理解的可能会或可能不会出现问题的行,例如:
rsyslogd: [origin software="rsyslogd" swVersion="4.2.0" x-pid="814" x-info="http://www.rsyslog.com"] rsyslogd was HUPed,type 'lightweight'.
我们的大多数syslog条目似乎都是运行webmin相关的cron作业的日志.我的直觉告诉我,我们的配置中可能有一些组件Linux不喜欢或需要驱动程序更新(例如raid卡),但我不确定如何做更多的追踪或确定可能是什么.猜猜和检查是昂贵的.
我曾经想到的另一个想法是,正在运行的一个或多个cron作业正在绊倒一些东西,但它看起来似乎不是可再现的,而且,我再次对如何测试该理论感到茫然进一步.每次服务器关闭时,相同的cron作业似乎都没有运行.
这是我们上次挂起之前的日志的一部分:
Aug 8 11:00:01 linhost01 CRON[10771]: (www-data) CMD ([ -x /usr/lib/cgi-bin/awstats.pl -a -f /etc/awstats/awstats.conf -a -r /var/log/apache2/access.log ] && /usr/lib/cgi-bin/awstats.pl -config=awstats -update >/dev/null) Aug 8 11:00:01 linhost01 CRON[10772]: (root) CMD (/etc/webmin/status/monitor.pl) Aug 8 11:01:01 linhost01 CRON[10799]: (root) CMD (/etc/webmin/virtual-server/collectinfo.pl) Aug 8 11:05:01 linhost01 CRON[10898]: (root) CMD (/etc/webmin/status/monitor.pl) Aug 8 11:06:01 linhost01 CRON[10924]: (root) CMD (/etc/webmin/virtual-server/collectinfo.pl) Aug 8 11:09:01 linhost01 CRON[11007]: (root) CMD ( [ -x /usr/lib/PHP5/maxlifetime ] && [ -d /var/lib/PHP5 ] && find /var/lib/PHP5/ -type f -cmin +$(/usr/lib/PHP5/maxlifetime) -print0 | xargs -n 200 -r -0 rm) Aug 8 11:10:01 linhost01 CRON[11023]: (www-data) CMD ([ -x /usr/lib/cgi-bin/awstats.pl -a -f /etc/awstats/awstats.conf -a -r /var/log/apache2/access.log ] && /usr/lib/cgi-bin/awstats.pl -config=awstats -update >/dev/null) Aug 8 11:10:01 linhost01 CRON[11024]: (root) CMD (/etc/webmin/status/monitor.pl) Aug 8 11:11:01 linhost01 CRON[11063]: (root) CMD (/etc/webmin/virtual-server/collectinfo.pl) Aug 8 11:15:01 linhost01 CRON[11149]: (root) CMD (/etc/webmin/status/monitor.pl) Aug 8 11:16:01 linhost01 CRON[11176]: (root) CMD (/etc/webmin/virtual-server/collectinfo.pl) Aug 8 11:17:01 linhost01 CRON[11243]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Aug 8 11:20:01 linhost01 CRON[11279]: (www-data) CMD ([ -x /usr/lib/cgi-bin/awstats.pl -a -f /etc/awstats/awstats.conf -a -r /var/log/apache2/access.log ] && /usr/lib/cgi-bin/awstats.pl -config=awstats -update >/dev/null) Aug 8 11:20:01 linhost01 CRON[11280]: (root) CMD (/etc/webmin/status/monitor.pl) Aug 8 11:21:01 linhost01 CRON[11307]: (root) CMD (/etc/webmin/virtual-server/collectinfo.pl) Aug 8 11:25:01 linhost01 CRON[11392]: (root) CMD (/etc/webmin/status/monitor.pl) Aug 8 11:26:01 linhost01 CRON[11432]: (root) CMD (/etc/webmin/virtual-server/collectinfo.pl) [SERVER DOWN AFTER THIS POINT]
如果有人可以帮助消除任何亮点,甚至给我任何其他东西,我可以在这里发布可能有帮助的我会非常感激.我全都是为了通过实践来学习,但是我开始在这一方面走到尽头.
很高兴发布任何可能有助于提供任何建议的特定日志信息或信息.
这个服务器问题的确切原因仍然未知,但(我对Linux的理解仍然有点有限)我怀疑这两个驱动器有一段时间有问题并试图使用坏驱动器间歇性地导致服务器崩溃/ 重启.
我们的最终解决方案是使用几乎完全相同的配置从头开始重建服务器,但使用所有新硬件.我们所做的唯一重要的配置更改是使用ext4而不是文件系统的xfs.这个盒子现在已经好几个月没有问题了.
我回答这个问题只是因为,对我们来说,驱动器故障似乎是原因,更换所有硬件是解决问题的最佳方法.也就是说,我不知道这个答案对大多数人来说太有帮助了.