解决方法
我有一个站点有四十个工作站和大约十五个计算节点.
我通过以下方式管理工作站:
>强制工程师将所有数据存储在NFS网络上,而不是本地存储
>不要让任何工程师因任何原因在任何工作站上拥有root权限
>将所有系统syslog发送到中央syslog-ng主机,定期进行日志解析(通常是每天,但有时每小时一次)
>用nagios监视上/下
>具有可重复的kickstart环境 – 经验法则是如果在30分钟内无法修复问题,机器将重新启动(实际上,我们实际上比这更快地启动,因为在此设置中很少有30分钟的时间我们可以做的故障排除),如果kickstart失败,我们就开始交换硬件
我以几乎相同的方式管理计算服务器场,除了:
>有一个本地/临时目录,任何人都可以写任何东西 – 但是不保证该目录的内容
>性能/使用计数器是通过munin从中央主机完成的
>通过使用cacti监视场节点连接到的交换机端口来完成网络活动
它并不完美,但它保持了这一个网站.
(哦,我应该提一下,这个网站没有任何现场全职IT人员,它是PT和按需.上面的监控系统通常可以让你知道什么时候有一台遇险的电脑.)