本来是凌晨发布,有一部分需要发布到内网的测试服务器上,但是发现机器挂掉了,而且是昨天下午5点,没有添加报警
稍后,vpn远程连接之后发现进入到了一个CentOS的安装界面,擦,这是什么鬼。于是,尝试剔除ISO,然后启动,无法启动哦,知识进入Grub(最后怀疑这个其实就是到了MBR里面的Grub代码了,暂时不确定)
进入ESXI,查看控制台,机器的cpu异常
在重启过程中,直接进入了CentOS的安装界面,后来才知道,是之前的同事故意这么做的,为的是用CD的引导,Rescure 系统,然后chroot后直接用系统,多么牛逼的操作~
然后选择 救援模式, Rescure installed system
- 然后执行
chroot /mnt/sysimage/
/etc/init.d/sshd restart
# 然后sshd远程就可以登录了
经过排查,一直对这个有点疑惑,为什么不能自己启动呢?
居然有两块硬盘
- 查看两块硬盘的大小,一块500MB,另外一块800GB左右
- 看下当前fstab的mount情况,可以看出里面有个boot分区,但是系统里面并没有挂载,说明UUID不正确
- 查看所有分区的UUID
- 好吧,那就确认了,BOOT分区异常,而且发现sda和sdb两块硬盘都没有active 的 primary分区
- 好吧,不深究boot目录和启动的问题,看看LVM吧。整体看下系统当前一共几个LVM。可以看到只有一个组”vg_iiottestserver1”
- 看看里面一共几个分区,lvm vgscan -v,一共三个,就是没有boot哦,对了boot分区不能使用lvm,因为系统启动的时候无法识别lvm
- 最后备注下,查看uuid的小招式 blkid 或者 ls /dev/disk/by-uuid
总结:
- 系统时进去了,可是boot分区的事儿咋办呢?以后再遇到断电死机的情况不会再手动搞搞吧,有点小讨厌,好吧,那就试着修复下grub.
# 这个实验需要找空在虚拟机里面试一下下
grub-install --root-directory=/boot /dev/sda1