oracle rac 2个节点故障 (sun os)

前端之家收集整理的这篇文章主要介绍了oracle rac 2个节点故障 (sun os)前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

今天同事在巡检过程中,发现了一个致命的问题,双机故障,我们所谓的rac就是保证至少1个节点可用, 结果2个节点都down了, 如何给客户交代?

oracle系统如此之贵,结果中断了业务,这个问题有点严重了。 说得吓人。。。

来,我们直接看故障点:


1.在crsctl status res -t 的时候,看到DG是offline的, 然后instance是down的。

分析:

down机可能原因

1.硬件故障导致机器重启,磁阵权限丢失,asm拉不起,可以先检查磁盘状态和权限。

2. 数据库压力过大,控制器出问题,导致磁盘dismount

3. oracle bug ,需要打补丁

检查权限(2个节点都要看):



2. 可能是同事处理过,说已经恢复了系统。

但给我说,节点1有个crs没有启动。



节点2查看整个集群状态

$ crsctl status res -t
--------------------------------------------------------------------------------
NAME           TARGET  STATE        SERVER                   STATE_DETAILS       
--------------------------------------------------------------------------------
Local Resources
--------------------------------------------------------------------------------
ora.DG01_CRS.dg
               ONLINE  ONLINE       db2                                          
ora.DG02_DATA.dg
               ONLINE  ONLINE       db2                                          
ora.DG02_EDATA.dg
               ONLINE  ONLINE       db2                                          
ora.DG03_REDO01.dg
               ONLINE  ONLINE       db2                                          
ora.DG04_REDO02.dg
               ONLINE  ONLINE       db2                                          
ora.LISTENER.lsnr
               ONLINE  ONLINE       db2                                          
ora.asm
               ONLINE  ONLINE       db2                                          
ora.gsd
               OFFLINE OFFLINE      db2                                          
ora.net1.network
               ONLINE  ONLINE       db2                                          
ora.ons
               ONLINE  ONLINE       db2                                          
ora.registry.acfs
               ONLINE  ONLINE       db2                                          
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.LISTENER_SCAN1.lsnr
      1        ONLINE  OFFLINE                                                   
ora.cvu
      1        ONLINE  OFFLINE                                                   
ora.db1.vip
      1        ONLINE  OFFLINE                                                   
ora.db2.vip
      1        ONLINE  ONLINE       db2                                          
ora.oc4j
      1        ONLINE  ONLINE       db2                                          
ora.scan1.vip
      1        ONLINE  OFFLINE                                                   
ora.unicom.dataclient.svc
      1        ONLINE  OFFLINE                                                   
      2        ONLINE  ONLINE       db2                                          
ora.unicom.dataldr.svc
      1        ONLINE  OFFLINE                                                   
      2        ONLINE  ONLINE       db2                                          
ora.unicom.db
      1        ONLINE  OFFLINE                                                   
      2        ONLINE  ONLINE       db2                      Open   



节点1查看crs状态

$ crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online


当然crs是无法用的,给集群管理增加了负担。
$ crsctl status res -t
CRS-4563: Insufficient user privileges.

CRS-4000: Command Start Failed,or completed with errors.


查看进程,发现在节点1,没有crsd.bin,但css has 等都是有的,

那么我们单独启动节点1 的 crs



查看节点1 进程




再查看节点1 整个crs的状态



等3分钟,因为有个刷新的过程,拉起其他进程的过程。

我们再查看整个集群



到这里 2个节点就好了。








做到这里,说明运维的部分已经做完了,

那么我们不仅仅是运维,更多是开发dba的范围, 承担系统架构,性能优化,应用优化。 这样做好了,就少一些运维。


-- 下面继续分析, 如何避免数据库压力大,有优化的余地吗? 答案是肯定的---- > 有

没有完美的系统,没有绝对的高手,只有在不断研究,才不断进步。


明天补充说明 从AWR分析,整个系统的性能问题。

原文链接:https://www.f2er.com/oracle/212852.html

猜你在找的Oracle相关文章