一、故障描述
由5台物理服务器组成的ceph集群,其中一台因为内存损坏,需要停机进行更换。更换完成后,发现该节点集群状态不正常。
二、故障分析
l 该集群中5台物理服务器均为mon节点;
l 其中一台出现问题,暂时不会导致整个集群停止服务;
l 前一日变更操作只对内存进行了更换,并未对其他部件做变更。
日志分析
查看故障节点的操作系统日志及ceph日志
messages:
ceph的日志:
三、故障处理
1、重启服务
通过如上日志描述,尝试对ceph服务进行重启,故障依旧
2、检查ceph配置
对ceph所涉及的配置文件,及认证keyring进行检查,发现配置一样,并无改动。
3、检查网络配置
通过对网络进行测试,发现ceph所涉及的public及cluster网络不能联通其他节点,检查网卡发现网线并未连接。
四、经验总结
最终确定此次故障是由于变更操作时,将网线拔出,然而变更结束后,由于网线连接状态不对引发的。
通过此次故障得出结论,运维人员在平时的运维操作中,定要注意操作的规范性,在操作前要做好记录,操作后要复合相关操作是否全部完成。对于变更完成后的测试工作,也要多加注意,做到严谨、全面。
如欲了解更多,请登录十大靠谱网赌软件官方网站:78m9.dongbeizhenzi.com