技术分享 > 基础网络

某银行CISCO Nexus2232交换机故障处理报告

发布时间:2014-12-24
27人关注

一、故障现象描述:

     据客户反映,某银行Nexus2232交换机故障,导致小机心跳断开。若不幸另一台Nexus2232出现故障,则会造成整个数据库断开连接。

 

二、故障处理过程:

      到达客户现场,经详细了解现场情况及实施期间的风险评估,计划此操作放在下班期间,在银行业务停止后进行故障处理。虽然,理论上在处理故障期间不会影响到另一台Nexus2232及下联数据库节点,但为了将风险降到最低,在下班处理故障期间,将停掉一个数据库节点。

     查看现出现故障的Nexus2232交换机及上联设备Nexus7004所在的VDC及对应端口Et3\27,Nexus2232与Nexus7004互联端口均为UP状态,Nexus2232下联小机端口状态不正常,均处于Down状态。根据目前现场,初步确定是Nexus2232交换机故障。

      1、将现有故障交换机Nexus2232设备下架,新上架一台RMA备件Nexus2232交换机(与原设备型号相同)。完成物理连接后,发现此故障并未解决,现象同之前故障交换机现象相同!

       在Nexus7004上查看相应的FEX状态,如下:

Ver-1-xiaoji-HA# sh fex

FEX         FEX           FEX                       FEX              

Number    Description      State            Model            Serial    

------------------------------------------------------------------------

120        FEX0120        Offline           N2Kxxxxxx            xxxxxxx

 

2、此时,发现故障并非是Nexus2232设备故障,试图将现有FEX配置删除,重新配置FEX之后进行测试,结果无效;接着,重启现有现有VDC(Ver-1-xiaoji-HA),正常启动之后,故障仍未解决。

    现象始终如下图所示:

    3、考虑到可能是光模块的问题,找来两个未拆包装的光模块。首先确定的是多模光纤跳线无问题,将Nexus2232端光模块更换掉,进行测试;同时将Nexus2232和Nexus7004两端光模块更换掉,之后进行测试,结果同样未解决,故障信息始终如上。

    4、接着,将Nexus7004上连接Nexus2232的物理口Eth3\27,调整到同一VDC下的Eth3\28,在此Eth3\27接口下启用FEX。结果,在查看FEX状态时发现神奇般的开始download image,等待download完成之后,Nexus2232设备进行一次重启的过程。正常启动后,再次查看FEX状态,已正常进入Online状态,其他连接小机的端口也全部变为UP状态。

    如下所示:

Ver-1-xiaoji-HA# sh fex

FEX         FEX           FEX                       FEX              

Number    Description      State            Model            Serial    

------------------------------------------------------------------------

120        FEX0120        Online           N2Kxxxxxx            xxxxxxx

 

    5、然后,将原认为故障的Nexus2232设备再次连接到Nexus7004上,一段时间后,Nexus2232进行正常状态,所连小机端口也正常;再次将原先的两个光模块用上,Nexus2232设备依然正常;同样在原先接口Eth3\27接口上启用FEX,再次进行测试,结果Nexus2232设备无法正常加载,更换RMA备件Nexus2232仍然无法正常加载;根据现情况,判断故障应该是发生在Nexus7004 VDC(Ver-1-xiaoji-HA)Eth3\27端口上。为证明此情况,再次在同VDC的其他两个端口下启用FEX,同样配置连接Nexus2232两台设备,均能正常加载Nexus2232,FEX状态均正常。

 

三、过程中遇到的问题及解决方案:

    此CASE处理过程中,并未遇到其他意外的问题,在问题没有解决的情况下,只能一步步进行测试排查故障。

 

四、故障处理结果:

     在经过上述一步步的测试,故障排查后,最终确定此故障点发生在Nexus7004 设备Eth3\27断口下。将故障点定位到Nexus7004 Eth3\27端口下后,未能对此板卡N7K-M132XP-12L进行更加详细的测试,原因是,在没有备件的情况下,不允许在现有的生产环境下进行测试,以免影响到银行业务。

     经过上述一系列的测试及故障排除后,确定原先Nexus2232设备本身并无故障,再次将原有Nexus2232设备上线,将原先连接Nexus2232设备的端口Nexus7004 Eth3\27端口变更为Nexus7004 Eth3\28端口。查看FEX状态及连接小机端口正常后,开启另一台小机节点,进行数据库连接测试,测试全部正常,小机心跳恢复正常。

 

五、总结:

     在处理类似故障期间,尤其是业务相当重要的时候,在时间允许的情况下,处理故障前应有明确的实施计划;在处理故障前,应预测故障的可能发生点,而不是在处理故障期间逐个点去测试排查,因没有大概的目标而花费更过的时间;准备阶段,需考虑全面周到,将风险降到最低,以免在实施期间触发其他意外故障。

 


版权所有 陕西瑞金电子科技有限公司 陕ICP备07013778号-1 TEL: 029-82261090