华为18500V3存储同步双活pair后影响AIX系统多路径链路部分失败

 

为超融合添加LUN,该LUN启用双活pair,当双活Pair同步完成后,存储出现如下报警:

存储告警

查看AIX系统中多路径软件链路状况:

hisdb1-upadm

发现每个LUN到B存储的链路全部失败。查看系统日志有大量


LABEL: FCP_ERR2 IDENTIFIER: E6DB28E5


LABEL: SC_DISK_ERR7 IDENTIFIER: DE3B8540

Date/Time: Thu Mar 7 21:51:16 CST 2024

报警。

类似报警曾经发生过一次,当时停用并启用了存储的双活pair,随后也产生了同样的告警。不同的是在尝试删除链路重新添加,在AIX节点内删除FC设备后重新添加后,这次并没有顺利恢复链路,甚至重启节点也并没有恢复链路,重启后链路出现了短暂的恢复,随后出现链路降级,奇怪的是由原先的四条链路失败,变成三条链路失败。每个LUN各有四条链路连接到存储A,B,链路都是共用的四块HBA卡,按道理讲连接A存储正常,说明HBA卡的驱动没有问题,但是华为400给出的处理建议:

  1. 需要AIX侧主机以及HBA卡厂商分析在存储和链路侧并无异常的情况,主机侧驱动出现报错原因,存储侧可协助排查。

  2. 建议将Linux主机使用的存储FC端口与AIX主机使用的FC端口进行隔离,避免Linux主机在配置特殊模式0情况下,双活场景同步完成后闪断前端端口,出现AIX主机重新建链后的未知情况。

华为400定位的问题为系统驱动问题,关于为什么出现这种现象,给出的答复是Linux主机侧配置特殊模式0,当双活pair同步完成后会闪段所有链路,至于为什么这次是掉B存储,上次是掉A存储,为什么重启系统后会恢复其中一条链路,这些问题都没有给出答复。。。。

至于解决的方法也很简单,既然虚拟节点重启无效,在vios下重启HBA卡即可。