【生产实践】华为存储XSG1在RHEL 7.x/8.x上的多路径配置操作手册(生产环境)

发布于:2025-05-27 ⋅ 阅读:(52) ⋅ 点赞:(0)

华为存储多路径

一、概述

本手册针对Red Hat Enterprise Linux 7.x/8.x系统与华为XSG1存储设备的多路径I/O(MPIO)配置,通过优化路径策略实现高可用、负载均衡及故障容错,适配华为存储硬件特性,满足生产环境需求。

二、参数解析与配置

1. 设备标识(Vendor/Product)

  • vendor "HUAWEI":指定华为为供应商,加载华为专用DSM,适配存储特性(如ALUA、路径优先级)。
  • product "XSG1":匹配XSG1系列存储LUN,批量应用配置。

2. 路径分组(path_grouping_policy)

  • multibus:将所有活动路径(如双HBA卡连接的路径)视为一组,I/O在组内均衡分配,适用于华为Active/Active模式,最大化路径利用率。

3. 优先级与路径选择

  • prio const:恒定优先级,所有路径同权(华为对称式路径设计场景)。
  • path_selector "service-time 0":按服务时间均匀负载,0表示权重相同,I/O均匀分配,避免单路径过载。

4. 故障处理

  • path_checker tur:通过TUR命令检测路径状态,快速发现链路/设备故障(如光纤断开、控制器无响应)。
  • failback immediate:主路径恢复后立即回切,确保最优性能(如华为主控制器恢复时快速切换)。
  • dev_loss_tmo 30:设备无响应30秒判定为丢失,触发故障转移,需与存储故障恢复时间匹配。
  • fast_io_fail_tmo 5:5秒内快速处理I/O失败(如路径永久故障),减少应用阻塞。
  • no_path_retry 15:无路径时重试15次后失败,避免无限等待(存储完全下线时通知应用)。

三、配置步骤

  1. 编辑配置文件

    vi /etc/multipath.conf
    

    添加:

    devices {
        device {
            vendor              "HUAWEI"
            product             "XSG1"
            path_grouping_policy multibus
            prio                const
            path_selector       "service-time 0"
            path_checker        tur
            failback            immediate
            dev_loss_tmo        30
            fast_io_fail_tmo    5
            no_path_retry       15
        }
    }
    
  2. 重启服务

    systemctl restart multipathd
    
  3. 验证

    • 查看多路径:multipath -ll,确认华为XSG1设备及路径状态(active,分组multibus)。
    • 模拟故障(如拔插光纤),检查日志(/var/log/messages),验证故障转移(failback生效,切换时间≤30秒)。
    • 监控I/O:iostat -xm 5,确认负载均匀(service-time 0策略生效)。

四、最佳实践

  1. 硬件冗余:双HBA卡、双交换机、双控制器,构建2×2冗余拓扑,抵御单硬件故障。
  2. 固件更新:升级HBA卡驱动与存储固件,确保ALUA(若适用)等特性正常。
  3. 监控告警:配置Zabbix/Prometheus,监控路径状态、故障次数,设置no_path_retrydev_loss_tmo告警。
  4. 定期演练:每季度模拟故障,验证故障转移时间(≤30秒),确保符合SLA。
  5. 配置备份:备份multipath.conf及存储映射文档,便于灾难恢复。

五、故障排除

  1. 路径未识别:检查日志(journalctl -u multipathd),确认vendor/product匹配;执行SCSI扫描(echo "- - -" > /sys/class/scsi_host/hostX/scan)。
  2. 负载不均:确认华为存储为Active/Active模式,检查HBA链路(ethtool/fcinfo),确保物理连通。
  3. 转移延迟:调整dev_loss_tmo(如20秒),验证存储故障恢复时间,协同failback策略。

通过上述配置,华为XSG1与RHEL多路径实现高可靠(99.99%可用性),适配生产环境。操作需结合华为与RHEL官方文档,确保版本兼容。

注意:实际部署需根据华为存储具体型号(如XSG1的ALUA支持情况)调整prio策略(如alua优先于const,若存储支持ALUA)。


网站公告

今日签到

点亮在社区的每一天
去签到