跳到主要内容

网络系统故障诊断

概述

网络系统是数据中心的关键基础设施,网络故障可能导致业务中断或性能下降。本文档提供网络系统常见故障的诊断方法和处理流程,涵盖交换机、路由器、防火墙、负载均衡器等设备。

🔧 常见故障类型

1. 交换机故障

故障现象

  • 端口Down
  • 无法Ping通
  • 丢包严重
  • VLAN不通
  • 环路导致广播风暴

可能原因

  • 光纤/网线断开
  • 光模块故障
  • 配置错误
  • VLAN配置错误
  • 环路未抑制
  • 设备CPU过高

诊断步骤

  1. 检查端口状态:display interface brief
  2. 检查光模块:display interface transceiver
  3. 检查VLAN:display vlan vlan-id
  4. 检查MAC表:display mac-address
  5. 检查日志:display logbuffer

处理方法

  • 物理故障:更换光纤/模块
  • 配置错误:修正配置
  • VLAN问题:检查VLAN透传
  • 环路问题:启用STP/RSTP
  • CPU过高:减少ACL/排查攻击

2. 路由器故障

故障现象

  • 路由不可达
  • BGP邻居down
  • OSPF邻居down
  • 丢包严重
  • 设备脱管

可能原因

  • 路由配置错误
  • BGP/OSPF配置错误
  • 物理链路故障
  • ACL阻断
  • IP地址冲突

诊断步骤

  1. 检查路由表:display ip routing-table
  2. 检查邻居:display bgp peer / display ospf peer
  3. 检查接口:display ip interface brief
  4. 检查ACL:display acl all
  5. Ping测试:分段测试

处理方法

  • 路由错误:修正路由配置
  • 邻居问题:检查两端配置
  • 物理故障:更换线缆/端口
  • ACL阻断:调整ACL规则
  • IP冲突:重新规划IP地址

3. 防火墙故障

故障现象

  • 无法访问业务
  • 安全策略不生效
  • VPN连接失败
  • 设备性能下降
  • HA切换异常

可能原因

  • 安全策略配置错误
  • 会话数满
  • 攻击流量
  • HA配置不一致
  • 系统资源耗尽

诊断步骤

  1. 检查策略:display security-policy rule all
  2. 检查会话:display firewall session table
  3. 检查资源:display cpu-usage / display memory
  4. 检查HA:display hrp state
  5. 检查日志:display logbuffer

处理方法

  • 策略错误:调整安全策略
  • 会话满:增加会话容量或优化
  • 攻击流量:启用攻击防护
  • HA问题:检查配置一致性
  • 资源问题:优化配置或升级

4. 负载均衡器故障

故障现象

  • 虚拟服务不可用
  • 服务器健康检查失败
  • 负载不均衡
  • 会话中断
  • SSL错误

可能原因

  • 虚拟服务配置错误
  • 后端服务器故障
  • 健康检查配置不当
  • 会话保持配置错误
  • 证书问题

诊断步骤

  1. 检查虚拟服务:display ltm virtual
  2. 检查服务器池:display ltm pool
  3. 检查健康检查:display ltm monitor
  4. 检查会话:display ltm session
  5. 检查证书:display ltm cert

处理方法

  • 配置错误:修正虚拟服务配置
  • 后端故障:检修后端服务器
  • 检查失败:调整健康检查参数
  • 会话问题:检查会话保持配置
  • 证书错误:更新SSL证书

5. 网络延迟/丢包

故障现象

  • Ping延迟高
  • 丢包率高
  • 业务响应慢
  • 带宽不足

可能原因

  • 带宽拥塞
  • 链路质量问题
  • 设备性能不足
  • 网络攻击
  • 路由次优

诊断步骤

  1. Ping测试:分段测试定位
  2. 带宽检测:查看接口利用率
  3. 路由检查:检查路由路径
  4. 设备性能:检查CPU/内存
  5. 流量分析:分析流量成分

处理方法

  • 带宽拥塞:增加带宽或QoS限流
  • 链路问题:更换光纤/模块
  • 设备性能:升级或扩容
  • 攻击流量:启用防护
  • 路由次优:优化路由

6. DNS故障

故障现象

  • 域名解析慢
  • 解析失败
  • DNS服务器不可达
  • 解析结果错误

可能原因

  • DNS服务器故障
  • 缓存问题
  • 递归查询失败
  • ACL阻断
  • 负载过重

诊断步骤

  1. 测试解析:nslookup/dig测试
  2. 检查服务器:检查DNS服务状态
  3. 检查缓存:查看缓存记录
  4. 检查日志:查看错误日志
  5. 网络连通:Ping DNS服务器

处理方法

  • 服务器故障:修复或切换DNS
  • 缓存问题:清空缓存
  • 查询失败:检查上游DNS
  • ACL问题:调整ACL
  • 负载问题:增加服务器

📋 故障诊断流程图

🔧 常用诊断命令

华为设备

# 查看端口状态
display interface brief

# 查看路由表
display ip routing-table

# 查看BGP邻居
display bgp peer

# 查看OSPF邻居
display ospf peer

# 查看日志
display logbuffer

# 查看CPU/内存
display cpu-usage
display memory

F5负载均衡

# 查看虚拟服务
tmsh show ltm virtual

# 查看池成员状态
tmsh show ltm pool

# 查看会话
tmsh show ltm session

# 查看健康检查
tmsh show ltm monitor

🔧 预防性维护建议

维护项目周期内容
端口状态检查每日检查关键端口状态
日志检查每周分析日志告警
性能监控每周CPU/内存/带宽
配置备份每月配置文件备份
健康检查每月健康检查测试
固件升级季度升级设备固件

📎 相关文档