网络运维50个常见的故障排查示例

网络运维工作中,故障排查涵盖了众多方面,列举50个常见的故障排查示例,分为多个类别:

序号

故障现象

可能的原因

排查方法

使用的工具

1

网络不通

物理线路故障、设备端口问题

检查网线、测试端口

电缆测试仪、交换机CLI

2

IP冲突

DHCP服务器分配不当

查看ARP表、DHCP日志

ARP命令、日志分析工具

3

DNS查询失败

DNS服务器配置错误

检查DNS服务器配置、清理DNS缓存

nslookup、ipconfig /flushdns

4

路由丢失

路由配置错误

查看路由表、检查静态/动态路由

route命令、路由器CLI

5

VoIP通话质量差

QoS未配置或配置不当

分析网络延迟和丢包率

Wireshark、网络性能监控工具

6

VPN连接失败

证书问题、隧道协议错误

检查证书、VPN配置

VPN客户端日志、证书管理工具

7

网页加载缓慢

WAN链路拥堵

分析网络流量、配置QoS

NetFlow分析工具、路由器CLI

8

存储访问慢

网络I/O瓶颈

查看存储I/O统计、调整网络配置

SAN/NAS管理界面、存储监控工具

9

服务器内部通信问题

VLAN划分错误

检查VLAN配置、端口属性

交换机CLI、网络规划图

10

云服务无法访问

安全组规则限制

查看并修改安全组规则

云服务控制台、CLI

11

内网广播风暴

大量ARP请求

查看网络流量、抑制ARP风暴

Wireshark抓包、交换机管理界面

12

网络设备频繁重启

硬件故障或高温

查看设备日志、检查设备温度

设备CLI、硬件监控工具

13

无线信号弱

AP位置不合理

调整AP位置、增益天线

无线网络分析工具、AP管理界面

序号

故障现象

可能的原因

排查方法

使用的工具

14

网络间歇性中断

线路质量问题或电磁干扰

测试线路质量、排除环境干扰源

TDR时域反射计、频谱分析仪

15

HTTP/HTTPS访问异常

SSL证书过期或不信任

更新SSL证书、验证证书链

OpenSSL、浏览器开发者工具

16

SSH远程登录失败

防火墙策略阻止、服务未运行

检查防火墙规则、启动SSH服务

iptables、系统服务管理工具

17

网络设备固件更新后异常

固件兼容性问题或配置丢失

恢复出厂设置、回滚至旧版固件

设备CLI、TFTP服务器

18

网络应用响应慢

应用层协议错误或拥塞

分析应用日志、优化协议栈配置

WireShark、应用性能监控工具

19

DHCP服务无法获取IP地址

DHCP服务宕机或配置错误

检查DHCP服务状态、修复配置文件

服务管理工具、dhcpd.conf

20

网络设备间认证失败

AAA配置错误或认证服务器问题

验证AAA配置、检查RADIUS/TACACS+服务器

RADIUS/TACACS+服务器日志、设备CLI

21

IPv6服务不可用

IPv6协议栈未启用或配置错误

启用IPv6协议栈、配置全局地址

ifconfig/ip、sysctl.conf

22

数据包乱序严重

中继设备队列机制问题

调整设备队列策略、优化QoS设置

CBQ/qos-scripts、设备CLI

23

网络设备CPU利用率过高

攻击或病毒活动

查杀病毒、实施防御策略

IDS/IPS系统、防火墙策略

24

PING不通特定主机

主机防火墙阻断ICMP请求

关闭主机防火墙或添加允许规则

Windows防火墙、iptables

25

MPLS VPN业务不稳定

LSP路径失效或标签栈错误

检查MPLS TE/FRR配置、验证LSP状态

MPLS-TE/FRR相关命令、路由协议调试

序号

故障现象

可能的原因

排查方法

使用的工具

26

VLAN间通信异常

VLAN间路由设置缺失

检查路由配置、添加相应路由条目

路由器CLI、网络规划图

27

OSPF邻居关系不正常

OSPF配置错误或物理链路问题

查看OSPF状态、分析ospf邻居关系

show ip ospf neighbor、路由器CLI

28

STP收敛慢导致网络中断

STP参数设置不当

检查STP配置、优化STP参数

switchport blocking-time、交换机CLI

29

FTP服务不能上传下载

FTP服务配置问题或端口阻塞

检查FTP配置、开放所需端口

vsftpd.conf、防火墙策略

30

动态NAT映射失效

NAT池耗尽或超时设置太短

扩大NAT池范围、延长超时时间

show ip nat translations、路由器CLI

31

虚拟机网络卡顿

VMWare vSwitch配置错误

检查vSwitch和Port Group配置、重置网络适配器

vSphere Client、ESXi CLI

32

私有云环境跨子网通信失败

NSG安全组规则限制

检查并调整NSG安全组规则

Azure Portal、AWS Console

33

云服务间延时高

VPC网络设计不合理

优化VPC网络架构、引入高速互联服务

Cloud Provider Console、网络规划工具

34

IoT设备长时间未上报数据

网络连接断开或设备故障

重启设备、检查设备连接状态

IoT平台管理界面、现场设备检查

35

企业内网DNS解析慢

DNS缓存污染或DNS服务器压力过大

清理DNS缓存、优化DNS服务器配置或扩容

DNSdiag工具、DNS服务器日志分析

序号

故障现象

可能的原因

排查方法

使用的工具

36

网络设备间时钟不同步

NTP服务异常或配置错误

配置正确的NTP服务器、检查NTP同步状态

show ntp associations、NTP客户端/服务器

37

无线客户端频繁掉线

无线频道干扰严重

调整无线频道、优化AP布局

无线网络分析仪、无线控制器

38

PPPoE拨号失败

用户名密码错误或线路故障

检查拨号配置、联系运营商确认线路

PPPoE拨号客户端日志、网络测试工具

39

网络设备间路由协议学习不到路由

路由协议配置错误或MD5认证失败

检查路由协议配置、MD5认证密钥

router debug命令、路由协议调试

40

HTTPS站点加载不安全

证书链不完整或根证书未受信任

安装缺失的中间证书、导入受信任的根证书

浏览器证书管理工具、SSL/TLS测试工具

41

网络设备CPU/Memory使用率持续偏高

DoS攻击、资源泄露或配置不当

查找异常流量、分析系统日志、优化配置

NetFlow分析工具、设备CLI性能监控命令

42

企业邮件系统收发异常

MX记录错误或邮件服务器配置问题

检查DNS MX记录、邮件服务器配置

DNS查询工具、邮件服务器日志

43

VoIP通话杂音或断续

RTP流传输问题或Jitter缓冲设置不当

分析RTP流、调整Jitter缓冲大小

SIP/RTP分析工具、语音通信质量监测工具

44

网络设备无法升级或恢复出厂设置

flash存储空间不足或文件损坏

清理flash空间、重新上传正确的配置文件

设备CLI、TFTP/FTP服务器

45

SD-WAN链路切换不准确

SLA监控参数配置不合理

调整SD-WAN SLA参数、优化链路负载均衡策略

SD-WAN控制器、链路状态监控工具

序号

故障现象

可能的原因

排查方法

使用的工具

46

网络设备端口物理指示灯异常

端口物理损坏或线缆故障

检查线缆连接、更换端口或线缆

网络测试仪、万用表

47

云服务间延迟波动较大

CDN配置问题或跨区域访问

检查CDN配置、优化服务部署架构

云服务商监控平台、网络测速工具

48

虚拟化环境下网络性能下降

vSwitch或VLAN配置不合理

优化虚拟网络配置、平衡虚拟机分布

vSphere Client、Hyper-V Manager

49

网络设备风扇噪音大或过热

设备内部灰尘积累、散热不良

清理设备内部、检查散热系统

设备维修工具、温度监控软件

50

网络设备频繁生成Core Dump文件

设备软件存在bug或内存溢出

升级设备固件、优化设备内存使用

设备CLI、日志分析工具



网络运维50个常见的故障排查示例
https://www.opyu.cn/archives/HjH8XjZn
作者
发布于
2024年05月15日
许可协议