深夜救急!运维人必存的20条高效"保命指令",5分钟定位90%线上故障!

2025-08-25 09:34:14 RAIZ

 

IT网络运维必备的20个“救命”命令:90%的故障都能靠它们解决!

服务器宕机、服务异常、网络不通...每个运维人都经历过这样的深夜惊魂时刻。本文整理了20个必学命令,覆盖网络诊断、服务排查、性能监控三大核心场景,帮你5分钟内精准定位问题,建议收藏备用!


一、网络连通性排查(基础生存技能)

  1. 1. ping
    作用:检测主机可达性
    实战场景
    ping -c 4 www.baidu.com  # 发送4个探测包
  • • 观察丢包率(>5%需警惕)
  • • 分析延迟波动(突然激增可能链路拥塞)
  • 2. traceroute/mtr
    作用:可视化路由路径
    进阶用法
    mtr --report www.aliyun.com  # 持续监测路由质量
    • • 定位中间节点故障(显示*号或超时)
    • • 发现路由绕行(异常跳转路径)
  • 3. telnet/nc
    作用:人工模拟TCP连接
    关键操作
    nc -zv 192.168.1.100 8080  # 快速扫描端口开放状态
    • • 验证防火墙策略是否放行
    • • 检测服务监听状态(避免被安全组拦截)

    二、网络服务深度检测(进阶排查手段)

    1. 4. netstat/ss
      作用:实时网络连接分析
      推荐命令
      ss -antp | grep ESTAB  # 查看所有TCP连接状态
    • • 发现异常连接(大量TIME_WAIT需优化)
    • • 定位占用端口的进程(配合-p参数)
  • 5. curl
    作用:HTTP协议级诊断
    高阶技巧
    curl -I -X GET http://api.example.com  # 仅显示响应头
    • • 检查HTTPS证书有效期-v参数)
    • • 模拟API请求(JSON数据提交)
  • 6. tcpdump
    作用:网络抓包分析
    经典用法
    tcpdump -i eth0 port 80 -w traffic.pcap  # 抓取80端口流量
    • • 解密加密前的HTTPS握手(ClientHello包)
    • • 分析TCP重传(retransmission标记)

    三、系统性能瓶颈定位(快速揪出元凶)

    1. 7. top/htop
      作用:实时进程监控
      关键指标
    • • %wa(I/O等待时间 >30%预警)
    • • RES(进程实际内存占用)
  • 8. vmstat
    作用:全面系统健康检查
    诊断命令
    vmstat 1 5  # 每秒采样,连续5次
    • • si/so(交换内存使用)
    • • us/sy(用户/内核CPU占比)
  • 9. iostat
    作用:磁盘I/O性能分析
    必看参数
    iostat -x 1  # 显示详细磁盘统计
    • • %util(设备使用率 >80%告警)
    • • await(I/O平均等待时间)

    四、DNS与路由疑难杂症(专治各种域名问题)

    1. 10. dig
      作用:专业DNS解析诊断
      深度用法
      dig +trace www.weixin.com  # 跟踪完整解析过程
    • • 检查DNS劫持(对比权威服务器结果)
    • • 验证TTL配置(缓存时间是否合理)
  • 11. nslookup
    作用:快速域名解析验证
    典型场景
    nslookup -type=MX qq.com  # 查询邮件服务器记录
  • 12. route
    作用:路由表管理
    紧急操作
    route add default gw 192.168.1.1  # 临时添加默认网关

  • 五、防火墙与安全组(运维人的护城河)

    1. 13. iptables
      作用:传统防火墙规则管理
      经典操作
      iptables -L -n -v  # 查看详细规则计数器
    2. 14. firewalld
      作用:新一代动态防火墙
      实用命令
      firewall-cmd --list-all  # 显示全部区域配置
    3. 15. ufw
      作用:Ubuntu简易防火墙
      快速配置
      ufw allow 22/tcp  # 开放SSH端口

    六、高级网络分析(高手必备技能)

    1. 16. nmap
      作用:网络探测神器
      扫描技巧
      nmap -sS -T4 192.168.1.0/24  # 快速扫描局域网
    2. 17. lsof
      作用:查看进程打开文件
      杀手锏命令
      lsof -i :3306  # 查找使用MySQL端口的进程
    3. 18. strace
      作用:系统调用跟踪
      调试示例
      strace -ff -o debug.log /path/to/program

    七、时间同步与日志分析(隐形的杀手)

    1. 19. ntpdate/chronyc
      作用:时间同步校准
      关键操作
      chronyc sources -v  # 查看NTP源状态
    2. 20. journalctl
      作用:系统日志分析
      高效用法
      journalctl -u nginx --since "10 minutes ago"

    终极组合技:典型故障排查流程

    1. 1. 网站访问失败
      curl -I → telnet 80 → tcpdump → netstat -antp
    2. 2. 数据库连接超时
      nc -zv → iptables -L → ss -s → vmstat 1
    3. 3. 服务器卡顿
      top → iostat -x → lsof → strace -p PID

    这20个命令如同运维人员的"瑞士军刀",建议制作成速查手册保存。实际工作中,灵活组合使用+理解输出原理才是关键。遇到复杂问题时,记住:三分靠工具,七分靠思维

 

我要咨询