100条运维设备日常维护检查单Checklist 覆盖日常90%以上工作!
2025-08-04 09:17:26
RAIZ
在IT运维领域,设备的稳定运行是企业业务连续性的基石。一套详尽、严谨的日常维护检查单(Checklist),是运维工程师高效、规范工作的核心工具。本文将系统梳理涵盖服务器、网络、存储、安全、机房环境等关键领域的100条必会维护检查点,为运维工作提供标准化操作指南。
一、服务器硬件维护检查(15条)
1. 物理状态检查: 目视检查服务器外观有无明显损伤、变形;指示灯状态(电源、硬盘、风扇、故障灯)是否正常。 2. 电源与供电:
• 检查冗余电源模块状态是否均为正常(绿灯)。 • 确认电源线连接牢固,无松动、老化、破损。 • 检查PDU(电源分配单元)指示灯、电流电压显示是否在正常范围。
3. 风扇与散热: • 检查服务器内部及机柜风扇运转是否正常,无异常噪音(尖锐声、摩擦声、停转)。 • 清理风扇及散热器格栅的灰尘(按需,结合机房清洁计划)。 • 监控服务器进风口、出风口温度(通过管理口或传感器)。 4. CPU状态: 通过操作系统命令(如Linux的 top/htop
, Windows任务管理器)或硬件管理工具(如iLO, iDRAC, IMM)查看CPU利用率、温度是否在合理阈值内(通常<80%持续高负载需关注)。5. 内存状态: • 检查操作系统报告的内存总量是否与物理配置一致。 • 检查内存使用率、Swap使用率(过高需排查)。 • 通过硬件管理工具或 dmidecode
等命令检查是否有内存ECC错误报告。6. 磁盘状态: • 物理磁盘: 检查硬盘指示灯状态(通常绿色正常,黄色预警,红色故障/离线);通过RAID卡管理工具( MegaCLI
,storcli
,hpssacli
)或操作系统检查所有物理磁盘状态(Online
,Predictive Failure
等)。• 阵列状态: 确认RAID级别,检查RAID阵列状态是否为 Optimal
或Normal
,无降级(Degraded
)或失效(Failed
)。• 背板/线缆: 检查SAS/SATA/NVMe背板连接、线缆是否牢固。 7. PCIe设备: 检查关键扩展卡(HBA卡、网卡、GPU卡等)在操作系统和设备管理器中的状态是否正常。 8. 管理接口: 测试服务器带外管理接口(如iLO, iDRAC, iBMC)的网络连通性和登录功能是否正常。 9. 固件版本: (定期)检查关键组件(BIOS/UEFI, BMC, RAID卡, 网卡)固件版本,评估是否需要按计划升级(非紧急不打补丁)。 10. 物理连接: 检查所有数据线缆(网线、光纤、存储线缆)连接是否牢固、标签清晰、无过度弯折。 11. 日志检查: 查看服务器硬件日志(通过操作系统事件查看器、 dmesg
、journalctl
或硬件管理工具),筛选硬件相关错误(Critical
,Error
,Warning
)并处理。12. 备件状态: (周/月)确认关键备件(电源、风扇、硬盘)库存状态和可用性。 13. 资产信息核对: (定期)核对服务器物理位置、资产标签、配置信息(CPU、内存、硬盘)是否与CMDB记录一致。 14. 清洁度: (按机房清洁周期)确保服务器表面及周边无明显积尘。 15. 螺丝与安全: 检查机箱盖板是否盖好,固定螺丝是否齐全(影响散热和安全)。 16. 物理状态检查: 目视检查交换机、路由器、防火墙等设备外观、指示灯(电源、状态、端口灯)是否正常。 17. 电源与供电: 检查冗余电源状态、电源线连接、PDU状态(同服务器检查点)。 18. 风扇与散热: 检查风扇运转状态、噪音、散热口通畅度。 19. CPU与内存利用率: 登录设备CLI或Web界面,检查CPU和内存利用率是否在正常范围(通常<70%),高峰时段重点监控。 20. 端口状态: • 检查所有业务端口状态( up/up
),速率和双工模式是否正确。• 检查有无 err-disable
端口,并查明原因。• 检查关键端口(上联、核心互联)的输入/输出错误计数( input errors
,output errors
,CRC
,giants
,runts
)是否持续增长或过高。21. 链路聚合状态: 检查聚合端口组状态是否为 up
,成员端口状态一致,无端口被踢出聚合组。22. 生成树协议状态: 检查STP/RSTP/MSTP根桥位置是否预期,各端口角色( Root
,Designated
,Alternate/Blocking
)是否正确,无异常拓扑变更(TCN)。23. 路由协议状态: • 检查BGP/OSPF/EIGRP等邻居状态是否正常( Established
,Full
)。• 检查路由表是否收敛、完整,无异常路由抖动或缺失。 24. ACL与策略应用: (按需)检查关键ACL、策略路由、QoS策略是否按预期应用在正确接口。 25. 管理访问: 测试带外管理口(如管理网口、Console口)的连通性和登录功能。 26. 配置文件与备份: (定期/变更后)检查当前运行配置与启动配置是否一致;(定期)备份设备配置文件到安全位置。 27. 日志检查: 检查设备系统日志( Syslog
),关注Error
,Warning
级别信息,特别是链路状态变化、协议邻居震荡、硬件故障等。28. 固件/OS版本: (定期)检查操作系统(IOS, NX-OS, Junos, EOS, VRP等)版本,评估是否需要按计划升级。 29. 物理连接与标签: 检查所有网线、光纤跳线连接牢固,光纤接口清洁(无尘),线缆标签清晰准确。 30. 机柜内环境: 检查网络设备在机柜内安装是否稳固,线缆整齐规范,散热空间充足。 31. 控制器状态: 检查存储控制器状态是否均为 Online
,无Failed
或Degraded
。32. 电源与风扇: 检查冗余电源、风扇模块状态是否正常(同服务器)。 33. 磁盘柜与磁盘: • 检查磁盘扩展柜状态、链路状态。 • 检查所有物理磁盘状态( Online
,Spare
, 无Failed
,Predictive Failure
)。• 检查磁盘槽位指示灯。 34. 存储池/LUN/卷状态: 检查存储池/卷组状态是否正常( Normal
),LUN/卷状态是否为Online
,无Degraded
。35. RAID状态: 确认RAID组状态为 Optimal
,无降级或重建中(如有,监控重建进度和性能影响)。36. 缓存状态: 检查读写缓存状态是否启用、电池/电容状态(如BBU, FBWC)是否正常( OK
,Charged
),无警报。37. 前端端口状态: 检查主机连接(FC, iSCSI, NFS, CIFS)端口状态是否 Online
,无错误计数异常。38. 后端端口状态: 检查连接磁盘柜的SAS/FC后端端口状态是否正常。 39. 性能监控: 检查关键性能指标(IOPS, 吞吐量MB/s, 延迟ms)是否在基线范围内,无异常飙升或持续过高。 40. 快照与复制状态: (如配置)检查本地快照、远程复制(同步/异步)状态是否正常,无失败或挂起。 41. 容量管理: • 检查存储池/文件系统的总容量、已用容量、可用容量。 • 检查容量利用率是否超过预设阈值(如>80%),提前规划扩容。 42. 管理接口与日志: 检查管理接口(带内/带外)连通性,审查系统告警日志和事件日志。 43. 固件版本: (定期)检查控制器、磁盘柜、磁盘固件版本,评估升级计划。 44. 物理环境: 检查存储设备散热、线缆连接、标签。 45. 系统负载与运行状态: • 检查平均负载( uptime
,w
- Linux;性能监视器 - Windows)。• 检查关键服务/进程状态是否运行( systemctl status
,ps -ef | grep
- Linux;服务管理器 - Windows)。46. CPU利用率: 使用 top
,htop
,vmstat 1
,mpstat -P ALL 1
(Linux) 或任务管理器/性能监视器 (Windows) 监控CPU使用率及%idle
,识别高负载进程。47. 内存使用: • 检查总内存、已用内存、空闲内存、缓冲区/缓存内存( free -m
,vmstat
- Linux)。• 检查Swap使用量( free
,swapon -s
- Linux;页面文件使用 - Windows),过高Swap使用是内存不足的信号。48. 磁盘空间: • 检查所有挂载点的磁盘使用率( df -h
- Linux;资源监视器/wmic
- Windows)。• 识别大文件或增长过快的目录( du -sh * | sort -h
,ncdu
- Linux;WinDirStat - Windows)。49. 磁盘I/O: 监控磁盘读写速率、I/O等待时间、队列深度( iostat -dx 1
- Linux;性能监视器 - Windows),识别I/O瓶颈。50. 网络连接与带宽: • 检查网络接口状态、IP配置( ip addr
,ifconfig
- Linux;ipconfig
- Windows)。• 监控网络流量( iftop
,nload
,vnstat
- Linux;资源监视器/第三方工具 - Windows)。• 检查TCP连接状态( netstat -anp
,ss
- Linux;netstat -ano
- Windows),关注TIME_WAIT
,CLOSE_WAIT
过多。51. 用户与登录: • 检查当前登录用户( who
,w
- Linux;query user
- Windows)。• 检查最近的登录记录( last
- Linux;事件查看器安全日志 - Windows)。• 检查异常用户或提权操作。 52. 关键进程资源占用: 检查数据库、中间件、应用进程的CPU、内存、句柄数等资源消耗是否异常。 53. 系统日志: • 集中检查或本地检查核心系统日志( /var/log/messages
,/var/log/syslog
,dmesg
- Linux;事件查看器系统/应用日志 - Windows)。• 筛选 ERROR
,WARNING
,CRIT
,FAIL
等级别信息并处理。54. 定时任务: 检查计划任务( crontab -l
,/etc/cron*/*
- Linux;任务计划程序 - Windows)执行状态,查看日志确认是否成功。55. 文件系统健康: (定期)检查文件系统完整性( fsck
- Linux;chkdsk
- Windows),通常在维护窗口进行。56. 包管理与补丁: • 检查可用的系统更新( yum check-update
,apt list --upgradable
- Linux;Windows Update)。• (按变更管理流程)评估、测试、安排补丁安装。 57. 时间同步: 检查NTP服务状态,确认系统时间与NTP服务器同步( ntpq -p
,timedatectl
- Linux;w32tm /query /status
- Windows)。58. 安全更新与配置: (定期)审计系统安全配置(如SSH配置 /etc/ssh/sshd_config
,密码策略,防火墙规则iptables/nftables/firewalld
- Linux;Windows防火墙/安全策略)。59. 备份验证: (定期)验证操作系统层面的关键配置文件备份的可用性和完整性。 60. 实例状态: 确认数据库实例运行状态正常( sqlplus / as sysdba
->SELECT status FROM v$instance;
- Oracle;SHOW DATABASES;
- MySQL;SELECT state_desc FROM sys.databases;
- SQL Server)。61. 监听器状态: 检查数据库监听器是否运行并能接受连接( lsnrctl status
- Oracle;SHOW PROCESSLIST;
- MySQL;SQL Server配置管理器)。62. 表空间/文件组使用率: 检查所有表空间/文件组的空间使用情况,确保有足够空闲空间(Oracle: DBA_FREE_SPACE
;MySQL:information_schema.FILES
;SQL Server:sp_helpdb
/sys.database_files
)。63. 性能监控: • 监控关键性能指标(活动会话数、逻辑读/物理读、缓存命中率、锁等待)。 • 识别慢查询( AWR
,ASH
- Oracle;慢查询日志 - MySQL;sp_whoisactive
, 扩展事件 - SQL Server)。64. 备份状态: • 检查最近一次全备、增量备/日志备份是否成功完成。 • 检查备份文件大小是否合理,备份日志有无错误。 • (定期)进行恢复演练验证备份有效性。 65. 日志文件: • 检查数据库告警日志( alert_.log
- Oracle;错误日志 - MySQL;SQL Server错误日志)是否有ORA-
,Error
信息。• 检查事务日志文件状态和使用率(避免日志满)。 66. 作业与调度: 检查数据库作业调度器(Oracle Scheduler, MySQL Event Scheduler, SQL Server Agent)中的关键作业(如备份、统计信息收集、数据归档)执行状态是否成功。 67. 统计信息: (定期)检查表/索引统计信息是否陈旧,确保自动或手动收集任务正常运行。 68. 连接与会话: 检查当前连接数是否在合理范围,识别异常或长时间空闲会话。 69. 复制状态: (如配置)检查主从复制(MySQL Replication, SQL Server AlwaysOn/Replication, Oracle DG)状态是否正常,延迟是否在可接受范围内。 70. 安全审计: (定期)检查数据库用户权限、审核日志,确保符合安全策略。 71. 集群状态: 检查vCenter/SCVMM/Proxmox VE集群状态是否正常,主机无隔离、无错误。 72. 主机状态: 检查所有ESXi/Hyper-V/KVM宿主机连接状态、健康状态(CPU, 内存, 存储, 网络告警)、补丁级别。 73. 虚拟机状态: 检查所有虚拟机电源状态是否预期,无异常(无响应、启动失败、心跳丢失)。 74. 存储状态: 检查Datastore/LUN/存储池状态、容量使用率、性能指标(延迟、IOPS),确保无数据存储不可访问(APD/ PDL)。 75. 网络状态: 检查虚拟交换机(vSwitch, vDS)、端口组状态、物理网卡绑定状态。 76. 资源池与资源利用率: 监控集群及主机的CPU、内存使用率,是否有资源争用或瓶颈。 77. 高可用与容错: (如配置)检查HA(高可用性)、FT(容错)、DRS(分布式资源调度)功能状态是否正常。 78. 备份状态: 检查虚拟机备份作业是否成功完成,备份文件验证状态。 79. 管理节点: 检查vCenter Server/SCVMM服务器/Proxmox VE管理节点的状态、性能和日志。 80. 固件与驱动: (定期)检查宿主机的HBA卡、网卡固件和驱动版本,评估升级需求。 81. 备份作业状态: 检查所有计划备份作业(全备、增量备、差异备)是否按计划成功完成。重点:检查作业日志中的错误或警告信息。 82. 备份数据验证: • (定期)执行备份数据的完整性验证(如果备份软件支持)。 • (定期)执行关键数据的恢复演练(粒度恢复、整机恢复),验证备份实际可恢复性。这是最重要也是最易被忽略的环节。 83. 备份存储容量: 监控备份目标(磁盘库、磁带库、云存储)的存储空间使用率,确保有足够空间容纳未来的备份。 84. 介质状态: (如使用磁带)检查磁带驱动器状态、磁带介质状态(清洗带、数据带)、磁带库机械手状态。 85. 备份策略审核: (定期)审核备份策略(RPO, RTO)是否仍符合业务需求,备份保留周期是否合理。 86. 备份客户端状态: 检查所有需要备份的服务器/应用上的备份代理(Agent)状态是否正常、在线。 87. 备份软件状态: 检查备份服务器/介质服务器的状态、性能、日志。确认软件许可证有效。 88. 异地备份状态: (如配置)检查异地复制或云备份任务的状态和同步情况。 89. 防火墙状态: 检查防火墙引擎状态、HA状态(主备/集群)、接口状态、会话数是否正常。 90. 安全策略状态: 检查关键安全策略(ACL、NAT、IPS/IDS策略、应用控制策略)是否处于激活状态。 91. 威胁检测与日志: • 检查IPS/IDS告警日志,分析最新威胁事件。 • 检查防火墙拒绝日志( deny
),分析是否有异常扫描或攻击尝试。92. VPN状态: (如配置)检查VPN隧道状态(是否 up
)、用户连接数。93. 防病毒状态: (网络层/终端层)检查防病毒控制台,确认病毒定义更新正常,扫描任务执行正常,无大规模病毒感染告警。 94. 漏洞扫描结果: (定期)查看最新漏洞扫描报告,跟踪高中危漏洞的修复进度。 95. 日志审计: 检查集中日志平台(SIEM)或安全设备本地日志,关注安全事件(登录失败、权限变更、策略修改、高危操作)。 96. 访问控制列表: (定期)审计防火墙、路由器、服务器上的访问控制列表(ACL),清理过期或无效规则。 97. 证书状态: 检查SSL VPN、HTTPS代理等服务使用的数字证书有效期,避免过期。 98. 配置备份: (变更后/定期)备份安全设备(防火墙、IPS、WAF)的配置文件。 99. 固件/特征库更新: 检查安全设备的操作系统版本、IPS特征库、病毒库版本,按计划进行更新。 100. 温湿度监控: 实时监控机房温度和湿度(通常温度22-24°C,湿度40-60%RH),确保在设定阈值范围内。 101. UPS状态:
* 检查UPS输入/输出电压、电流、频率、负载百分比。
* 检查电池状态(浮充电压、内阻、后备时间估算)。
* 检查UPS运行模式(通常应为Normal
在线模式)。102. 精密空调状态: 检查空调运行状态、设定温度/湿度、送回风温度、压缩机/风机状态、告警信息。 103. 配电柜状态: 检查配电柜总输入、各输出支路电流、电压、开关状态、指示灯。注意安全,非专业人员勿操作。 104. 漏水检测: 检查漏水检测系统状态是否正常,探头位置合理,无漏水告警。 105. 消防系统状态: (专业人员/维保人员)检查气体灭火系统、烟感温感探测器状态是否正常,压力表指示在绿区。严禁非授权操作。 106. 门禁系统状态: 测试门禁刷卡/生物识别功能、门磁状态、记录查询功能是否正常。 107. 视频监控状态: 检查摄像头画面是否清晰、覆盖关键区域(出入口、机柜通道、配电间、空调间)、录像存储正常。 108. 物理环境:
* 检查机房清洁卫生,地面、机柜顶部无积尘。
* 检查通道(冷/热通道)是否畅通无阻,无杂物堆放。
* 检查机柜门是否关闭。109. 标签标识: 检查所有设备、线缆、开关、配电回路标签是否清晰、准确、完整。 • Checklist执行记录: 每次执行检查后,应有记录(时间、执行人、结果、异常处理情况)。 • 异常处理流程: 对检查中发现的异常,应有明确的报告、响应、升级和处理流程。 • 定期Review: 定期(如每季度/半年)Review这份Checklist本身,根据业务变化、技术演进、故障教训进行增删修订。 • 知识库更新: 将检查标准、常见问题处理方案沉淀到运维知识库。
二、网络设备维护检查(15条)
三、存储系统维护检查(10条)
四、操作系统维护检查(15条)
五、数据库维护检查(10条)
六、虚拟化平台维护检查(8条)
七、备份系统维护检查(7条)
八、安全设备与策略维护检查(10条)
九、机房基础设施维护检查(10条)
十、文档与流程