100条运维设备日常维护检查单Checklist 覆盖日常90%以上工作!

2025-08-04 09:17:26 RAIZ

 

在IT运维领域,设备的稳定运行是企业业务连续性的基石。一套详尽、严谨的日常维护检查单(Checklist),是运维工程师高效、规范工作的核心工具。本文将系统梳理涵盖服务器、网络、存储、安全、机房环境等关键领域的100条必会维护检查点,为运维工作提供标准化操作指南。

一、服务器硬件维护检查(15条)

  1. 1. 物理状态检查: 目视检查服务器外观有无明显损伤、变形;指示灯状态(电源、硬盘、风扇、故障灯)是否正常。
  2. 2. 电源与供电:
  • • 检查冗余电源模块状态是否均为正常(绿灯)。
  • • 确认电源线连接牢固,无松动、老化、破损。
  • • 检查PDU(电源分配单元)指示灯、电流电压显示是否在正常范围。
  • 3. 风扇与散热:
    • • 检查服务器内部及机柜风扇运转是否正常,无异常噪音(尖锐声、摩擦声、停转)。
    • • 清理风扇及散热器格栅的灰尘(按需,结合机房清洁计划)。
    • • 监控服务器进风口、出风口温度(通过管理口或传感器)。
  • 4. CPU状态: 通过操作系统命令(如Linux的 top/htop, Windows任务管理器)或硬件管理工具(如iLO, iDRAC, IMM)查看CPU利用率、温度是否在合理阈值内(通常<80%持续高负载需关注)。
  • 5. 内存状态:
    • • 检查操作系统报告的内存总量是否与物理配置一致。
    • • 检查内存使用率、Swap使用率(过高需排查)。
    • • 通过硬件管理工具或 dmidecode 等命令检查是否有内存ECC错误报告。
  • 6. 磁盘状态:
    • • 物理磁盘: 检查硬盘指示灯状态(通常绿色正常,黄色预警,红色故障/离线);通过RAID卡管理工具(MegaCLIstorclihpssacli)或操作系统检查所有物理磁盘状态(OnlinePredictive Failure 等)。
    • • 阵列状态: 确认RAID级别,检查RAID阵列状态是否为OptimalNormal,无降级(Degraded)或失效(Failed)。
    • • 背板/线缆: 检查SAS/SATA/NVMe背板连接、线缆是否牢固。
  • 7. PCIe设备: 检查关键扩展卡(HBA卡、网卡、GPU卡等)在操作系统和设备管理器中的状态是否正常。
  • 8. 管理接口: 测试服务器带外管理接口(如iLO, iDRAC, iBMC)的网络连通性和登录功能是否正常。
  • 9. 固件版本: (定期)检查关键组件(BIOS/UEFI, BMC, RAID卡, 网卡)固件版本,评估是否需要按计划升级(非紧急不打补丁)。
  • 10. 物理连接: 检查所有数据线缆(网线、光纤、存储线缆)连接是否牢固、标签清晰、无过度弯折。
  • 11. 日志检查: 查看服务器硬件日志(通过操作系统事件查看器、dmesgjournalctl 或硬件管理工具),筛选硬件相关错误(CriticalErrorWarning)并处理。
  • 12. 备件状态: (周/月)确认关键备件(电源、风扇、硬盘)库存状态和可用性。
  • 13. 资产信息核对: (定期)核对服务器物理位置、资产标签、配置信息(CPU、内存、硬盘)是否与CMDB记录一致。
  • 14. 清洁度: (按机房清洁周期)确保服务器表面及周边无明显积尘。
  • 15. 螺丝与安全: 检查机箱盖板是否盖好,固定螺丝是否齐全(影响散热和安全)。
  • 二、网络设备维护检查(15条)

    1. 16. 物理状态检查: 目视检查交换机、路由器、防火墙等设备外观、指示灯(电源、状态、端口灯)是否正常。
    2. 17. 电源与供电: 检查冗余电源状态、电源线连接、PDU状态(同服务器检查点)。
    3. 18. 风扇与散热: 检查风扇运转状态、噪音、散热口通畅度。
    4. 19. CPU与内存利用率: 登录设备CLI或Web界面,检查CPU和内存利用率是否在正常范围(通常<70%),高峰时段重点监控。
    5. 20. 端口状态:
    • • 检查所有业务端口状态(up/up),速率和双工模式是否正确。
    • • 检查有无err-disable端口,并查明原因。
    • • 检查关键端口(上联、核心互联)的输入/输出错误计数(input errorsoutput errorsCRCgiantsrunts)是否持续增长或过高。
  • 21. 链路聚合状态: 检查聚合端口组状态是否为up,成员端口状态一致,无端口被踢出聚合组。
  • 22. 生成树协议状态: 检查STP/RSTP/MSTP根桥位置是否预期,各端口角色(RootDesignatedAlternate/Blocking)是否正确,无异常拓扑变更(TCN)。
  • 23. 路由协议状态:
    • • 检查BGP/OSPF/EIGRP等邻居状态是否正常(EstablishedFull)。
    • • 检查路由表是否收敛、完整,无异常路由抖动或缺失。
  • 24. ACL与策略应用: (按需)检查关键ACL、策略路由、QoS策略是否按预期应用在正确接口。
  • 25. 管理访问: 测试带外管理口(如管理网口、Console口)的连通性和登录功能。
  • 26. 配置文件与备份: (定期/变更后)检查当前运行配置与启动配置是否一致;(定期)备份设备配置文件到安全位置。
  • 27. 日志检查: 检查设备系统日志(Syslog),关注ErrorWarning级别信息,特别是链路状态变化、协议邻居震荡、硬件故障等。
  • 28. 固件/OS版本: (定期)检查操作系统(IOS, NX-OS, Junos, EOS, VRP等)版本,评估是否需要按计划升级。
  • 29. 物理连接与标签: 检查所有网线、光纤跳线连接牢固,光纤接口清洁(无尘),线缆标签清晰准确。
  • 30. 机柜内环境: 检查网络设备在机柜内安装是否稳固,线缆整齐规范,散热空间充足。
  • 三、存储系统维护检查(10条)

    1. 31. 控制器状态: 检查存储控制器状态是否均为Online,无FailedDegraded
    2. 32. 电源与风扇: 检查冗余电源、风扇模块状态是否正常(同服务器)。
    3. 33. 磁盘柜与磁盘:
    • • 检查磁盘扩展柜状态、链路状态。
    • • 检查所有物理磁盘状态(OnlineSpare, 无FailedPredictive Failure)。
    • • 检查磁盘槽位指示灯。
  • 34. 存储池/LUN/卷状态: 检查存储池/卷组状态是否正常(Normal),LUN/卷状态是否为Online,无Degraded
  • 35. RAID状态: 确认RAID组状态为Optimal,无降级或重建中(如有,监控重建进度和性能影响)。
  • 36. 缓存状态: 检查读写缓存状态是否启用、电池/电容状态(如BBU, FBWC)是否正常(OKCharged),无警报。
  • 37. 前端端口状态: 检查主机连接(FC, iSCSI, NFS, CIFS)端口状态是否Online,无错误计数异常。
  • 38. 后端端口状态: 检查连接磁盘柜的SAS/FC后端端口状态是否正常。
  • 39. 性能监控: 检查关键性能指标(IOPS, 吞吐量MB/s, 延迟ms)是否在基线范围内,无异常飙升或持续过高。
  • 40. 快照与复制状态: (如配置)检查本地快照、远程复制(同步/异步)状态是否正常,无失败或挂起。
  • 41. 容量管理:
    • • 检查存储池/文件系统的总容量、已用容量、可用容量。
    • • 检查容量利用率是否超过预设阈值(如>80%),提前规划扩容。
  • 42. 管理接口与日志: 检查管理接口(带内/带外)连通性,审查系统告警日志和事件日志。
  • 43. 固件版本: (定期)检查控制器、磁盘柜、磁盘固件版本,评估升级计划。
  • 44. 物理环境: 检查存储设备散热、线缆连接、标签。
  • 四、操作系统维护检查(15条)

    1. 45. 系统负载与运行状态:
    • • 检查平均负载(uptimew - Linux;性能监视器 - Windows)。
    • • 检查关键服务/进程状态是否运行(systemctl status ps -ef | grep - Linux;服务管理器 - Windows)。
  • 46. CPU利用率: 使用 tophtopvmstat 1mpstat -P ALL 1 (Linux) 或任务管理器/性能监视器 (Windows) 监控CPU使用率及%idle,识别高负载进程。
  • 47. 内存使用:
    • • 检查总内存、已用内存、空闲内存、缓冲区/缓存内存(free -mvmstat - Linux)。
    • • 检查Swap使用量(freeswapon -s - Linux;页面文件使用 - Windows),过高Swap使用是内存不足的信号。
  • 48. 磁盘空间:
    • • 检查所有挂载点的磁盘使用率(df -h - Linux;资源监视器/wmic - Windows)。
    • • 识别大文件或增长过快的目录(du -sh * | sort -hncdu - Linux;WinDirStat - Windows)。
  • 49. 磁盘I/O: 监控磁盘读写速率、I/O等待时间、队列深度(iostat -dx 1 - Linux;性能监视器 - Windows),识别I/O瓶颈。
  • 50. 网络连接与带宽:
    • • 检查网络接口状态、IP配置(ip addrifconfig - Linux;ipconfig - Windows)。
    • • 监控网络流量(iftopnloadvnstat - Linux;资源监视器/第三方工具 - Windows)。
    • • 检查TCP连接状态(netstat -anpss - Linux;netstat -ano - Windows),关注TIME_WAITCLOSE_WAIT过多。
  • 51. 用户与登录:
    • • 检查当前登录用户(whow - Linux;query user - Windows)。
    • • 检查最近的登录记录(last - Linux;事件查看器安全日志 - Windows)。
    • • 检查异常用户或提权操作。
  • 52. 关键进程资源占用: 检查数据库、中间件、应用进程的CPU、内存、句柄数等资源消耗是否异常。
  • 53. 系统日志:
    • • 集中检查或本地检查核心系统日志(/var/log/messages/var/log/syslogdmesg - Linux;事件查看器系统/应用日志 - Windows)。
    • • 筛选 ERRORWARNINGCRITFAIL 等级别信息并处理。
  • 54. 定时任务: 检查计划任务(crontab -l/etc/cron*/* - Linux;任务计划程序 - Windows)执行状态,查看日志确认是否成功。
  • 55. 文件系统健康: (定期)检查文件系统完整性(fsck - Linux;chkdsk - Windows),通常在维护窗口进行。
  • 56. 包管理与补丁:
    • • 检查可用的系统更新(yum check-updateapt list --upgradable - Linux;Windows Update)。
    • • (按变更管理流程)评估、测试、安排补丁安装。
  • 57. 时间同步: 检查NTP服务状态,确认系统时间与NTP服务器同步(ntpq -ptimedatectl - Linux;w32tm /query /status - Windows)。
  • 58. 安全更新与配置: (定期)审计系统安全配置(如SSH配置 /etc/ssh/sshd_config,密码策略,防火墙规则 iptables/nftables/firewalld - Linux;Windows防火墙/安全策略)。
  • 59. 备份验证: (定期)验证操作系统层面的关键配置文件备份的可用性和完整性。
  • 五、数据库维护检查(10条)

    1. 60. 实例状态: 确认数据库实例运行状态正常(sqlplus / as sysdba -> SELECT status FROM v$instance; - Oracle;SHOW DATABASES; - MySQL;SELECT state_desc FROM sys.databases; - SQL Server)。
    2. 61. 监听器状态: 检查数据库监听器是否运行并能接受连接(lsnrctl status - Oracle;SHOW PROCESSLIST; - MySQL;SQL Server配置管理器)。
    3. 62. 表空间/文件组使用率: 检查所有表空间/文件组的空间使用情况,确保有足够空闲空间(Oracle: DBA_FREE_SPACE;MySQL: information_schema.FILES;SQL Server: sp_helpdb / sys.database_files)。
    4. 63. 性能监控:
    • • 监控关键性能指标(活动会话数、逻辑读/物理读、缓存命中率、锁等待)。
    • • 识别慢查询(AWRASH - Oracle;慢查询日志 - MySQL;sp_whoisactive, 扩展事件 - SQL Server)。
  • 64. 备份状态:
    • • 检查最近一次全备、增量备/日志备份是否成功完成。
    • • 检查备份文件大小是否合理,备份日志有无错误。
    • • (定期)进行恢复演练验证备份有效性。
  • 65. 日志文件:
    • • 检查数据库告警日志(alert_.log - Oracle;错误日志 - MySQL;SQL Server错误日志)是否有 ORA-Error 信息。
    • • 检查事务日志文件状态和使用率(避免日志满)。
  • 66. 作业与调度: 检查数据库作业调度器(Oracle Scheduler, MySQL Event Scheduler, SQL Server Agent)中的关键作业(如备份、统计信息收集、数据归档)执行状态是否成功。
  • 67. 统计信息: (定期)检查表/索引统计信息是否陈旧,确保自动或手动收集任务正常运行。
  • 68. 连接与会话: 检查当前连接数是否在合理范围,识别异常或长时间空闲会话。
  • 69. 复制状态: (如配置)检查主从复制(MySQL Replication, SQL Server AlwaysOn/Replication, Oracle DG)状态是否正常,延迟是否在可接受范围内。
  • 70. 安全审计: (定期)检查数据库用户权限、审核日志,确保符合安全策略。
  • 六、虚拟化平台维护检查(8条)

    1. 71. 集群状态: 检查vCenter/SCVMM/Proxmox VE集群状态是否正常,主机无隔离、无错误。
    2. 72. 主机状态: 检查所有ESXi/Hyper-V/KVM宿主机连接状态、健康状态(CPU, 内存, 存储, 网络告警)、补丁级别。
    3. 73. 虚拟机状态: 检查所有虚拟机电源状态是否预期,无异常(无响应、启动失败、心跳丢失)。
    4. 74. 存储状态: 检查Datastore/LUN/存储池状态、容量使用率、性能指标(延迟、IOPS),确保无数据存储不可访问(APD/ PDL)。
    5. 75. 网络状态: 检查虚拟交换机(vSwitch, vDS)、端口组状态、物理网卡绑定状态。
    6. 76. 资源池与资源利用率: 监控集群及主机的CPU、内存使用率,是否有资源争用或瓶颈。
    7. 77. 高可用与容错: (如配置)检查HA(高可用性)、FT(容错)、DRS(分布式资源调度)功能状态是否正常。
    8. 78. 备份状态: 检查虚拟机备份作业是否成功完成,备份文件验证状态。
    9. 79. 管理节点: 检查vCenter Server/SCVMM服务器/Proxmox VE管理节点的状态、性能和日志。
    10. 80. 固件与驱动: (定期)检查宿主机的HBA卡、网卡固件和驱动版本,评估升级需求。

    七、备份系统维护检查(7条)

    1. 81. 备份作业状态: 检查所有计划备份作业(全备、增量备、差异备)是否按计划成功完成。重点:检查作业日志中的错误或警告信息。
    2. 82. 备份数据验证:
    • • (定期)执行备份数据的完整性验证(如果备份软件支持)。
    • • (定期)执行关键数据的恢复演练(粒度恢复、整机恢复),验证备份实际可恢复性。这是最重要也是最易被忽略的环节。
  • 83. 备份存储容量: 监控备份目标(磁盘库、磁带库、云存储)的存储空间使用率,确保有足够空间容纳未来的备份。
  • 84. 介质状态: (如使用磁带)检查磁带驱动器状态、磁带介质状态(清洗带、数据带)、磁带库机械手状态。
  • 85. 备份策略审核: (定期)审核备份策略(RPO, RTO)是否仍符合业务需求,备份保留周期是否合理。
  • 86. 备份客户端状态: 检查所有需要备份的服务器/应用上的备份代理(Agent)状态是否正常、在线。
  • 87. 备份软件状态: 检查备份服务器/介质服务器的状态、性能、日志。确认软件许可证有效。
  • 88. 异地备份状态: (如配置)检查异地复制或云备份任务的状态和同步情况。
  • 八、安全设备与策略维护检查(10条)

    1. 89. 防火墙状态: 检查防火墙引擎状态、HA状态(主备/集群)、接口状态、会话数是否正常。
    2. 90. 安全策略状态: 检查关键安全策略(ACL、NAT、IPS/IDS策略、应用控制策略)是否处于激活状态。
    3. 91. 威胁检测与日志:
    • • 检查IPS/IDS告警日志,分析最新威胁事件。
    • • 检查防火墙拒绝日志(deny),分析是否有异常扫描或攻击尝试。
  • 92. VPN状态: (如配置)检查VPN隧道状态(是否up)、用户连接数。
  • 93. 防病毒状态: (网络层/终端层)检查防病毒控制台,确认病毒定义更新正常,扫描任务执行正常,无大规模病毒感染告警。
  • 94. 漏洞扫描结果: (定期)查看最新漏洞扫描报告,跟踪高中危漏洞的修复进度。
  • 95. 日志审计: 检查集中日志平台(SIEM)或安全设备本地日志,关注安全事件(登录失败、权限变更、策略修改、高危操作)。
  • 96. 访问控制列表: (定期)审计防火墙、路由器、服务器上的访问控制列表(ACL),清理过期或无效规则。
  • 97. 证书状态: 检查SSL VPN、HTTPS代理等服务使用的数字证书有效期,避免过期。
  • 98. 配置备份: (变更后/定期)备份安全设备(防火墙、IPS、WAF)的配置文件。
  • 99. 固件/特征库更新: 检查安全设备的操作系统版本、IPS特征库、病毒库版本,按计划进行更新。
  • 九、机房基础设施维护检查(10条)

    1. 100. 温湿度监控: 实时监控机房温度和湿度(通常温度22-24°C,湿度40-60%RH),确保在设定阈值范围内。
    2. 101. UPS状态:
      * 检查UPS输入/输出电压、电流、频率、负载百分比。
      * 检查电池状态(浮充电压、内阻、后备时间估算)。
      * 检查UPS运行模式(通常应为Normal在线模式)。
    3. 102. 精密空调状态: 检查空调运行状态、设定温度/湿度、送回风温度、压缩机/风机状态、告警信息。
    4. 103. 配电柜状态: 检查配电柜总输入、各输出支路电流、电压、开关状态、指示灯。注意安全,非专业人员勿操作。
    5. 104. 漏水检测: 检查漏水检测系统状态是否正常,探头位置合理,无漏水告警。
    6. 105. 消防系统状态: (专业人员/维保人员)检查气体灭火系统、烟感温感探测器状态是否正常,压力表指示在绿区。严禁非授权操作。
    7. 106. 门禁系统状态: 测试门禁刷卡/生物识别功能、门磁状态、记录查询功能是否正常。
    8. 107. 视频监控状态: 检查摄像头画面是否清晰、覆盖关键区域(出入口、机柜通道、配电间、空调间)、录像存储正常。
    9. 108. 物理环境:
      * 检查机房清洁卫生,地面、机柜顶部无积尘。
      * 检查通道(冷/热通道)是否畅通无阻,无杂物堆放。
      * 检查机柜门是否关闭。
    10. 109. 标签标识: 检查所有设备、线缆、开关、配电回路标签是否清晰、准确、完整。

    十、文档与流程

    • • Checklist执行记录: 每次执行检查后,应有记录(时间、执行人、结果、异常处理情况)。
    • • 异常处理流程: 对检查中发现的异常,应有明确的报告、响应、升级和处理流程。
    • • 定期Review: 定期(如每季度/半年)Review这份Checklist本身,根据业务变化、技术演进、故障教训进行增删修订。
    • • 知识库更新: 将检查标准、常见问题处理方案沉淀到运维知识库。

 

我要咨询