双轮驱动 打造运维“数循环”
据驱动运维是近几年业界的主流观点,本文提出了数据驱动运维(DDOps:Data Driven Operation)方法论,构建运维领域的“数循环”,以数据为抓手打造完整的智能化运维实践,为相关组织提供“道”、“法”、“术”一体的完整解决方案。
核心逻辑:双轮驱动,构建运维“数循环”
数据驱动运维核心目标是构建运维领域的“数循环”,而不是孤立地看待如何管好和应用数据。数据驱动运维的核心内涵表现为,IT运维数据是其逻辑底座,是实现“数据驱动”的基础,而构成数据驱动逻辑的内涵为:数据双轮驱动——数据驱动的两个轮分别是:
图1 运维数据“数循环”理念
第一,前轮驱动(聚焦目标),即价值牵引轮,负责引导IT运维的实践方向,通过指标数据度量运维价值,验证“养数”成果,利用数字形成自顶而下的IT运维持续优化机制;
第二,后轮驱动(聚焦建设),即建设推动轮,利用数据为IT运维的建设提供动力,驱动流程、平台、场景和运维模式蜕变。
数据驱动运维的核心逻辑:双轮驱动
数据驱动方法论框架着重于三大价值目标,即提升综合治理、保障可用性、提高效能。其覆盖的运维模式包括事前预防、事中恢复、事后复盘以及其他新业态下的运维模式,确保可用性保障及管理运营两大运维场景落地。基于以终为始原则,通过双向数据驱动策略“运维数据治理”和“服务度量体系”来指导运维组织、运维流程、工具平台的建设及持续改进。
“前轮驱动”:面向运维目标的持续优化(以用促通)
通过对IT服务价值度量的梳理,“拉通”业务、场景、流程与资源的端到端指标链,将指标数据作为抓手,用数字说话,形成自上而下的持续优化体系,打造数据驱动的IT运维持续优化能力。
数据驱动运维“前轮驱动”的核心抓手是IT服务价值度量,通过收集和分析相关数据,获得关于IT服务的各种指标和度量结果,如服务可用性、平均故障修复时间、客户满意度等来评估和改进IT服务的质量、效率和效益。数据驱动运维强调基于数据的决策和实践。例如,在面临故障修复决策时,可以通过分析历史数据了解不同解决方案的效果和成本,并选择最优方案。IT服务价值度量需要依赖数据来进行分析和评估,而数据驱动运维则需要IT服务价值度量来提供支持和指导。通过“前轮驱动”,组织可更加科学地管理和优化其IT服务,提高效率和质量,降低成本和风险。
结合国内外的相关研究,笔者提出了运维价值度量体系(简称OVMS,Operation Value Measurement System)建设的模型,主要包括总体框架、五大价值维度、全栈全生命周期覆盖、指标体系建设方法、价值度量的实施方法等。
运维价值度量体系建设的总体框架以支撑组织的业务战略和实现组织的业务价值为目标,基于国内外的一些成熟理论和模型,结合运维领域的实际需要进行逐层构建。
图3 运维价值度量的OVM总体框架
“后轮驱动”: 驱动运维的五大转变(以通促用)
■IT和业务深度融合,运维模式转型
数据驱动IT运维模式从 “从被动到主动、从离散到集中、从人工到智能、从模糊到可观测”转变。IT运维模式转型的四层内涵包括:
第一,从被动到主动:主动预防性运维,改变传统的响应式、灭火式的运维模式,转为主动预防的模式,将避免重大故障、降低整体故障率作为核心目标开展运维工作,如开展系统可用性持续强化、风险级应急管理、故障趋势预测等。
从数据驱动的逻辑看,主动预防性运维的工作开展需要建立在高质量数据的基础上,以下以系统可用性强化活动举例。可用性持续强化包含以下几个步骤:
第一步,系统脆弱项识别。第二步,系统强化方案制定。第三步,系统强化实施。第四步,系统强化效果验证。
其中第一步、第四步离不开数据的驱动。第一步系统脆弱项识别,需系统架构数据、部署数据、节点配置数据、近期性能及负载数据等。
第四步系统强化效果验证,基于监控数据的汇聚,评价系统强化后的效果是否达成预期。
第二,从离散到集中。一体化运维,以数据融合为基座,构建场景导向的一体化的运维模式,实现合作型团队向协作性团队的变革,如一体化监控、研运一体、监管控一体等。
从数据驱动逻辑逻辑看,其一,数据实现了对运维场景、流程、工具平台的改造,将影响IT运维组织的工作模式,会促成IT运维组织由传统以职能线条为主,线条间的合作模式往以企业业务目标导向,IT运维价值流为主线的跨职能协作模式。
其二,通过数据融合,将运维团队的关注点从各自职能范畴内的业务,上移至以价值场景导向的融合业务,各团队针对同一“运维实践”实现工作界面共享、运维数据共享,改变运维团队间的沟通机制。
第三,从人工到智能:智能运维,以自动化和智能化手段替代传统人工运维方式,获得更好的质量、效率、成本,如故障趋势分析、故障自愈、自动化发布、自动化部署等。
从数据驱动逻辑逻辑看,智能化运维的核心要素包括:组织、流程、资源、技术、数据、算法、知识,其中数据又是支撑其他6个要素的基础,所以智能化运维离不开数据驱动。
第四,从模糊到可观测:可观测运维,IT运维可观测不仅仅是通过监控的手段实现IT运维对象状态可观测、性能可观测,还包括IT运维其他管理领域,如运维场景效果可观测、流程效能可观测、组织绩效可观测等。
从数据驱动逻辑逻辑看,可观测运维的核心逻辑是将观测对象的各维度情况,以数字化的方式呈现给对应的观测者,而这些数字的输出均源自各领域观测资源数据,以及这些数据的运算结果。
■增强与创新IT运维价值场景
数据驱动运维,一方面增强了传统的运维单场景、一方面创新衍生出新的运维融合场景,对价值场景的驱动,能够更深度地解决复杂的运维问题。在数据运维方法论中,将运维场景划分为“可用性保障”和“管理运营”。
以IT团队职能的视角划分维度,可以将这些场景又分为单点场景和融合场景两类:
图5 IT运维价值场景地图(IT团队职能视角)
第一,数据驱动单点场景。通过跨领域数据融合,为原生单点场景提供更多增益数据,强化单点场景的业务深度。
第二,数据驱动融合场景。融合场景是指跨多工具平台、跨不同职能领域的运维场景,例如:全链路可观测、一体化监控、统一告警、重保综合支持等。这些场景需要跨领域、跨工具、跨团队数据流转和集成,才能具备上层业务的融合。
■场景导向的IT运维流程再造
基于数据驱动运维方法论,传统“运维流程网络模式” 可以向 “场景化实践模式”转变。“运维流程网络模式”注重流程本身而不是全局的价值链,忽视了场景。
“场景化实践模式”的典型特征是,某个实践域中由多个流程、多类人员、多个组织参与其中,将他们凝聚在一起的是价值目标和价值链,而推动价值落地的本质上是数据流的实现。
■运维模式变革推动IT组织架构优化
数据驱动运维模式转型以及数据治理、智能运维带来内外部协作以及管理变革作用下,推动IT组织架构也需要优化。
其一,数据驱动本身涉及一些工作,如数据治理、指标体系需要有具体的人员进行对应。另外整体IT团队也会逐渐强化对数据的敏感度和认知,人员能力象限也应发生拓展和改变;
其二,通过数据驱动的运维模式转型,重新定义各团队职责、边界以及协作模式,优化已有人员组织模式;
其三,通过数据驱动带来的运维技术变革,势必对运维效率、质量带来提升,原有的人员岗位职责以及人效分配逻辑也应随之改变,同时,如何改变以及效果评价都离不开数据驱动。
■数据统一融合助力IT运维平台重塑
IT运维数据治理的核心成果之一是“IT运维数据的集中和融合”,对IT运维平台能形成以下驱动:驱动统一的、集成式的IT运维数据的构建,为高端IT运维融合场景提供融合数据,反向驱动IT运维平台进一步融合重塑。
在数据驱动的背景下,软件工具从“离散”的运维工具集走向融合型的一体化运维平台,是已经发生的事实。与以往的“离散”相比,这种“统一”表现在以下几方面。
构建统一运维管理平台,提供统一门户,实现统一用户管理及登录、工具模块的平台集成,通过统一数据采控实现已有和未来多种运维工具的集中式数据采集及其调控通过搭建统一的运维数据管理平台实现运维数据的集中存储、分析、指标体系的构建与管理以及数据质量和安全监管,通过统一告警事件管理的构建实现各类监控工具的告警事件消息归集、告警事件的抑制以及规范化管理,通过统一监控管理构建实现各类监控数据的高纬度分析、实现多维度数据高效联动,通过可视化管控中监控大屏与数据报表能力的构建,帮助各类用户基于数据进行快速分析与决策,通过构建统一的运维服务管理帮助组织建设高效规范的流程体系与服务模式,提供高质量、高效率的IT服务。