Skip to main content

Command Palette

Search for a command to run...

绵里藏针才是 AIOps 的本质?

Updated
3 min read

Agent 让运维编排变得柔性、可变、甚至自演进;但真正敢进入生产环境的 AIOps,仍然离不开坚实、受控、可审计、可回退的自动化底座。

从 Gartner 提出 AIOps 概念到现在,也大概有十年了。这么多年来,这个领域好像发生了很多变化,又好像没什么“本质”的变化。技术上,我们经历了传统机器学习、深度学习和神经网络、以及大模型和智能体这样“翻天覆地”的变化;业务上,我们面对的是更多品种、更大数量的基础设施、更复杂的软件拓扑,以及更大范围的地理分布。云原生、IAC 等也大大的提升了我们的自动化能力。然而从观测到 SOP 这个过程似乎没有变过:无非是观测更大范围、告警(可能)更加精确,自动化手段更加丰富、以及辅助决策、知识库等让我们更好的选择和创建 SOP。

但 Agent 大行其道之后,AIOps 的问题突然变得有点“暧昧”了。

过去我们问的是:机器能不能更快地发现异常?能不能更准地定位根因?能不能把某个已知的恢复动作自动执行掉?这些问题背后隐含着一个前提:人写流程,机器跑流程。机器的智能,主要体现在识别、推荐、归因、预测、降噪这些环节上。至于真正要做什么、先做什么、做到哪一步停下来,仍然由人沉淀在 SOP、Runbook、Pipeline、Workflow、Playbook 里。

今天我们开始问另一个问题:如果 Agent 能理解目标、读取上下文、调用工具、观察反馈、修正策略,那么它能不能自己把一次运维处置“编排”出来?

这时,AIOps 不再只是“更聪明的监控”或“更自动化的工单系统”。它变成了一种新的运维生产关系:不再是人把所有步骤预先写成流程,而是人把边界、目标、工具和责任交给系统,由 Agent 在边界内完成动态决策。

这听起来很性感,但也很危险。因为生产环境不是沙盘,Agent 的每一次探索,都可能触碰真实资产、真实流量、真实客户、真实合规责任。于是,AIOps 的本质反而显露出来:它不是让 AI 在生产里“自由发挥”,而是在柔性的智能外面,包一层足够坚硬的工程外壳。

也就是说,真正可用的 AIOps,应该是绵里藏针

“绵”,是 Agent 带来的柔性:它能理解模糊目标,能组合工具,能根据反馈调整路径,能在经验中沉淀新的处理模式,甚至能让 SOP 涌现出来。

“针”,是自动化与治理底座带来的刚性:每一个动作都要有权限边界、参数校验、幂等设计、影响面评估、审计记录、回滚机制和失败保护。Agent 可以决定“用哪根针、什么时候下针、下几针”,但不能绕过针本身的工艺。

一、AIOps 只是豪华版 ChatOps 吗?

很多人第一次接触 AI Native AIOps 时,会自然地把它理解成一个更聪明的 ChatOps:以前是在群里 @ 机器人查指标、拉日志、重启服务;现在是把同样的事情交给大模型,用自然语言表达得更顺滑一点。

这个理解不能说错,但它只看到了表层。

ChatOps 的核心,是把“人类协作界面”搬到聊天窗口里。它真正改变的是入口:从控制台、脚本、工单系统,变成 Slack、飞书、企业微信、钉钉这样的会话界面。它降低了操作门槛,也让上下文更容易被团队共享,但主流程仍然是人控制的。人知道自己要查什么、点什么、跑什么命令,机器人只是把动作包装成更方便调用的接口。

而 AI Native AIOps 的核心,不只是入口变化,而是控制权的部分迁移

过去,流程是人写好的。无论是通用编程语言、BPML、HCL,还是云原生世界里的 YAML,本质上都是用语言明确描述流程走向:先做 A,再判断 B,如果满足条件就做 C,否则做 D。流程的连接物,是机器代码和确定性逻辑。

现在,Agent 主动或者受命触发,其根本目标是完成变更或者维持稳定。中间的流程、节点、分支、重试、降级、观察和停止条件,未必都在事前被完整写死。真正把这些节点串起来的,可能是大模型在每一步做出的“小决策”。

  • 当前告警是否需要扩大观测范围?

  • 这个异常是容量问题、依赖问题、配置问题,还是发布引入的问题?

  • 是否需要先冻结变更窗口?

  • 是否允许执行降级?

  • 是先切流量,还是先扩容?

  • 当前证据是否足够进入处置阶段,还是继续观察?

ChatOps 是人在聊天窗口里调用自动化;AI Native AIOps 是 Agent 在治理边界内编排自动化。

ChatOps 与 AI Native AIOps 的差异

二、从“流程即代码”到“决策即流程”

过去十几年,IT 运维自动化有一个很强的工程信念:流程要代码化。

基础设施要用 IaC 描述,部署要用 Pipeline 描述,配置要用 Git 管理,变更要用工单约束,响应要用 SOP 固化。这样的体系非常重要,因为它把人脑里的经验变成可复用、可审计、可版本化、可回滚的工程资产。

但它也有一个天然限制:流程必须预先被想清楚。

只要现实世界的复杂度超出设计者预期,固定流程就会变得笨拙。比如一次故障可能同时涉及云厂商网络抖动、上游依赖超时、缓存雪崩、发布变更和某个区域的容量水位。你当然可以为每一种情况写 SOP,但组合爆炸会让 SOP 越来越厚,最后变成没人敢动、没人看完、也没人能维护的知识坟场。

Agent 的价值,恰恰在于它能处理这种“不完全预定义”的场景。

它可以把一次处置理解成一个目标搜索过程:现在的目标是恢复稳定,约束是不能扩大影响面、不能违反变更窗口、不能越权操作、不能触碰某些敏感资源;可用手段包括查询监控、读取日志、比对变更、调整流量、扩缩容、回滚发布、创建工单、通知值班人员。每执行一步,都观察反馈;每获得新证据,都更新判断;每接近高风险动作,都请求审批或转人工。

这时,流程不再完全来自预写代码,而是来自连续决策。

传统 AIOps 是“先有 SOP,再有自动化执行”;AI Native AIOps 是“先有受控自动化能力,再让 SOP 在 Agent 的决策中涌现”。

这不是说 SOP 不重要了,而是 SOP 的形态可能发生变化。过去 SOP 是一条固定路径:第一步、第二步、第三步。未来 SOP 可能更像一个策略空间:哪些动作可以做,哪些动作不能做,做到什么程度必须停,什么证据足以进入下一阶段,什么风险必须升级给人。

三、越柔性的 Agent,越需要坚硬的自动化底座

这里有一个容易被忽视的悖论:

Agent 越聪明,底座越不能“软”。

如果一个系统只能执行固定脚本,那么风险边界相对清楚。脚本写错当然会出事,但它至少不会临场发明一个你没见过的操作路径。

而 Agent 不一样。它的优势就是组合、迁移、泛化和探索。它可能在一次故障中发现新的关联,也可能在一次变更中选择一条过去没人写进 SOP 的路径。这正是它有价值的地方,也是它危险的地方。

因此,真正能进生产的 Agent,不能直接拿到裸 API、裸命令行、裸控制台权限。它需要调用的是一组经过工程化封装的“安全手脚”。这些手脚至少要满足几个条件:

**第一,动作边界清楚。**比如“扩容”不是一句 kubectl scale,而是一个受控动作:只允许在某些命名空间、某些服务等级、某些容量上限内执行;超过阈值必须审批。

**第二,参数可校验。**Agent 生成的每个参数,都必须经过类型、范围、资源归属、环境、影响面的检查。不能因为一句自然语言理解偏差,就把生产流量切到错误区域。

**第三,执行可观测。**自动化动作不仅要返回成功或失败,还要返回足够详细的状态:做了什么、影响了哪些资源、耗时多久、当前是否收敛、有没有副作用。

**第四,失败可回退。**没有回滚能力的自动化,只能叫脚本,不能叫生产级手脚。Agent 可以柔性决策,但它依赖的动作必须能安全撤销,至少要能停止、降级、隔离或补偿。

**第五,过程可审计。**谁触发的、Agent 基于什么证据做出的决策、调用了哪个工具、工具执行了什么、结果如何、是否经过审批,这些都必须被记录下来。否则,法务、合规、安全、审计等 Stakeholder 的意志就无法进入系统。

这也解释了为什么“绵里藏针”很重要。

外面看起来,AIOps Agent 像棉花一样柔软:能对话,能推理,能协作,能自我调整。但它真正触碰生产环境时,必须通过一根根硬针:标准化、可验证、可审计、可回滚的自动化能力。

图 2:Agent 可以柔性编排,但动作必须刚性受控

四、合规不再只是审批流,而会成为 Agent 的知识和性格

传统运维体系里,法务、合规、安全、财务等 Stakeholder 的意志,通常通过流程表达:谁审批、谁复核、什么时间能变更、哪些系统需要双人确认、哪些数据不能出域、哪些操作需要留痕。

在 AI Native AIOps 里,这些约束不应该只存在于审批流里,还应该进入 Agent 的知识、工具描述、策略引擎和运行时守卫里。

也就是说,合规不再只是“最后拦一下”,而是从一开始就影响 Agent 的行为模式。

比如,当 Agent 处理一次跨境业务故障时,它不应该先拉取全量日志再说,而应该知道哪些字段涉及个人信息、哪些日志不能离开区域、哪些诊断动作只能在本地执行。再比如,当 Agent 准备回滚某个金融核心系统时,它不应该只看技术可行性,还要理解这类动作是否需要双人审批、是否处于交易高峰、是否触发监管留痕要求。

这意味着,未来 AIOps 的知识库不应只是故障案例库和技术文档库,还应该包括:

  • 权限模型;

  • 变更策略;

  • 数据分级;

  • 业务重要性;

  • 合规条款;

  • 风险矩阵;

  • 人员职责;

  • 审批条件;

  • 停止准则。

这些知识会塑造 Agent 的“性格”。

一个面向开发测试环境的 Agent,可以更激进,鼓励探索和试错;一个面向生产核心链路的 Agent,则必须保守、审慎、可解释,宁可多问一次人,也不能多动一次手。

所以,AI Native AIOps 不是让大模型替代治理,而是让治理进入大模型的决策过程。

五、AIOps 团队会分化:上浮做“龙虾”和“爱马仕”,下沉做“感官”和“手脚”

当 Agent 成为新的运维编排中心,AIOps 团队的分工也会发生变化。

我倾向于说,未来 AIOps 团队会沿着两个方向分化:一部分人上浮,一部分人下沉。

所谓“上浮”,是去编写更像“龙虾、爱马仕”这样的 Agent:外形漂亮、交互丝滑、能理解业务语言、能处理复杂上下文、能代表某类角色完成高阶任务。它们可能是面向 SRE 的故障处置 Agent,面向研发的发布风险 Agent,面向管理者的稳定性分析 Agent,面向合规团队的变更审计 Agent。

这些 Agent 的竞争力在于认知和协作:能不能理解组织语境,能不能把模糊问题拆清楚,能不能把技术事实翻译成业务影响,能不能在多人、多系统、多约束之间推进任务。

所谓“下沉”,是去给这些 Agent 提供可靠的感官和手脚。

感官,是观测能力:指标、日志、链路、事件、拓扑、CMDB、变更记录、成本数据、业务指标、用户体验、容量水位、依赖关系。没有感官,Agent 就是盲人摸象。

手脚,是干预能力:扩缩容、切流、限流、熔断、降级、回滚、隔离、重启、配置修正、工单创建、通知升级、权限申请、演练执行。没有手脚,Agent 只能做分析报告。

但更关键的是,这些感官和手脚必须可信。观测数据要有质量,拓扑关系要足够新,自动化动作要可验证,权限边界要可执行,回滚路径要真实存在。

否则,上层 Agent 再华丽,也只是一个会说话的幻觉放大器。

图 3:AIOps 团队的新分工

六、SOP 会涌现,也可能消失

从前,我们根据 SOP 编写固定流程,串联自动化工具对系统进行干预。

现在,我们应该反过来思考:先把各种基础自动化做好,再让大模型决定在什么场景下使用什么自动化过程。这个过程可以是柔性、可变、可演进的,但它执行的具体动作必须是安全、坚固、可验证、可回退的。

这会带来一个很有意思的变化:SOP 可能不再只是由专家在事后总结出来,而是在 Agent 的反复处置中逐渐涌现出来。

比如 Agent 在处理多次类似告警后,发现某种指标组合、某类变更记录、某个依赖超时模式,经常共同指向同一种风险。它可能会形成一个新的处置模式:先确认某依赖健康,再比对最近变更,再执行局部切流,再观察错误率是否收敛。这个模式经过人工确认、风险评估和演练验证后,就可以固化成新的 SOP 或策略模板。

也就是说,过去是:

专家经验 → SOP → 自动化执行

受控自动化 → Agent 探索 → 经验沉淀 → SOP 涌现

再进一步,SOP 甚至可能从“固定文档”变成“运行时策略”。它不再是一页写满步骤的文档,而是一组可被 Agent 读取、解释和执行的约束:目标是什么,证据标准是什么,允许动作是什么,禁止动作是什么,升级条件是什么,停止条件是什么。

到那时,我们也许不会再问“有没有 SOP”,而是问:

  • 这个场景有没有足够可靠的观测?

  • 有没有经过验证的自动化动作?

  • 有没有明确的风险边界?

  • 有没有可执行的回滚路径?

  • 有没有足够的审计证据?

  • Agent 是否知道什么时候必须停下来?

如果这些问题有答案,SOP 是文档、流程、策略,还是 Agent 的运行时记忆,反而没那么重要。

七、AI Ready 比 AI Native 更重要

很多团队在谈 AI Native AIOps 时,容易先想模型、Agent、Prompt、RAG、工具调用、多智能体协作。这些当然重要,但我认为更值得先问的是:我们的运维体系 AI Ready 吗?

所谓 AI Ready,不是买了大模型接口,也不是把知识库接进向量数据库,而是生产环境是否具备让 Agent 安全行动的条件。

可以用几个问题自检:

  1. 资源是否有统一身份和拓扑关系?

  2. 观测数据是否可信、完整、及时?

  3. 变更记录是否能和故障上下文关联?

  4. 自动化动作是否有清晰输入、输出和错误语义?

  5. 高危动作是否有审批、限额和隔离机制?

  6. 每个动作是否可审计、可追溯、可解释?

  7. 关键动作是否具备回滚、补偿或安全停止能力?

  8. Agent 是否只能通过受控工具触达生产,而不是直接拿到裸权限?

  9. 合规、安全、法务、业务连续性的要求,是否能被机器读取并执行?

  10. 人在什么条件下必须介入,是否被明确编码?

这些问题没有准备好,Agent 越强,风险越大。

没有坚实的基础设施和自动化底座,谁敢让 Agent 在生产环境下“自行演进”?

反过来,如果底座足够坚固,Agent 的探索就不再是不可控的冒险,而是受约束的试探。它可以在边界内尝试新的观测路径、新的工具组合、新的恢复策略;它可以把成功经验沉淀下来,把失败路径标记出来,把高风险动作升级给人,把低风险动作逐步自动化。

这时,AIOps 才真正从“智能分析”进入“智能行动”。

八、结语:真正的 AIOps,不是更会说,而是更敢做,也更知道不能做什么

过去几年,大模型让很多系统突然“会说话”了。它能解释告警,能总结日志,能写排障建议,能生成 Runbook,能在聊天窗口里给人一种非常强的智能感。

但运维不是客服,生产环境也不是问答游戏。

AIOps 的关键,不是让系统说得更像专家,而是让它在必要时能做出正确、受控、可回退的行动。更重要的是,它要知道什么不能做,什么时候该停,什么时候必须叫人。

因此,我并不认为 AI Native AIOps 的未来是“Agent 取代一切”。恰恰相反,它会重新强调那些看起来不够性感、却决定生产安全的基础能力:资源模型、观测质量、自动化封装、权限治理、审计留痕、回滚机制、风险分级、策略执行。

Agent 是绵,自动化底座是针。

没有绵,AIOps 只是僵硬的流程自动化;没有针,AIOps 只是危险的语言游戏。

真正的 AIOps,应该让 Agent 拥有足够的柔性去理解复杂世界,也拥有足够坚硬的边界去尊重生产环境。它不是把 SOP 简单搬进大模型,也不是把 ChatOps 换成自然语言入口,而是在可治理、可验证、可回退的工程底座上,让智能体不断试探、学习、组合,并最终涌现出新的运维秩序。

这也许就是“绵里藏针”之于 AIOps 的意义:外面是柔性的智能,里面是坚硬的工程。外面看起来会变通,里面必须经得起追责。

More from this blog

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

[译]dora:ai 辅助软件开发状态报告

执行摘要 在 2025 年,科技领导者面临的核心问题已不再是“是否要采用 AI”,而是“如何实现其价值”。 DORA 的研究基于超过 100 小时的定性访谈和来自全球近 5,000 名技术专业人士的问卷调查。研究揭示了一个关键事实:AI 在软件开发中的主要角色是“放大器”。它会放大高效能组织的优势,也会凸显组织的缺陷。 关键结论:AI 是放大器 AI 投资的最大回报并非来自工具本身,而是来自组织底层系统的战略性建设: 高质量的内部平台 清晰的工作流 团队的协同能力 缺少这些基础,AI ...

Oct 2, 202514 min read

【伪】架构师

343 posts