Skip to main content

Command Palette

Search for a command to run...

FDE 是传统运维产品厂商的出路吗?

Updated
3 min readView as Markdown

很多传统运维产品厂商,已经不缺产品了。

从 ITSM、CMDB、监控、自动化,到 IAM、数据中心管理和各类大屏,一个成熟厂商往往都能拿出一张很完整的产品地图。销售材料上看,客户运维部门的日常工作几乎都被覆盖了。

但项目一落地,味道就变了。

产品越多,集成越重;模块越全,边界越模糊;客户越大,定制越深。到了后期,项目成功本身也会变成麻烦:现场改出来的东西回不到主干,配置越来越像黑箱,谁都不敢轻易升级。

这不只是产品经理或实施团队的问题。很多时候,是产品能力本身把厂商拖住了。

所以今天想讨论的问题是:

FDE 会不会是传统运维产品厂商的一条出路?

这里说的 FDE,比普通驻场工程师更进一步。它更接近 Palantir 那种 Forward Deployed Engineer:深入客户现场,既懂业务,又懂产品和工程,把现场复杂性反向沉淀成可复用的平台能力。

一、产品线越全,为什么交付反而越重?

传统运维产品通常按模块生长。

ITSM 管流程,CMDB 管资产,监控管指标,日志管检索。链路管调用关系,自动化管脚本,IAM 管账号权限。数据中心管理管空间和容量,大屏负责展示。

这些模块单独看都合理。问题是,客户真正要解决的通常不是单模块问题。

比如一个核心业务系统连续告警,现场真正关心的是:

告警出现
  → 判断影响哪个业务
  → 查最近有没有变更
  → 找到关联主机、容器、数据库、中间件
  → 判断责任团队和当前值班人
  → 匹配历史故障和处置经验
  → 决定是否创建工单
  → 判断是否可以扩容、重启、切流、回滚
  → 执行后写回工单、告警、CMDB 和审计

这个过程同时涉及监控、CMDB、ITSM、自动化、IAM、变更、知识库和审计。

模块之间如果只是并列存在,实施团队就只能在现场接接口、配规则、写脚本、改流程、做大屏、补字段。

管理层真正需要关心的,已经不只是“这个项目能不能验收”。更麻烦的问题是:每一个大客户是不是都在重新消耗一次交付能力?

如果答案是肯定的,产品线越全,厂商反而越累。

二、“内置最佳实践”为什么挡不住现场定制?

很多厂商都说自己“内置最佳实践”,但项目现场又免不了大量定制。

这两件事不一定冲突,关键在颗粒度。

小颗粒度的最佳实践,本来就应该沉淀在产品底座里。比如字段校验、权限控制、审计记录、告警抑制、脚本参数校验、工单状态流转。客户不应该为这些东西一遍遍付实施费。

但大颗粒度的最佳实践更像方法论,比如集团级变更治理、金融核心系统故障处置、数据中心容量运营、跨部门事件指挥。它不可能开箱即用,必须结合客户的组织结构、系统边界、风险偏好和历史包袱做适配。

所以别再争“最佳实践有没有价值”。更该问的是:厂商能不能把大颗粒度方法论,翻译成小颗粒度、可执行、可复用、可审计的产品资产。

这也是客户、实施、产品、研发经常互相不理解的根源。

客户觉得厂商不懂业务。实施觉得研发不接地气。研发觉得现场需求不可复用。产品觉得每个客户都在破坏标准化。

这背后不是态度问题,而是机制问题。

三、Palantir 值得借鉴的是复利机制

Palantir 的公开材料里,把 AIP、Foundry、Apollo 组合称为一种 Enterprise Operating System。

这几个名字可以先放一边。对传统运维产品厂商来说,更值得看的是它背后的复利机制。

简单说:

  • Foundry 负责数据集成、治理、管道和计算。

  • Ontology 把数据映射成业务对象、关系、动作和权限。

  • AIP 让 AI、Agent、应用和自动化在这个业务世界里工作。

  • Apollo 负责持续交付、部署、升级和运行管理。

这套结构最有价值的地方,是把客户现场的差异沉淀为平台资产。

Ontology 可以理解为一套企业运营模型。它比知识图谱更靠近业务执行,也比传统 CMDB 覆盖面更大。

  • 对象:运维里的实体,例如应用、主机、工单、告警。

  • 关系:这些实体之间的依赖、归属和影响。

  • 动作:派单、审批、变更、重启、回滚等可控操作。

  • 治理:权限、规则、审计和版本追踪。

运维系统不能只回答“发生了什么”。它还要回答:影响什么?谁负责?能不能动?谁批准?怎么执行?失败怎么回退?做完如何留痕?

这正是传统运维产品厂商缺的一层。

这里说的运维运行底座,不等于把所有产品塞进一个门户。重点是让这些产品围绕同一批对象、关系、动作、权限和审计工作。

四、FDE 解决的是产品复利问题

FDE 经常被误解成高级驻场工程师。

如果只是派技术人员到客户现场写代码、改配置、接接口,那不叫 FDE,只是更贵的驻场外包。

FDE 真正要解决的是一个断层:

客户现场的复杂业务
        与
产品主干的可复用能力
        之间的断层

传统实施团队离客户近,但离产品主干远。产品研发团队懂产品,但离现场远。售前知道方案,但通常不负责长期落地。客户成功知道关系,但不一定能做工程判断。

FDE 要同时具备三种能力:懂客户现场,懂产品底座,也懂工程实现。

更具体一点,他要知道哪些做法可以直接复用,哪些需要参数化,哪些必须结合客户组织和系统环境重新裁剪。

对传统运维产品厂商来说,FDE 的产出不应该只是项目交付物,而应该是一批可复用资产:

  • 客户流程差异,变成标准流程扩展点。

  • CMDB 差异,变成对象模型和关系模型。

  • 脚本需求,变成受控 Action。

  • 告警配置,变成场景模板。

  • 大屏需求,变成可复用视图。

  • 项目经验,回到行业包和产品能力里。

FDE 的价值不止是“帮客户把活干完”。更重要的是,把客户现场的复杂性转化为产品进化能力。

五、平台要从现场长出来

讲到这里,很容易产生一个问题:这不就是平台化、中台化吗?

某种意义上,是。

Palantir 的演进过程,可以理解为一个平台/中台不断成长的过程。FDE 在客户现场解决真实问题,Foundry、Ontology、Apollo 把这些问题里可复用的部分沉淀为数据、语义、行动、治理和交付能力。

关键差异在于:Palantir 的平台并不是先在总部规划出来,再要求所有项目服从。它更像是在大量前线交付中长出来的。

传统平台化常见路径是:

先规划统一平台 / 中台
  → 定义通用能力
  → 推给各项目使用
  → 现场发现不适配
  → 继续定制和打补丁

更健康的路径应该是:

前线项目
  → FDE 解决真实问题
  → 抽象共性对象、Action、流程、权限和视图
  → 沉淀为平台能力、产品包和行业模板
  → 后续项目复用
  → 新复杂性继续反哺平台

所以,FDE 和平台/中台要放在一起看。

平台/中台是能力沉淀的载体,FDE 是把现场复杂性转化为平台能力的人和机制。

没有平台,FDE 容易变成高端驻场外包:现场解决了很多问题,但沉淀不下来。没有 FDE,平台容易变成空中楼阁:功能很多,但不知道如何贴合客户真实运营。

平台当然重要。但平台能力必须从真实闭环里长出来。否则所谓中台,很容易变成统一门户、统一菜单、统一配置中心,表面完整,现场照样大量定制。

六、如果这条路成立,现有产品线会被重新切分

如果传统运维产品厂商真的走向 FDE + Ontology 的模式,影响最大的不会是多一个 AI 助手。更大的变化会发生在产品生态内部。

过去产品边界按功能划分:监控是监控,ITSM 是 ITSM,CMDB 是 CMDB,自动化是自动化。

未来边界会更多围绕操作闭环。

客户不太关心这个能力属于哪个模块。他关心的是:异常能不能发现,根因能不能定位,影响能不能判断。再往后,是动作能不能安全执行,结果能不能复盘,经验能不能沉淀到下一次。

这会带来几个变化。

第一,有些产品会从独立产品变成底座能力。

CMDB 是最典型的例子。过去 CMDB 可以作为独立产品售卖:资产录入、字段扩展、关系维护、查询报表。

如果厂商建立了统一对象层,CMDB 的角色会变化。告警依赖它,工单依赖它,自动化依赖它,权限和审计也依赖它。

CMDB 不会消失,但形态会变化。它的重要性不再来自页面多少,而是来自全系统对资产、服务、责任和影响范围的共同理解。

第二,有些产品会被拆成 Action、Workflow 和 View。

ITSM、告警、自动化之间的边界会变模糊。

过去的链路是:

监控发现告警
  → 告警平台通知
  → ITSM 创建工单
  → 人工判断
  → 自动化平台执行脚本
  → 人工回填结果

更合理的链路应该是:

事件对象触发
  → 关联业务系统、拓扑、资产、责任人、近期变更
  → 形成候选根因和影响范围
  → 匹配处置 Action
  → 根据风险等级决定自动执行还是人工审批
  → 执行后写回工单、告警、CMDB 和审计

这时,ITSM 会从流程表单变成动作链的一部分。告警也不只是通知系统,自动化也不只是脚本执行器。

它们会被拆成 Action、Workflow、Policy 和 View。也就是动作、编排、策略和视图。

第三,有些产品形态会慢慢失去意义。

一次性定制大屏会被冲击。大屏还会存在,但应该是对象和指标上的视图,而不是每个项目手工拼一套页面。

孤立报表会被冲击。报表还会存在,但大量项目级 SQL 报表,会被语义查询、指标对象和可复用分析模板替代。

脚本市场式自动化也会被冲击。脚本还会存在,但不应该直接暴露给人随便执行。更合理的方式,是把脚本包装成带参数校验、权限控制、审批、回滚和审计的 Action。

这比“做一个 AI 助手”难得多,也更接近产品战略问题。

七、大模型让 Action 资产变得更值钱

传统运维产品厂商讨论 AI 时,很容易停在问答、摘要、告警压缩、知识库检索。

这些有用,但还不够。

运维场景里,AI 真正有想象力的地方,是改写传统自动化的演进路径。

过去,运维自动化大多沿着一条很清晰的路线走:

手工操作
  → 写成 SOP
  → 固化为脚本
  → 编排成自动化动作
  → 串成流水线

这条路线要求人先把故障模式理解清楚,再把处理步骤标准化,最后才能自动化。所以传统自动化擅长处理“已知问题”:磁盘满了清理目录,进程挂了重启服务,副本不足自动扩容,证书过期提前通知。

但真实运维里的大量问题,并不是一开始就这么清楚。

告警可能是多个系统共同作用的结果,根因可能和近期变更、容量趋势、依赖服务、历史故障、网络抖动都有关系。人要先观察、关联、判断,再决定执行哪个动作。

大模型可能改变的,正是这一步。

当平台已经有一批可靠的原子性 Action,大模型不一定要等人把整条流水线提前写好。

它可以在运行时完成感知、决策和意图编排:理解上下文,评估证据和风险,选择 Action,填写参数,申请执行,再观察结果。

传统流水线是“人提前把路径编好”。大模型参与后的平台,更像是在受控边界内动态选择下一步。

SOP 和自动化仍然重要。变化在于,自动化会从静态流水线推进到可演进的 Action 网络。

不过有一条底线:AI 不能直接操作生产系统。

AI 可以提出意图、选择候选动作、填写参数,但真正执行必须由 Action 平台完成。Action 平台要负责权限、审批、审计、回滚和补偿。

也就是说,FDE 沉淀下来的 Action 资产,会因为大模型变得更值钱。

没有这些 Action,大模型只能建议。
有了这些 Action,大模型才可能进入受控执行链。

八、传统运维厂商可以怎么试?

既然平台能力要从真实闭环里长出来,转型就不能从一张大而全的中台蓝图开始。

更现实的路径,是从一个高价值闭环开始,把大颗粒度方法论拆成一组小颗粒度资产,再逐步沉淀回产品底座。

第一步,选一个跨模块闭环。

不要先选一个模块。可以从告警到工单到自动化处置开始,也可以从重大故障指挥调度、变更风险评估、资产漏洞处置切入。

标准很简单:这个场景必须跨越至少三个模块,并且能形成“发现问题 → 判断影响 → 执行动作 → 留痕复盘”的闭环。

第二步,建立最小对象关系图。

不要试图一次重建完整 CMDB。先围绕一个闭环建立最小对象关系:

业务系统
  → 依赖 → 应用
  → 部署于 → 主机 / 容器 / 集群
  → 负责于 → 团队 / 人员
  → 产生 → 告警
  → 关联 → 工单 / 变更 / 事件
  → 可执行 → 自动化动作

关键不是对象多,而是能回答几个问题:这个告警影响哪个业务,责任人是谁,最近有没有变更,是否允许自动处置,执行后写回哪里。

第三步,把脚本升级成 Action。

传统自动化平台关注脚本能不能执行。

Action 平台关注的是这个动作能不能被安全执行:谁发起,参数是否合法,当前状态是否允许,是否需要审批。它还要记录影响范围、写回结果和失败补偿。

只有把脚本包装成 Action,AI 才有可能安全参与运维处置。

第四步,把项目经验做成产品包。

每个项目结束时,不应该只留下验收文档和现场配置。至少要沉淀三类资产:行业对象模型、场景 Action 模板、操作视图模板。

这些资产越多,后续项目越轻,FDE 的价值才会从人力交付转向产品复利。

第五步,重构组织考核。

如果仍然只按项目验收、交付人天、回款节点考核,FDE 很容易退化成驻场外包。

新的考核要看几件事:多少现场需求沉淀为标准能力,多少客户配置进入版本管理,多少脚本变成可治理 Action,多少行业模型被后续客户复用。

FDE 模式能不能成立,取决于公司是否真的奖励“把现场经验产品化”。

九、FDE 是出路,但不是所有厂商的出路

FDE 对传统运维产品厂商有吸引力,但它不是万能药。

如果客户只需要标准监控工具,不需要复杂定制,FDE 没必要。产品高度标准化、客户流程很轻时,FDE 反而会拉高成本。

如果公司没有产品化底座,FDE 会沦为驻场外包。如果客户采购目标只是“买交付物”,不是“建能力”,FDE 也很难发挥作用。

真正适合走这条路的厂商,通常有几个特征。

产品线已经较完整,但模块协同成本高。客户多为中大型企业、集团、金融、能源、制造、运营商、政企。项目中存在大量流程、资产、接口、告警、大屏、自动化定制。客户现场差异大,但差异背后有行业共性。

还有一个前提:公司愿意把交付经验产品化,而不是只按人天收费。

所以,FDE 是出路,但前提是厂商愿意从“卖模块”转向“经营运维运行底座”。

十、结语:FDE 是把交付变成复利的机制

过去,传统运维产品厂商卖的是工具。

后来,卖的是平台。

下一阶段,真正有竞争力的厂商,卖的可能是一套持续适配客户运维体系的能力。

在这套系统里,CMDB 是统一对象层。监控提供事件和状态输入。ITSM 承接受控动作链。

自动化变成可治理 Action。大屏也从展示工程变成对象视图。

AI 也会从问答助手继续往前走,进入受控执行链,参与诊断、建议、申请执行和效果反馈。

我倾向于认为,FDE 不是传统运维产品厂商的万能药。但如果一家厂商已经被重交付、重定制、重集成拖住,它至少应该认真研究这条路。

因为继续堆产品模块,解决不了这个问题。简单加一个 AI 助手,也解决不了。

真正值得做的,是让每一次定制、每一次交付、每一次故障处置,都能沉淀、复用、升级,并最终反哺产品。

如果做不到,FDE 只是更贵的实施。

如果做得到,它可能会把传统运维产品厂商从项目泥潭里拉出来,开始真正积累产品复利。

More from this blog

绵里藏针才是 AIOps 的本质?

Agent 让运维编排变得柔性、可变、甚至自演进;但真正敢进入生产环境的 AIOps,仍然离不开坚实、受控、可审计、可回退的自动化底座。 从 Gartner 提出 AIOps 概念到现在,也大概有十年了。这么多年来,这个领域好像发生了很多变化,又好像没什么“本质”的变化。技术上,我们经历了传统机器学习、深度学习和神经网络、以及大模型和智能体这样“翻天覆地”的变化;业务上,我们面对的是更多品种、更大

May 31, 20263 min read

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

【伪】架构师

344 posts