FDE 是传统运维产品厂商的出路吗？

很多传统运维产品厂商，已经不缺产品了。

从 ITSM、CMDB、监控、自动化，到 IAM、数据中心管理和各类大屏，一个成熟厂商往往都能拿出一张很完整的产品地图。销售材料上看，客户运维部门的日常工作几乎都被覆盖了。

但项目一落地，味道就变了。

产品越多，集成越重；模块越全，边界越模糊；客户越大，定制越深。到了后期，项目成功本身也会变成麻烦：现场改出来的东西回不到主干，配置越来越像黑箱，谁都不敢轻易升级。

这不只是产品经理或实施团队的问题。很多时候，是产品能力本身把厂商拖住了。

所以今天想讨论的问题是：

FDE 会不会是传统运维产品厂商的一条出路？

这里说的 FDE，比普通驻场工程师更进一步。它更接近 Palantir 那种 Forward Deployed Engineer：深入客户现场，既懂业务，又懂产品和工程，把现场复杂性反向沉淀成可复用的平台能力。

一、产品线越全，为什么交付反而越重？

传统运维产品通常按模块生长。

ITSM 管流程，CMDB 管资产，监控管指标，日志管检索。链路管调用关系，自动化管脚本，IAM 管账号权限。数据中心管理管空间和容量，大屏负责展示。

这些模块单独看都合理。问题是，客户真正要解决的通常不是单模块问题。

比如一个核心业务系统连续告警，现场真正关心的是：

告警出现
  → 判断影响哪个业务
  → 查最近有没有变更
  → 找到关联主机、容器、数据库、中间件
  → 判断责任团队和当前值班人
  → 匹配历史故障和处置经验
  → 决定是否创建工单
  → 判断是否可以扩容、重启、切流、回滚
  → 执行后写回工单、告警、CMDB 和审计

这个过程同时涉及监控、CMDB、ITSM、自动化、IAM、变更、知识库和审计。

模块之间如果只是并列存在，实施团队就只能在现场接接口、配规则、写脚本、改流程、做大屏、补字段。

管理层真正需要关心的，已经不只是“这个项目能不能验收”。更麻烦的问题是：每一个大客户是不是都在重新消耗一次交付能力？

如果答案是肯定的，产品线越全，厂商反而越累。

二、“内置最佳实践”为什么挡不住现场定制？

很多厂商都说自己“内置最佳实践”，但项目现场又免不了大量定制。

这两件事不一定冲突，关键在颗粒度。

小颗粒度的最佳实践，本来就应该沉淀在产品底座里。比如字段校验、权限控制、审计记录、告警抑制、脚本参数校验、工单状态流转。客户不应该为这些东西一遍遍付实施费。

但大颗粒度的最佳实践更像方法论，比如集团级变更治理、金融核心系统故障处置、数据中心容量运营、跨部门事件指挥。它不可能开箱即用，必须结合客户的组织结构、系统边界、风险偏好和历史包袱做适配。

所以别再争“最佳实践有没有价值”。更该问的是：厂商能不能把大颗粒度方法论，翻译成小颗粒度、可执行、可复用、可审计的产品资产。

这也是客户、实施、产品、研发经常互相不理解的根源。

客户觉得厂商不懂业务。实施觉得研发不接地气。研发觉得现场需求不可复用。产品觉得每个客户都在破坏标准化。

这背后不是态度问题，而是机制问题。

三、Palantir 值得借鉴的是复利机制

Palantir 的公开材料里，把 AIP、Foundry、Apollo 组合称为一种 Enterprise Operating System。

这几个名字可以先放一边。对传统运维产品厂商来说，更值得看的是它背后的复利机制。

简单说：

Foundry 负责数据集成、治理、管道和计算。
Ontology 把数据映射成业务对象、关系、动作和权限。
AIP 让 AI、Agent、应用和自动化在这个业务世界里工作。
Apollo 负责持续交付、部署、升级和运行管理。

这套结构最有价值的地方，是把客户现场的差异沉淀为平台资产。

Ontology 可以理解为一套企业运营模型。它比知识图谱更靠近业务执行，也比传统 CMDB 覆盖面更大。

对象：运维里的实体，例如应用、主机、工单、告警。
关系：这些实体之间的依赖、归属和影响。
动作：派单、审批、变更、重启、回滚等可控操作。
治理：权限、规则、审计和版本追踪。

运维系统不能只回答“发生了什么”。它还要回答：影响什么？谁负责？能不能动？谁批准？怎么执行？失败怎么回退？做完如何留痕？

这正是传统运维产品厂商缺的一层。

这里说的运维运行底座，不等于把所有产品塞进一个门户。重点是让这些产品围绕同一批对象、关系、动作、权限和审计工作。

四、FDE 解决的是产品复利问题

FDE 经常被误解成高级驻场工程师。

如果只是派技术人员到客户现场写代码、改配置、接接口，那不叫 FDE，只是更贵的驻场外包。

FDE 真正要解决的是一个断层：

客户现场的复杂业务
        与
产品主干的可复用能力
        之间的断层

传统实施团队离客户近，但离产品主干远。产品研发团队懂产品，但离现场远。售前知道方案，但通常不负责长期落地。客户成功知道关系，但不一定能做工程判断。

FDE 要同时具备三种能力：懂客户现场，懂产品底座，也懂工程实现。

更具体一点，他要知道哪些做法可以直接复用，哪些需要参数化，哪些必须结合客户组织和系统环境重新裁剪。

对传统运维产品厂商来说，FDE 的产出不应该只是项目交付物，而应该是一批可复用资产：

客户流程差异，变成标准流程扩展点。
CMDB 差异，变成对象模型和关系模型。
脚本需求，变成受控 Action。
告警配置，变成场景模板。
大屏需求，变成可复用视图。
项目经验，回到行业包和产品能力里。

FDE 的价值不止是“帮客户把活干完”。更重要的是，把客户现场的复杂性转化为产品进化能力。

五、平台要从现场长出来

讲到这里，很容易产生一个问题：这不就是平台化、中台化吗？

某种意义上，是。

Palantir 的演进过程，可以理解为一个平台/中台不断成长的过程。FDE 在客户现场解决真实问题，Foundry、Ontology、Apollo 把这些问题里可复用的部分沉淀为数据、语义、行动、治理和交付能力。

关键差异在于：Palantir 的平台并不是先在总部规划出来，再要求所有项目服从。它更像是在大量前线交付中长出来的。

传统平台化常见路径是：

先规划统一平台 / 中台
  → 定义通用能力
  → 推给各项目使用
  → 现场发现不适配
  → 继续定制和打补丁

更健康的路径应该是：

前线项目
  → FDE 解决真实问题
  → 抽象共性对象、Action、流程、权限和视图
  → 沉淀为平台能力、产品包和行业模板
  → 后续项目复用
  → 新复杂性继续反哺平台

所以，FDE 和平台/中台要放在一起看。

平台/中台是能力沉淀的载体，FDE 是把现场复杂性转化为平台能力的人和机制。

没有平台，FDE 容易变成高端驻场外包：现场解决了很多问题，但沉淀不下来。没有 FDE，平台容易变成空中楼阁：功能很多，但不知道如何贴合客户真实运营。

平台当然重要。但平台能力必须从真实闭环里长出来。否则所谓中台，很容易变成统一门户、统一菜单、统一配置中心，表面完整，现场照样大量定制。

六、如果这条路成立，现有产品线会被重新切分

如果传统运维产品厂商真的走向 FDE + Ontology 的模式，影响最大的不会是多一个 AI 助手。更大的变化会发生在产品生态内部。

过去产品边界按功能划分：监控是监控，ITSM 是 ITSM，CMDB 是 CMDB，自动化是自动化。

未来边界会更多围绕操作闭环。

客户不太关心这个能力属于哪个模块。他关心的是：异常能不能发现，根因能不能定位，影响能不能判断。再往后，是动作能不能安全执行，结果能不能复盘，经验能不能沉淀到下一次。

这会带来几个变化。

第一，有些产品会从独立产品变成底座能力。

CMDB 是最典型的例子。过去 CMDB 可以作为独立产品售卖：资产录入、字段扩展、关系维护、查询报表。

如果厂商建立了统一对象层，CMDB 的角色会变化。告警依赖它，工单依赖它，自动化依赖它，权限和审计也依赖它。

CMDB 不会消失，但形态会变化。它的重要性不再来自页面多少，而是来自全系统对资产、服务、责任和影响范围的共同理解。

第二，有些产品会被拆成 Action、Workflow 和 View。

ITSM、告警、自动化之间的边界会变模糊。

过去的链路是：

监控发现告警
  → 告警平台通知
  → ITSM 创建工单
  → 人工判断
  → 自动化平台执行脚本
  → 人工回填结果

更合理的链路应该是：

事件对象触发
  → 关联业务系统、拓扑、资产、责任人、近期变更
  → 形成候选根因和影响范围
  → 匹配处置 Action
  → 根据风险等级决定自动执行还是人工审批
  → 执行后写回工单、告警、CMDB 和审计

这时，ITSM 会从流程表单变成动作链的一部分。告警也不只是通知系统，自动化也不只是脚本执行器。

它们会被拆成 Action、Workflow、Policy 和 View。也就是动作、编排、策略和视图。

第三，有些产品形态会慢慢失去意义。

一次性定制大屏会被冲击。大屏还会存在，但应该是对象和指标上的视图，而不是每个项目手工拼一套页面。

孤立报表会被冲击。报表还会存在，但大量项目级 SQL 报表，会被语义查询、指标对象和可复用分析模板替代。

脚本市场式自动化也会被冲击。脚本还会存在，但不应该直接暴露给人随便执行。更合理的方式，是把脚本包装成带参数校验、权限控制、审批、回滚和审计的 Action。

这比“做一个 AI 助手”难得多，也更接近产品战略问题。

七、大模型让 Action 资产变得更值钱

传统运维产品厂商讨论 AI 时，很容易停在问答、摘要、告警压缩、知识库检索。

这些有用，但还不够。

运维场景里，AI 真正有想象力的地方，是改写传统自动化的演进路径。

过去，运维自动化大多沿着一条很清晰的路线走：

手工操作
  → 写成 SOP
  → 固化为脚本
  → 编排成自动化动作
  → 串成流水线

这条路线要求人先把故障模式理解清楚，再把处理步骤标准化，最后才能自动化。所以传统自动化擅长处理“已知问题”：磁盘满了清理目录，进程挂了重启服务，副本不足自动扩容，证书过期提前通知。

但真实运维里的大量问题，并不是一开始就这么清楚。

告警可能是多个系统共同作用的结果，根因可能和近期变更、容量趋势、依赖服务、历史故障、网络抖动都有关系。人要先观察、关联、判断，再决定执行哪个动作。

大模型可能改变的，正是这一步。

当平台已经有一批可靠的原子性 Action，大模型不一定要等人把整条流水线提前写好。

它可以在运行时完成感知、决策和意图编排：理解上下文，评估证据和风险，选择 Action，填写参数，申请执行，再观察结果。

传统流水线是“人提前把路径编好”。大模型参与后的平台，更像是在受控边界内动态选择下一步。

SOP 和自动化仍然重要。变化在于，自动化会从静态流水线推进到可演进的 Action 网络。

不过有一条底线：AI 不能直接操作生产系统。

AI 可以提出意图、选择候选动作、填写参数，但真正执行必须由 Action 平台完成。Action 平台要负责权限、审批、审计、回滚和补偿。

也就是说，FDE 沉淀下来的 Action 资产，会因为大模型变得更值钱。

没有这些 Action，大模型只能建议。
有了这些 Action，大模型才可能进入受控执行链。

八、传统运维厂商可以怎么试？

既然平台能力要从真实闭环里长出来，转型就不能从一张大而全的中台蓝图开始。

更现实的路径，是从一个高价值闭环开始，把大颗粒度方法论拆成一组小颗粒度资产，再逐步沉淀回产品底座。

第一步，选一个跨模块闭环。

不要先选一个模块。可以从告警到工单到自动化处置开始，也可以从重大故障指挥调度、变更风险评估、资产漏洞处置切入。

标准很简单：这个场景必须跨越至少三个模块，并且能形成“发现问题 → 判断影响 → 执行动作 → 留痕复盘”的闭环。

第二步，建立最小对象关系图。

不要试图一次重建完整 CMDB。先围绕一个闭环建立最小对象关系：

业务系统
  → 依赖 → 应用
  → 部署于 → 主机 / 容器 / 集群
  → 负责于 → 团队 / 人员
  → 产生 → 告警
  → 关联 → 工单 / 变更 / 事件
  → 可执行 → 自动化动作

关键不是对象多，而是能回答几个问题：这个告警影响哪个业务，责任人是谁，最近有没有变更，是否允许自动处置，执行后写回哪里。

第三步，把脚本升级成 Action。

传统自动化平台关注脚本能不能执行。

Action 平台关注的是这个动作能不能被安全执行：谁发起，参数是否合法，当前状态是否允许，是否需要审批。它还要记录影响范围、写回结果和失败补偿。

只有把脚本包装成 Action，AI 才有可能安全参与运维处置。

第四步，把项目经验做成产品包。

每个项目结束时，不应该只留下验收文档和现场配置。至少要沉淀三类资产：行业对象模型、场景 Action 模板、操作视图模板。

这些资产越多，后续项目越轻，FDE 的价值才会从人力交付转向产品复利。

第五步，重构组织考核。

如果仍然只按项目验收、交付人天、回款节点考核，FDE 很容易退化成驻场外包。

新的考核要看几件事：多少现场需求沉淀为标准能力，多少客户配置进入版本管理，多少脚本变成可治理 Action，多少行业模型被后续客户复用。

FDE 模式能不能成立，取决于公司是否真的奖励“把现场经验产品化”。

九、FDE 是出路，但不是所有厂商的出路

FDE 对传统运维产品厂商有吸引力，但它不是万能药。

如果客户只需要标准监控工具，不需要复杂定制，FDE 没必要。产品高度标准化、客户流程很轻时，FDE 反而会拉高成本。

如果公司没有产品化底座，FDE 会沦为驻场外包。如果客户采购目标只是“买交付物”，不是“建能力”，FDE 也很难发挥作用。

真正适合走这条路的厂商，通常有几个特征。

产品线已经较完整，但模块协同成本高。客户多为中大型企业、集团、金融、能源、制造、运营商、政企。项目中存在大量流程、资产、接口、告警、大屏、自动化定制。客户现场差异大，但差异背后有行业共性。

还有一个前提：公司愿意把交付经验产品化，而不是只按人天收费。

所以，FDE 是出路，但前提是厂商愿意从“卖模块”转向“经营运维运行底座”。

十、结语：FDE 是把交付变成复利的机制

过去，传统运维产品厂商卖的是工具。

后来，卖的是平台。

下一阶段，真正有竞争力的厂商，卖的可能是一套持续适配客户运维体系的能力。

在这套系统里，CMDB 是统一对象层。监控提供事件和状态输入。ITSM 承接受控动作链。

自动化变成可治理 Action。大屏也从展示工程变成对象视图。

AI 也会从问答助手继续往前走，进入受控执行链，参与诊断、建议、申请执行和效果反馈。

我倾向于认为，FDE 不是传统运维产品厂商的万能药。但如果一家厂商已经被重交付、重定制、重集成拖住，它至少应该认真研究这条路。

因为继续堆产品模块，解决不了这个问题。简单加一个 AI 助手，也解决不了。

真正值得做的，是让每一次定制、每一次交付、每一次故障处置，都能沉淀、复用、升级，并最终反哺产品。

如果做不到，FDE 只是更贵的实施。

如果做得到，它可能会把传统运维产品厂商从项目泥潭里拉出来，开始真正积累产品复利。

FDE 是传统运维产品厂商的出路吗？

一、产品线越全，为什么交付反而越重？

二、“内置最佳实践”为什么挡不住现场定制？

三、Palantir 值得借鉴的是复利机制

四、FDE 解决的是产品复利问题

五、平台要从现场长出来

六、如果这条路成立，现有产品线会被重新切分

七、大模型让 Action 资产变得更值钱

八、传统运维厂商可以怎么试？

九、FDE 是出路，但不是所有厂商的出路

十、结语：FDE 是把交付变成复利的机制

Comments

More from this blog

绵里藏针才是 AIOps 的本质？

龙虾恐慌：AIOps 又要改名了？

再见 2025

辅助编程？dora 说：我知道你很急可是请你别急

Command Palette

一、产品线越全，为什么交付反而越重？

二、“内置最佳实践”为什么挡不住现场定制？

三、Palantir 值得借鉴的是复利机制

四、FDE 解决的是产品复利问题

五、平台要从现场长出来

六、如果这条路成立，现有产品线会被重新切分

七、大模型让 Action 资产变得更值钱

八、传统运维厂商可以怎么试？

九、FDE 是出路，但不是所有厂商的出路

十、结语：FDE 是把交付变成复利的机制

Comments

More from this blog