FDE 是传统运维产品厂商的出路吗?
很多传统运维产品厂商,已经不缺产品了。
从 ITSM、CMDB、监控、自动化,到 IAM、数据中心管理和各类大屏,一个成熟厂商往往都能拿出一张很完整的产品地图。销售材料上看,客户运维部门的日常工作几乎都被覆盖了。
但项目一落地,味道就变了。
产品越多,集成越重;模块越全,边界越模糊;客户越大,定制越深。到了后期,项目成功本身也会变成麻烦:现场改出来的东西回不到主干,配置越来越像黑箱,谁都不敢轻易升级。
这不只是产品经理或实施团队的问题。很多时候,是产品能力本身把厂商拖住了。
所以今天想讨论的问题是:
FDE 会不会是传统运维产品厂商的一条出路?
这里说的 FDE,比普通驻场工程师更进一步。它更接近 Palantir 那种 Forward Deployed Engineer:深入客户现场,既懂业务,又懂产品和工程,把现场复杂性反向沉淀成可复用的平台能力。
一、产品线越全,为什么交付反而越重?
传统运维产品通常按模块生长。
ITSM 管流程,CMDB 管资产,监控管指标,日志管检索。链路管调用关系,自动化管脚本,IAM 管账号权限。数据中心管理管空间和容量,大屏负责展示。
这些模块单独看都合理。问题是,客户真正要解决的通常不是单模块问题。
比如一个核心业务系统连续告警,现场真正关心的是:
告警出现
→ 判断影响哪个业务
→ 查最近有没有变更
→ 找到关联主机、容器、数据库、中间件
→ 判断责任团队和当前值班人
→ 匹配历史故障和处置经验
→ 决定是否创建工单
→ 判断是否可以扩容、重启、切流、回滚
→ 执行后写回工单、告警、CMDB 和审计
这个过程同时涉及监控、CMDB、ITSM、自动化、IAM、变更、知识库和审计。
模块之间如果只是并列存在,实施团队就只能在现场接接口、配规则、写脚本、改流程、做大屏、补字段。
管理层真正需要关心的,已经不只是“这个项目能不能验收”。更麻烦的问题是:每一个大客户是不是都在重新消耗一次交付能力?
如果答案是肯定的,产品线越全,厂商反而越累。
二、“内置最佳实践”为什么挡不住现场定制?
很多厂商都说自己“内置最佳实践”,但项目现场又免不了大量定制。
这两件事不一定冲突,关键在颗粒度。
小颗粒度的最佳实践,本来就应该沉淀在产品底座里。比如字段校验、权限控制、审计记录、告警抑制、脚本参数校验、工单状态流转。客户不应该为这些东西一遍遍付实施费。
但大颗粒度的最佳实践更像方法论,比如集团级变更治理、金融核心系统故障处置、数据中心容量运营、跨部门事件指挥。它不可能开箱即用,必须结合客户的组织结构、系统边界、风险偏好和历史包袱做适配。
所以别再争“最佳实践有没有价值”。更该问的是:厂商能不能把大颗粒度方法论,翻译成小颗粒度、可执行、可复用、可审计的产品资产。
这也是客户、实施、产品、研发经常互相不理解的根源。
客户觉得厂商不懂业务。实施觉得研发不接地气。研发觉得现场需求不可复用。产品觉得每个客户都在破坏标准化。
这背后不是态度问题,而是机制问题。
三、Palantir 值得借鉴的是复利机制
Palantir 的公开材料里,把 AIP、Foundry、Apollo 组合称为一种 Enterprise Operating System。
这几个名字可以先放一边。对传统运维产品厂商来说,更值得看的是它背后的复利机制。
简单说:
Foundry 负责数据集成、治理、管道和计算。
Ontology 把数据映射成业务对象、关系、动作和权限。
AIP 让 AI、Agent、应用和自动化在这个业务世界里工作。
Apollo 负责持续交付、部署、升级和运行管理。
这套结构最有价值的地方,是把客户现场的差异沉淀为平台资产。
Ontology 可以理解为一套企业运营模型。它比知识图谱更靠近业务执行,也比传统 CMDB 覆盖面更大。
对象:运维里的实体,例如应用、主机、工单、告警。
关系:这些实体之间的依赖、归属和影响。
动作:派单、审批、变更、重启、回滚等可控操作。
治理:权限、规则、审计和版本追踪。
运维系统不能只回答“发生了什么”。它还要回答:影响什么?谁负责?能不能动?谁批准?怎么执行?失败怎么回退?做完如何留痕?
这正是传统运维产品厂商缺的一层。
这里说的运维运行底座,不等于把所有产品塞进一个门户。重点是让这些产品围绕同一批对象、关系、动作、权限和审计工作。
四、FDE 解决的是产品复利问题
FDE 经常被误解成高级驻场工程师。
如果只是派技术人员到客户现场写代码、改配置、接接口,那不叫 FDE,只是更贵的驻场外包。
FDE 真正要解决的是一个断层:
客户现场的复杂业务
与
产品主干的可复用能力
之间的断层
传统实施团队离客户近,但离产品主干远。产品研发团队懂产品,但离现场远。售前知道方案,但通常不负责长期落地。客户成功知道关系,但不一定能做工程判断。
FDE 要同时具备三种能力:懂客户现场,懂产品底座,也懂工程实现。
更具体一点,他要知道哪些做法可以直接复用,哪些需要参数化,哪些必须结合客户组织和系统环境重新裁剪。
对传统运维产品厂商来说,FDE 的产出不应该只是项目交付物,而应该是一批可复用资产:
客户流程差异,变成标准流程扩展点。
CMDB 差异,变成对象模型和关系模型。
脚本需求,变成受控 Action。
告警配置,变成场景模板。
大屏需求,变成可复用视图。
项目经验,回到行业包和产品能力里。
FDE 的价值不止是“帮客户把活干完”。更重要的是,把客户现场的复杂性转化为产品进化能力。
五、平台要从现场长出来
讲到这里,很容易产生一个问题:这不就是平台化、中台化吗?
某种意义上,是。
Palantir 的演进过程,可以理解为一个平台/中台不断成长的过程。FDE 在客户现场解决真实问题,Foundry、Ontology、Apollo 把这些问题里可复用的部分沉淀为数据、语义、行动、治理和交付能力。
关键差异在于:Palantir 的平台并不是先在总部规划出来,再要求所有项目服从。它更像是在大量前线交付中长出来的。
传统平台化常见路径是:
先规划统一平台 / 中台
→ 定义通用能力
→ 推给各项目使用
→ 现场发现不适配
→ 继续定制和打补丁
更健康的路径应该是:
前线项目
→ FDE 解决真实问题
→ 抽象共性对象、Action、流程、权限和视图
→ 沉淀为平台能力、产品包和行业模板
→ 后续项目复用
→ 新复杂性继续反哺平台
所以,FDE 和平台/中台要放在一起看。
平台/中台是能力沉淀的载体,FDE 是把现场复杂性转化为平台能力的人和机制。
没有平台,FDE 容易变成高端驻场外包:现场解决了很多问题,但沉淀不下来。没有 FDE,平台容易变成空中楼阁:功能很多,但不知道如何贴合客户真实运营。
平台当然重要。但平台能力必须从真实闭环里长出来。否则所谓中台,很容易变成统一门户、统一菜单、统一配置中心,表面完整,现场照样大量定制。
六、如果这条路成立,现有产品线会被重新切分
如果传统运维产品厂商真的走向 FDE + Ontology 的模式,影响最大的不会是多一个 AI 助手。更大的变化会发生在产品生态内部。
过去产品边界按功能划分:监控是监控,ITSM 是 ITSM,CMDB 是 CMDB,自动化是自动化。
未来边界会更多围绕操作闭环。
客户不太关心这个能力属于哪个模块。他关心的是:异常能不能发现,根因能不能定位,影响能不能判断。再往后,是动作能不能安全执行,结果能不能复盘,经验能不能沉淀到下一次。
这会带来几个变化。
第一,有些产品会从独立产品变成底座能力。
CMDB 是最典型的例子。过去 CMDB 可以作为独立产品售卖:资产录入、字段扩展、关系维护、查询报表。
如果厂商建立了统一对象层,CMDB 的角色会变化。告警依赖它,工单依赖它,自动化依赖它,权限和审计也依赖它。
CMDB 不会消失,但形态会变化。它的重要性不再来自页面多少,而是来自全系统对资产、服务、责任和影响范围的共同理解。
第二,有些产品会被拆成 Action、Workflow 和 View。
ITSM、告警、自动化之间的边界会变模糊。
过去的链路是:
监控发现告警
→ 告警平台通知
→ ITSM 创建工单
→ 人工判断
→ 自动化平台执行脚本
→ 人工回填结果
更合理的链路应该是:
事件对象触发
→ 关联业务系统、拓扑、资产、责任人、近期变更
→ 形成候选根因和影响范围
→ 匹配处置 Action
→ 根据风险等级决定自动执行还是人工审批
→ 执行后写回工单、告警、CMDB 和审计
这时,ITSM 会从流程表单变成动作链的一部分。告警也不只是通知系统,自动化也不只是脚本执行器。
它们会被拆成 Action、Workflow、Policy 和 View。也就是动作、编排、策略和视图。
第三,有些产品形态会慢慢失去意义。
一次性定制大屏会被冲击。大屏还会存在,但应该是对象和指标上的视图,而不是每个项目手工拼一套页面。
孤立报表会被冲击。报表还会存在,但大量项目级 SQL 报表,会被语义查询、指标对象和可复用分析模板替代。
脚本市场式自动化也会被冲击。脚本还会存在,但不应该直接暴露给人随便执行。更合理的方式,是把脚本包装成带参数校验、权限控制、审批、回滚和审计的 Action。
这比“做一个 AI 助手”难得多,也更接近产品战略问题。
七、大模型让 Action 资产变得更值钱
传统运维产品厂商讨论 AI 时,很容易停在问答、摘要、告警压缩、知识库检索。
这些有用,但还不够。
运维场景里,AI 真正有想象力的地方,是改写传统自动化的演进路径。
过去,运维自动化大多沿着一条很清晰的路线走:
手工操作
→ 写成 SOP
→ 固化为脚本
→ 编排成自动化动作
→ 串成流水线
这条路线要求人先把故障模式理解清楚,再把处理步骤标准化,最后才能自动化。所以传统自动化擅长处理“已知问题”:磁盘满了清理目录,进程挂了重启服务,副本不足自动扩容,证书过期提前通知。
但真实运维里的大量问题,并不是一开始就这么清楚。
告警可能是多个系统共同作用的结果,根因可能和近期变更、容量趋势、依赖服务、历史故障、网络抖动都有关系。人要先观察、关联、判断,再决定执行哪个动作。
大模型可能改变的,正是这一步。
当平台已经有一批可靠的原子性 Action,大模型不一定要等人把整条流水线提前写好。
它可以在运行时完成感知、决策和意图编排:理解上下文,评估证据和风险,选择 Action,填写参数,申请执行,再观察结果。
传统流水线是“人提前把路径编好”。大模型参与后的平台,更像是在受控边界内动态选择下一步。
SOP 和自动化仍然重要。变化在于,自动化会从静态流水线推进到可演进的 Action 网络。
不过有一条底线:AI 不能直接操作生产系统。
AI 可以提出意图、选择候选动作、填写参数,但真正执行必须由 Action 平台完成。Action 平台要负责权限、审批、审计、回滚和补偿。
也就是说,FDE 沉淀下来的 Action 资产,会因为大模型变得更值钱。
没有这些 Action,大模型只能建议。
有了这些 Action,大模型才可能进入受控执行链。
八、传统运维厂商可以怎么试?
既然平台能力要从真实闭环里长出来,转型就不能从一张大而全的中台蓝图开始。
更现实的路径,是从一个高价值闭环开始,把大颗粒度方法论拆成一组小颗粒度资产,再逐步沉淀回产品底座。
第一步,选一个跨模块闭环。
不要先选一个模块。可以从告警到工单到自动化处置开始,也可以从重大故障指挥调度、变更风险评估、资产漏洞处置切入。
标准很简单:这个场景必须跨越至少三个模块,并且能形成“发现问题 → 判断影响 → 执行动作 → 留痕复盘”的闭环。
第二步,建立最小对象关系图。
不要试图一次重建完整 CMDB。先围绕一个闭环建立最小对象关系:
业务系统
→ 依赖 → 应用
→ 部署于 → 主机 / 容器 / 集群
→ 负责于 → 团队 / 人员
→ 产生 → 告警
→ 关联 → 工单 / 变更 / 事件
→ 可执行 → 自动化动作
关键不是对象多,而是能回答几个问题:这个告警影响哪个业务,责任人是谁,最近有没有变更,是否允许自动处置,执行后写回哪里。
第三步,把脚本升级成 Action。
传统自动化平台关注脚本能不能执行。
Action 平台关注的是这个动作能不能被安全执行:谁发起,参数是否合法,当前状态是否允许,是否需要审批。它还要记录影响范围、写回结果和失败补偿。
只有把脚本包装成 Action,AI 才有可能安全参与运维处置。
第四步,把项目经验做成产品包。
每个项目结束时,不应该只留下验收文档和现场配置。至少要沉淀三类资产:行业对象模型、场景 Action 模板、操作视图模板。
这些资产越多,后续项目越轻,FDE 的价值才会从人力交付转向产品复利。
第五步,重构组织考核。
如果仍然只按项目验收、交付人天、回款节点考核,FDE 很容易退化成驻场外包。
新的考核要看几件事:多少现场需求沉淀为标准能力,多少客户配置进入版本管理,多少脚本变成可治理 Action,多少行业模型被后续客户复用。
FDE 模式能不能成立,取决于公司是否真的奖励“把现场经验产品化”。
九、FDE 是出路,但不是所有厂商的出路
FDE 对传统运维产品厂商有吸引力,但它不是万能药。
如果客户只需要标准监控工具,不需要复杂定制,FDE 没必要。产品高度标准化、客户流程很轻时,FDE 反而会拉高成本。
如果公司没有产品化底座,FDE 会沦为驻场外包。如果客户采购目标只是“买交付物”,不是“建能力”,FDE 也很难发挥作用。
真正适合走这条路的厂商,通常有几个特征。
产品线已经较完整,但模块协同成本高。客户多为中大型企业、集团、金融、能源、制造、运营商、政企。项目中存在大量流程、资产、接口、告警、大屏、自动化定制。客户现场差异大,但差异背后有行业共性。
还有一个前提:公司愿意把交付经验产品化,而不是只按人天收费。
所以,FDE 是出路,但前提是厂商愿意从“卖模块”转向“经营运维运行底座”。
十、结语:FDE 是把交付变成复利的机制
过去,传统运维产品厂商卖的是工具。
后来,卖的是平台。
下一阶段,真正有竞争力的厂商,卖的可能是一套持续适配客户运维体系的能力。
在这套系统里,CMDB 是统一对象层。监控提供事件和状态输入。ITSM 承接受控动作链。
自动化变成可治理 Action。大屏也从展示工程变成对象视图。
AI 也会从问答助手继续往前走,进入受控执行链,参与诊断、建议、申请执行和效果反馈。
我倾向于认为,FDE 不是传统运维产品厂商的万能药。但如果一家厂商已经被重交付、重定制、重集成拖住,它至少应该认真研究这条路。
因为继续堆产品模块,解决不了这个问题。简单加一个 AI 助手,也解决不了。
真正值得做的,是让每一次定制、每一次交付、每一次故障处置,都能沉淀、复用、升级,并最终反哺产品。
如果做不到,FDE 只是更贵的实施。
如果做得到,它可能会把传统运维产品厂商从项目泥潭里拉出来,开始真正积累产品复利。
