Skip to main content

Command Palette

Search for a command to run...

马后炮:Operator for Spark 之后

Updated
1 min read

Google 宣布 Kubernetes Operator for Spark 之后,朋友们的评价主要集中在 GCP 对大数据的浓厚兴趣上;我觉得还有一个解读就是,我以前可能低估了 Operator 的重要地位,因此有了本文。

背景

CoreOS 最初在 2016 年底发布 Operator 概念时,称其主旨为:Putting Operational Knowledge into Software,也就是将运维技能融入软件,在翻译该声明时,也只是觉得这一说法很有趣,但是在 GCP 发布了 Spark Operator 之后,我觉得似乎有必要回顾一下,Operator 到底是要用来做什么的。

我们的团队正在 Kubernetes 社区进行一个概念的设计和实现,这一概念就是:在 Kubernetes 基础之上,可靠的创建、配置和管理复杂应用的方法。 我们把这种软件称为 Operator。一个 Operator 指的是一个面向特定应用的控制器,这一控制器对 Kubernetes API 进行了扩展,使用 Kubernetes 用户的行为方式,创建、配置和管理复杂的有状态应用的实例。他构建在基础的 Kubernetes 资源和控制器概念的基础上,但是包含了具体应用领域的运维知识,实现了日常任务的自动化。

上面一篇文字来自我对原文的译稿:Operator:固化到软件中的运维技能,这一段文字分析一下:

  • 复杂应用:一般来说,Kubernetes 上的复杂应用,指的主要是两种:有状态或者有协作。
  • 创建、配置和管理:在软件的开发阶段之后,就进入了 Operator 的管理范围了。
  • 使用 Kubernetes 用户的行为方式:Kubectl、API Server、声明式的 API、资源、YAML。。。
  • 特定应用的控制器:在软件的“本体”之外,还需要实现一个控制单元,用来完成对专属资源的解释和执行。

粗看上来,这东西有点多余,多学东西、多写东西,为的就是在 Kubernetes 上用 Kubectl 操作 YAML 的方式来装软件配置软件?老夫早已熟悉各种 ini xml json toml 等乌七八糟的配置方式。要这东西有什么用呢?

为了示范 Operator 的功能,CoreOS 特意开放了两个 Operator:ETCDPrometheus

例如 ETCD Operator,通过一定的 YAML 定义,可以完成以下功能:

  • 创建集群
  • 集群伸缩
  • 故障应对
  • 集群升级
  • 备份和恢复

同时 CoreOS 还提供了 Operator Framework 进行 Operator 的开发。

当运维遇上 Operator

Operator 的功能,稍微理解一下,就看得出它提出了一个新的运维方式:使用 Kubernetes 原生 API 或者 Kubectl 等基于这种 API 的工具来替换原本各走各路的运维方式。把原有的各种系统的部署和配置方式,转换为 Kubernetes 世界中的 CRD,利用 CRD 的资源对象来完成各种运维任务。

这实际上是将运维操作进行了一次抽象,用一致的界面来完成各种不同的运维动作,在理想情况下,一个软件系统提供的 Operator 丰富到覆盖其所有应用场景,那么他的所有运维操作都是可以通过 API Server 接口来进行控制,这给运维工作带来很大的便利:

  • 避免学习该软件的配置方言,降低上手难度。
  • 使用模板渲染的方式,能够迅速的将该软件的运维需要转换为流程化、自动化操作。
  • 增强的控制能力,能够方便的进行 CI/CD 集成。
  • 声明式 API,对运维过程的管理,提供了更高的透明、可控、版本化等优势。
  • 现有的控制门户等运维设施,也能完成新系统的快速接入。

上述种种优势,对运维工作来说都是很有帮助的,然而面对现实,还是有一些限制的:

  • 平台限制:很明显,几乎只有 Kubernetes 上的应用才能享受 Operator 的优势。
  • 数量稀少:目前有提供 Operator 的软件还是九牛一毛,未能产生规模效应,配置方言的学习并无法避免。
  • 设计困难:Operator Controller 定义 CRD,然后使用 API 提交 CRD 资源对象的方式看上去很不错,但是要用 CRD 定义一个系统的所有场景,谈何容易,官方的 Prometheus Operator 基本无法生产应用就是明证。
  • Operator 失败的情况下,其原始的方言配置未必能够在 Kubernetes + Operator 环境中奏效。

最大的一个问题,Operator 是需要开发的,谁来负责他的工作量呢?

当开发遇上 Operator

对开发来说,Operator 如果流行,可能不是一个好消息。

目前的企业系统开发中,通常对于最终用户的界面、以及应用之间的 API 管理都有详尽的需求、设计和测试等文档要求,然而在运维是自己人的情况下,因为并不影响交付,很多中间、自用系统的运维工作设计,往往就糊弄了事了

如果 Operator 落地开花,就产生了一个副作用——需要修改交付标准:

  • 把运维当成用户
  • 运维用户自然也应该有针对性的需求调研分析
  • 要有详尽的运维场景设计
  • 对于 Operator CRD 无法完整覆盖的情况下,要有降级的措施准备。

总结

通过上面粗浅的分析,可以看出要落地使用 Operator,对 DevOps 的两端都需要有一点点的变化:Dev 的交付标准,和 Ops 的工作方式。

带来的好处也不太醒目:声明化、标准化和自动化。

More from this blog

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

[译]dora:ai 辅助软件开发状态报告

执行摘要 在 2025 年,科技领导者面临的核心问题已不再是“是否要采用 AI”,而是“如何实现其价值”。 DORA 的研究基于超过 100 小时的定性访谈和来自全球近 5,000 名技术专业人士的问卷调查。研究揭示了一个关键事实:AI 在软件开发中的主要角色是“放大器”。它会放大高效能组织的优势,也会凸显组织的缺陷。 关键结论:AI 是放大器 AI 投资的最大回报并非来自工具本身,而是来自组织底层系统的战略性建设: 高质量的内部平台 清晰的工作流 团队的协同能力 缺少这些基础,AI ...

Oct 2, 202514 min read

僭越了,有人在用 Rust 写 Kubernetes

一个新语言问世,最爱做的事情之一,就是重写存量软件了。 云原生喝酒 SIG 重点扶持项目——rk8s(https://github.com/rk8s-dev/rk8s) 也可以归在这个范畴里,只不过这个项目重写的东西比较大,是 Kubernetes。 从 2025 年 1 月第一个 Commit 开始,到现在有了 200 多次 Commit,十几万行代码。当然距离 Kubernetes 的几百万行代码还差得远——老马就是喜欢整这种大无畏项目。 另外该项目也是国内第一个脱离 Cargo 转向使用 ...

Sep 27, 20253 min read

【伪】架构师

342 posts