Skip to main content

Command Palette

Search for a command to run...

Google 宣布 Kubernetes Operator for Spark

Updated
1 min read

作者:Andrew Brust

原文:Google announces Kubernetes Operator for Apache Spark

“Spark Operator” 的 Beta 版本,可以用来在 Kubernetes 上执行原生 Spark 应用,无需 Hadoop 或 Mesos。

Apache Spark是一个流行的执行框架,用于执行数据工程和机器学习方面的工作负载。他提供 Databricks 平台的支持,可用于内部部署的或者公有云的 Hadoop 服务,例如 Azure HDInsightAmazon EMR、以及 Google Cloud Dataproc,也可以在 Mesos 集群上运行。

但是如果只是想在 Kubernetes(k8s) 而非 Mesos 上运行 Spark 工作负载,也不想使用 YARN,这可行么?Spark 在 2.3 版本中首次加入了针对 Kubernetes 的功能,并在 2.4 中进行了进一步增强,然而让 Spark 用全集成的方式原生运行在 Kubernetes 上,仍然是非常有挑战的。

Kube Operator

Kubernetes 的始作俑者 Google,宣布了 Kubernetes Operator for Apache Spark 的 Beta 版本,简称 Spark Operator。Spark Operator 让 Spark 可以原生运行在 Kubernetes 集群上。 Spark 应用(这些应用用于分析、数据工程或者机器学习)可以部署在这些集群上运行,像在其它集群上一样。

Google 声明,Spark Operator 是一个 Kubernetes 自定义控制器,其中使用自定义资源来声明 Spark 应用的元数据;它还支持自动重启动以及基于 cron 的计划任务。今后,开发者、数据工程师以及数据科学家可以创建声明式的规范,来描述他们的 Spark 应用,并使用原生的 Kubernetes 工具(例如 Kubectl)来管理他们的应用。

现在就试试

Spark Operator 目前在 GCP 的 Kubernetes 市场中已经可用,可以方便的部署到 Google Kubernetes Engine(GKE)。另外 Spark Operator 是一个开源项目,能够部署在任何 Kubernetes 环境中,项目的 Github 页面提供了基于 Helm Chart 的安装指南

如果 Amazon 和微软这样的厂商任何并在自家的 Kubernetes 服务上(微软的 AKS 以及 Amazon 的 ECS)提供 Spark Operator 的部署方式,会是个有意思的局面。这对他们的客户来说会是一个很棒的服务,客户并不想要在 EMR、HDInsight 或者 Daabricks 的工作空间和集群上付出开销。

Hadoop 怎么办

很多非 Databricks 的 Spark 集群是运行在 Hadoop 上的。Spark Operators 的出现,是否意味着 Hadoop 的影响被削弱了?Hadoop 团队也并非游手好闲之辈,例如 开放混合架构草案就聚焦于 Hadoop 的容器化。另外上周发布的 Hadoop 3.2,其功能就包括了对 Tensorflow 的支持,Azure Data Lake Storage Gen2 的链接支持以及增强的Amazon S3 的增强支持。

消费者和往常一样,将在激烈的竞争中获益。

More from this blog

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

[译]dora:ai 辅助软件开发状态报告

执行摘要 在 2025 年,科技领导者面临的核心问题已不再是“是否要采用 AI”,而是“如何实现其价值”。 DORA 的研究基于超过 100 小时的定性访谈和来自全球近 5,000 名技术专业人士的问卷调查。研究揭示了一个关键事实:AI 在软件开发中的主要角色是“放大器”。它会放大高效能组织的优势,也会凸显组织的缺陷。 关键结论:AI 是放大器 AI 投资的最大回报并非来自工具本身,而是来自组织底层系统的战略性建设: 高质量的内部平台 清晰的工作流 团队的协同能力 缺少这些基础,AI ...

Oct 2, 202514 min read

僭越了,有人在用 Rust 写 Kubernetes

一个新语言问世,最爱做的事情之一,就是重写存量软件了。 云原生喝酒 SIG 重点扶持项目——rk8s(https://github.com/rk8s-dev/rk8s) 也可以归在这个范畴里,只不过这个项目重写的东西比较大,是 Kubernetes。 从 2025 年 1 月第一个 Commit 开始,到现在有了 200 多次 Commit,十几万行代码。当然距离 Kubernetes 的几百万行代码还差得远——老马就是喜欢整这种大无畏项目。 另外该项目也是国内第一个脱离 Cargo 转向使用 ...

Sep 27, 20253 min read

【伪】架构师

342 posts