Skip to main content

Command Palette

Search for a command to run...

Google 宣布 Kubernetes Operator for Spark

Published
1 min read

作者:Andrew Brust

原文:Google announces Kubernetes Operator for Apache Spark

“Spark Operator” 的 Beta 版本,可以用来在 Kubernetes 上执行原生 Spark 应用,无需 Hadoop 或 Mesos。

Apache Spark是一个流行的执行框架,用于执行数据工程和机器学习方面的工作负载。他提供 Databricks 平台的支持,可用于内部部署的或者公有云的 Hadoop 服务,例如 Azure HDInsightAmazon EMR、以及 Google Cloud Dataproc,也可以在 Mesos 集群上运行。

但是如果只是想在 Kubernetes(k8s) 而非 Mesos 上运行 Spark 工作负载,也不想使用 YARN,这可行么?Spark 在 2.3 版本中首次加入了针对 Kubernetes 的功能,并在 2.4 中进行了进一步增强,然而让 Spark 用全集成的方式原生运行在 Kubernetes 上,仍然是非常有挑战的。

Kube Operator

Kubernetes 的始作俑者 Google,宣布了 Kubernetes Operator for Apache Spark 的 Beta 版本,简称 Spark Operator。Spark Operator 让 Spark 可以原生运行在 Kubernetes 集群上。 Spark 应用(这些应用用于分析、数据工程或者机器学习)可以部署在这些集群上运行,像在其它集群上一样。

Google 声明,Spark Operator 是一个 Kubernetes 自定义控制器,其中使用自定义资源来声明 Spark 应用的元数据;它还支持自动重启动以及基于 cron 的计划任务。今后,开发者、数据工程师以及数据科学家可以创建声明式的规范,来描述他们的 Spark 应用,并使用原生的 Kubernetes 工具(例如 Kubectl)来管理他们的应用。

现在就试试

Spark Operator 目前在 GCP 的 Kubernetes 市场中已经可用,可以方便的部署到 Google Kubernetes Engine(GKE)。另外 Spark Operator 是一个开源项目,能够部署在任何 Kubernetes 环境中,项目的 Github 页面提供了基于 Helm Chart 的安装指南

如果 Amazon 和微软这样的厂商任何并在自家的 Kubernetes 服务上(微软的 AKS 以及 Amazon 的 ECS)提供 Spark Operator 的部署方式,会是个有意思的局面。这对他们的客户来说会是一个很棒的服务,客户并不想要在 EMR、HDInsight 或者 Daabricks 的工作空间和集群上付出开销。

Hadoop 怎么办

很多非 Databricks 的 Spark 集群是运行在 Hadoop 上的。Spark Operators 的出现,是否意味着 Hadoop 的影响被削弱了?Hadoop 团队也并非游手好闲之辈,例如 开放混合架构草案就聚焦于 Hadoop 的容器化。另外上周发布的 Hadoop 3.2,其功能就包括了对 Tensorflow 的支持,Azure Data Lake Storage Gen2 的链接支持以及增强的Amazon S3 的增强支持。

消费者和往常一样,将在激烈的竞争中获益。

More from this blog

绵里藏针才是 AIOps 的本质?

Agent 让运维编排变得柔性、可变、甚至自演进;但真正敢进入生产环境的 AIOps,仍然离不开坚实、受控、可审计、可回退的自动化底座。 从 Gartner 提出 AIOps 概念到现在,也大概有十年了。这么多年来,这个领域好像发生了很多变化,又好像没什么“本质”的变化。技术上,我们经历了传统机器学习、深度学习和神经网络、以及大模型和智能体这样“翻天覆地”的变化;业务上,我们面对的是更多品种、更大

May 31, 20263 min read

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

[译]dora:ai 辅助软件开发状态报告

执行摘要 在 2025 年,科技领导者面临的核心问题已不再是“是否要采用 AI”,而是“如何实现其价值”。 DORA 的研究基于超过 100 小时的定性访谈和来自全球近 5,000 名技术专业人士的问卷调查。研究揭示了一个关键事实:AI 在软件开发中的主要角色是“放大器”。它会放大高效能组织的优势,也会凸显组织的缺陷。 关键结论:AI 是放大器 AI 投资的最大回报并非来自工具本身,而是来自组织底层系统的战略性建设: 高质量的内部平台 清晰的工作流 团队的协同能力 缺少这些基础,AI ...

Oct 2, 202514 min read

【伪】架构师

343 posts