Skip to main content

Command Palette

Search for a command to run...

Kube-Node:让 Kubernetes 自行管理节点

Published
1 min read

原文:Kube-Node: Let Your Kubernetes Cluster Auto-Manage Its Nodes

本文是一个系列中的一篇,来自于 CNCF 成员,为奥斯汀 12.6-12.8 的 KubeCon/CloudNativeCon 而做。

Michelle Noorali 在今年三月份的欧洲 KubeCon 上的 KeyNote中说到:Kubernetes 对开发人员来说还是太难了。原则上来说,开发人员对 Kubernetes 和容器技术是非常热爱的,这一系列的技术让开发人员编写的应用能够到处运行,却无需担心基础设施的差异。但事实上,这一技术体系还是有很多依赖的,这些依赖很大程度上磨灭了用户的热情。

对开发人员来说,Kubernetes 有个主要的障碍就是他无法对其服务器进行自动管理和伸缩,因此一个工作节点的部署或移除都少不了运维工程师的参与。当然目前有很多节点部署方案,例如 TerraformChef 以及 Puppet,这些技术让运维人员的日子好过了点。然而上述技术都需要一些特定领域的知识;目前还不存在一种无须运维接入的通用的跨平台方法。

Kubernetes 节点的生命周期,同其他的 Kubernetes 资源的生命周期是不一致的,这是 Kubernetes 节点部署和管理的一个主要问题。当下的节点管理生命周期里,节点是在一台服务器加入集群之后创建的。然而一般的 Kubernetes 资源并不是这样的:首先创建资源,然后才加入服务器。

这种情况是不合理的。为了解决这一问题,来让节点的管理工作纳入正轨,我们决定启动 kube-node 这一社区项目。我们的目标是为 Kubernetes 开发一个类似 持久卷系统 的原生节点整合方案。

持久卷系统从各种云中抽象出了存储的供给和使用的功能。这种抽象把存储卷的生命期从环境中独立出来,令其可以被动态的分配和管理。

如何设置 Kube-Node

类似持久卷的设置,Kube-Node 是一个高级别的抽象系统:

  • 管理员进行配置的定义

  • 开发人员可以使用简单的kubectl create node -f node1.yaml来对集群进行扩容

  • Kubernetes 控制节点的生命周期

为了达成这一目标,我们引入了两个新的 API 资源:NodeClass 和 NodeSet,这些资源由 NodeController 和 NodeSetController 来进行管理。

  • NodeSet 保证任意时间内都有指定数量的节点正在运行。跟 ReplicaSet 类似,NodeSet 要保障一个节点或者一系列的同质化节点的运行和可用状态。 NodeSet 来自于 NodeClass,其细节定义在 Node 模板中。

  • NodeClass 让管理员有了为新节点设置配置的可能性。NodeClass 包括了云供应商和操作系统特定的细节,例如认证信息、机器类型等数据。另外管理员还可以定义服务质量水平和策略。Kubernetes 不能干涉 NodeClass 的定义。

  • NodeSetController 会关注 NodeSet,负责节点的创建和删除工作。在目前的实现中,他管理节点资源的创建,并跟 GKE 的节点池进行同步。

  • NodeController 关注节点对象并在云端进行服务器的供应。服务器加入集群之后,kubelet 会更新节点资源;类似的,在节点对象被删除的时候,NodeController 会从云端删除这一服务器。

概述和路线

kube-node 是一个社区项目,用于提供通用的 Kubernetes 节点管理手段。目标是为开发者提供一个无需运维介入的、基础设施无关的简单方式,来对集群进行伸缩。其中包含了基于 CustomResourceDefinition 的类型、client-go 为基础的客户端以及 NodeController 和 NodeSetController。

首先会实现 NodeSetController 和 NodeController 的联动,接下来会和 GKE 节点池进行集成。上面的两个步骤会针对各种不同用例来进行概念的验证。NodeController 的第一步会复用 docker-machine 的一部分代码,称为 kube-machine,用于和多个不同的云供应商中加载服务器。

下一步,我们计划把 NodeSet 和 Kubernetes 的自动伸缩功能进行集成,让 NodeController 根据集群负载,能够自动对 NodeSet 的实例数进行设置。这一集成能够让 Kubernetes 在多种不同的平台上实现集群的自动伸缩。另外我们会实现更多的 NodeController,包括 Terraform、Python 或者 AWS。

More from this blog

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

[译]dora:ai 辅助软件开发状态报告

执行摘要 在 2025 年,科技领导者面临的核心问题已不再是“是否要采用 AI”,而是“如何实现其价值”。 DORA 的研究基于超过 100 小时的定性访谈和来自全球近 5,000 名技术专业人士的问卷调查。研究揭示了一个关键事实:AI 在软件开发中的主要角色是“放大器”。它会放大高效能组织的优势,也会凸显组织的缺陷。 关键结论:AI 是放大器 AI 投资的最大回报并非来自工具本身,而是来自组织底层系统的战略性建设: 高质量的内部平台 清晰的工作流 团队的协同能力 缺少这些基础,AI ...

Oct 2, 202514 min read

僭越了,有人在用 Rust 写 Kubernetes

一个新语言问世,最爱做的事情之一,就是重写存量软件了。 云原生喝酒 SIG 重点扶持项目——rk8s(https://github.com/rk8s-dev/rk8s) 也可以归在这个范畴里,只不过这个项目重写的东西比较大,是 Kubernetes。 从 2025 年 1 月第一个 Commit 开始,到现在有了 200 多次 Commit,十几万行代码。当然距离 Kubernetes 的几百万行代码还差得远——老马就是喜欢整这种大无畏项目。 另外该项目也是国内第一个脱离 Cargo 转向使用 ...

Sep 27, 20253 min read

【伪】架构师

342 posts