Skip to main content

Command Palette

Search for a command to run...

SoundCloud 如何使用 HAProxy 和 Kubernetes 处理用户流量

Updated
1 min read

原文:How SoundCloud uses HAProxy with Kubernetes for user-facing traffic

两年前 SoundCloud 开始了将我们的自研部署平台 Bazooka 迁移到 Kubernetes 的尝试。Kubernetes 将容器化应用的部署、伸缩和管理都进行了自动化。

问题

用户流量的路由,是这类动态平台需要面对的一个重大挑战:把来自用户的 API 和网站访问路由到运行在 Kubernetes 的 Pod 上。

多数 SoundCloud 运行在一个物理机环境下,所以我们无法享受 Kubernetes Loadblancer 的福利。在基础设施的边际,有一组 HAProxy 服务器使用简单的规则,承担着 SSL 端点的角色,把流量转发给各种内部服务。这些服务器的配置在运行之前是分别进行生成和测试的。有很多内置的保护措施的存在,这一过程会相当耗时,无法跟上 Kubernetes 集群中 Pod 的漂移速度。这样就导致我们的静态 SSL 端点和 Kubernetes 中的动态变化之间的矛盾。

过程

起初,我们把端点层配置为转发 HTTP 请求到 HAProxy 为基础的 Ingress Controller 之中,但是这一方案对我们不太合适,Ingress 控制器设计预期是低流量的内部服务,并不可靠。我们的用户生成了很多流量,每一个问题都会导致部分用户无法使用 SoundCloud。在 Kubernetes Ingress 和端点之间,我们有了两层 L7 要相互配对,而且经常无法配对。这对我们的开发人员造成很大困扰,增加了不少工作。

我们还知道 Ingress Controller 无法处理我们部分客户端使用的长连接。

当 SoundCloud 工程师构建应用时,我们使用一个自定义命令行界面来生成 Namespace、Service、Deployment 和可选的 Ingress Kubernetes 对象。我们添加了一个参数,来把服务改成 NodePort 类型

Kubernetes 在集群中找一个没被占用的端口分配给服务,并在集群每个节点上开放这个端口。到任意一个节点的该端口的访问都会被转发给这一服务的某一个实例。(我们生成的 Kubernetes 对象在 Deployment 和 Service 之间有着一对一的关系)。为简便起见,这里就不深入谈论 ReplicaSet、Pod、以及 Endpoint 等 Kubernetes 对象了。

对服务的这种改变(Ingress 到 NodePort)是不可逆的。Kubernetes 不允许移除服务定义中的 NodePort 字段。我们还在寻求解决办法 —— 这种情况虽然可以通过删除再重建服务的方式来解决,但是这一方式会导致服务中断。

应用开发者为应用声明集群、命名空间、服务和端口名,生成一个特定的主机名和路径。系统根据这一配置,将来自 SSL 端点、CDN 分发以及 DNS 等的流量转发给应用。

实现

当端点配置声成以后,脚本向 Kubernetes 集群查询每个服务的 Node Port,以及 Kubernetes 的节点列表。起初我们把所有节点都加入到端点的配置之中,不过后来证明这是一个问题。

每个端点会独立的检查每个节点的每个端口的健康状况。几十个端点,几百个 Kubernetes 节点,导致每秒钟上万次的健康检查。这种检查是通过节点进行的,跟服务规模无关,所以即使是很低流量的服务,也需要大量的资源来应对这些健康检查。

我们因此减少了配置给每个服务的节点数量,不过我们也不希望这个节点数量太少,免得造成性能瓶颈。一个简单的方案就是随机从列表中选择一些节点,但这样的话,这一列表的每次生成,都会发生很大的变化,会跟真正的部署调整造成混淆。所以我们决定使用服务名称和节点地址来进行哈希,为每个服务选择一组固定数量的服务器,但是这个选择在节点不变的情况下也会保持不变。

我们选择足够多的节点,这样就不必担心一两台节点发生当机,或节点被多个高流量服务重叠使用。

要替换一个节点,只需要重启 Pipeline,生成并部署新的端点配置。这会花费几个小时,好在是全自动的。因为每个服务都通过有限数量的节点进行路由,因此不能一次性的从同一个服务中移除太多节点。这意味着,我们只能每天从 Kubernetes 集群中替换有限数量的节点,不过目前为止这还没有造成什么问题。

Node Agent

在短期维护中,例如内核更新需要重启节点,我们需要一种将节点优雅排空的能力。我们为 HAProxy 的 agent-check 协议开发了一个 Agent,监听每个节点的固定端口。为了简单起见,我们希望能够同时移除流量和 Pod,当节点从 Kubernetes 进行隔离之后,新的 Pod 不会被调度在这一节点上,Agent 更新 HAProxy 状态,将流量从这一节点上移除。

有时我们还要把流量在一个服务的不同 Deployment 之间进行切换,还包括同一集群和不同集群的情况。为了支持这种切换,我们对这个 Agent 进行了扩展。我们在 Kubernetes 的 Service 对象上增加了一些注解(annotations),以此指示监听新的端口,扩展的 Agent 不仅检查节点的维护状态,还会检查这一服务的优先级。端点配置过程会获取这一信息并据此配置 Agent 的检查行为。应用开发者可以添加多个 Kubernetes 后端到任意的公开主机和路径。每个后端我们都像之前一样利用哈希选择一组节点提供服务。修改服务注解,就能在几秒钟改变各个后端服务的权重。

未来

这种基于 NodePort 的路由方式工作的不错,但是也有一些隐忧。一个应用实例之间的负载分配并不均等,我们的应对方式是为应用分配稍多的资源。这一问题上,多分配资源的成本远低于由工程师开发新的负载均衡机制所需要的花费。

在物理机组成的数据中心运维 Kubernetes 是一个挑战。在公有云服务中,都会提供标准方案;而每个数据中心都会有些不同——尤其是并非从头开始,而是将 Kubernetes 向现有基础设施进行融合的情况下。本文中,我们主要阐述的就是我们应对部分问题的部分解决方法.

下一步?我们目前考虑的是在不同位置的多个 Kubernetes 集群,为不同用户选择不同集群来达到优化体验的目的。

More from this blog

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

[译]dora:ai 辅助软件开发状态报告

执行摘要 在 2025 年,科技领导者面临的核心问题已不再是“是否要采用 AI”,而是“如何实现其价值”。 DORA 的研究基于超过 100 小时的定性访谈和来自全球近 5,000 名技术专业人士的问卷调查。研究揭示了一个关键事实:AI 在软件开发中的主要角色是“放大器”。它会放大高效能组织的优势,也会凸显组织的缺陷。 关键结论:AI 是放大器 AI 投资的最大回报并非来自工具本身,而是来自组织底层系统的战略性建设: 高质量的内部平台 清晰的工作流 团队的协同能力 缺少这些基础,AI ...

Oct 2, 202514 min read

僭越了,有人在用 Rust 写 Kubernetes

一个新语言问世,最爱做的事情之一,就是重写存量软件了。 云原生喝酒 SIG 重点扶持项目——rk8s(https://github.com/rk8s-dev/rk8s) 也可以归在这个范畴里,只不过这个项目重写的东西比较大,是 Kubernetes。 从 2025 年 1 月第一个 Commit 开始,到现在有了 200 多次 Commit,十几万行代码。当然距离 Kubernetes 的几百万行代码还差得远——老马就是喜欢整这种大无畏项目。 另外该项目也是国内第一个脱离 Cargo 转向使用 ...

Sep 27, 20253 min read

【伪】架构师

342 posts