Skip to main content

Command Palette

Search for a command to run...

Kubernetes 部署安全最佳实践

Updated
2 min read

原文:Security Best Practices for Kubernetes Deployment

本文作者是来自 Aqua Security 的 Amir Jerbi 和 Michael Cherny,他们以大量的案例和经验为基础,总结并描述了 Kubernetes 部署中的最佳安全实践。

Kubernetes 提供了很多能够提高应用安全的方法。要进行这些配置,就要掌握 Kubernetes 的相关知识,同时也要清楚的了解安全需求。这里我们关注的安全内容集中在容器的生命周期上:构建、传输以及运行,并且针对 Kubernetes 进行了特别的裁剪。我们自己的 SaaS 就是运行在 Google Cloud Platform 上的 Kubernetes 中,已经采用了这些最佳实践。

下面是我们对于安全部署 Kubernetes 应用的一些建议。

确保镜像无漏洞

运行带有漏洞的容器会让你的环境身处险境。只要运行中的系统的所有组件都不存在已知漏洞,就能够避免很多被攻击的机会。

安全漏洞的持续扫描

容器中可能有一些过期组件,这些过期组件往往会包含已知漏洞(CVE)。新的漏洞层出不穷,因此对安全漏洞的扫描工作必须持续进行。

适时应用安全更新

一旦在运行的容器中发现了安全漏洞,就该对源镜像进行更新并部署。为了避免破坏镜像和容器的继承性,尽量不要在容器直接进行更新(例如 apt-update)。 Kubernetes 的滚动更新功能可以渐进式的为运行中的应用更新镜像,这一功能让应用更新变得简单优雅。

只使用可靠的镜像

要避免受到有漏洞甚至恶意的容器的威胁,镜像的准入就需要受到有效管理。和随意下载运行软件一样,下载运行不可靠的镜像也是高危行为,必须杜绝。

使用私库来保存你的镜像,并保证只向其推送可靠镜像。这样就缩小了战场面积,避免大量不确认的公开镜像涌入你的环境。另外建议在持续构建流程中加入漏洞扫描之类的安全环节。

持续集成管线要控制门槛,只允许使用受确认的代码进行镜像构建。镜像构建成功后,应该进行漏洞扫描,排除问题后才能推入私库,进行下一步的部署。过程中发现问题,应该终端构建过程,阻止安全质量低下的镜像进入私库。

目前 Kubernetes 正在开发镜像认证插件(将在 1.4 推出),用以阻挡未认证镜像的进入,相关信息请参看 pull request

限制对 Kubernetes Node 的直接访问

对 Kubernetes Node 的 SSH 访问会降低主机的安全性。应该让用户尽量使用 kubectl exec,这一命令提供了对容器环境的直接访问,而不需要接触宿主机。

还可以使用 Kubernetes 的 Authorization Plugins 来对用户的资源访问进行进一步控制。这一插件允许定义对命名空间、容器以及操作的基于角色的访问控制。

在资源之间建立管理边界

限制用户权限能够降低出错和入侵造成的危害。Kubernetes 命名空间让你可以把资源分割为不同名称的群组之中。一个命名空间中创建的资源对其他命名空间是不可见的。缺省情况下,Kubernetes 用户创建的资源都存在于 default 命名空间中。可以创建其他的命名空间,并把资源和用户绑定上去。可以使用 Kubernetes Authorization 插件来创建策略,让不同用户分别访问各自的命名空间和对应的资源。

例如下面的策略让 "Alice" 能够从命名空间 "fronto" 中读取 Pod:

{
  "apiVersion": "abac.authorization.kubernetes.io/v1beta1", 
  "kind": "Policy", 
  "spec": {
    "user": "alice",
    "namespace": "fronto",
    "resource": "pods",
    "readonly": true
  }
}

设定资源配额

容器运行中如果没有资源限制,那么系统就可能处于 DoS邻里不和的情境之中。要降低或阻止这一风险,就需要设定资源配额。缺省情况下,所有的 Kubernetes 集群资源都可以不受限的访问 CPU 和内存。可以为命名空间创建配额策略,来限制 Pod 的 CPU 和内存消费。

下面的例子是一个命名空间的资源配额定义,限制运行 Pod 数量为 4,CPU 的使用限制在 1-2 之间,内存使用在 1-2 G 之间:

apiVersion: v1
kind: ResourceQuota
metadata:
  name: compute-resources
spec:
  hard:
    pods: "4"
    requests.cpu: "1"
    requests.memory: 1Gi
    limits.cpu: "2"
    limits.memory: 2Gi

将资源配额指派给命名空间:

kubectl create -f ./compute-resources.yaml --namespace=myspace

规划网络分区

在同一个 Kubernetes 集群上运行不同的应用,引入了一个风险就是应用之间的互相访问。要确保容器只能访问允许访问的范围,网络分区是很重要的。Kubernetes 中的一大挑战就是在 Pod、Service 以及容器之间的网络划分,造成这一问题的根本在于容器网络的动态分配过程,让容器可以跨越 Node 进行网络互访。

Google Cloud Platform 用户收益于自动防火墙规则功能,能够阻止跨集群的通信。使用 SDN 或者防火墙能够达到类似的效果。Kuberntes Network SIG 正在进行这方面的努力,目的是增强 Pod 之间的通信策略。新的网络策略 API 将会用于创建 Pod 之间的防火墙规则,限制容器应用的网络访问。

下面的例子是一条网络策略,用于控制 "backend" Pod,只允许来自于 "frontend" Pod 的访问。

POST /apis/net.alpha.kubernetes.io/v1alpha1/namespaces/tenant-a/networkpolicys
{
  "kind": "NetworkPolicy",
  "metadata": {
    "name": "pol1"
  },
  "spec": {
    "allowIncoming": {
      "from": [{
        "pods": { "segment": "frontend" } 
      }],
      "toPorts": [{
        "port": 80,
        "protocol": "TCP" 
      }]
    },
    "podSelector": { 
      "segment": "backend" 
    }
  }
}

网络策略的更多信息可以阅读 SIG-Networking: Kubernetes Network Policy APIs Coming in 1.3

Pod 和容器的安全上下文

设计容器和 Pod 的时候,一定要配置 Pod、容器以及卷的安全上下文。安全上下文是部署 Yaml 中的一个属性,他控制了 pod/container/volume 的安全参数,下面列出一些重要的参数:

安全上下文设置描述
SecurityContext->runAsNonRoot容器应该用非 root 用户运行
SecurityContext->Capabilities设置 Linux 分配给容器的性能
SecurityContext->readOnlyRootFilesystem容器是否可以写入 root 文件系统
PodSecurityContext->runAsNonRoot阻止 Pod 中的容器以 root 用户运行

下面是一个带有安全上下文的 Pod 定义:

apiVersion: v1
kind: Pod
metadata:
  name: hello-world
spec:
  containers:
  # specification of the pod’s containers
  # ...
  securityContext:
    readOnlyRootFilesystem: true
    runAsNonRoot: true

参考

如果用特权形式(--privileged)运行容器,可以用 DenyEscalatingExec 控制。这一开关拒绝在特权容器上使用 Exec 和 Attach 命令。具体情况可以参考 Admission 文档

记录日志

Kubernetes 支持集群级别的日志,集中收集日志到中央服务。当集群创建之后,STDOUT 和 STDERR 就能够被 Node 中的 Fluent 搜集起来,并汇总到 Google Stackdriver Logging 或者 Elasticsearch,并用 Kibana 进行查看。

总结

Kubernetes 为安全提供了很多特性。对这些特性进行学习和了解,才能够制定出符合应用需求的安全方案。

我们建议实施文中提到的最佳实践,使用 Kubernetes 的动态配置能力,结合持续集成,无缝提高安全保障能力。

More from this blog

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

[译]dora:ai 辅助软件开发状态报告

执行摘要 在 2025 年,科技领导者面临的核心问题已不再是“是否要采用 AI”,而是“如何实现其价值”。 DORA 的研究基于超过 100 小时的定性访谈和来自全球近 5,000 名技术专业人士的问卷调查。研究揭示了一个关键事实:AI 在软件开发中的主要角色是“放大器”。它会放大高效能组织的优势,也会凸显组织的缺陷。 关键结论:AI 是放大器 AI 投资的最大回报并非来自工具本身,而是来自组织底层系统的战略性建设: 高质量的内部平台 清晰的工作流 团队的协同能力 缺少这些基础,AI ...

Oct 2, 202514 min read

僭越了,有人在用 Rust 写 Kubernetes

一个新语言问世,最爱做的事情之一,就是重写存量软件了。 云原生喝酒 SIG 重点扶持项目——rk8s(https://github.com/rk8s-dev/rk8s) 也可以归在这个范畴里,只不过这个项目重写的东西比较大,是 Kubernetes。 从 2025 年 1 月第一个 Commit 开始,到现在有了 200 多次 Commit,十几万行代码。当然距离 Kubernetes 的几百万行代码还差得远——老马就是喜欢整这种大无畏项目。 另外该项目也是国内第一个脱离 Cargo 转向使用 ...

Sep 27, 20253 min read

【伪】架构师

342 posts