Skip to main content

Command Palette

Search for a command to run...

我就要在容器里写文件!

Updated
2 min read

在生产环境上遇到过一个讨厌的事情,有业务应用在容器中写入大量日志,导致磁盘空间爆满,引发了大面积驱逐。这种情况还有个比较烦心的事情就是无从监控,因此也不能用告警解决。

docker ps --size 可以凑合试一下。

虽说提倡使用标准输出来打印日志,通过 Docker 参数控制日志翻转,但是第三方容器的写入很难劝说整改,并且客观存在写入临时文件等的情况,所以还是要想个办法,在受控的情况下进行写入。

为了防止这种情况的出现,很自然的想出对策——避免容器内的任意写入行为,在 securityContext 里面加上 readOnlyRootFilesystem: true 就可以了:

  containers:
  - image: dustise/sleep:v0.9.6
    name: sleep
    securityContext:
      readOnlyRootFilesystem: true

这个容器创建之后,进入容器发现已经无法写入了。要写入文件,必须使用加载卷的方式,才能在指定位置进行写入,限制了卷尺寸,也就限制了文件写入了。

  containers:
  - image: dustise/sleep:v0.9.6
    name: sleep
    volumeMounts:
    - mountPath: /cache
      name: cache-volume
  volumes:
  - name: cache-volume
    emptyDir:
      sizeLimit: "100Mi"

这里我们创建了一个限制尺寸为 100Mi 的卷,然后进入 Pod 尝试写入一个 500M 的文件:

$ df -h /cache
Filesystem                Size      Used Available Use% Mounted on
/dev/vda1                98.3G     17.3G     76.8G  18% /cache

$ dd if=/dev/zero of=/cache/data.txt bs=500M count=1
1+0 records in
1+0 records out
$ command terminated with exit code 137

可以看到这个卷的尺寸并非我们指定的 100M,而是整个数据盘的大小,后面文件成功写入了,但是过几分钟之后,Shell 被踢出,发现 Pod 被驱逐了:

$ kubectl get pods
NAME                     READY   STATUS    RESTARTS   AGE
sleep-68bc88849b-5rwrd   0/1     Evicted   0          7m48s
sleep-68bc88849b-b7wz5   1/1     Running   0          104s

$ kubectl describe po sleep-68bc88849b-5rwrd
...
  Warning  Evicted    2m42s  kubelet            Usage of EmptyDir volume "cache-volume" exceeds the limit "100Mi".
  Normal   Killing    2m42s  kubelet            Stopping container sleep

可以看到驱逐原因的确是超出了限制。

驱逐是个比较慢的过程,可能不太合适,我们知道,emptyDir 还有一种内存的方式,会有改善么?

emptyDir:
  sizeLimit: "100Mi"
  medium: "Memory"

同样测试,发现还是被驱逐了。这种类型的卷是会占用容器的内存限制的(这点在实际应用时一定要注意,防止 emptyDir 挤占业务应用内存),加上 limit 会不会有所好转呢?

resources:
  requests:
    memory: "300Mi"
  limits:
    memory: "300Mi"

再次进入容器:

$ df -h /cache
Filesystem                Size      Used Available Use% Mounted on
tmpfs                     7.7G    100.0M      7.6G   1% /cache

$ dd if=/dev/zero of=/cache/data.txt bs=500M count=1
dd: error writing '/cache/data.txt': Out of memory
0+1 records in
0+0 records out

这次的反应速度就很快了,直接被拒绝。

Limit 这么好用,如果直接限制 Ephemeral Storage 会不会又能快速反应,又不影响内存占用呢?答案是否定的,这个资源的 Limit 同样是使用驱逐机制实现的。

1.20 中新增了一个 Feature gate:SizeMemoryBackedVolumes

如果放弃内存 emptyDir 的话,hostPath 能满足要求么?

apiVersion: v1
kind: PersistentVolume
metadata:
  name: task-pv-volume
  labels:
    type: local
spec:
  storageClassName: manual
  capacity:
    storage: 1Gi
  accessModes:
    - ReadWriteOnce
  hostPath:
    path: "/mnt/data"
---
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: task-pv-claim
spec:
  storageClassName: manual
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: 1Gi

申请了一个 1G 的 PVC 之后,再尝试创建文件,很遗憾,最终我在 /mnt/data 目录下收获了 10G 的文件。甚至也没有驱逐过程,换用 Local Persistent Volume 也没有任何变化。

结论

Kubernetes 容器中写入文件是一个非常不推荐的操作。两种本地卷都无法达成限制目的。如果没有外部存储设施,仅能通过 emptyDir 实现简单的写入限制,内存类型的会侵占应用内存,而磁盘类型的限制则要依赖于驱逐机制相对迟缓地完成操作。

More from this blog

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

[译]dora:ai 辅助软件开发状态报告

执行摘要 在 2025 年,科技领导者面临的核心问题已不再是“是否要采用 AI”,而是“如何实现其价值”。 DORA 的研究基于超过 100 小时的定性访谈和来自全球近 5,000 名技术专业人士的问卷调查。研究揭示了一个关键事实:AI 在软件开发中的主要角色是“放大器”。它会放大高效能组织的优势,也会凸显组织的缺陷。 关键结论:AI 是放大器 AI 投资的最大回报并非来自工具本身,而是来自组织底层系统的战略性建设: 高质量的内部平台 清晰的工作流 团队的协同能力 缺少这些基础,AI ...

Oct 2, 202514 min read

僭越了,有人在用 Rust 写 Kubernetes

一个新语言问世,最爱做的事情之一,就是重写存量软件了。 云原生喝酒 SIG 重点扶持项目——rk8s(https://github.com/rk8s-dev/rk8s) 也可以归在这个范畴里,只不过这个项目重写的东西比较大,是 Kubernetes。 从 2025 年 1 月第一个 Commit 开始,到现在有了 200 多次 Commit,十几万行代码。当然距离 Kubernetes 的几百万行代码还差得远——老马就是喜欢整这种大无畏项目。 另外该项目也是国内第一个脱离 Cargo 转向使用 ...

Sep 27, 20253 min read

【伪】架构师

342 posts