Skip to main content

Command Palette

Search for a command to run...

多数 Dockerfile 示例可能都不够严谨

Updated
1 min read

原文:Broken by default: why you should avoid most Dockerfile examples

作者:Itamar Turner-Trauring

想把 Python 应用打包成 Docker 镜像,很自然的行为就是上网搜个例子。简单的一搜,就能得出大量简单易懂的结果。

不幸的是这些简单方便的例子经常是有一些这样那样的缺陷,有的显而易见,有的可能就不那么明显了。为了发掘这些问题,本文中将要:

  1. 用一个在 Google 搜索结果中常见的 Dockerfile 开始。
  2. 展示其中的问题。
  3. 给出一些修复问题的建议。

本文的 Docerfile 仅用于解决这里发现的问题,不能算作最佳实践。

先天不足

看看下面的 Dockerfile,这是一个网上搜到的 Python 的容器化例子。做了一点点修改,来隐藏其出处,不过主干是一致的:

# DO NOT USE THIS DOCKERFILE AS AN EXAMPLE, IT IS BROKEN
FROM python:3

COPY yourscript.py /

RUN pip install flask

CMD [ "python", "./yourscript.py" ]

这个 Dockerfile 的一些问题

这个镜像中你能看到什么问题?

问题 1:Python 版本的不确定性

这里第一个需要注意的问题是,基础镜像是:python:3。在编写这个文件的时候,会安装 Python 3.7,但是可能未来某一天的重新构建,可能会变成 Python 3.8。这种版本切换,可能会让这一应用完全无法运行,从而打断了产品的交付过程。

建议:使用 python:3.7 作为基镜像。

问题 2:依赖库版本的不确定性

这里的 pip install flask,没有包含版本信息,所以每次重新构建,都可能升级成最新的 flask(或者 flask 的依赖,又或者 flask 的依赖的依赖)。保持兼容自然没问题,否则的话麻烦就大了。

建议:创建 requirements.txt,其中记载所有依赖的版本号,可以用 pip-tools 完成这一任务。

问题 3:代码的变更会让构建缓存失效

Docker 的层缓存对提高构件速度很有帮助。但是如果把 COPY 操作放在 pip install 前面,所有后续的层就都失效了,也就是说这一镜像会完全重新构建。

建议:在合适的时机进行文件复制。

问题 4:用 root 身份运行

缺省情况下,Docker 容器是用 root 身份运行的,这并不安全

建议:如果不是有特定需要,例如监听 1024 以下的端口或者完成一些必须 root 身份的操作,建议使用非 root 账号。

改良版本

为了解决上面发现的几个问题,对 Dockerfile 做出如下修改:

FROM python:3.7

COPY requirements.txt /tmp/

RUN pip install -r /tmp/requirements.txt

RUN useradd --create-home appuser
WORKDIR /home/appuser
USER appuser

COPY yourscript.py .

CMD [ "python", "./yourscript.py" ]

这样改进了之后,也并不是就适合在生产环境中运行了,这个镜像还有一些不足。

例如,用一种受控的方式来对 requirements.txt 进行常规更新,以便进行安全更新和 Bug 修复,可能还要禁用缓存对镜像进行周期性重建,来获取安全加固。

参考链接

  • https://pythonspeed.com/articles/docker-cache-insecure-images/
  • https://docs.docker.com/develop/develop-images/dockerfile_best-practices/
  • https://hynek.me/articles/python-app-deps-2018/

More from this blog

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

[译]dora:ai 辅助软件开发状态报告

执行摘要 在 2025 年,科技领导者面临的核心问题已不再是“是否要采用 AI”,而是“如何实现其价值”。 DORA 的研究基于超过 100 小时的定性访谈和来自全球近 5,000 名技术专业人士的问卷调查。研究揭示了一个关键事实:AI 在软件开发中的主要角色是“放大器”。它会放大高效能组织的优势,也会凸显组织的缺陷。 关键结论:AI 是放大器 AI 投资的最大回报并非来自工具本身,而是来自组织底层系统的战略性建设: 高质量的内部平台 清晰的工作流 团队的协同能力 缺少这些基础,AI ...

Oct 2, 202514 min read

僭越了,有人在用 Rust 写 Kubernetes

一个新语言问世,最爱做的事情之一,就是重写存量软件了。 云原生喝酒 SIG 重点扶持项目——rk8s(https://github.com/rk8s-dev/rk8s) 也可以归在这个范畴里,只不过这个项目重写的东西比较大,是 Kubernetes。 从 2025 年 1 月第一个 Commit 开始,到现在有了 200 多次 Commit,十几万行代码。当然距离 Kubernetes 的几百万行代码还差得远——老马就是喜欢整这种大无畏项目。 另外该项目也是国内第一个脱离 Cargo 转向使用 ...

Sep 27, 20253 min read

【伪】架构师

342 posts