Skip to main content

Command Palette

Search for a command to run...

Argo Workflow 中的卸载和归档

Updated
2 min read

卸载

Argo workflow 使用 CR 方式来保存工作流的运行状态,众所周知 ETCD 有一个请求大小的限制:1MB,也就是说,如果我们的 Workflow 对象 YAML 尺寸大于 1MB,超出了 ETCD 限制,就无法正常保存了。这种场景最常见于对大量目标进行循环的情况下,作为一个成熟的工作流系统,Argo workflow 自然是考虑到这方面的限制,提供了称为卸载(Offload)的方式,用于处置超大尺寸的工作流。

简单来说,在遇到超大工作流时,Argo Workflow 会对其 status.nodes 字段进行压缩,然后保存到 ETCD 中,当需要查询时,会先从 ETCD 中查询出压缩后的数据,再进行解压,从而避免了 ETCD 的限制。如果压缩仍然无法满足这一要求,Argo workflow 会将它保存到数据库中。

那么什么才是“超大”呢?Argo workflow 中,默认 1024*1024 为超大,但是我们可以通过修改 Workflow 控制器中的 MAX_WORKFLOW_SIZE 环境变量来改变这个值。为了测试方便,我们将环境变量修改为 10240,也就是 10KB。

为了测试方便,我们选用 Hello 插件来进行测试,使用之前首先要启用这个插件:

  1. https://github.com/argoproj-labs/argo-workflows-hello-executor-plugin 获取代码

  2. kubectl apply -f hello-executor-plugin-configmap.yaml 即可启用该插件。

接下来编写一个最小的 Workflow:

apiVersion: argoproj.io/v1alpha1
kind: Workflow
metadata:
  generateName: little-
spec:
  entrypoint: main
  templates:
  - name: main
    steps:
    - - name: item
        template: atom
        withSequence:
          count: "5"
  - name: atom
    plugin:
      hello: { }

提交之后,看一下这个工作流的尺寸:

$ kubectl get wf little-xbg5g -o yaml | wc -c
    4549

只有 4K 多一点,不会触发压缩,如果查看这个 YAML,会看到里面的 Nodes 情况。那么我们将循环次数提高到 50 会发生什么?

...
  generateName: bigger-
spec:
...
    - - name: item
        template: atom
        withSequence:
          count: "50"
...

提交运行后,我们会发现,这个 WF 对象的 status.nodes 节点不见了,取而代之的是 status.compressedNodes,其中包含了一串编码内容,如果用 base64 -d | gunzip 处理后,就会看到 status.nodes 的内容了。

如果工作流再大一些呢?例如我们把循环次数放大到 500:

...
  generateName: huge-
spec:
...
    - - name: item
        template: atom
        withSequence:
          count: "50"
...

Argo workflow 提交直接会出错:workflow is longer than maximum allowed size. compressed size 18191 > maxSize 10240Tried to offload but encountered error: offload node status is not supported,也就是说,经过压缩之后,还是超出了最大限制,尝试卸载,结果失败了。那么如何启用卸载呢?

Wrokflow Controller 有一个可选的 Configmap,其中包含对持久化卸载的选项,例如我这样设置的:

apiVersion: v1
data:
  persistence: |
    connectionPool:
      maxIdleConns: 100
      maxOpenConns: 0
      connMaxLifetime: 0s
    nodeStatusOffLoad: true
    mysql:
      host: argo-mysql.default
      port: 3306
      database: argo
      tableName: argo_workflows
      userNameSecret:
        name: argo-mysql-cred
        key: user
      passwordSecret:
        name: argo-mysql-cred
        key: password
kind: ConfigMap
metadata:
  name: workflow-controller-configmap
  namespace: argo

提交之前首先要准备数据库:

  1. argo 命名空间中创建一个 Secret 备用,其中包含两个字段,分别是 MySQL 的用户名和密码。

  2. 创建一个 MySQL Database,命名为 argo,并且让前面 Secret 中声明的凭据可以访问。

  3. 在配置中引用前面创建的 Secret。

提交 Configmap 之后,重启 Workflow Controller。再次提交上述的工作流,可以看到工作流已经可以运行了。

成功后,使用 argo watch 命令是无法获取详情的,但是可以在 Argo Server 的 Web 界面上查看。

如果进入数据库,可以看到 argo_workflowsnodes 字段已经保存了完整的 Node 信息。

归档

虽然我们可以使用垃圾搜集策略来适时删除 Pod,但是 WF 对象始终存在,除了 kubectl get wf > backup.yaml,Argo workflow 有没有提供更好的归档能力呢?

启用数据库之后,就可以进行归档了,用法很简单,仍然从 Configmap 配置入手:

archiveTTL: 180d
archiveLabelSelector:
  matchLabels:
    workflows.argoproj.io/archive-strategy: "always"

archiveTTL 表示归档寿命,默认为 0,也就是用不删除,archiveLabelSelector 则是标签选择器,用于指定哪些工作流需要被归档。例如下面的 metadata

metadata:
  generateName: backup-
  labels:
    workflows.argoproj.io/archive-strategy: "always"

提交工作流,运行完成后,使用 kubectl get wf 可以看到他的标签发生了变化:

labels:
    workflows.argoproj.io/archive-strategy: always
    workflows.argoproj.io/completed: "true"
    workflows.argoproj.io/phase: Succeeded
    workflows.argoproj.io/workflow-archiving-status: Archived

此时查看数据库内容,可以看到 argo_archived_workflows 表中已经记录了这个工作流的信息。

More from this blog

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

[译]dora:ai 辅助软件开发状态报告

执行摘要 在 2025 年,科技领导者面临的核心问题已不再是“是否要采用 AI”,而是“如何实现其价值”。 DORA 的研究基于超过 100 小时的定性访谈和来自全球近 5,000 名技术专业人士的问卷调查。研究揭示了一个关键事实:AI 在软件开发中的主要角色是“放大器”。它会放大高效能组织的优势,也会凸显组织的缺陷。 关键结论:AI 是放大器 AI 投资的最大回报并非来自工具本身,而是来自组织底层系统的战略性建设: 高质量的内部平台 清晰的工作流 团队的协同能力 缺少这些基础,AI ...

Oct 2, 202514 min read

僭越了,有人在用 Rust 写 Kubernetes

一个新语言问世,最爱做的事情之一,就是重写存量软件了。 云原生喝酒 SIG 重点扶持项目——rk8s(https://github.com/rk8s-dev/rk8s) 也可以归在这个范畴里,只不过这个项目重写的东西比较大,是 Kubernetes。 从 2025 年 1 月第一个 Commit 开始,到现在有了 200 多次 Commit,十几万行代码。当然距离 Kubernetes 的几百万行代码还差得远——老马就是喜欢整这种大无畏项目。 另外该项目也是国内第一个脱离 Cargo 转向使用 ...

Sep 27, 20253 min read

【伪】架构师

342 posts