Skip to main content

Command Palette

Search for a command to run...

使用 Shell Operator + CRD 恢复被暂停的 Argo Workflow

Updated
2 min read

上一篇讲到,使用 Kyverno 通过对特定标签的识别,让每个步骤进入自动暂停的状态,实现逐步骤运行。留了个尾巴,怎样才能快速的恢复被暂停步骤的运行?

TL;DR;

随便搞个 CRD,用 Shell Operator 监听,自动执行 kubectl exec 恢复目标步骤的运行。

Shell Operator 简介

简单来说,Shell Operator 是一个让用户能够使用脚本语言快速建立 Operator 的框架,能够非常方便的完成定时运行、启动运行、监听并响应 Kubernetes 对象和 CRD 等能力。

这篇文章会使用这一框架,从 CR 资源获取用户恢复运行指定步骤的意图,并完成恢复运行的操作。整个操作分为如下步骤:

  • 创建 CRD
  • 编写 Shell Operator
  • 运行测试

创建 CRD

要恢复一个被暂停的工作流步骤,其输入只需要工作流 ID 和被暂停步骤(Template)名称即可,制定如下 CRD:

apiVersion: apiextensions.k8s.io/v1
kind: CustomResourceDefinition
metadata:
  name: resumes.argocontroller.io
spec:
  conversion:
    strategy: None
  group: argocontroller.io
  names:
    kind: Resume
    listKind: ResumeList
    plural: resumes
    singular: resume
  scope: Namespaced
  versions:
  - name: v1alpha1
    schema:
      openAPIV3Schema:
        properties:
          apiVersion:
            type: string
          kind:
            type: string
          metadata:
            type: object
          spec:
            properties:
              TemplateName:
                type: string
              Workflow-ID:
                type: string
            type: object
        type: object
    served: true
    storage: true

命名有点草率。

这个 CRD 中使用了 Workflow-IDTemplateName 两个字段,分别用来查找流程实例和被暂停的步骤。

编写 Shell Operator

一个 Shell Operator 通常分为几个部分:

  • 配置文件,用来指定触发时机,例如定时执行、启动执行和被 Kubenetes 对象操作触发。
  • Hook 脚本:主体,用来执行指定功能。
  • Dockerfile:继承 Flant 的 Shell Operator,用来构建运行镜像。
  • Kubernetes YML:用来在 Kubernetes 中运行 Shell Operator。

配置文件

我们这里设置,监听前面的 CR argocontroller.io/resume 的创建动作,因此配置文件这样编写:

configVersion: v1
kubernetes:
- apiVersion: argocontroller.io/v1alpha1
  kind: Resume
  executeHookOnEvent: ["Added"]

使用命令 kubectl create configmap hook-conf --from-file=config.yml 创建 Configmap 供后续脚本加载。

脚本

符合触发条件的 CR 一旦创建,就会被 Shell Operator 捕获,并保存到对应 Pod 的文件系统中,临时文件名保存在环境变量 BINDING_CONTEXT_PATH 里。

这里我们使用 Shell 脚本,处理环临时文件内容,查找 CR 包含的流程实例和模板名称。查找到流程实例之后,在其 status 节点查找 Pod 名称,最后执行恢复操作。脚本内容如下:

#!/bin/bash
if [[ $1 == "--config" ]] ; then
  cat /conf/config.yml
else
    jq -c '.[]' "$BINDING_CONTEXT_PATH" | while read -r item; do
        type=$(echo "$item" | jq -r '.type')
        # 跳过无用元素
        if [ "$type" != "Event" ]; then
            continue
        fi
        # 查找流程 ID 和模板名称
        TEMPLATE_NAME=$(echo "$item" | jq -r '.object.spec.TemplateName')
        WORKFLOW_ID=$(echo "$item" | jq -r '.object.spec["Workflow-ID"]')
        echo "tmpl=${TEMPLATE_NAME}  wfid=${WORKFLOW_ID}"
        FILENAME=/tmp/wf.json
        # 获取工作流实例的 YAML
        kubectl get workflow ${WORKFLOW_ID} -o json > "${FILENAME}"
        # 查找 Pod 名称
        POD=$(jq -r ".status.nodes[] | select(.templateName == \"${TEMPLATE_NAME}\" and .type == "Pod") | .id" "${FILENAME}")
        echo "pod=${POD}"
        kubectl exec -it ${POD} -- touch /proc/1/root/var/run/argo/ctr/main/after
    done
fi

Dockerfile

Dockerfile 很简单,只要把脚本设置为可执行,并加入到 /hooks 文件夹即可:

FROM  ghcr.io/flant/shell-operator:latest
ADD wf-resume.sh /hooks

编写好之后,使用 Docker 构建镜像并推送:

docker buildx build --platform linux/amd64,linux/arm64 --push \
    -t [image-name:image-tag] .

YAML

这里我们用一个 Pod YAML 来运行 Shell Operator:

apiVersion: v1
kind: Pod
metadata:
  name: shell-operator-observe
spec:
  serviceAccountName: shell-operator
  containers:
    - name: shell-operator-observe
      image: [image-name:image-tag]
      volumeMounts:
        - name: config-volume
          mountPath: /conf
  volumes:
    - name: config-volume
      configMap:
        name: hook-conf

这里有两个需要注意的点:

  1. 监听或者修改 Kubernetes 对象是需要授权的,要针对 shell-operator 这个 Service Account 进行 RBAC 授权。
  2. 使用 Configmap 加载到镜像的 /conf 目录。

使用 kubectl 提交运行。

运行测试

运行前一片文章中使用的工作流,暂停之后,使用 kubectl get workflow,例如 pause-3141592654ft97,就可以创建如下 CR:

{
  "apiVersion": "argocontroller.io/v1alpha1",
  "kind": "Resume",
  "metadata": {
    "name": "example-resume",
    "namespace": "default"
  },
  "spec": {
    "Workflow-ID": "pause-3141592654ft97",
    "TemplateName": "whalesay"
  }
}

提交集群后,可以看到,暂停状态取消,流程变为 Succeeded 状态。

调试

Shell Operator 在工作过程中难免会出现问题,我主要依赖的三板斧:

  1. 使用 kubectl logs 查看 Pod 日志。
  2. 进入 Operator Pod,修改脚本,重复触发
  3. 脚本中加入 echo 语句,或者保存 BINDING_CONTEXT_PATH 文件。

More from this blog

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

[译]dora:ai 辅助软件开发状态报告

执行摘要 在 2025 年,科技领导者面临的核心问题已不再是“是否要采用 AI”,而是“如何实现其价值”。 DORA 的研究基于超过 100 小时的定性访谈和来自全球近 5,000 名技术专业人士的问卷调查。研究揭示了一个关键事实:AI 在软件开发中的主要角色是“放大器”。它会放大高效能组织的优势,也会凸显组织的缺陷。 关键结论:AI 是放大器 AI 投资的最大回报并非来自工具本身,而是来自组织底层系统的战略性建设: 高质量的内部平台 清晰的工作流 团队的协同能力 缺少这些基础,AI ...

Oct 2, 202514 min read

僭越了,有人在用 Rust 写 Kubernetes

一个新语言问世,最爱做的事情之一,就是重写存量软件了。 云原生喝酒 SIG 重点扶持项目——rk8s(https://github.com/rk8s-dev/rk8s) 也可以归在这个范畴里,只不过这个项目重写的东西比较大,是 Kubernetes。 从 2025 年 1 月第一个 Commit 开始,到现在有了 200 多次 Commit,十几万行代码。当然距离 Kubernetes 的几百万行代码还差得远——老马就是喜欢整这种大无畏项目。 另外该项目也是国内第一个脱离 Cargo 转向使用 ...

Sep 27, 20253 min read

【伪】架构师

342 posts

使用 Shell Operator + CRD 恢复被暂停的 Argo Workflow