Kubeadm offline installer 升级到 1.7.0 版本

仓库地址

本来做这玩意的初衷就是,Kubeadm 和 Kubernetes 是一家人,升级比较方便跟得住。未曾想第一次大版本升级,就遇到了个不大不小的坑,导致安装无法完成。这个 Issue 会在 1.7.1 修补,下面介绍一下曲线救国的安装方式。

这一问题的似乎是 kubeadm 的更新破坏了 TLS 自动授权过程造成的,具体症状是:主节点的kubeadm init完成之后,在其他节点上使用kubeadm join --token=xxxx host_ip:host_port命令加入集群时,集群会反复输出错误信息,大意是kube-public命名空间中名为cluster-info的 ConfigMap 中没有对应 token 的签署记录。

使用 kubectl 查看该 ConfigMap,和 1.6.6 的集群作对照(是的,安装的够快,想要什么版本都容易),发现 1.7.0 里面这个 ConfigMap 的元素列表确缺少这一块内容。

既然如此,看样子手工签署也是要废不少工夫,干脆转头使用上一版本(1.6.6)的 kubeadm,使用指定版本的方式来安装 1.7.0 的集群。

kubeadm init过程会顺利完成,然而在kubeadm join过程中,会卡在CSR阶段,经过翻查文档,1.7.0 的自动授权方式有变化,废弃了原有的根据 Group 自动通过的开关,一不做二不休,在 Playbook 的 Master Role 中新建一个 Cron Job,每分钟执行一次如下命令:

#!/bin/sh
TOKEN=`kubectl get csr | grep csr | grep -i pending | cut -f1 -d " " | head -n 1`
if [[ -n "$TOKEN" ]]; then
  kubectl certificate approve $TOKEN
  echo "CSR: $TOKEN had been approved." >> /var/log/auto_approval.log
else
  echo "CSR not found." >> /var/log/auto_approval.log
fi

简单说就是获取在途的 CSR,进行 Approve。 这样在后面的节点进行加入的时候,主节点会每分钟进行一次 Approve,在所有节点成功加入之后,调用 Cleanup 角色,禁用这一功能即可。

最后,Github 不建议在版本库中存放二进制文件,这里我将所有二进制文件集中到了根目录的files目录下,要顺利使用这一脚本,一定要在 Release 页面中下载相应的压缩包来使用。