Skip to main content

Command Palette

Search for a command to run...

一切从巡检开始——Prometheus 的告警迭代小窍门

Published
1 min read

Prometheus 是 CNCF 的二号项目,大致相当于各种基于 K8s 的平台的标配监控方案了,其原始产品在高可用、性能等方面都有一些不足,好在几年来社区以及终端用户的持续贡献后,在大规模大流量的场景方面已经有了长足的进步。

Prometheus 具备 CNCF 中顶级项目的普遍优势:架构优雅、社区活跃、扩展方便、生态健康。它提供了大量的 Exporter,常见软件多数都会有对应的 Exporter 用于产生监控数据,另外借助 Prometheus API,能够很方便的编写自己的 Exporter。在查询方面,虽说 PromQL 的古怪语法经常遭人诟病,但的确能够编写非常灵活的查询和告警。

在实际落地过程中,监控和告警是非常重要的一个功能特性,但是不同项目、不同的运维团队、不同的工作负载,都有可能会有不同的告警关注点。告警信息是通常有成本的,在部分项目中可能还要走正式的上线/变更流程,因此通常来说都需要有一个平衡的过程,对告警项目以及告警阈值进行开发、测试、上线、反馈、调整等一系列迭代过程。

在项目过程中,我们可以采用一种巡检+告警的模式来完成这一迭代过程。简单来说分为这样几个大步骤:

  1. 写代码,从配置文件中读取 PromQL 查询语句,使用 Rest API 从 Prometheus 中获取指标。
  2. 将预备使用的告警指标写入配置文件。
  3. 在巡检过程中执行这些查询,并生成报表。

在每次巡检过程中生成的报告里,着重关注这些新的监控数据,并把新数据和系统中对应的监控对象的实际情况进行对比,用多次巡检过程进行磨合之后,就可以上线到告警系统中,正式投入使用了。这种糙快猛的做法,一方面使用同样的语法规则,很方便的能在告警和巡检之间进行指标定义的迁移;另一方面,巡检的指标可以采用较为敏感的阈值设置,用于发现趋势性的或者重要但是紧急度不高的指标进行处理。

相对于告警来说,巡检的自由度稍大,并且没有外发成本,更能够方便的进行调整迭代,避免无用告警和过量告警。

另外推荐一个网站:Awesome Prometheus Alerts,这里汇集了很多的告警规则代码,非常适合用在监控系统的初期建设上。

More from this blog

绵里藏针才是 AIOps 的本质?

Agent 让运维编排变得柔性、可变、甚至自演进;但真正敢进入生产环境的 AIOps,仍然离不开坚实、受控、可审计、可回退的自动化底座。 从 Gartner 提出 AIOps 概念到现在,也大概有十年了。这么多年来,这个领域好像发生了很多变化,又好像没什么“本质”的变化。技术上,我们经历了传统机器学习、深度学习和神经网络、以及大模型和智能体这样“翻天覆地”的变化;业务上,我们面对的是更多品种、更大

May 31, 20263 min read

龙虾恐慌:AIOps 又要改名了?

ChatGPT 开始,把 AI 拉近到普罗大众的面前,让无数人感受到 AI 的亲民魅力。而龙虾,则把大模型驱动的自动化能力,突然间变得水灵灵、活泼泼地走进千家万户。它不只是“风口上的猪”,而是风口本身。热度高到让 Mac mini 一度断货,不知道这在不在库克的预料之内。 每代人都有每代人的鸡蛋,春节期间,我就领了我的鸡蛋。翻出古老的 MacBook Air M1,充值各种大模型。当然了,这个工具

Mar 9, 20261 min read

再见 2025

我猜不少人以为这个号废了吧?并没有,只是今年变化有点大,一直有种抄起键盘,无从说起的感觉,所以一直偷懒到今天,2025 的最后一天。 今年是我的第四个本命年,去年末一期播客里,大内说本命年不是灾年,是变化年,有危也有机。可是讲真啊,只看到危,没看到机。 各种因缘际会,从鹅厂跳槽到前东家,已经接近四年,第一个合同期已经进入尾声。除了前两年还在云原生领域嗷嗷叫,后两年基本都是些鸡零狗碎的东西了,用老东家的术语说是——偏离主航道,可谓是前景暗淡了。 一旦确定要滚蛋,反倒心思轻松起来,每天骑着我的小红车...

Jan 5, 20261 min read

辅助编程?dora 说:我知道你很急可是请你别急

从 OpenGPT 把大模型的火烧旺了之后,这三年来,相信很多组织或摩拳擦掌、或躬身入局,希望借助聪明能干的大模型,或想偿还技术宅,或想降本增效,或想弯道超车。一时间,沉寂许久的 AIxx 又活过来了,LLM Ops、Vibe Coding、中医大模型、GPT 算命等等,全都老树发新芽,焕发了勃勃生机。那么视角拉回从业者最关注的饭碗相关的领域之一——AI 辅助开发,产生了什么触动,应该如何拥抱呢? DORA 的年度报告中给出了很有意思的结论——强者恒强。 执行摘要部分总结了几个有趣的点: 问题...

Oct 6, 20251 min read

[译]dora:ai 辅助软件开发状态报告

执行摘要 在 2025 年,科技领导者面临的核心问题已不再是“是否要采用 AI”,而是“如何实现其价值”。 DORA 的研究基于超过 100 小时的定性访谈和来自全球近 5,000 名技术专业人士的问卷调查。研究揭示了一个关键事实:AI 在软件开发中的主要角色是“放大器”。它会放大高效能组织的优势,也会凸显组织的缺陷。 关键结论:AI 是放大器 AI 投资的最大回报并非来自工具本身,而是来自组织底层系统的战略性建设: 高质量的内部平台 清晰的工作流 团队的协同能力 缺少这些基础,AI ...

Oct 2, 202514 min read

【伪】架构师

343 posts