绵里藏针才是 AIOps 的本质?Agent 让运维编排变得柔性、可变、甚至自演进;但真正敢进入生产环境的 AIOps,仍然离不开坚实、受控、可审计、可回退的自动化底座。 从 Gartner 提出 AIOps 概念到现在,也大概有十年了。这么多年来,这个领域好像发生了很多变化,又好像没什么“本质”的变化。技术上,我们经历了传统机器学习、深度学习和神经网络、以及大模型和智能体这样“翻天覆地”的变化;业务上,我们面对的是更多品种、更大May 31, 2026·3 min read
僭越了,有人在用 Rust 写 Kubernetes一个新语言问世,最爱做的事情之一,就是重写存量软件了。 云原生喝酒 SIG 重点扶持项目——rk8s(https://github.com/rk8s-dev/rk8s) 也可以归在这个范畴里,只不过这个项目重写的东西比较大,是 Kubernetes。 从 2025 年 1 月第一个 Commit 开始,到现在有了 200 多次 Commit,十几万行代码。当然距离 Kubernetes 的几百万行代码还差得远——老马就是喜欢整这种大无畏项目。 另外该项目也是国内第一个脱离 Cargo 转向使用 ...Sep 27, 2025·3 min read
收房和交付:人人都是产品经理项目经理交付经理。。。五月份,新房刚装修完,回头看看从决策、掏钱,到交付、维护、装修,这一路磕磕绊绊的过程,看起来居然有颇多环节和 IT 项目交付有些相似之处,所以就零零散散的写一篇,博诸君一笑。 销售话术——现实和想象 买房时候销售给了个低价购买车位的福利,激动的心、颤抖的手,果断拿下——交楼时候才知道,优惠车位在另一个区,还得等一年。 想想自己的 IT 项目里,销售阶段的天花乱坠,也就心下安定了。 大厂出好货——名和实 这个楼盘系出名门,是某利的天字号系列,交楼时候,却已因为周边景观、地段、配套等成为该地区的知名...Jun 24, 2025·1 min read
【译】谷歌:没有平台支撑会浪费 65% 的开发时间新的研究结果表明,平台工程能够挽回开发人员浪费的这 65% 的时间。而人工智能的集成,正在成为业务成功的关键。 十几年里,谷歌数以万计的软件工程师,在公司庞大而灵活的应用程序开发环境中,利用平台工程技术创造并简化了他们的创新工作。 这种精细的内部 IT 环境仍然是谷歌专业软件开发的秘密武器,为谷歌带来了巨大的业务灵活性和成功。 有了这种成功经验,Google 云鼓励其它公司也能够在平台工程中获得的经验和创造力,从而为自己的内部平台带来类似的进步和发展。 受 Google 云委托,ESG 进行了一...Jun 1, 2025·1 min read
2025 年基础设施即代码(IaC)状况报告原文:[The State of IaC 2025](https://www.firefly.ai/state-of-iac-2025?) 对于 IaC 采用、成熟度和影响力的年度调查 执行摘要 对于云从业者来说,IaC 年度状态报告的重要性正在逐步凸显,该报告帮助云从业者应对多云环境的复杂性、云基础设施管理和不断变化的 IaC 工具。 今年,我们调查了数百名专业人士,并整合了他们的反馈,以帮助我们评估、记录并塑造 IaC 和云管理的未来。 以下是我们 2025 年的主要发现。 云变得越...May 9, 2025·3 min read
将 Kubernetes 服务注册为 MCP Tools前些天看到阿里云的一篇文章《Nacos 发布 MCP Registry,实现存量应用接口“0改动”升级到 MCP 协议》,深受启发,用服务注册发现结合网关设施,将存量服务转换为 MCP 工具的玩法,能非常有效地将存量服务装进 MCP 的新瓶子。那么按照我之前发表的《MCP 是一座桥》一文的思路,是不是可以更进一步,去除对特定厂商的依赖,用更通用的方式实现 MCP 的快速上车呢?下面讲讲我的尝试。 太长不看 总体流程如下图所示: sequenceDiagram participant Us...Apr 24, 2025·2 min read
使用 Mcp 操作云服务资源前面鼓吹 MCP 的时候,我把 MCP 形容为一座桥,大模型和存量的 IT 系统藉由 MCP 的连接,让大模型的能力能够轻松地直接作用到在线的存量系统之中。市面上出现了 API 网关/注册发现工具直接对接 MCP 的产品,也直接证明了这个新东西的吸引力。 每个公有云,都有数量庞大的 API,头部厂商还提供了对应的 CLI 工具,方便快速进行集成,对接 MCP 可以说是得天独厚了,下面就用 MCP 的 Python SDK 编写一个简单的 AWS EC2 查询,并把它集成到 Claude App ...Apr 7, 2025·2 min read