正在加载视频...
视频章节
Traversal.ai CEO Anish Agarwal 直言,生产环境软件“不断出问题,而且只会更糟”。在这场演讲中,他拆解了现代软件排障为何正在失效,并分享了他们如何用 AI Agent 重构工程师的故障处理方式。
生产软件为何越来越脆弱:一位创业者对AI排障的冷静判断
Traversal.ai CEO Anish Agarwal 直言,生产环境软件“不断出问题,而且只会更糟”。在这场演讲中,他拆解了现代软件排障为何正在失效,并分享了他们如何用 AI Agent 重构工程师的故障处理方式。
为什么“生产软件在崩坏”,而且不是工程师的错
这一切的重要性在于:几乎所有依赖软件的业务,都在承受同一种隐形风险。Anish Agarwal 一开场就抛出了一个并不乐观的判断——如果我们什么都不做,“it’s only going to get worse”。在他看来,问题并不在于工程师不够优秀,而在于现代软件系统的复杂度已经超过了传统工程方法的承载能力。
他将软件工程粗略分为几大核心维度,其中系统设计和运维复杂性是绕不开的现实。今天的生产系统高度分布式,服务之间通过 API、消息队列和异步任务相互耦合,任何一个微小变化都可能在下游被放大。当系统出问题时,工程师面对的不是单点故障,而是一个跨服务、跨团队的连锁反应。
更严峻的是,随着公司规模扩大、技术栈堆叠,这种复杂性是“单调递增”的。Anish 用一句近乎无奈的话总结这种趋势:如果我们继续沿用现在的方式,这将是一个“grim reality”。这不是危言耸听,而是他在真实生产环境中反复看到的结论。
排障工作流的碎片化:工具越多,真相越远
理解问题的关键,在于真正走一遍工程师的排障流程。Anish 描述了一个所有人都熟悉的画面:当系统异常时,工程师会在 Grafana、Datadog、Splunk、Elastic 等工具之间来回切换,试图拼凑出发生了什么。
这些工具本身都很优秀,但问题在于它们各自只覆盖了“真相”的一部分。指标告诉你“哪里不正常”,日志记录了“发生了什么”,而追踪(trace)展示了请求路径。但在真实事故中,没有任何一个信号是完整答案。正如他在演讲中直言的:“clearly is not optimal”。
更糟的是,排障往往发生在高压环境下。系统宕机的每一分钟都在计数,但工程师却需要人工在不同系统中做相关性分析。这种以人为中心、工具割裂的工作流,本身就成为了系统不稳定的一部分,也解释了为什么单靠堆更多监控工具,并不能真正解决问题。
三个信号都不够:传统可观测性的根本瓶颈
这一部分之所以重要,是因为它点破了许多团队的误区。Anish 强调,指标、日志和追踪这“三件套”各自都有价值,但“none of these three things if you do them just by themselves is enough to really troubleshoot”。
问题不在于信号缺失,而在于认知负担。工程师需要在脑中完成一次复杂的因果推理:哪些异常是根因,哪些只是结果?哪些变化是巧合,哪些是真正的触发点?这种推理高度依赖个人经验,无法规模化,也很难在团队间复制。
他指出,这也是为什么生产事故的处理质量,往往取决于“当时是谁值班”。这不是工程文化的问题,而是工具形态的问题。只要排障仍然依赖人类在高压下做 exhaustive search(穷举式搜索),系统复杂度一旦超过阈值,失败几乎是必然的。
AI Agent 介入排障:Traversal 想改变的那一步
真正的转折点,来自 Anish 对 AI Agent 的引入思考。在介绍 Traversal 时,他反复强调目标并不是“再做一个工具”,而是重构排障方式本身。核心思路是:让 AI Agent 承担跨系统的搜索、关联和假设验证,把工程师从信息拼图中解放出来。
在后续由 Matt 分享的案例中,Traversal 展示了他们如何在 DigitalOcean 的真实环境中发挥作用。系统发生变化后,AI Agent 可以在海量信号中执行自动化的 exhaustive search,快速缩小可能原因范围,从而让工程师更快接近根因。对经历过无数次生产事故的人来说,这正是 Matt 所说的“thing that I was dying for in my previous roles”。
Anish 在结尾将这一方法放大到更广泛的技术趋势中:随着 swarms of agents(多智能体协作)成熟,这种模式并不只适用于运维排障,而是可以推广到更多复杂工程领域。这不仅是一个“有趣的问题”,也是一个足以改变工程实践的方向。
总结
这场演讲的价值,不在于某个具体产品,而在于一个清醒判断:生产软件的问题正在系统性恶化,而传统方法已经触顶。Anish Agarwal 给出的答案是,用 AI Agent 承担复杂性,让工程师回到决策而非搜索本身。对每一个正在构建或维护复杂系统的人来说,这都是一次值得认真对待的信号。
关键词: 生产环境, 软件排障, 可观测性, AI Agent, Traversal
事实核查备注: 演讲者:Anish Agarwal(Traversal.ai CEO);提及工具:Grafana、Datadog、Splunk、Elastic;核心观点原话包括“it’s only going to get worse”“clearly is not optimal”“none of these three things…is enough”;案例公司:DigitalOcean;技术概念:AI Agent、exhaustive search、swarms of agents。