正在加载视频...
视频章节
在这场演讲中,Evan Boyle用大量真实构建经验解释:当AI Agent成为主角,传统以请求-响应为核心的应用级基础设施为什么会“被打破”。文章提炼他对计算层变化的判断、长时任务的工程教训,以及如何用工作流、可恢复性和追踪机制重建基础设施。
AI Agent正在重写计算层:应用级基础设施为何失效
在这场演讲中,Evan Boyle用大量真实构建经验解释:当AI Agent成为主角,传统以请求-响应为核心的应用级基础设施为什么会“被打破”。文章提炼他对计算层变化的判断、长时任务的工程教训,以及如何用工作流、可恢复性和追踪机制重建基础设施。
为什么AI Agent首先击穿的是计算层
理解这一点很重要,因为很多团队发现系统“突然扛不住了”,却不知道问题根源。Evan开场就点明主题:“How agents broke infrastructure.” 他强调,最先出问题的不是模型效果,而是计算层的假设。
传统应用的计算模型建立在短时、同步请求之上,而AI Agent恰恰相反:一次任务可能触发大量大语言模型(LM)调用,持续数分钟甚至更久,并且伴随高度不确定的计算路径。Evan提到,这类系统“require lots and lots of LM processing”,直接打破了我们对并发、超时和成本的既有认知。
更关键的是,实验门槛变低了。随着API和托管服务成熟,团队可以在早期就“start experimenting with high levels of traffic”。这让基础设施问题不再是规模化之后才出现,而是原型阶段就会暴露。Agent不是慢慢逼近极限,而是一上来就站在极限边缘。
从快乐原型到失控系统:长时任务的残酷现实
这一节之所以重要,是因为几乎每个Agent团队都会经历同样的转折。Evan描述了一个熟悉的过程:最初原型“nice and happy”,一切看起来都很顺利,但当任务开始跑几分钟后,问题接踵而至。
最大的问题是中断。浏览器刷新、网络抖动、进程重启,都会让计算直接丢失。于是他给出一个极其工程化、却常被忽视的关键词:“you want resumability.” 可恢复性,意味着任务可以在中断后继续,而不是从头再来。
Evan指出,很多现有解决方案并不是为此设计的。人们往往把Agent当成放大版的API调用,但事实上,它更像一个分布式作业系统。只要你的应用“might run for multiple minutes”,你就必须认真对待状态持久化、重试策略和阶段性输出,否则失败只是时间问题。
工作流、组件与Trace:一次真实的构建演示
这部分的价值在于,它不是概念,而是具体做法。Evan展示了他们如何把复杂的Agent逻辑拆解为可组合的单元。他们构建了“workflows that are collections of components that run together”,每个组件只负责一件事。
在演示中,一个组件使用了“wrapped version of the OpenAI SDK”。当整个工作流运行时,系统会自动生成一条trace。Evan解释,这个trace会显示所有嵌套组件的执行顺序,以及每一步发生了什么。
更重要的是,这种结构让工程团队可以精细地配置重试次数、错误处理方式,并在失败时定位问题来源。相比传统黑盒式调用,这种可观测性让Agent系统第一次变得“可调试”,而不仅仅是“祈祷它能跑完”。
部署与体验:同步、异步与用户感知
为什么用户体验在这里至关重要?因为Agent任务往往跑得比用户耐心更久。Evan展示的内容生成应用很好地说明了这一点:如果只是一个需要不断刷新的网页,体验会迅速崩坏。
他们选择将整个系统部署到自建的无服务器平台上,同时支持同步和异步工作流。当浏览器与API服务器的连接终止时,任务本身并不会消失,输出会被安全存储,稍后再取回。
Evan在这一段给出了一句极其诚实的评价:“hard to get this right.” 这不是某个框架就能解决的问题,而是一整套围绕Agent特性重新设计的基础设施思路。
总结
Evan Boyle的分享传递了一个清晰信号:AI Agent不是“更聪明的接口”,而是一种全新的计算负载。它迫使我们重新思考计算层的假设,从短时请求转向长时、可恢复、可观测的工作流系统。对工程团队来说,真正的挑战不在模型,而在如何让这些不稳定、昂贵、持久的计算可靠运行。基础设施并没有过时,但它必须进化。
关键词: AI Agent, 计算层, 大语言模型, 工作流, 可恢复性
事实核查备注: 演讲者:Evan Boyle;视频标题:How agents broke app-level infrastructure;频道:AI Engineer;发布时间:2025-06-03;核心概念:AI Agent、LM processing、compute layer、resumability、workflows、components、trace;提及技术:OpenAI SDK(wrapped version);引用原话包括“How agents broke infrastructure.”、“you want resumability.”、“hard to get this right.”