从15分钟超时到Agent Native Cloud:Rick Blalock的代理混乱治理之道

AI PM 编辑部 · 2025年07月01日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

Rick Blalock在一次真实而略显混乱的现场演示中,讲清了当下AI Agent最被低估的难题:部署与运行。他用学生项目和自身踩坑经历,解释为什么Serverless并不适合长跑型Agent,以及为什么“Agent Native”的基础设施正在成为新一代云的分水岭。

从15分钟超时到Agent Native Cloud:Rick Blalock的代理混乱治理之道

Rick Blalock在一次真实而略显混乱的现场演示中,讲清了当下AI Agent最被低估的难题:部署与运行。他用学生项目和自身踩坑经历,解释为什么Serverless并不适合长跑型Agent,以及为什么“Agent Native”的基础设施正在成为新一代云的分水岭。

为什么几乎所有人都在Agent部署上踩坑

这一切并不是从创业愿景开始的,而是从一次校园交流中的“集体吐槽”开始。Rick Blalock回忆,他在佛罗里达大学和教授、学生讨论课程项目时,几乎所有人都在做AI Agent,而当他问“最大的问题是什么”时,答案高度一致:部署。学生们把Agent跑在AWS Lambda上,结果很快撞上15分钟、30分钟的执行上限,有的Agent甚至需要连续运行40分钟。

这并不是学生才有的问题。Rick坦承,一年前他自己也犯过同样的错误:用Serverless架构去跑一个做定性研究和综合分析的多Agent系统,结果“跑着跑着才意识到,糟了,得整个重构”。根本原因在于,Web世界长期假设计算是无状态的,而Agent天然是有状态的,需要记忆、上下文和长时间推理。

更现实的限制还包括:学生项目不能用EC2、Agent之间通信要自己“接线”、网关和鉴权复杂度极高。这些问题叠加在一起,形成了Rick口中的“Agent Chaos”。这不是模型能力的问题,而是运行环境根本不匹配。

一个Agent要“成功”,到底需要什么

在Rick看来,讨论Agent能力之前,必须先回答一个更底层的问题:“一个Agent需要什么才能成功运行?”他的答案非常工程化。首先,Agent必须能“想跑多久就跑多久”,并且支持暂停、恢复,而不是被函数超时强行掐断。其次,Agent要与代码解耦,拥有多种输入和输出形式,而不是只能接HTTP请求。

更有意思的是他强调的三个“自我能力”:自省(introspection)、自我可观测(self-observability)和自我反思(self-reflection)。传统可观测性是给人看的,比如trace和span;而Agent不仅要产生这些信息,还要“理解”这些信息,用来调整自己的行为。Rick明确区分了“人类看日志”和“Agent理解日志”之间的差别。

除此之外,还有记忆、进化式代码执行等能力。这些并不是炫技功能,而是从大量真实Agent运行中倒推出来的生存条件。Agentuity正是从这些需求出发,而不是从某个框架或模型出发,去设计自己的产品。

一场几乎翻车的现场Demo,反而说明了问题

当Rick决定做现场Demo时,他自己也调侃:“你们就是想看一场火车事故。”他用CLI创建了一个Agent项目,支持Bun、Python(配UV)和Node.js三种运行时,并明确“请不要用pip”。框架上保持中立,可以混用Vercel AI SDK、LangChain、Pydantic,甚至不同语言的Agent还能互相调用。

几分钟内,Agent在本地dev模式跑了起来,支持文本、JSON、HTML、PDF甚至Email作为输入。更关键的是,dev环境几乎是生产环境的镜像:同样的日志、同样的session、同样的AI Gateway成本统计。这让开发者在上线前就能看到真实世界的行为。

真正的高光(也是翻车点)出现在部署后。Rick通过Webhook触发Agent运行,日志很快返回——但结果是报错。原因很简单:YAML里配置的内存不够。Rick没有掩饰这个失败,只是淡淡地说:“这也是我们正在解决的事情。”这个瞬间反而精准展示了Agent部署的真实状态:问题不在代码逻辑,而在运行资源与Agent行为的不匹配。

Agent Native Cloud:不是工具,而是一种新云形态

演讲的最后,Rick把视角从Demo拉回到整体方向。Agentuity并不是在做一个“更好用的Agent框架”,而是在做一个“Agent Native Cloud”。在这个体系里,Agent是一级公民:路由、鉴权、通信、输入输出绑定都由平台处理。

你可以在不改代码的情况下,给Agent加一个邮箱、一个API、一个Cron任务,甚至接入Slack或Discord。成本也不再是模糊估算,而是精确到“某个Agent的某次运行”。Rick提到,他们内部已经有50到60个Agent跑在这套系统上,开发速度终于“顺了”。

更有前瞻性的是接下来的计划:用Agent来监控基础设施、分析日志、主动提示问题。他半开玩笑地说,这可能不是PagerDuty,而是“Agent Duty”。这句话背后,其实是一个清晰判断:当Agent数量暴增时,人类不可能再用传统方式去运维Agent系统,Agent必须开始管理Agent。

总结

这场演讲真正有价值的地方,不在于某个CLI命令或UI界面,而在于Rick反复强调的一点:Agent的问题,早已不是“会不会推理”,而是“能不能活下来”。从Serverless超时到内存配置报错,这些看似琐碎的细节,正在决定下一代AI应用的形态。对开发者来说,最大的启发或许是:别急着造更聪明的Agent,先给它一个真正适合生存的世界。


关键词: AI Agent, Agent部署, Agent Native Cloud, Serverless限制, Agentuity

事实核查备注: Rick Blalock(演讲者),公司Agentuity;佛罗里达大学案例;AWS Lambda 15分钟/30分钟超时;支持运行时:Bun、Python+UV、Node.js;框架提及:Vercel AI SDK、LangChain、Pydantic;内部Agent数量约50-60个;“Agent Duty”玩笑原话。