从ChatGPT到自主体:学术视角下的AI Agent进化路径

AI PM 编辑部 · 2025年02月22日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这场来自哥伦比亚大学研究者的演讲,试图回答一个被反复提起却很少被认真拆解的问题:什么才是真正的AI Agent,以及我们该如何系统性地提升它们的能力。视频从基础定义出发,结合学术研究,深入讨论了大语言模型在Agent场景下的自我改进、推理优化与测试时计算等关键方法。

从ChatGPT到自主体:学术视角下的AI Agent进化路径

这场来自哥伦比亚大学研究者的演讲,试图回答一个被反复提起却很少被认真拆解的问题:什么才是真正的AI Agent,以及我们该如何系统性地提升它们的能力。视频从基础定义出发,结合学术研究,深入讨论了大语言模型在Agent场景下的自我改进、推理优化与测试时计算等关键方法。

为什么“Agent”不只是更会聊天的ChatGPT

这一节的重要性在于,它澄清了当前行业里最常见的一个误解:把AI Agent简单等同于“加了工具的聊天机器人”。演讲一开始,Joe就明确指出,这次讨论是“beyond ChatGPT”,面向更偏研究的人群。他直言,大家都在谈Agent,但“we should talk about what exactly is AI agents”。

在他的定义中,Agent的核心不在于对话,而在于“与环境交互”。他回到经典的智能体框架:Agent通过感知环境,做出决策,并通过行动(actuation)影响环境,再根据反馈进入下一个循环。这是一个持续的闭环过程,而不是一次性的问答。正是这个“长期交互”和“环境反馈”,让Agent问题变得远比对话复杂。

Joe的学术背景在这里显露无遗。作为哥伦比亚大学的研究人员,同时也是AR Collex AI的创始人,他强调Agent不是一个产品标签,而是一类系统设计问题。这种视角本身,就是他给行业的第一个提醒:如果你无法清楚描述Agent如何感知、如何行动、如何随时间变化,那你大概率还停留在ChatGPT层面。

从理论到部署:为什么Agent“很难真正跑起来”

理解Agent概念只是第一步,更现实的问题是:为什么它们这么难部署?这一节的价值在于,它点出了Agent研究与落地之间的断层。Joe坦言,Agent“it is difficult to understand”,更难的是让它们在真实环境中长期稳定运行。

原因并不神秘。Agent不是一次性输出,而是一个跨时间的决策序列。每一步的小错误,都可能在后续被放大,最终导致整体失败。这也是为什么很多看似聪明的Agent demo,一旦拉长时间或放到复杂环境中,就迅速失效。

他在这里并没有讲商业故事,而是用研究者的口吻强调:Agent问题本质上是一个序列决策和信用分配问题。你很难判断,失败究竟源于哪一步决策。这种不确定性,直接影响了训练方法、评估指标和部署策略,也解释了为什么“over time to deploy these agents”本身就是一个挑战。

让大语言模型更像Agent:自我改进与迭代思路

这一节是整场演讲的技术核心:如果大语言模型是Agent的大脑,我们该如何针对Agent任务优化它?Joe提出,传统的静态训练范式并不够,关键在于引入“自我改进”的过程。

他介绍了一类研究思路:让较小的大语言模型先尝试解决问题,通过多次迭代逐步逼近正确答案。在数学等可验证任务中,这种方法尤其有效——模型可以反复生成解答、检查错误、再修正。“could be iterated multiple times until the problem is solved correctly”,这个循环本身,就是一种简化版的Agent行为。

这里的洞见在于,自我改进并不一定依赖更大的模型。相反,通过结构化的反馈和迭代,小模型也有机会“catch up to large models”。这为Agent系统的工程实现提供了现实路径:与其盲目堆参数,不如设计让模型反思和修正的机制。

推理、测试时计算与“会玩的Agent”

在后半段,Joe把讨论进一步推向“推理”和“测试时计算”。这之所以重要,是因为Agent往往无法在训练阶段覆盖所有情况,必须在运行时变得更聪明。

他提到一种元推理(meta-reasoning)的思路:利用模型在合成过程中生成的数据,反过来提升自身推理能力。这不是简单的数据增强,而是让模型学会“如何思考”。在一个具体任务中,他展示了Agent通过不断“playing”任务来提升表现,即便只是对话型任务,也能在测试阶段通过额外计算获得更好结果。

更有意思的是,他还介绍了一个新算法:通过提供示例轨迹(trajectory),让Agent在运行中逐步改进性能。尽管他没有展开算法细节,但这个例子清晰传达了一个信号——未来Agent的性能,很大一部分将取决于测试时的策略设计,而不仅是训练时的权重。

总结

这场演讲没有炫目的产品发布,却系统性地回答了一个更根本的问题:我们该如何“认真地”构建AI Agent。从定义澄清、部署难点,到自我改进、推理与测试时计算,Joe给出的是一条偏学术、但极具前瞻性的路线。对读者最大的启发在于:Agent不是模型大小的竞赛,而是关于循环、反馈与时间的工程艺术。


关键词: AI Agent, 大语言模型, 推理, 自我改进, 测试时计算

事实核查备注: 演讲者:Joe(哥伦比亚大学,AR Collex AI创始人);视频标题:How to Improve Your Agents: Academic Lit Review;发布时间:2025-02-22;涉及概念:AI Agent、Large Language Model、自我改进、Meta-reasoning、Test-time compute;引用原话均来自视频片段的英文表达。