从ChatGPT到自主体：学术视角下的AI Agent进化路径

AI PM 编辑部 · 2025年02月22日 · 12 阅读 · AI/人工智能

正在加载视频...

视频章节

这场来自哥伦比亚大学研究者的演讲，试图回答一个被反复提起却很少被认真拆解的问题：什么才是真正的AI Agent，以及我们该如何系统性地提升它们的能力。视频从基础定义出发，结合学术研究，深入讨论了大语言模型在Agent场景下的自我改进、推理优化与测试时计算等关键方法。

从ChatGPT到自主体：学术视角下的AI Agent进化路径

这场来自哥伦比亚大学研究者的演讲，试图回答一个被反复提起却很少被认真拆解的问题：什么才是真正的AI Agent，以及我们该如何系统性地提升它们的能力。视频从基础定义出发，结合学术研究，深入讨论了大语言模型在Agent场景下的自我改进、推理优化与测试时计算等关键方法。

为什么“Agent”不只是更会聊天的ChatGPT

这一节的重要性在于，它澄清了当前行业里最常见的一个误解：把AI Agent简单等同于“加了工具的聊天机器人”。演讲一开始，Joe就明确指出，这次讨论是“beyond ChatGPT”，面向更偏研究的人群。他直言，大家都在谈Agent，但“we should talk about what exactly is AI agents”。

在他的定义中，Agent的核心不在于对话，而在于“与环境交互”。他回到经典的智能体框架：Agent通过感知环境，做出决策，并通过行动（actuation）影响环境，再根据反馈进入下一个循环。这是一个持续的闭环过程，而不是一次性的问答。正是这个“长期交互”和“环境反馈”，让Agent问题变得远比对话复杂。

Joe的学术背景在这里显露无遗。作为哥伦比亚大学的研究人员，同时也是AR Collex AI的创始人，他强调Agent不是一个产品标签，而是一类系统设计问题。这种视角本身，就是他给行业的第一个提醒：如果你无法清楚描述Agent如何感知、如何行动、如何随时间变化，那你大概率还停留在ChatGPT层面。

从理论到部署：为什么Agent“很难真正跑起来”

理解Agent概念只是第一步，更现实的问题是：为什么它们这么难部署？这一节的价值在于，它点出了Agent研究与落地之间的断层。Joe坦言，Agent“it is difficult to understand”，更难的是让它们在真实环境中长期稳定运行。

原因并不神秘。Agent不是一次性输出，而是一个跨时间的决策序列。每一步的小错误，都可能在后续被放大，最终导致整体失败。这也是为什么很多看似聪明的Agent demo，一旦拉长时间或放到复杂环境中，就迅速失效。

他在这里并没有讲商业故事，而是用研究者的口吻强调：Agent问题本质上是一个序列决策和信用分配问题。你很难判断，失败究竟源于哪一步决策。这种不确定性，直接影响了训练方法、评估指标和部署策略，也解释了为什么“over time to deploy these agents”本身就是一个挑战。

让大语言模型更像Agent：自我改进与迭代思路

这一节是整场演讲的技术核心：如果大语言模型是Agent的大脑，我们该如何针对Agent任务优化它？Joe提出，传统的静态训练范式并不够，关键在于引入“自我改进”的过程。

他介绍了一类研究思路：让较小的大语言模型先尝试解决问题，通过多次迭代逐步逼近正确答案。在数学等可验证任务中，这种方法尤其有效——模型可以反复生成解答、检查错误、再修正。“could be iterated multiple times until the problem is solved correctly”，这个循环本身，就是一种简化版的Agent行为。

这里的洞见在于，自我改进并不一定依赖更大的模型。相反，通过结构化的反馈和迭代，小模型也有机会“catch up to large models”。这为Agent系统的工程实现提供了现实路径：与其盲目堆参数，不如设计让模型反思和修正的机制。

推理、测试时计算与“会玩的Agent”

在后半段，Joe把讨论进一步推向“推理”和“测试时计算”。这之所以重要，是因为Agent往往无法在训练阶段覆盖所有情况，必须在运行时变得更聪明。

他提到一种元推理（meta-reasoning）的思路：利用模型在合成过程中生成的数据，反过来提升自身推理能力。这不是简单的数据增强，而是让模型学会“如何思考”。在一个具体任务中，他展示了Agent通过不断“playing”任务来提升表现，即便只是对话型任务，也能在测试阶段通过额外计算获得更好结果。

更有意思的是，他还介绍了一个新算法：通过提供示例轨迹（trajectory），让Agent在运行中逐步改进性能。尽管他没有展开算法细节，但这个例子清晰传达了一个信号——未来Agent的性能，很大一部分将取决于测试时的策略设计，而不仅是训练时的权重。

总结

这场演讲没有炫目的产品发布，却系统性地回答了一个更根本的问题：我们该如何“认真地”构建AI Agent。从定义澄清、部署难点，到自我改进、推理与测试时计算，Joe给出的是一条偏学术、但极具前瞻性的路线。对读者最大的启发在于：Agent不是模型大小的竞赛，而是关于循环、反馈与时间的工程艺术。

关键词： AI Agent，大语言模型，推理，自我改进，测试时计算

事实核查备注：演讲者：Joe（哥伦比亚大学，AR Collex AI创始人）；视频标题：How to Improve Your Agents： Academic Lit Review；发布时间：2025-02-22；涉及概念：AI Agent、Large Language Model、自我改进、Meta-reasoning、Test-time compute；引用原话均来自视频片段的英文表达。

返回文章列表