从聊天机器人到真正代理:强化学习在AI Agent中的角色

AI PM 编辑部 · 2025年03月07日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

Morgan Stanley 机器学习研究员 Will Brown 通过一个真实项目故事,解释了为什么仅靠更大的模型无法催生真正的 AI Agent,以及强化学习如何成为连接模型、工具与环境的关键工程方法。

从聊天机器人到真正代理:强化学习在AI Agent中的角色

Morgan Stanley 机器学习研究员 Will Brown 通过一个真实项目故事,解释了为什么仅靠更大的模型无法催生真正的 AI Agent,以及强化学习如何成为连接模型、工具与环境的关键工程方法。

为什么我们需要重新理解“Agent”这件事

这场演讲一开始就点出了一个很多从业者心照不宣的事实:今天我们使用的大多数大语言模型,本质上仍然是聊天机器人。Will Brown 直言,“Most LLMs that we work with are essentially chatbots”,它们擅长对话,却缺乏持续行动和自我改进的能力。这一点之所以重要,是因为行业里越来越多的系统被贴上了“Agent”的标签,但它们的自主性往往被高估。

在他看来,Agent 不只是一个会调用工具的对话模型,而是一个能在环境中反复尝试、犯错、再修正的系统。这也引出了他对“Agent”和“pipeline”的区分:pipeline 是人类预先设计好流程,模型只是执行;而 Agent 则需要在不确定环境中做决策,并为这些决策承担后果。正因为如此,单纯堆叠提示词或工具,并不能让系统真正迈向更高程度的自主性。

这个区分背后的潜台词是:如果我们继续把所有希望都押在“等下一个更强的模型”,那 Agent 的能力提升会非常缓慢。真正的突破,必须来自模型之外的工程范式变化。

等更好的模型,还是换一条路?

在演讲中段,Will Brown 抛出了一个看似简单却很尖锐的问题:如果模型能力提升的速度放缓,我们的路径在哪里?“The kind of traditional wisdom is like okay, we'll just wait for better models”,但他显然并不满足于这个答案。

他回顾了模型发展的趋势,指出即使推理能力在增强,模型依然是在“非 agentic 的世界”中被训练出来的。也就是说,它们被优化的目标,往往是静态的正确性,而不是长期行为的效果。这正是 Agent 场景中的核心矛盾:我们关心的不是一次回答对不对,而是一连串行动是否能把任务真正完成。

这也是他把话题自然引向强化学习(Reinforcement Learning, RL)的原因。强化学习关注的是“在环境中通过奖励信号学习策略”,而不是单步预测下一个 token。这种范式,恰好对应 Agent 需要面对的长期目标和延迟反馈问题。

强化学习如何嵌入 Agent 工程循环

为了避免抽象空谈,Will Brown 花了时间解释强化学习在 Agent 中到底扮演什么角色。在他的描述里,RL 不是取代大语言模型,而是作为一个“工程循环”的组成部分:模型提出行动,环境和工具给出反馈,再通过奖励或验证信号反向塑造行为。

他强调,未来的挑战不在于单一算法,而在于如何把“ideas in conjunction with environments and tools and verification”整合起来。这句话背后,是对基础设施的现实考量:没有稳定的环境接口、自动化验证机制和可复现的训练流程,强化学习很难在真实 Agent 系统中落地。

这一段的价值在于,它把 RL 从“学术算法”拉回到“工程实践”。在 Agent 场景中,奖励函数的设计、工具调用的约束、以及结果验证的自动化,往往比算法本身更决定成败。

一个 Python 文件引发的意外实验

整场演讲最生动的部分,来自一个非常具体的故事。Will Brown 分享了他写的“a single Python file”,原本只是一次尝试,却在接下来的两周里“took on a life of its own”。这个系统并没有被精心打磨成产品,而是在真实使用中不断暴露问题。

正是在这个过程中,他观察到一个关键现象:当系统被允许根据结果调整自身策略时,它开始“learning to do the actual task”,而不是机械地执行指令。这种改进并非来自模型升级,而是来自反馈回路的建立。

这个故事的重要性在于,它为前面的理论提供了落地证据。Agent 的成长,不是一次性设计完成的,而是通过持续试错和学习逐步演化的。也正因如此,他在随后反思道,AI 工程的重心,正在从“写更聪明的提示”,转向“构建能让系统自我改进的框架”。

总结

Will Brown 的核心观点可以归结为一句话:真正的 AI Agent,不是更会说话的模型,而是能在环境中学习的系统。强化学习提供的不是银弹,但它为 Agent 引入了长期目标、反馈和自我改进的机制。对工程师而言,这意味着角色的转变——从提示词设计者,变成学习环境和反馈回路的构建者。这或许正是下一阶段 AI 工程最值得投入的方向。


关键词: 强化学习, AI Agent, 大语言模型, 对话AI, AI工程

事实核查备注: 演讲者:Will Brown;身份:Morgan Stanley 机器学习研究员;视频主题:Reinforcement Learning for Agents;关键术语:Reinforcement Learning(强化学习)、Agent、pipeline、大语言模型;引用原话包括“Most LLMs that we work with are essentially chatbots”、“we'll just wait for better models”、“learning to do the actual task”。