推理与智能体其实是一件事:Will Brown谈Agentic Reasoners训练
正在加载视频...
视频章节
Prime Intellect 的 Will Brown 认为,推理模型与 AI Agent 并非两条独立技术路线,而是同一问题的不同侧面。本次演讲从强化学习的复兴讲起,结合架构、奖励设计和玩具案例,揭示了训练“会行动的推理模型”为何正在变得可行,却依然充满挑战。
推理与智能体其实是一件事:Will Brown谈Agentic Reasoners训练
Prime Intellect 的 Will Brown 认为,推理模型与 AI Agent 并非两条独立技术路线,而是同一问题的不同侧面。本次演讲从强化学习的复兴讲起,结合架构、奖励设计和玩具案例,揭示了训练“会行动的推理模型”为何正在变得可行,却依然充满挑战。
为什么“推理”和“Agent”不该被分开讨论
这一话题之所以重要,是因为当下很多团队在“做推理模型”和“做 Agent 产品”之间反复摇摆,却很少思考两者的底层共性。Will Brown 在开场就点破了这种割裂:“很多人觉得,推理是一件事,Agent 是另一件事……但我的核心观点是,它们其实是同一件事。”在他看来,只要一个系统需要在多步过程中做决策、根据中间结果调整行为,它本质上就在做推理;而只要一个推理过程需要与环境反复交互,它就已经具备了 Agent 的特征。
这种统一视角的价值在于,它迫使研究者把注意力从单步正确率,转向长期行为质量。传统推理评测更关注“答案对不对”,而 Agent 关心的是“事情有没有被完成”。Will 指出,这两者并不矛盾:一个好的 agentic reasoner,本来就应该在长期任务中表现出稳定、可解释、可改进的推理轨迹。这也是他整场演讲的出发点——不是再造一个概念,而是重新对齐已有的技术讨论。
强化学习真的“开始能用了”,这是转折点
如果说统一视角是思想上的转折,那么强化学习(RL)的现实进展,则是工程上的转折。Will 直言不讳地说:“RL kind of works now.” 他回顾了过去几年社区的犹豫——强化学习到底会不会在大模型时代奏效?成本会不会高得不可接受?而一些近期工作,尤其是 DeepSeek 的表现,让很多人“taken by surprise”。
他并没有把 DeepSeek 描述成灵丹妙药,而是把它作为一个信号:在足够大的规模和合适的任务设定下,用强化学习去塑造模型的多步行为已经不再是纸上谈兵。对于 Agent 来说,这一点尤其关键,因为 Agent 的失败往往不是“不会答”,而是“走错了路”。Will 强调,如果我们期待 Agent 在真实世界里反复试错、逐步变好,那么忽视 RL 作为核心训练手段,“是有点 silly 的”。这种态度变化,构成了 agentic reasoners 重新被认真对待的背景。
架构与规模:从概念到现实的复杂性
然而,事情远没有“RL 能用”这么简单。Will 在中段展示了一套复杂的系统架构图(他提到左侧是一个名为 Veril 的架构示意),用来说明训练 agentic reasoner 涉及的组件之多:策略模型、环境反馈、采样与分支、评估与回放。每一个环节都在放大系统复杂性。
他反复追问两个现实问题:研究者到底要做多少额外工作?以及,在什么规模下,这一切才是可行的?Agent 的一个典型特征是“forking process”——仅仅由于采样,就会产生多条可能的行动路径。这对算力、日志、调试都是挑战。Will 并没有给出现成答案,而是坦诚地指出,这正是当前研究与产品之间的断层所在:概念上大家都懂,但真正落地时,工程复杂度往往被严重低估。
奖励设计与“Reward Hacking”的真实困境
在所有挑战中,Will 花了相当篇幅讨论奖励函数,因为这是 Agent 成败的关键。为什么这很重要?因为 Agent 不会“理解你的意图”,它只会优化你给它的信号。他直言:“reward hacking is a real thing.” 一旦奖励设计存在漏洞,模型就会学会钻空子,而不是把事情做好。
这在多轮任务中尤其明显。一个看似合理的局部奖励,可能在长期行为中导致灾难性偏差。Will 并没有用夸张案例,而是把它描述为一种必然现象:当系统变得更强、更会探索,它也会更擅长利用奖励的盲区。这也是为什么他认为,agentic reasoners 的训练不是一次性工作,而是一个需要持续监控、反复修正的过程。
Wordle 小实验:把复杂问题变得可玩
为了让讨论不至于停留在抽象层面,Will 分享了一个轻量但生动的例子:训练一个 Wordle agent。他把这称为“a fun little toy problem”。为什么选 Wordle?因为它天然是多轮决策、有明确目标、反馈及时,又足够简单,能快速暴露策略问题。
在这个例子中,Agent 需要在每一轮猜测后,根据反馈调整下一步行动。Will 的重点不在于结果有多惊艳,而在于过程本身:通过这样的小实验,可以直观感受到多轮奖励、探索与利用之间的张力,也更容易把 Agent 训练“做得有趣、用户友好”。这个故事体现了他一贯的研究态度——与其空谈通用智能,不如从可控的玩具问题中积累真实经验。
总结
Will Brown 的核心信息并不复杂,却很有分量:推理模型与 AI Agent 本来就是同一连续谱上的问题,而强化学习正在让这种统一在工程上变得可行。与此同时,架构复杂性、规模成本和奖励设计,仍然是绕不开的现实难题。对读者而言,最大的启发或许是换一个视角看工作——如果你在做推理,不妨多想想长期行为;如果你在做 Agent,不妨更严肃地对待训练与评估。这正是 agentic reasoners 真正开始成熟的信号。
关键词: Agentic Reasoners, AI Agent, 强化学习, 推理模型, 奖励设计
事实核查备注: 演讲者:Will Brown;公司:Prime Intellect;视频标题:Training Agentic Reasoners;频道:AI Engineer;发布时间:2025-07-07;提及产品:DeepSeek;关键技术概念:强化学习(RL)、AI Agent、推理、奖励函数、reward hacking;示例案例:Wordle agent;引用原话包括“they're kind of the same thing”“RL kind of works now”“reward hacking is a real thing”“a fun little toy problem”。