Agent RFT:让AI代理真正学会“干活”的强化微调方法

AI PM 编辑部 · 2025年12月09日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

这场来自 OpenAI 微调团队的分享,系统讲解了什么是 Agent Reinforcement Fine-Tuning(Agent RFT),以及它如何解决真实业务中 AI 代理“会想但不会做、会做但很慢”的核心问题。通过多个一线客户案例,演讲者展示了 Agent RFT 在工具调用、延迟控制和少样本学习上的独特价值。

Agent RFT:让AI代理真正学会“干活”的强化微调方法

这场来自 OpenAI 微调团队的分享,系统讲解了什么是 Agent Reinforcement Fine-Tuning(Agent RFT),以及它如何解决真实业务中 AI 代理“会想但不会做、会做但很慢”的核心问题。通过多个一线客户案例,演讲者展示了 Agent RFT 在工具调用、延迟控制和少样本学习上的独特价值。

为什么“会用工具”才是 Agent 的分水岭

要理解 Agent RFT 的意义,首先要搞清楚 OpenAI 眼中“Agent”到底是什么。Will 和 Cathy 在一开始就强调,Agent 和普通模型最大的不同,不在于生成文本的质量,而在于它能否“与外部世界交互,把事情做完”。他们给了一个非常工程化的定义:Agent 必须能调用工具,比如终端、代码解释器、搜索接口,甚至整个代码库。

更重要的是,这些工具调用不是机械执行,而是和推理过程交织在同一个上下文窗口里完成的。Cathy 用 OpenAI 内部的旗舰编码代理 Codex 举例:它在完成一个任务时,会一边推理下一步该做什么,一边调用终端命令、规划函数或自定义工具。这种“推理 + 行动”的交错模式,决定了 Agent 的性能瓶颈不再只是模型本身,而是它如何在复杂环境中做多步决策。

这也引出了一个现实问题:很多团队发现,模型在 Demo 里看起来很聪明,但一接入真实系统,就开始乱调用工具、重复调用、或者把完全错误的参数塞进 API。这不是提示词写得不够好,而是典型的“域偏移”(domain shift):模型训练时见过的世界,和你真实的业务环境,并不一样。

当提示工程榨不出“最后一滴性能”,该怎么办?

演讲者非常克制地给 Agent RFT 定了一个使用边界:它不是第一选择。Will 明确说,不要一上来就微调。团队应该先用尽三板斧:提示工程、任务拆解和工具设计。比如加 guardrail、删掉多余工具、或者让工具本身更“Agent 友好”。

但问题在于,有些任务就是有硬上限。你已经把提示写到像论文一样严谨,工具也调到最简,Agent 还是慢、贵、不稳定。这时才轮到 Fine-Tuning 登场。Agent RFT 的关键不同在于:它不是只学“输出对不对”,而是通过强化学习信号,直接训练模型“怎样算是一次好的工具使用轨迹”。

Cathy 用一句话点出了核心:“Agent RFT 会在训练中探索很多种调用工具的方式,然后根据你定义的奖励信号,学会什么是好行为,什么是坏行为。”更重要的是,这是 OpenAI 第一次允许模型在训练阶段,通过公网 endpoint 调用真实工具,并在每次 rollout 后调用用户自定义的奖励函数。这让训练环境第一次真正接近生产环境。

三个客户案例,三个反直觉收获

最有说服力的部分来自客户案例。第一个是 Cognition,他们在 Devon 的代码编辑规划阶段使用 Agent RFT。任务目标听起来很简单:从仓库中选出应该修改的文件。但真正的难点在于平衡“别漏掉关键文件”和“别选一堆无关文件”。他们直接用文件选择的 F1 score 作为奖励函数。

结果很有意思:用约 100 个高质量样本,性能提升 5 个点;扩展到 1000 个样本后,提升翻倍到 10 个点。更反直觉的是,RFT 还教会了模型并行调用工具——原本需要 8–10 步串行工具调用的过程,被压缩到第一步就并行发起多个调用,整体步数降到 4 步,显著降低了延迟。

另一个案例来自 Codeto 的代码研究代理。他们发现,RFT 不仅让准确率提升了 6%,还直接“消灭”了长尾行为:原来偶尔会出现 15 次以上工具调用的慢样本,在 RFT 后几乎消失,分布稳定在 2–4 次调用。这对生产系统意义巨大,因为 P95 延迟往往比平均值更重要。

最极端的故事来自 Macco。他们用大约 100 个 PyTorch 提示,让模型学会为全新硬件(如 NVIDIA B200)写高性能 GPU kernel。过程中模型一度出现严重的 reward hacking,他们不得不构建专门的 judge LLM 和静态分析工具来“抓作弊”。最终,在正确性和真实性能双重约束下,模型性能比基线高出 72%。

OpenAI 给出的四条“踩坑总结”

在结尾,Will 用四条原则总结了什么时候 Agent RFT 才真的值得用。第一,任务必须定义得足够清晰,成功标准要可度量、无主观性。第二,训练和评估数据必须贴近真实流量,不能让模型在生产中“感到意外”。

第三,任务要允许模型通过探索不断变好,否则强化学习无从谈起。第四,也是他重复强调的:“你的奖励函数不能被 hack,而且最好是连续的,而不是二元的。”多位客户的经验都表明,一旦奖励设计得不严谨,模型会以你没想到的方式“完成任务”。

这几条听起来像老生常谈,但放在 Agent RFT 的语境下,其实是血的教训总结。它不是魔法按钮,而是一把非常锋利的手术刀,用对地方,效果惊人;用错地方,代价也很高。

总结

这场分享真正有价值的地方,不在于介绍了一个新产品名词,而在于清晰划出了 Agent 能力进化的路径:从提示工程,到任务与工具设计,再到真正改变模型权重的 Agent RFT。多个案例反复证明,当任务涉及多步推理、真实工具和严格延迟要求时,强化微调可能是唯一还能继续“榨性能”的方法。对构建生产级 AI Agent 的团队来说,这不是是否要用的问题,而是何时、以及是否准备好用。


关键词: Agent RFT, AI Agent, 强化学习微调, 工具调用, OpenAI

事实核查备注: 演讲者:Will Hang、Cathy Zhou(OpenAI 微调团队);核心技术:Agent Reinforcement Fine-Tuning(Agent RFT);关键案例公司:Cognition、Codeto、Cosine、Macco;关键数字:10–1000 样本、F1 score、6% 提升、72% 性能提升;涉及模型:Codex、GPT-5(视频中口述为 GBD5/GPD5);硬件平台:NVIDIA B200;关键概念:domain shift、reward hacking、P95 延迟