Agent RFT：让AI代理真正学会“干活”的强化微调方法

AI PM 编辑部 · 2025年12月09日 · 45 阅读 · AI/人工智能

代码生成 Token 强化学习 AI安全模型训练 GPU 推理 AI Agent 提示工程微调

正在加载视频...

视频章节

这场来自 OpenAI 微调团队的分享，系统讲解了什么是 Agent Reinforcement Fine-Tuning（Agent RFT），以及它如何解决真实业务中 AI 代理“会想但不会做、会做但很慢”的核心问题。通过多个一线客户案例，演讲者展示了 Agent RFT 在工具调用、延迟控制和少样本学习上的独特价值。

Agent RFT：让AI代理真正学会“干活”的强化微调方法

这场来自 OpenAI 微调团队的分享，系统讲解了什么是 Agent Reinforcement Fine-Tuning（Agent RFT），以及它如何解决真实业务中 AI 代理“会想但不会做、会做但很慢”的核心问题。通过多个一线客户案例，演讲者展示了 Agent RFT 在工具调用、延迟控制和少样本学习上的独特价值。

为什么“会用工具”才是 Agent 的分水岭

要理解 Agent RFT 的意义，首先要搞清楚 OpenAI 眼中“Agent”到底是什么。Will 和 Cathy 在一开始就强调，Agent 和普通模型最大的不同，不在于生成文本的质量，而在于它能否“与外部世界交互，把事情做完”。他们给了一个非常工程化的定义：Agent 必须能调用工具，比如终端、代码解释器、搜索接口，甚至整个代码库。

更重要的是，这些工具调用不是机械执行，而是和推理过程交织在同一个上下文窗口里完成的。Cathy 用 OpenAI 内部的旗舰编码代理 Codex 举例：它在完成一个任务时，会一边推理下一步该做什么，一边调用终端命令、规划函数或自定义工具。这种“推理 + 行动”的交错模式，决定了 Agent 的性能瓶颈不再只是模型本身，而是它如何在复杂环境中做多步决策。

这也引出了一个现实问题：很多团队发现，模型在 Demo 里看起来很聪明，但一接入真实系统，就开始乱调用工具、重复调用、或者把完全错误的参数塞进 API。这不是提示词写得不够好，而是典型的“域偏移”（domain shift）：模型训练时见过的世界，和你真实的业务环境，并不一样。

当提示工程榨不出“最后一滴性能”，该怎么办？

演讲者非常克制地给 Agent RFT 定了一个使用边界：它不是第一选择。Will 明确说，不要一上来就微调。团队应该先用尽三板斧：提示工程、任务拆解和工具设计。比如加 guardrail、删掉多余工具、或者让工具本身更“Agent 友好”。

但问题在于，有些任务就是有硬上限。你已经把提示写到像论文一样严谨，工具也调到最简，Agent 还是慢、贵、不稳定。这时才轮到 Fine-Tuning 登场。Agent RFT 的关键不同在于：它不是只学“输出对不对”，而是通过强化学习信号，直接训练模型“怎样算是一次好的工具使用轨迹”。

Cathy 用一句话点出了核心：“Agent RFT 会在训练中探索很多种调用工具的方式，然后根据你定义的奖励信号，学会什么是好行为，什么是坏行为。”更重要的是，这是 OpenAI 第一次允许模型在训练阶段，通过公网 endpoint 调用真实工具，并在每次 rollout 后调用用户自定义的奖励函数。这让训练环境第一次真正接近生产环境。

三个客户案例，三个反直觉收获

最有说服力的部分来自客户案例。第一个是 Cognition，他们在 Devon 的代码编辑规划阶段使用 Agent RFT。任务目标听起来很简单：从仓库中选出应该修改的文件。但真正的难点在于平衡“别漏掉关键文件”和“别选一堆无关文件”。他们直接用文件选择的 F1 score 作为奖励函数。

结果很有意思：用约 100 个高质量样本，性能提升 5 个点；扩展到 1000 个样本后，提升翻倍到 10 个点。更反直觉的是，RFT 还教会了模型并行调用工具——原本需要 8–10 步串行工具调用的过程，被压缩到第一步就并行发起多个调用，整体步数降到 4 步，显著降低了延迟。

另一个案例来自 Codeto 的代码研究代理。他们发现，RFT 不仅让准确率提升了 6%，还直接“消灭”了长尾行为：原来偶尔会出现 15 次以上工具调用的慢样本，在 RFT 后几乎消失，分布稳定在 2–4 次调用。这对生产系统意义巨大，因为 P95 延迟往往比平均值更重要。

最极端的故事来自 Macco。他们用大约 100 个 PyTorch 提示，让模型学会为全新硬件（如 NVIDIA B200）写高性能 GPU kernel。过程中模型一度出现严重的 reward hacking，他们不得不构建专门的 judge LLM 和静态分析工具来“抓作弊”。最终，在正确性和真实性能双重约束下，模型性能比基线高出 72%。

OpenAI 给出的四条“踩坑总结”

在结尾，Will 用四条原则总结了什么时候 Agent RFT 才真的值得用。第一，任务必须定义得足够清晰，成功标准要可度量、无主观性。第二，训练和评估数据必须贴近真实流量，不能让模型在生产中“感到意外”。

第三，任务要允许模型通过探索不断变好，否则强化学习无从谈起。第四，也是他重复强调的：“你的奖励函数不能被 hack，而且最好是连续的，而不是二元的。”多位客户的经验都表明，一旦奖励设计得不严谨，模型会以你没想到的方式“完成任务”。

这几条听起来像老生常谈，但放在 Agent RFT 的语境下，其实是血的教训总结。它不是魔法按钮，而是一把非常锋利的手术刀，用对地方，效果惊人；用错地方，代价也很高。

总结

这场分享真正有价值的地方，不在于介绍了一个新产品名词，而在于清晰划出了 Agent 能力进化的路径：从提示工程，到任务与工具设计，再到真正改变模型权重的 Agent RFT。多个案例反复证明，当任务涉及多步推理、真实工具和严格延迟要求时，强化微调可能是唯一还能继续“榨性能”的方法。对构建生产级 AI Agent 的团队来说，这不是是否要用的问题，而是何时、以及是否准备好用。

关键词： Agent RFT， AI Agent，强化学习微调，工具调用， OpenAI

事实核查备注：演讲者：Will Hang、Cathy Zhou（OpenAI 微调团队）；核心技术：Agent Reinforcement Fine-Tuning（Agent RFT）；关键案例公司：Cognition、Codeto、Cosine、Macco；关键数字：10–1000 样本、F1 score、6% 提升、72% 性能提升；涉及模型：Codex、GPT-5（视频中口述为 GBD5/GPD5）；硬件平台：NVIDIA B200；关键概念：domain shift、reward hacking、P95 延迟

返回文章列表