从SFT到RFT：OpenAI如何系统化看待模型微调

AI PM 编辑部 · 2025年06月23日 · 25 阅读 · AI/人工智能

正在加载视频...

视频章节

这场由OpenAI工程师Ilan Bigio带来的分享，系统梳理了三种主流微调方式——SFT、DPO与RFT——以及它们各自解决的问题边界。与其把微调当成“最后的魔法”，他更强调一种工程化、循序渐进的思路：什么时候提示工程就够了，什么时候必须动用微调，以及如何避免投入巨大却收益有限。

从SFT到RFT：OpenAI如何系统化看待模型微调

这场由OpenAI工程师Ilan Bigio带来的分享，系统梳理了三种主流微调方式——SFT、DPO与RFT——以及它们各自解决的问题边界。与其把微调当成“最后的魔法”，他更强调一种工程化、循序渐进的思路：什么时候提示工程就够了，什么时候必须动用微调，以及如何避免投入巨大却收益有限。

为什么“提示工程”并不是万能解法

这一节之所以重要，是因为它直接回答了很多工程团队最现实的困惑：既然模型已经这么强了，为什么还要微调？Ilan在开场不久就点出了一个常见误区——很多人对微调的第一反应是“这一定能做到提示工程做不到的事”，但现实往往更复杂。

他明确指出，提示工程（Prompting）在塑造短期行为、格式约束、角色扮演上非常高效，但一旦目标变成“稳定地学会一种新行为”，提示就开始显得脆弱。模型可能在一次对话中表现良好，却在稍微变化的输入下立刻偏离。这也是他那句原话的背景：“This might be your initial reaction to fine-tuning… things prompting cannot accomplish.”

这里的关键洞见在于：是否需要微调，不取决于任务是否‘复杂’，而取决于你是否需要一致性和可复用性。如果你每次都要靠长提示、示例堆叠才能勉强拉回结果，那其实已经是一个信号——你在用提示工程弥补模型行为层面的缺失。Ilan把微调定义为一种‘把临时技巧变成长期记忆’的手段，而不是性能按钮。

三种微调方式的分工：SFT、DPO 与 RFT

理解不同微调方式的差异，是避免“用大炮打蚊子”的前提。Ilan在分享中非常清晰地把OpenAI当前支持的微调方式分成三类，并强调它们并不是互斥的选择，而是可以组合使用。

第一种是监督微调（Supervised Fine-Tuning， SFT）。它的本质是“模仿”：你提供输入和理想输出，让模型学会复制这种映射。Ilan给出的经验法则非常具体：“rules of thumb for supervised fine-tuning… 500 plus is best.” 也就是说，当数据量不足时，SFT往往只会过拟合你的示例风格，而无法形成稳固能力。

第二种是DPO（Direct Preference Optimization）。与其告诉模型‘正确答案是什么’，不如告诉它‘哪个更好’。他在视频中提到用DPO来训练模型生成笑话，并强调一个实践经验：DPO完全可以在SFT之后进行，用来进一步拉开偏好差异。

最后是强化微调（Reinforcement Fine-Tuning， RFT）。这是成本最高、但上限也最高的方式。你不再直接给答案，而是定义奖励信号，让模型在试错中逼近目标。Ilan总结得很直白：“You can get pretty pretty good results.” 但前提是你真的知道自己在奖励什么。

RFT的真实边界：你在教模型什么？

很多团队对RFT的期待，往往来自强化学习在AlphaGo等项目中的成功。但Ilan特意花了一段时间“降温”，解释为什么RFT并不是灵丹妙药。

在他给出的定义中，RFT的核心不是‘更聪明’，而是‘更像你想要的那样行动’。你提供一组输入，让模型产生多种输出，再通过奖励机制引导它‘模仿’你认可的行为模式。这里的关键词是mimic——模型并不会理解你的业务目标，只是在优化你设计的信号。

他提醒听众注意一个容易被忽略的事实：即便是RFT，你依然是在现有基模型能力的边界内工作。“You still impart some new behaviors into it.” 这句话的潜台词是，微调不会凭空创造能力，只会重塑已有能力的分布。如果基础模型不具备某种推理或知识，RFT最多只能让它在已知空间里更讨好你。

这一节最有价值的洞见在于方法论层面：在考虑RFT之前，先问自己两个问题——我能否用明确的奖励函数描述‘好’？以及这个‘好’，是否真的与最终业务指标一致？如果答案是否定的，RFT很可能只会放大噪音。

来自OpenAI内部的故事：为什么性能不是唯一指标

在偏技术的讨论之外，Ilan插入了一段个人经历，让整场分享有了情绪转折。他提到自己刚加入OpenAI时，曾被一种‘性能至上’的思维惯性所影响——只要基准分数更高，就认为模型更好。

但在真实产品中，这种思路很快碰壁。某些模型在评测集上表现亮眼，却在真实用户输入中频繁翻车；相反，一些看似“没那么聪明”的模型，因为行为稳定、边界清晰，反而更受欢迎。正是这段经历，让他重新思考微调的目标。

“performance on the task that you are going after.” 这句看似平淡的话，其实是整场演讲的价值锚点。微调不是为了赢排行榜，而是为了让模型在特定场景下，持续、可预测地完成任务。这也是他在后续总结中反复强调的：评估微调效果时，必须回到真实使用情境，而不是抽象指标。

从Demo到实践：微调是一条工程路径

在现场Demo环节，Ilan刻意没有把重点放在“炫技”上，而是展示了一条可复用的工程路径：先用提示工程快速验证需求，再用SFT固化行为，用DPO拉开偏好，最后在必要时引入RFT。

他给出的隐含建议是，不要一开始就投入最重的方案。“Okay. Uh， time for the first live demo… keep it chugging along.” 这句轻松的过渡，其实反映了一种成熟心态：微调不是一次性决策，而是一个逐步加码的过程。

这一节对实践者的启发在于：真正高效的微调策略，往往不是技术上最复杂的，而是最贴合反馈循环的。你能多快收集数据、多快验证效果，往往比你选择了哪种算法更重要。

总结

这场分享并没有试图把微调神话化，反而为它划清了边界：微调不是创造能力，而是塑造行为；不是替代思考，而是放大你的决策质量。SFT、DPO和RFT并非三选一的工具，而是一条逐步深入的工程路径。对读者而言，最大的启发或许是：在动用更复杂的微调之前，先确保你真的理解了自己想让模型学会什么。

关键词：模型微调， SFT， DPO， RFT， OpenAI

事实核查备注：视频标题：RFT， DPO， SFT： Fine-tuning with OpenAI；演讲者：Ilan Bigio（OpenAI）；提到的微调类型：Supervised Fine-Tuning （SFT）、Direct Preference Optimization （DPO）、Reinforcement Fine-Tuning （RFT）；经验数字：SFT 数据量经验法则为 500+；引用原话均来自视频片段原意转述。

返回文章列表