正在加载视频...
视频章节
这场由OpenAI工程师Ilan Bigio带来的分享,系统梳理了三种主流微调方式——SFT、DPO与RFT——以及它们各自解决的问题边界。与其把微调当成“最后的魔法”,他更强调一种工程化、循序渐进的思路:什么时候提示工程就够了,什么时候必须动用微调,以及如何避免投入巨大却收益有限。
从SFT到RFT:OpenAI如何系统化看待模型微调
这场由OpenAI工程师Ilan Bigio带来的分享,系统梳理了三种主流微调方式——SFT、DPO与RFT——以及它们各自解决的问题边界。与其把微调当成“最后的魔法”,他更强调一种工程化、循序渐进的思路:什么时候提示工程就够了,什么时候必须动用微调,以及如何避免投入巨大却收益有限。
为什么“提示工程”并不是万能解法
这一节之所以重要,是因为它直接回答了很多工程团队最现实的困惑:既然模型已经这么强了,为什么还要微调?Ilan在开场不久就点出了一个常见误区——很多人对微调的第一反应是“这一定能做到提示工程做不到的事”,但现实往往更复杂。
他明确指出,提示工程(Prompting)在塑造短期行为、格式约束、角色扮演上非常高效,但一旦目标变成“稳定地学会一种新行为”,提示就开始显得脆弱。模型可能在一次对话中表现良好,却在稍微变化的输入下立刻偏离。这也是他那句原话的背景:“This might be your initial reaction to fine-tuning… things prompting cannot accomplish.”
这里的关键洞见在于:是否需要微调,不取决于任务是否‘复杂’,而取决于你是否需要一致性和可复用性。如果你每次都要靠长提示、示例堆叠才能勉强拉回结果,那其实已经是一个信号——你在用提示工程弥补模型行为层面的缺失。Ilan把微调定义为一种‘把临时技巧变成长期记忆’的手段,而不是性能按钮。
三种微调方式的分工:SFT、DPO 与 RFT
理解不同微调方式的差异,是避免“用大炮打蚊子”的前提。Ilan在分享中非常清晰地把OpenAI当前支持的微调方式分成三类,并强调它们并不是互斥的选择,而是可以组合使用。
第一种是监督微调(Supervised Fine-Tuning, SFT)。它的本质是“模仿”:你提供输入和理想输出,让模型学会复制这种映射。Ilan给出的经验法则非常具体:“rules of thumb for supervised fine-tuning… 500 plus is best.” 也就是说,当数据量不足时,SFT往往只会过拟合你的示例风格,而无法形成稳固能力。
第二种是DPO(Direct Preference Optimization)。与其告诉模型‘正确答案是什么’,不如告诉它‘哪个更好’。他在视频中提到用DPO来训练模型生成笑话,并强调一个实践经验:DPO完全可以在SFT之后进行,用来进一步拉开偏好差异。
最后是强化微调(Reinforcement Fine-Tuning, RFT)。这是成本最高、但上限也最高的方式。你不再直接给答案,而是定义奖励信号,让模型在试错中逼近目标。Ilan总结得很直白:“You can get pretty pretty good results.” 但前提是你真的知道自己在奖励什么。
RFT的真实边界:你在教模型什么?
很多团队对RFT的期待,往往来自强化学习在AlphaGo等项目中的成功。但Ilan特意花了一段时间“降温”,解释为什么RFT并不是灵丹妙药。
在他给出的定义中,RFT的核心不是‘更聪明’,而是‘更像你想要的那样行动’。你提供一组输入,让模型产生多种输出,再通过奖励机制引导它‘模仿’你认可的行为模式。这里的关键词是mimic——模型并不会理解你的业务目标,只是在优化你设计的信号。
他提醒听众注意一个容易被忽略的事实:即便是RFT,你依然是在现有基模型能力的边界内工作。“You still impart some new behaviors into it.” 这句话的潜台词是,微调不会凭空创造能力,只会重塑已有能力的分布。如果基础模型不具备某种推理或知识,RFT最多只能让它在已知空间里更讨好你。
这一节最有价值的洞见在于方法论层面:在考虑RFT之前,先问自己两个问题——我能否用明确的奖励函数描述‘好’?以及这个‘好’,是否真的与最终业务指标一致?如果答案是否定的,RFT很可能只会放大噪音。
来自OpenAI内部的故事:为什么性能不是唯一指标
在偏技术的讨论之外,Ilan插入了一段个人经历,让整场分享有了情绪转折。他提到自己刚加入OpenAI时,曾被一种‘性能至上’的思维惯性所影响——只要基准分数更高,就认为模型更好。
但在真实产品中,这种思路很快碰壁。某些模型在评测集上表现亮眼,却在真实用户输入中频繁翻车;相反,一些看似“没那么聪明”的模型,因为行为稳定、边界清晰,反而更受欢迎。正是这段经历,让他重新思考微调的目标。
“performance on the task that you are going after.” 这句看似平淡的话,其实是整场演讲的价值锚点。微调不是为了赢排行榜,而是为了让模型在特定场景下,持续、可预测地完成任务。这也是他在后续总结中反复强调的:评估微调效果时,必须回到真实使用情境,而不是抽象指标。
从Demo到实践:微调是一条工程路径
在现场Demo环节,Ilan刻意没有把重点放在“炫技”上,而是展示了一条可复用的工程路径:先用提示工程快速验证需求,再用SFT固化行为,用DPO拉开偏好,最后在必要时引入RFT。
他给出的隐含建议是,不要一开始就投入最重的方案。“Okay. Uh, time for the first live demo… keep it chugging along.” 这句轻松的过渡,其实反映了一种成熟心态:微调不是一次性决策,而是一个逐步加码的过程。
这一节对实践者的启发在于:真正高效的微调策略,往往不是技术上最复杂的,而是最贴合反馈循环的。你能多快收集数据、多快验证效果,往往比你选择了哪种算法更重要。
总结
这场分享并没有试图把微调神话化,反而为它划清了边界:微调不是创造能力,而是塑造行为;不是替代思考,而是放大你的决策质量。SFT、DPO和RFT并非三选一的工具,而是一条逐步深入的工程路径。对读者而言,最大的启发或许是:在动用更复杂的微调之前,先确保你真的理解了自己想让模型学会什么。
关键词: 模型微调, SFT, DPO, RFT, OpenAI
事实核查备注: 视频标题:RFT, DPO, SFT: Fine-tuning with OpenAI;演讲者:Ilan Bigio(OpenAI);提到的微调类型:Supervised Fine-Tuning (SFT)、Direct Preference Optimization (DPO)、Reinforcement Fine-Tuning (RFT);经验数字:SFT 数据量经验法则为 500+;引用原话均来自视频片段原意转述。