从OpenAI到企业一线:Applied Compute如何重做高效强化学习

AI PM 编辑部 · 2025年12月09日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

这场演讲不是在重复“强化学习很重要”,而是讲清楚一件更现实的事:当RL从研究走向企业生产环境,什么地方一定会坏、为什么GPU会被浪费,以及他们如何用异步RL把训练效率拉回可控区间。

从OpenAI到企业一线:Applied Compute如何重做高效强化学习

这场演讲不是在重复“强化学习很重要”,而是讲清楚一件更现实的事:当RL从研究走向企业生产环境,什么地方一定会坏、为什么GPU会被浪费,以及他们如何用异步RL把训练效率拉回可控区间。

为什么前OpenAI研究员要重新思考强化学习

这场分享一开始就点出了一个清晰的背景:Rhythm Garg、Linden Li 和未能到场的 Yash,三位联合创始人都曾在 OpenAI 早期从事强化学习研究。正因为“在实验室里把RL做到极致”,他们反而更清楚一件事——实验室里的成功路径,直接搬到企业里几乎一定会失效。

Rhythm 用一句话概括 Applied Compute 的目标:“我们想把前沿 AI 带进企业内部,推动真正能交付 ROI 的自动化。”这里的关键词不是模型能力,而是“真实工作”和“量化回报”。在他们看来,企业真正需要的不是通用智能,而是一个像“公司内部专家”一样、会随着使用不断变强的系统。

强化学习在这里扮演的角色也随之改变。在 OpenAI 时,他们用 RL 去“最大化公开基准测试的分数”;而现在,RL 被用来优化每家企业自己的“私有基准”。正如他所说:“现在我们是在帮企业解决他们最关心的问题。”这是从研究成就感,转向业务生死线的转变。

高算力RL如何真正教会模型“会思考”

在技术层面,Rhythm 给了一个相对直观、但信息密度很高的流程说明,解释高算力强化学习是如何让语言模型获得推理能力的。例子很简单:从一个数学问题数据集中抽取四道题,作为一次 RL 训练的样本。

接下来,他们并不是让模型“答一次就算了”,而是让一个开源模型——比如 LLaMA 或其他同类模型——对每道题尝试上百次。通过奖励机制筛选出更好的解法,再反向更新模型参数。这种反复尝试与筛选,正是强化学习区别于监督微调的核心。

Rhythm 强调,这种方法的价值在于“我们可以教模型在我们真正关心的任务上变得非常、非常好”。这里没有夸大泛化能力,而是明确指向“特定任务的极致优化”,这也解释了为什么 RL 在企业场景下依然不可替代。

同步强化学习的致命问题:GPU在发呆

真正的转折点出现在他们开始讨论“低效的 RL”。Rhythm 先从最直观的同步强化学习讲起:采样、评估、训练严格按步骤锁死,前一步没完成,后一步就只能等。

问题在于,现代 RL 训练高度依赖 GPU。当采样阶段或环境交互拖慢节奏时,训练阶段的 GPU 只能空转。Rhythm 直接点破:“GPU 在 slacking。”这不是算法优不优雅的问题,而是算力成本被白白烧掉。

在研究机构里,这种低效尚且可以忍受;但在企业环境中,每一张 GPU 都对应着真实的预算和交付周期。正因如此,他明确指出:“同步 RL 不是一种高效使用 GPU 的方式。”这句话几乎奠定了后半场的全部方向。

打破锁步:异步RL成为业务级必选项

Applied Compute 给出的答案,是打破“采样和训练必须锁步进行”的假设。只要这条约束存在,RL 就很难扩展到大规模、低成本、可持续的企业训练流程。

他们关注的并不是最复杂的理论问题,而是一个“足够简单、但能落地”的子问题:如何让采样和训练异步进行,同时保持系统稳定性和训练质量。正如 Rhythm 所说,这正是他们构建高效 RL 栈的研究核心,而且“直接流回我们的核心业务”。

这里的关键信息在于定位:这不是一次纯研究探索,而是和 Agent 构建平台、用例级训练规模直接绑定的工程决策。异步 RL 不只是更快,而是让“用 RL 为每个具体业务定制模型”在经济上变得可行。

总结

这场分享的价值,不在于提出全新的强化学习理论,而在于把一个被研究社区习以为常的问题,放到企业现实中重新审视。来自 OpenAI 的经验让他们看清同步 RL 的效率陷阱,而企业交付压力迫使他们做出异步化的工程选择。对读者最大的启发是:当技术从“追求最优”转向“必须可持续”,判断标准本身就已经发生了变化。


关键词: 强化学习, 异步RL, GPU效率, 企业AI, 开源模型

事实核查备注: 人物:Rhythm Garg、Linden Li、Yash(Applied Compute 联合创始人,均曾在 OpenAI 从事 RL 工作);公司:Applied Compute、OpenAI;技术:强化学习(RL)、同步RL、异步RL;模型:LLaMA(作为示例的开源模型);关键表述:GPU 在同步 RL 中存在空转效率问题。