从OpenAI到企业一线：Applied Compute如何重做高效强化学习

AI PM 编辑部 · 2025年12月09日 · 31 阅读 · AI/人工智能

正在加载视频...

视频章节

这场演讲不是在重复“强化学习很重要”，而是讲清楚一件更现实的事：当RL从研究走向企业生产环境，什么地方一定会坏、为什么GPU会被浪费，以及他们如何用异步RL把训练效率拉回可控区间。

从OpenAI到企业一线：Applied Compute如何重做高效强化学习

这场演讲不是在重复“强化学习很重要”，而是讲清楚一件更现实的事：当RL从研究走向企业生产环境，什么地方一定会坏、为什么GPU会被浪费，以及他们如何用异步RL把训练效率拉回可控区间。

为什么前OpenAI研究员要重新思考强化学习

这场分享一开始就点出了一个清晰的背景：Rhythm Garg、Linden Li 和未能到场的 Yash，三位联合创始人都曾在 OpenAI 早期从事强化学习研究。正因为“在实验室里把RL做到极致”，他们反而更清楚一件事——实验室里的成功路径，直接搬到企业里几乎一定会失效。

Rhythm 用一句话概括 Applied Compute 的目标：“我们想把前沿 AI 带进企业内部，推动真正能交付 ROI 的自动化。”这里的关键词不是模型能力，而是“真实工作”和“量化回报”。在他们看来，企业真正需要的不是通用智能，而是一个像“公司内部专家”一样、会随着使用不断变强的系统。

强化学习在这里扮演的角色也随之改变。在 OpenAI 时，他们用 RL 去“最大化公开基准测试的分数”；而现在，RL 被用来优化每家企业自己的“私有基准”。正如他所说：“现在我们是在帮企业解决他们最关心的问题。”这是从研究成就感，转向业务生死线的转变。

高算力RL如何真正教会模型“会思考”

在技术层面，Rhythm 给了一个相对直观、但信息密度很高的流程说明，解释高算力强化学习是如何让语言模型获得推理能力的。例子很简单：从一个数学问题数据集中抽取四道题，作为一次 RL 训练的样本。

接下来，他们并不是让模型“答一次就算了”，而是让一个开源模型——比如 LLaMA 或其他同类模型——对每道题尝试上百次。通过奖励机制筛选出更好的解法，再反向更新模型参数。这种反复尝试与筛选，正是强化学习区别于监督微调的核心。

Rhythm 强调，这种方法的价值在于“我们可以教模型在我们真正关心的任务上变得非常、非常好”。这里没有夸大泛化能力，而是明确指向“特定任务的极致优化”，这也解释了为什么 RL 在企业场景下依然不可替代。

同步强化学习的致命问题：GPU在发呆

真正的转折点出现在他们开始讨论“低效的 RL”。Rhythm 先从最直观的同步强化学习讲起：采样、评估、训练严格按步骤锁死，前一步没完成，后一步就只能等。

问题在于，现代 RL 训练高度依赖 GPU。当采样阶段或环境交互拖慢节奏时，训练阶段的 GPU 只能空转。Rhythm 直接点破：“GPU 在 slacking。”这不是算法优不优雅的问题，而是算力成本被白白烧掉。

在研究机构里，这种低效尚且可以忍受；但在企业环境中，每一张 GPU 都对应着真实的预算和交付周期。正因如此，他明确指出：“同步 RL 不是一种高效使用 GPU 的方式。”这句话几乎奠定了后半场的全部方向。

打破锁步：异步RL成为业务级必选项

Applied Compute 给出的答案，是打破“采样和训练必须锁步进行”的假设。只要这条约束存在，RL 就很难扩展到大规模、低成本、可持续的企业训练流程。

他们关注的并不是最复杂的理论问题，而是一个“足够简单、但能落地”的子问题：如何让采样和训练异步进行，同时保持系统稳定性和训练质量。正如 Rhythm 所说，这正是他们构建高效 RL 栈的研究核心，而且“直接流回我们的核心业务”。

这里的关键信息在于定位：这不是一次纯研究探索，而是和 Agent 构建平台、用例级训练规模直接绑定的工程决策。异步 RL 不只是更快，而是让“用 RL 为每个具体业务定制模型”在经济上变得可行。

总结

这场分享的价值，不在于提出全新的强化学习理论，而在于把一个被研究社区习以为常的问题，放到企业现实中重新审视。来自 OpenAI 的经验让他们看清同步 RL 的效率陷阱，而企业交付压力迫使他们做出异步化的工程选择。对读者最大的启发是：当技术从“追求最优”转向“必须可持续”，判断标准本身就已经发生了变化。

关键词：强化学习，异步RL， GPU效率，企业AI，开源模型

事实核查备注：人物：Rhythm Garg、Linden Li、Yash（Applied Compute 联合创始人，均曾在 OpenAI 从事 RL 工作）；公司：Applied Compute、OpenAI；技术：强化学习（RL）、同步RL、异步RL；模型：LLaMA（作为示例的开源模型）；关键表述：GPU 在同步 RL 中存在空转效率问题。

返回文章列表