从规模化到自我进化:强化学习为何成为自动编程的关键拐点

AI PM 编辑部 · 2025年07月16日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这场演讲由前Google PaLM与Gemini核心研究者Aakanksha Chowdhery分享,系统回顾了大语言模型从“规模化”到“推理能力”再到“自动编程”的演进脉络。她的核心观点是:当模型具备推理能力后,真正的瓶颈转向了如何通过强化学习,让模型在真实任务中自我改进。

从规模化到自我进化:强化学习为何成为自动编程的关键拐点

这场演讲由前Google PaLM与Gemini核心研究者Aakanksha Chowdhery分享,系统回顾了大语言模型从“规模化”到“推理能力”再到“自动编程”的演进脉络。她的核心观点是:当模型具备推理能力后,真正的瓶颈转向了如何通过强化学习,让模型在真实任务中自我改进。

为什么是她:从PaLM、Gemini到自动编程前沿

理解这场演讲,首先要理解演讲者的背景为什么重要。Aakanksha Chowdhery在开场就简要介绍了自己的经历:她在Google工作超过六年,先后领导了PaLM的研究,并担任Gemini的核心研究者。她并非旁观者,而是深度参与了大模型两代关键系统的构建。

也正因为如此,她的转向显得格外值得关注。她直言:“these days I'm working on pushing the frontier for autonomous coding with reinforcement learning。”这不是一个新概念的炒作,而是来自一线研究者的判断:在模型参数和数据规模不断扩张之后,下一阶段的竞争不再只是“更大”,而是“更自主”。

她把“自动编程”视为一个天然适合强化学习的试验场:任务目标清晰(代码是否正确)、反馈信号明确(测试是否通过),而且足够复杂,能够检验模型是否真的在“思考”。这为后续的技术讨论定下了基调:这是一次从经验总结中生长出来的方向选择。

规模化时代的遗产:Scaling Laws如何奠定一切基础

演讲的第一段技术回顾,指向了2020年的一个关键节点——大语言模型的Scaling Laws论文。Chowdhery用“30秒回顾”概括了其核心思想:模型的测试损失与模型规模、数据规模、计算量之间,呈现出稳定的幂律关系。

这个发现的重要性在于,它第一次让语言模型的进步变得“可预期”。只要你愿意投入更多算力和数据,模型性能就会持续、平滑地提升。这一认知直接推动了后来的PaLM、GPT系列以及Gemini等超大模型的出现。

但她也点出了一个常被忽略的事实:Scaling Laws主要解决的是“语言建模”本身的问题,而不是复杂任务的执行。当模型在理解和生成语言上达到足够水平后,新的问题随之而来——我们还能不能只靠继续放大规模,来解决更高阶的智能任务?这个疑问,正是后续转折的起点。

从能说会写到会思考:推理能力带来的新天花板

随着模型规模的扩大,研究者开始观察到一个质变:模型不只是更流畅地生成文本,而是开始展现“推理能力”。Chowdhery总结这一阶段时提到:当模型能够进行多步推理,它们就可以“follow instructions”,也就是更可靠地执行人类给出的复杂指令。

但紧接着,行业内部出现了新的争论。她回顾了“去年”的一系列讨论:我们是否正在撞上性能的墙?在一些基准任务上,提升开始变慢,甚至在某些指标附近徘徊在80%左右。这引发了对“规模是否已经接近极限”的焦虑。

她的判断并不是简单的乐观或悲观,而是指出一个关键转移点:问题不再只是训练阶段的规模,而是推理阶段如何使用计算。她明确强调,“correct generation is basically scaling inference time compute”,也就是说,通过更多推理步骤、更多尝试(例如多数投票),模型仍然可以获得显著改进。这为强化学习的介入铺平了道路。

为什么自动编程适合强化学习:奖励函数与真实反馈

在演讲后半段,Chowdhery把焦点集中在“为什么是自动编程”。她抛出了一个看似简单却非常关键的问题:如果这种方法这么有效,“why is not everyone doing it?”答案就在于奖励函数的设计。

在许多现实世界任务中,什么是“好结果”并不清晰,也难以自动评估。但在编程领域,情况截然不同:代码能不能编译、测试是否通过、输出是否正确,都是客观且可自动验证的信号。她明确指出,reward functions在这里是可行的、可扩展的。

正因为如此,她得出结论:“autonomous coding is a great domain”。在这个领域,模型可以通过强化学习不断尝试、失败、修正,而不是只依赖人类标注的数据。这不仅是一个应用方向,更像是一个实验平台,用来探索模型是否真的具备自我改进和长期规划的能力。

总结

这场演讲的价值,不在于给出某个立竿见影的产品方案,而在于清晰地勾勒了一条技术演进路线:规模化带来了语言能力,推理能力暴露了新瓶颈,而强化学习,尤其是在自动编程这样的高反馈场景中,可能是突破瓶颈的关键工具。对从业者而言,这提醒我们关注的不只是模型“多大”,而是模型能否在真实任务中持续学习与进化。


关键词: 强化学习, 自动编程, 大语言模型, 推理能力, Gemini

事实核查备注: Aakanksha Chowdhery:曾在Google工作超过六年,参与并领导PaLM研究,是Gemini的核心研究者;Scaling Laws:2020年提出的大语言模型规模定律;推理阶段计算(inference time compute):通过增加推理步骤或多数投票提升结果正确性;自动编程:被视为适合强化学习的应用领域;涉及公司与产品:Google、PaLM、Gemini。