从规模化到自我进化：强化学习为何成为自动编程的关键拐点

AI PM 编辑部 · 2025年07月16日 · 19 阅读 · AI/人工智能

正在加载视频...

视频章节

这场演讲由前Google PaLM与Gemini核心研究者Aakanksha Chowdhery分享，系统回顾了大语言模型从“规模化”到“推理能力”再到“自动编程”的演进脉络。她的核心观点是：当模型具备推理能力后，真正的瓶颈转向了如何通过强化学习，让模型在真实任务中自我改进。

从规模化到自我进化：强化学习为何成为自动编程的关键拐点

这场演讲由前Google PaLM与Gemini核心研究者Aakanksha Chowdhery分享，系统回顾了大语言模型从“规模化”到“推理能力”再到“自动编程”的演进脉络。她的核心观点是：当模型具备推理能力后，真正的瓶颈转向了如何通过强化学习，让模型在真实任务中自我改进。

为什么是她：从PaLM、Gemini到自动编程前沿

理解这场演讲，首先要理解演讲者的背景为什么重要。Aakanksha Chowdhery在开场就简要介绍了自己的经历：她在Google工作超过六年，先后领导了PaLM的研究，并担任Gemini的核心研究者。她并非旁观者，而是深度参与了大模型两代关键系统的构建。

也正因为如此，她的转向显得格外值得关注。她直言：“these days I'm working on pushing the frontier for autonomous coding with reinforcement learning。”这不是一个新概念的炒作，而是来自一线研究者的判断：在模型参数和数据规模不断扩张之后，下一阶段的竞争不再只是“更大”，而是“更自主”。

她把“自动编程”视为一个天然适合强化学习的试验场：任务目标清晰（代码是否正确）、反馈信号明确（测试是否通过），而且足够复杂，能够检验模型是否真的在“思考”。这为后续的技术讨论定下了基调：这是一次从经验总结中生长出来的方向选择。

规模化时代的遗产：Scaling Laws如何奠定一切基础

演讲的第一段技术回顾，指向了2020年的一个关键节点——大语言模型的Scaling Laws论文。Chowdhery用“30秒回顾”概括了其核心思想：模型的测试损失与模型规模、数据规模、计算量之间，呈现出稳定的幂律关系。

这个发现的重要性在于，它第一次让语言模型的进步变得“可预期”。只要你愿意投入更多算力和数据，模型性能就会持续、平滑地提升。这一认知直接推动了后来的PaLM、GPT系列以及Gemini等超大模型的出现。

但她也点出了一个常被忽略的事实：Scaling Laws主要解决的是“语言建模”本身的问题，而不是复杂任务的执行。当模型在理解和生成语言上达到足够水平后，新的问题随之而来——我们还能不能只靠继续放大规模，来解决更高阶的智能任务？这个疑问，正是后续转折的起点。

从能说会写到会思考：推理能力带来的新天花板

随着模型规模的扩大，研究者开始观察到一个质变：模型不只是更流畅地生成文本，而是开始展现“推理能力”。Chowdhery总结这一阶段时提到：当模型能够进行多步推理，它们就可以“follow instructions”，也就是更可靠地执行人类给出的复杂指令。

但紧接着，行业内部出现了新的争论。她回顾了“去年”的一系列讨论：我们是否正在撞上性能的墙？在一些基准任务上，提升开始变慢，甚至在某些指标附近徘徊在80%左右。这引发了对“规模是否已经接近极限”的焦虑。

她的判断并不是简单的乐观或悲观，而是指出一个关键转移点：问题不再只是训练阶段的规模，而是推理阶段如何使用计算。她明确强调，“correct generation is basically scaling inference time compute”，也就是说，通过更多推理步骤、更多尝试（例如多数投票），模型仍然可以获得显著改进。这为强化学习的介入铺平了道路。

为什么自动编程适合强化学习：奖励函数与真实反馈

在演讲后半段，Chowdhery把焦点集中在“为什么是自动编程”。她抛出了一个看似简单却非常关键的问题：如果这种方法这么有效，“why is not everyone doing it？”答案就在于奖励函数的设计。

在许多现实世界任务中，什么是“好结果”并不清晰，也难以自动评估。但在编程领域，情况截然不同：代码能不能编译、测试是否通过、输出是否正确，都是客观且可自动验证的信号。她明确指出，reward functions在这里是可行的、可扩展的。

正因为如此，她得出结论：“autonomous coding is a great domain”。在这个领域，模型可以通过强化学习不断尝试、失败、修正，而不是只依赖人类标注的数据。这不仅是一个应用方向，更像是一个实验平台，用来探索模型是否真的具备自我改进和长期规划的能力。

总结

这场演讲的价值，不在于给出某个立竿见影的产品方案，而在于清晰地勾勒了一条技术演进路线：规模化带来了语言能力，推理能力暴露了新瓶颈，而强化学习，尤其是在自动编程这样的高反馈场景中，可能是突破瓶颈的关键工具。对从业者而言，这提醒我们关注的不只是模型“多大”，而是模型能否在真实任务中持续学习与进化。

关键词：强化学习，自动编程，大语言模型，推理能力， Gemini

事实核查备注： Aakanksha Chowdhery：曾在Google工作超过六年，参与并领导PaLM研究，是Gemini的核心研究者；Scaling Laws：2020年提出的大语言模型规模定律；推理阶段计算（inference time compute）：通过增加推理步骤或多数投票提升结果正确性；自动编程：被视为适合强化学习的应用领域；涉及公司与产品：Google、PaLM、Gemini。

返回文章列表