从参数狂飙到“思考算力”:Scaling Laws如何改写AI进化路线

AI PM 编辑部 · 2025年01月23日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

这篇文章还原了YC Decoded对“Scaling Laws”的完整叙事:从GPT-2到GPT-3确立规模定律,从Chinchilla纠偏“只堆参数”的误区,再到OpenAI用推理模型与测试时算力开启新一轮扩展路径。你将理解:为什么AI并未撞墙,而是正在换一条更陡峭的增长曲线。

从参数狂飙到“思考算力”:Scaling Laws如何改写AI进化路线

这篇文章还原了YC Decoded对“Scaling Laws”的完整叙事:从GPT-2到GPT-3确立规模定律,从Chinchilla纠偏“只堆参数”的误区,再到OpenAI用推理模型与测试时算力开启新一轮扩展路径。你将理解:为什么AI并未撞墙,而是正在换一条更陡峭的增长曲线。

一切始于一个“看似笨拙却有效”的共识:规模就是力量

这一切之所以重要,是因为过去几年里,AI领域几乎所有突破都押注在同一个简单到近乎粗暴的策略上:不断放大规模。视频一开始就点出这个背景——大语言模型不仅“更大了”,而且“更聪明了”。参数更多、数据更大、算力更强,模型能力就会持续提升,甚至像摩尔定律一样呈指数级进步。

OpenAI在2019年11月发布的GPT-2拥有约15亿参数,而2020年夏天推出的GPT-3直接跃升到超过100倍规模。这一次跨越式放大,第一次让行业意识到:模型“变大”本身就能带来质变,而不是边际改良。正如视频中所说,在那之前,没有人能保证“模型大100倍,能力也会大幅提升”,大家担心的正是收益递减。

转折点出现在2020年1月。OpenAI研究员Jared Kaplan、Sam McCandlish等人发表了《Scaling Laws for Neural Language Models》,首次系统性证明:当参数、数据和计算量同时扩大时,模型性能会沿着一条平滑的幂律曲线提升。视频用一个形象比喻解释这篇论文——训练AI就像做菜,模型、数据和算力是三种原料,缺一不可。这一发现改变了整个行业对AI研发不确定性的看法,也让“大胆加码规模”从赌注变成了方法论。

从“秘而不宣”到行业信条:Scaling Hypothesis如何被点燃

理解这一段很关键,因为它解释了为什么Scaling Laws会迅速从论文变成共识。视频指出,早期这些规律几乎只在OpenAI内部流传,但有一位匿名研究者和写作者率先将其系统化表达为“Scaling Hypothesis”。他的核心判断是:只要不断扩大模型、数据和算力,“智能会自然涌现”。

视频中直接引用了这种近乎直觉化的表述:“也许智能真的只是大量算力,作用在大量数据和大量参数之上的结果。”这句话之所以有冲击力,是因为它几乎把“算法巧思”降到了次要位置,把AI进步简化为一个工程问题。

随后,OpenAI的进一步研究验证了这一点并非只适用于文本模型。文本生成图像、图像到文本,甚至数学任务中,类似的规模定律都反复出现。Scaling Laws从一个“可能有用的观察”,迅速演变为AI开发的底层信念:如果你想要更强的模型,最可靠的路径不是换新算法,而是扩大规模。这种信念,直接塑造了后来整个大模型竞赛的走向。

Chinchilla的意外反击:不是模型不够大,而是“吃得不够多”

这一节的重要性在于,它揭示了Scaling Laws并非“无脑做大”,而是存在精确配比。2022年,Google DeepMind发布了关于Scaling Laws的研究,补上了一个关键盲点:数据量必须与模型规模匹配。

研究人员在固定计算预算下,训练了400多个不同大小、不同数据量的模型,结果令人意外——像GPT-3这样的模型,其实是“训练不足”的。也就是说,模型参数巨大,但喂给它的文本数据不够多,潜力没有被完全激发。

为了验证这一点,DeepMind训练了Chinchilla:参数规模不到GPT-3的一半,但训练数据量是其四倍。结果是,在1:1对比中,Chinchilla显著优于体量更大的模型,甚至击败了参数规模是它两到三倍的系统。视频明确指出,这一发现催生了所谓的“Chinchilla Scaling Laws”,并直接影响了后续前沿模型的训练方式。

正是在这一原则下,行业才逐步走向我们今天看到的模型,比如GPT-4o、Claude 3.5 Sonnet等。一个重要变化是:团队开始“相信”Scaling Laws,只要遵循最优比例,就能稳定地获得更强模型,而不是靠运气。

当预训练放缓,新的斜率出现:推理模型与“测试时算力”

这一部分是整段视频中最具前瞻性的内容,也解释了为什么“AI撞墙论”可能站不住脚。近一年里,业内不断传出声音:模型更大、成本更高,但能力提升却开始趋缓,甚至有失败的训练案例和高质量数据枯竭的担忧。

视频并没有回避这些质疑,而是给出了一个明确转向:如果旧的Scaling Laws在预训练阶段边际收益下降,那么新的增长点可能在“推理阶段”。OpenAI的新一代推理模型o1,以及其后继者o3,正是这种思路的体现。

研究发现,o1在解决复杂问题时,“想得越久,表现越好”。而o3的发布更是震动行业,它在软件工程、数学以及博士级科学问题上的表现,直接碾压了此前被认为难以逾越的基准。视频中的原话非常直白:“这不是小幅提升,而是一次巨大的飞跃。”

关键变化在于,扩展不再只发生在训练时,而是发生在推理时。通过增加“测试时算力”(test-time compute),模型可以在需要时动态投入更多计算,用更长的Chain of Thought完成更难的任务。视频最后给出一个极具想象力的判断:预训练规模也许正在进入中局,但新的Scaling Paradigm,才刚刚开始。

总结

这期YC Decoded传达的核心信息并不是“Scaling Laws是否失效”,而是它们正在进化。参数、数据和算力塑造了过去十年的AI跃迁;而今天,推理深度与测试时算力,正在打开新的增长曲线。对创业者和技术从业者而言,真正的启示是:不要只盯着模型有多大,而要理解规模作用的“位置”正在发生转移。AI远未到终局,我们可能只是刚换了一条更长的跑道。


关键词: Scaling Laws, 大语言模型, Chinchilla, 推理模型, 通用人工智能

事实核查备注: GPT-2发布时间:2019年11月;GPT-3发布时间:2020年夏;GPT-3参数规模为GPT-2的100倍以上;《Scaling Laws for Neural Language Models》发表于2020年1月,作者包括Jared Kaplan与Sam McCandlish;DeepMind于2022年提出Chinchilla Scaling Laws;Chinchilla参数少于GPT-3一半但训练数据量为其4倍;视频提及产品:GPT-4o、Claude 3.5 Sonnet、o1、o3;核心概念:test-time compute、Chain of Thought。