GPT-4.5的真正意义：当“大模型能量”遇到人类感受

AI PM 编辑部 · 2025年03月11日 · 29 阅读 · AI/人工智能

Elon Musk Satya Nadella 吴恩达 Sam Altman Andrej Karpathy 李飞飞无监督学习模型部署 Token 幻觉

正在加载视频...

视频章节

GPT-4.5并非一次颠覆式飞跃，却揭示了大模型进化的新方向：更强的世界理解、更低的幻觉率，以及前所未有的“人味”。这篇文章解码它为何重要、为何克制，以及它如何成为通向GPT-5的关键桥梁。

GPT-4.5的真正意义：当“大模型能量”遇到人类感受

GPT-4.5并非一次颠覆式飞跃，却揭示了大模型进化的新方向：更强的世界理解、更低的幻觉率，以及前所未有的“人味”。这篇文章解码它为何重要、为何克制，以及它如何成为通向GPT-5的关键桥梁。

从“万众期待的GPT-5”到克制登场的GPT-4.5

要理解GPT-4.5，得先回到GPT-4发布后的那段空窗期。2023年初GPT-4问世后，整个行业都在等一个更大的名字——GPT-5。但一年多过去，等来的却是各种内部代号的传闻：Strawberry、Orion。YC视频里回顾了这个转折点：2024年12月，OpenAI先发布了o1，一个强调“逐步推理”的模型，在数学、代码和逻辑任务上明显超过GPT-4。于是外界一度认为，Orion才是真正的GPT-5。直到Sam Altman亲自确认：Orion就是GPT-4.5。

这个决定本身就是一个信号。GPT-4.5不是“推理优先”的前沿模型，而是OpenAI在无监督预训练（不依赖人工标注、通过海量数据学习结构）上的一次极限扩展。视频中明确提到：GPT-4.5可能比GPT-4大10倍以上，是OpenAI迄今规模最大的模型。它的角色，不是终点，而是“如果我们继续堆算力、堆数据，大模型还能给我们什么”的一次阶段性答案。

情感智能与低幻觉：GPT-4.5最被低估的突破

为什么GPT-4.5在发布后反响并不炸裂？一个原因是提升“看起来不够硬核”。但YC点出了它真正的不同：情感智能和对人类意图的理解。OpenAI研究员在视频中形容这种体验时说：“它真的更懂你在问什么，这种‘get what you mean’的感觉，对我们来说非常魔法。”

这种主观体验背后，有罕见的硬指标支撑。GPT-4.5在SimpleQA这类单关系事实问答基准上，准确率达到61.9%，而GPT-4o只有38.4%。更关键的是幻觉率——4.5约为37%，相比4o的61.2%大幅下降。这意味着在日常查询、常识性问题上，4.5明显更可信。YC的判断很直接：在“泛化问答”场景中，GPT-4.5比4o更值得信任。它不一定更会解题，但更少一本正经地胡说八道。

为什么“更像人”很难评估？Vibes Testing的无奈与价值

在创造力和写作上，GPT-4.5被反复强调“更像人”。无论是写邮件、讲笑话、编故事，还是头脑风暴，它的语气和节奏都更自然。视频提到两个评估模型说服力的基准——Make Me Pay 和 Make Me Say，GPT-4.5都明显超过GPT-4o和o1。早期内测者甚至发现，它“真的会好笑”，能理解讽刺和反讽。

但问题来了：这种好，怎么量化？OpenAI研究员坦言，他们部分依赖所谓的“Vibes testing”——让人类训练员直接对比输出，给出主观反馈。“什么是好写作？对你和对我，答案可能完全不同。”正因如此，4.5并没有像o1那样被一堆硬指标定义，而是被尽早推向真实用户世界。OpenAI想知道：你们是否也感受到这种差异？这是一次罕见地承认评估体系局限性的发布。

昂贵、但必要的桥梁：GPT-4.5指向的下一步

当然，GPT-4.5并不完美，甚至很“贵”。视频给出了明确数字：按输入token算，4.5比4o贵30倍；按输出token算，贵15倍。这几乎直接否定了它在大规模部署中的现实性。同时，在复杂STEM问题、高等数学和困难编程任务上，它明显不如推理优先的o1。

但把这些放在一起，GPT-4.5的定位反而更清晰了。YC总结得很直白：无监督预训练的规模化仍然有效，但边际收益在下降；真正的潜力，正在向“推理时计算”转移。Sam Altman在视频中提出一个关键判断：未来，像GPT-4.5这样的知识与直觉模型，会和o3这类推理模型融合。“它们并不冲突，而是高度互补。”GPT-4.5正是这座桥的一端。

总结

GPT-4.5不是一次轰动性的胜利，而是一块方向性极强的路标。它告诉我们：大模型继续变大，仍能换来更少的幻觉、更强的情感理解和更自然的表达；同时，它也提醒行业，单靠规模已不足以支撑下一个飞跃。真正令人兴奋的，是它所预示的融合未来——当广博世界知识、细腻人类直觉与强大推理能力合而为一，AI不再需要在“懂很多”和“想得清楚”之间二选一。GPT-4.5，让这个未来第一次显得具体可见。

关键词： GPT-4.5，无监督学习，幻觉率，情感智能，推理模型

事实核查备注： GPT-4.5为OpenAI迄今最大模型；可能规模为GPT-4的10倍以上；SimpleQA准确率61.9%，GPT-4o为38.4%；幻觉率GPT-4.5约37%，GPT-4o约61.2%；输入token成本约为GPT-4o的30倍，输出token约15倍；推理模型示例：o1、o3；人物：Sam Altman；来源：Y Combinator《YC Decoded》视频。

返回文章列表