GPT-4.5的真正意义:当“大模型能量”遇到人类感受

AI PM 编辑部 · 2025年03月11日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

GPT-4.5并非一次颠覆式飞跃,却揭示了大模型进化的新方向:更强的世界理解、更低的幻觉率,以及前所未有的“人味”。这篇文章解码它为何重要、为何克制,以及它如何成为通向GPT-5的关键桥梁。

GPT-4.5的真正意义:当“大模型能量”遇到人类感受

GPT-4.5并非一次颠覆式飞跃,却揭示了大模型进化的新方向:更强的世界理解、更低的幻觉率,以及前所未有的“人味”。这篇文章解码它为何重要、为何克制,以及它如何成为通向GPT-5的关键桥梁。

从“万众期待的GPT-5”到克制登场的GPT-4.5

要理解GPT-4.5,得先回到GPT-4发布后的那段空窗期。2023年初GPT-4问世后,整个行业都在等一个更大的名字——GPT-5。但一年多过去,等来的却是各种内部代号的传闻:Strawberry、Orion。YC视频里回顾了这个转折点:2024年12月,OpenAI先发布了o1,一个强调“逐步推理”的模型,在数学、代码和逻辑任务上明显超过GPT-4。于是外界一度认为,Orion才是真正的GPT-5。直到Sam Altman亲自确认:Orion就是GPT-4.5。

这个决定本身就是一个信号。GPT-4.5不是“推理优先”的前沿模型,而是OpenAI在无监督预训练(不依赖人工标注、通过海量数据学习结构)上的一次极限扩展。视频中明确提到:GPT-4.5可能比GPT-4大10倍以上,是OpenAI迄今规模最大的模型。它的角色,不是终点,而是“如果我们继续堆算力、堆数据,大模型还能给我们什么”的一次阶段性答案。

情感智能与低幻觉:GPT-4.5最被低估的突破

为什么GPT-4.5在发布后反响并不炸裂?一个原因是提升“看起来不够硬核”。但YC点出了它真正的不同:情感智能和对人类意图的理解。OpenAI研究员在视频中形容这种体验时说:“它真的更懂你在问什么,这种‘get what you mean’的感觉,对我们来说非常魔法。”

这种主观体验背后,有罕见的硬指标支撑。GPT-4.5在SimpleQA这类单关系事实问答基准上,准确率达到61.9%,而GPT-4o只有38.4%。更关键的是幻觉率——4.5约为37%,相比4o的61.2%大幅下降。这意味着在日常查询、常识性问题上,4.5明显更可信。YC的判断很直接:在“泛化问答”场景中,GPT-4.5比4o更值得信任。它不一定更会解题,但更少一本正经地胡说八道。

为什么“更像人”很难评估?Vibes Testing的无奈与价值

在创造力和写作上,GPT-4.5被反复强调“更像人”。无论是写邮件、讲笑话、编故事,还是头脑风暴,它的语气和节奏都更自然。视频提到两个评估模型说服力的基准——Make Me Pay 和 Make Me Say,GPT-4.5都明显超过GPT-4o和o1。早期内测者甚至发现,它“真的会好笑”,能理解讽刺和反讽。

但问题来了:这种好,怎么量化?OpenAI研究员坦言,他们部分依赖所谓的“Vibes testing”——让人类训练员直接对比输出,给出主观反馈。“什么是好写作?对你和对我,答案可能完全不同。”正因如此,4.5并没有像o1那样被一堆硬指标定义,而是被尽早推向真实用户世界。OpenAI想知道:你们是否也感受到这种差异?这是一次罕见地承认评估体系局限性的发布。

昂贵、但必要的桥梁:GPT-4.5指向的下一步

当然,GPT-4.5并不完美,甚至很“贵”。视频给出了明确数字:按输入token算,4.5比4o贵30倍;按输出token算,贵15倍。这几乎直接否定了它在大规模部署中的现实性。同时,在复杂STEM问题、高等数学和困难编程任务上,它明显不如推理优先的o1。

但把这些放在一起,GPT-4.5的定位反而更清晰了。YC总结得很直白:无监督预训练的规模化仍然有效,但边际收益在下降;真正的潜力,正在向“推理时计算”转移。Sam Altman在视频中提出一个关键判断:未来,像GPT-4.5这样的知识与直觉模型,会和o3这类推理模型融合。“它们并不冲突,而是高度互补。”GPT-4.5正是这座桥的一端。

总结

GPT-4.5不是一次轰动性的胜利,而是一块方向性极强的路标。它告诉我们:大模型继续变大,仍能换来更少的幻觉、更强的情感理解和更自然的表达;同时,它也提醒行业,单靠规模已不足以支撑下一个飞跃。真正令人兴奋的,是它所预示的融合未来——当广博世界知识、细腻人类直觉与强大推理能力合而为一,AI不再需要在“懂很多”和“想得清楚”之间二选一。GPT-4.5,让这个未来第一次显得具体可见。


关键词: GPT-4.5, 无监督学习, 幻觉率, 情感智能, 推理模型

事实核查备注: GPT-4.5为OpenAI迄今最大模型;可能规模为GPT-4的10倍以上;SimpleQA准确率61.9%,GPT-4o为38.4%;幻觉率GPT-4.5约37%,GPT-4o约61.2%;输入token成本约为GPT-4o的30倍,输出token约15倍;推理模型示例:o1、o3;人物:Sam Altman;来源:Y Combinator《YC Decoded》视频。