GPT‑5.4刚发布24小时:最强代码模型,还是被高估的工具怪兽

AI PM 编辑部 · 2026年03月07日 · 12 阅读 · AI/人工智能

正在加载视频...

视频章节

GPT‑5.4上线不到一天,评论区已经吵翻天:有人说它是“目前最强模型”,也有人开始吐槽它的UI和命名混乱。这支视频最狠的地方不在于跑分,而是点破了一个趋势——大模型正在从“聊天玩具”转向真正的知识工作引擎。

GPT‑5.4刚发布24小时:最强代码模型,还是被高估的工具怪兽

GPT‑5.4上线不到一天,评论区已经吵翻天:有人说它是“目前最强模型”,也有人开始吐槽它的UI和命名混乱。这支视频最狠的地方不在于跑分,而是点破了一个趋势——大模型正在从“聊天玩具”转向真正的知识工作引擎。

不是更聪明,而是方向变了:OpenAI押注“知识工作”

Ras Mic一上来就点破了GPT‑5.4最大的变化:这不是一次单纯的能力升级,而是一次方向调整。OpenAI明显在把模型重心,从“回答得更像人”,转向“真正干活”。

这种转向并不是空穴来风。此前Claude的Co‑work、Anthropic在知识工作场景里的成功,让模型实验室意识到:真正愿意付费、能持续创造价值的人,恰恰是程序员、研究员、产品经理这些“重度脑力用户”。GPT‑5.4的设计,很明显在迎合这一群人。

换句话说,这一代模型不再追求让你惊呼“它好聪明”,而是让你在一天工作结束时发现:今天的事,真的做完了。

Tool Search 才是隐藏主角:AI开始自己找工具了

视频里一个被很多人忽略的点,是GPT‑5.4新引入的 tool search。听起来不起眼,但逻辑非常激进。

过去的做法,是把一堆工具描述一股脑塞进上下文,模型“看得到但用不好”。而 tool search 的思路是:模型先判断“我需要什么工具”,再主动去搜索、调用。这一步,意味着模型从被动执行者,变成了更像 agent 的存在。

这也是为什么很多人开始把GPT‑5.4和Cursor、Agent类产品放在同一条线上讨论。模型不再只是写代码的助手,而是开始参与任务拆解和路径选择。这种变化,短期看不出炫技效果,但对复杂项目的影响是指数级的。

代码才是主战场:SweetBench Pro 与真实体验的反差

说到底,大家最关心的还是代码。视频中提到,GPT‑5.4在SweetBench Pro上的表现非常亮眼,而且OpenAI给了多个档位:low、medium、high、extra high。

但这里也埋下了槽点。Ras Mic直言,这套命名让人抓狂——对开发者来说,medium和extra high几乎覆盖了所有需求,其它档位反而增加了选择成本。这不是能力问题,而是产品决策的问题。

真正拉开差距的,是实战案例。在Feedback AI这个真实项目里,GPT‑5.4不仅定位到了问题根因,还给出修改方案并成功修复。这种“一次到位”的体验,才是程序员愿意迁移工具的关键理由。

别急着封神:它依然有硬伤,也有对手

视频最后并没有“无脑吹”。在一些特定任务上,比如convex相关问题,GPT‑5.4并不出彩;Gemini 3.1 Pro甚至直接翻车。而Claude Opus 4.6,依然稳稳地待在Ras Mic的终端里。

另外一个被点名的问题,是UI和prompt injection相关体验——“horrendous”这个评价不算客气。这也再次提醒我们:模型能力≠产品体验。

结论很克制:GPT‑5.4很强,但远没强到可以让所有老工具下岗。现在更像是进入了一个多模型并存、各有专长的阶段。

总结

GPT‑5.4真正值得关注的,不是“它是不是最强”,而是它清晰地指向了下一阶段的大模型形态:围绕知识工作、深度集成工具、向AI Agent演进。对从业者来说,最现实的行动建议是——尽早把它放进真实工作流里,而不是只看评测分数。同时,别急着All‑in:Claude、Gemini各自仍有不可替代的位置。未来一段时间,比模型排名更重要的,是你是否学会了在多模型之间切换、组合、放大效率。


关键词: GPT‑5.4, 代码生成, AI Agent, Tool Search, OpenAI

事实核查备注: 需要核查:1)GPT‑5.4的正式发布时间是否为2026‑03‑06左右;2)SweetBench Pro的具体基准和档位命名;3)视频中提到的Claude Opus版本号是否为4.6;4)tool search 是否为OpenAI官方术语。