GPT‑5.4刚发布24小时：最强代码模型，还是被高估的工具怪兽

AI PM 编辑部 · 2026年03月07日 · 12 阅读 · AI/人工智能

代码生成大语言模型 AI Agent 提示工程 Claude Gemini Pro Cursor Claude 3 Opus OpenAI Anthropic

正在加载视频...

视频章节

GPT‑5.4上线不到一天，评论区已经吵翻天：有人说它是“目前最强模型”，也有人开始吐槽它的UI和命名混乱。这支视频最狠的地方不在于跑分，而是点破了一个趋势——大模型正在从“聊天玩具”转向真正的知识工作引擎。

GPT‑5.4刚发布24小时：最强代码模型，还是被高估的工具怪兽

GPT‑5.4上线不到一天，评论区已经吵翻天：有人说它是“目前最强模型”，也有人开始吐槽它的UI和命名混乱。这支视频最狠的地方不在于跑分，而是点破了一个趋势——大模型正在从“聊天玩具”转向真正的知识工作引擎。

不是更聪明，而是方向变了：OpenAI押注“知识工作”

Ras Mic一上来就点破了GPT‑5.4最大的变化：这不是一次单纯的能力升级，而是一次方向调整。OpenAI明显在把模型重心，从“回答得更像人”，转向“真正干活”。

这种转向并不是空穴来风。此前Claude的Co‑work、Anthropic在知识工作场景里的成功，让模型实验室意识到：真正愿意付费、能持续创造价值的人，恰恰是程序员、研究员、产品经理这些“重度脑力用户”。GPT‑5.4的设计，很明显在迎合这一群人。

换句话说，这一代模型不再追求让你惊呼“它好聪明”，而是让你在一天工作结束时发现：今天的事，真的做完了。

Tool Search 才是隐藏主角：AI开始自己找工具了

视频里一个被很多人忽略的点，是GPT‑5.4新引入的 tool search。听起来不起眼，但逻辑非常激进。

过去的做法，是把一堆工具描述一股脑塞进上下文，模型“看得到但用不好”。而 tool search 的思路是：模型先判断“我需要什么工具”，再主动去搜索、调用。这一步，意味着模型从被动执行者，变成了更像 agent 的存在。

这也是为什么很多人开始把GPT‑5.4和Cursor、Agent类产品放在同一条线上讨论。模型不再只是写代码的助手，而是开始参与任务拆解和路径选择。这种变化，短期看不出炫技效果，但对复杂项目的影响是指数级的。

代码才是主战场：SweetBench Pro 与真实体验的反差

说到底，大家最关心的还是代码。视频中提到，GPT‑5.4在SweetBench Pro上的表现非常亮眼，而且OpenAI给了多个档位：low、medium、high、extra high。

但这里也埋下了槽点。Ras Mic直言，这套命名让人抓狂——对开发者来说，medium和extra high几乎覆盖了所有需求，其它档位反而增加了选择成本。这不是能力问题，而是产品决策的问题。

真正拉开差距的，是实战案例。在Feedback AI这个真实项目里，GPT‑5.4不仅定位到了问题根因，还给出修改方案并成功修复。这种“一次到位”的体验，才是程序员愿意迁移工具的关键理由。

别急着封神：它依然有硬伤，也有对手

视频最后并没有“无脑吹”。在一些特定任务上，比如convex相关问题，GPT‑5.4并不出彩；Gemini 3.1 Pro甚至直接翻车。而Claude Opus 4.6，依然稳稳地待在Ras Mic的终端里。

另外一个被点名的问题，是UI和prompt injection相关体验——“horrendous”这个评价不算客气。这也再次提醒我们：模型能力≠产品体验。

结论很克制：GPT‑5.4很强，但远没强到可以让所有老工具下岗。现在更像是进入了一个多模型并存、各有专长的阶段。

总结

GPT‑5.4真正值得关注的，不是“它是不是最强”，而是它清晰地指向了下一阶段的大模型形态：围绕知识工作、深度集成工具、向AI Agent演进。对从业者来说，最现实的行动建议是——尽早把它放进真实工作流里，而不是只看评测分数。同时，别急着All‑in：Claude、Gemini各自仍有不可替代的位置。未来一段时间，比模型排名更重要的，是你是否学会了在多模型之间切换、组合、放大效率。

关键词： GPT‑5.4，代码生成， AI Agent， Tool Search， OpenAI

事实核查备注：需要核查：1）GPT‑5.4的正式发布时间是否为2026‑03‑06左右；2）SweetBench Pro的具体基准和档位命名；3）视频中提到的Claude Opus版本号是否为4.6；4）tool search 是否为OpenAI官方术语。

返回文章列表