GPT‑5.5真实测评:更贵一倍,却把“AI代理”推到临界点

AI PM 编辑部 · 2026年04月24日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

GPT‑5.5刚发布就被吐槽“涨价”,但Riley Brown的实测给了一个反直觉结论:真正的变化不在模型本身,而在它和Codeex结合后,对“知识工作”和“电脑操作”的重塑。如果你还把大模型当聊天工具,这篇文章会让你意识到自己已经落后一代。

GPT‑5.5真实测评:更贵一倍,却把“AI代理”推到临界点

GPT‑5.5刚发布就被吐槽“涨价”,但Riley Brown的实测给了一个反直觉结论:真正的变化不在模型本身,而在它和Codeex结合后,对“知识工作”和“电脑操作”的重塑。如果你还把大模型当聊天工具,这篇文章会让你意识到自己已经落后一代。

先别骂涨价:GPT‑5.5真正卖的不是token

GPT‑5.5(代号 Spud)发布后,第一个被盯上的不是能力,而是价格——官方定价约为每百万token 5美元,几乎是GPT‑5.4的两倍。乍一看很难接受,但Riley在视频里反复强调一个容易被忽略的点:效率变了,评估方式也该变

他不再用“同样任务花多少钱”来算账,而是对比“完成同一目标,需要多少轮prompt、多少人工介入”。在这个维度下,GPT‑5.5明显更稳:对意图的理解更准,长任务不容易跑偏,输出文档一次成型率更高。换句话说,你买到的不是更便宜的token,而是更少的返工。

这也是为什么OpenAI在博客里不断强调“a new way of getting work done”。它并不是单点智力的跃迁,而是让模型更适合被当作一个持续工作的代理,而不是一次性回答机器。

真正的战场:OpenAI vs Anthropic,不在榜单在“代理”

视频里有一句话点得很透:现在的竞争,不是谁更会答题,而是谁更能把工作自动化。Riley把这称为OpenAI和Anthropic之间的“great race”。

GPT‑5.5的提升,集中体现在几个对代理极其关键的能力上:理解复杂指令、处理更长链路任务、生成结构化文档(presentation、sheet、document)。这些能力单独看不炸裂,但一旦组合起来,就会直接影响“能不能放心把任务交出去”。

Riley的判断很直接:如果你想测试模型在真实知识工作里的表现,不要只看benchmark,而是看它能不能连续跑完一个完整流程。而这正好把我们引向他心目中目前最关键的载体——Codeex。

Codeex才是主角:GPT‑5.5第一次像“能干活的同事”

Riley毫不掩饰自己的偏爱:Codeex是他“最喜欢的AI工具”。原因不复杂——这里是目前最适合跑AI代理的地方。

在Codeex里,他用不到五个prompt就生成了一个复杂的Web应用;切换模型与“effort”等级,直接观察结果差异;用浏览器预览、生成表格、拆分项目文档。这些都不是炫技,而是在验证一件事:GPT‑5.5在真实项目中是否可靠

答案是肯定的。尤其在生成高质量文档和处理长任务时,5.5相较5.4有明显优势。Riley甚至直言:很多能力,用benchmark根本测不出来,但在Codeex这种环境下,一跑就知道。

最危险也最兴奋的一步:AI开始“接管你的电脑”

如果说前面只是效率提升,那后半段就开始让人不安又兴奋了。Riley演示了GPT‑5.5在Codeex里的两种新能力:browser usecomputer use

前者让模型在浏览器里自己点、自己看、自己改;后者更进一步,直接控制桌面应用。他展示了AI操作Canva、Finder、Arc浏览器,添加文件、切换界面,几乎像一个远程操作者。

这不是玩具级Demo。Riley反复强调:5.5在这件事上“明显更好”,反应更快、步骤更少、出错更少。当AI不只是生成文本,而是能实际操作系统时,知识工作的边界正在被重新定义。

总结

GPT‑5.5并不是一次“智商爆炸式”的更新,而是一次工作形态的拐点。它更贵,但更适合被信任;更像代理,而不是工具。对从业者来说,最重要的不是要不要用5.5,而是要不要尽快适应“让AI替你跑完整流程”的工作方式。

一个现实的行动建议是:别只在聊天窗口测试新模型,把它丢进像Codeex这样的代理环境,给它一个真实任务,看它能走多远。未来的差距,很可能不是你会不会用AI,而是你敢不敢把鼠标和键盘交给它。


关键词: GPT-5.5, AI代理, Codeex, Token定价, 自动化工作

事实核查备注: 需要核查的事实包括:1)GPT‑5.5发布时间是否为2026‑04‑23/24;2)GPT‑5.5代号“Spud”的官方来源;3)$5/百万token的具体定价与计费口径;4)是否明确为GPT‑5.4价格的两倍;5)Codeex订阅价格是否为$20/月;6)browser use与computer use的正式功能命名与范围。