Anthropic 放出 Fable 5:不是更聪明,而是把 AI 的野心抬高了一整档
正在加载视频...
视频章节
如果你还在用“模型又变强了”来理解 Fable 5,那你已经落后了。这次 Anthropic 真正改变的,不只是分数,而是我们该如何使用、衡量、以及想象 AI 能干什么。
Anthropic 放出 Fable 5:不是更聪明,而是把 AI 的野心抬高了一整档
如果你还在用“模型又变强了”来理解 Fable 5,那你已经落后了。这次 Anthropic 真正改变的,不只是分数,而是我们该如何使用、衡量、以及想象 AI 能干什么。
最反直觉的地方:Fable 5 并不想靠“震惊你”取胜
Fable 5 的发布一点都不“炸裂”,甚至可以说是克制的。没有夸张的 AGI 宣言,没有情绪化的营销,但这恰恰是它最危险的地方。主持人直言,这次更新在技术路线上并不意外,却在“姿态”上非常明确:Anthropic 不是来秀模型的,而是来重塑标准的。Fable 5 和 Mythos 5 的一些关键指标被直接抬到了 29% 以上,几乎是此前水平的两倍。但更重要的是,Anthropic 并没有把重点放在“你能不能被 demo 震住”,而是放在“这东西能不能进入真实工作流”。这是一个非常不一样的信号。
从 Opus 到 Fable 5:榜单第一已经不重要了
Artificial Analysis 给了 Fable 5 几乎是“碾压式”的评价——在多项评测中拿到第一,甚至把上一代 Claude 3 Opus 的最佳成绩翻倍。但节目里有一句话很值得反复听:“我们已经不在只讨论模型原始能力的时代了。”这意味着什么?意味着单纯跑分第一,已经不足以决定模型价值。真正的分水岭,变成了:你能不能在复杂、真实、模糊的任务中稳定输出?你能不能被普通团队用得起、用得顺?这也是为什么讨论迅速转向了 usage-based pricing(按使用计费)——能力再强,如果成本结构不合理,就进不了主流。
真正让人不安的,是那些“一次提示就完成”的案例
节目中提到一个细节:在 X(Twitter)上流传的多个演示,并不是复杂提示工程的产物,而是一次性提示(one-shot prompt)直接交给 Fable 5 的结果。这对很多从业者来说是个刺眼的现实——我们花大量时间打磨 workflow、写 prompt 模板,但 Fable 5 却能在极少上下文下,直接理解任务意图并给出可用结果。这正是少样本学习能力真正“落地”的表现。当然,主持人也很诚实:这并不是所有人的体验,尤其是在 coding 场景中,稳定性仍然存在明显差异。但方向已经很清楚了。
争议点:开源、封闭,以及“你到底在害怕什么”
节目后半段的讨论火药味明显重了起来。一边是担心强模型扩散、对生物安全等问题保持高度警惕的人;另一边则是对“珍珠紧握式恐慌”极度不耐烦的从业者,认为这种担忧无法长期阻挡技术前进。主持人并没有简单站队,而是指出一个关键事实:无论你支持开源还是封闭,Fable 5 这样的模型已经改变了讨论前提。争论不再是“要不要”,而是“怎么管、怎么用、谁来承担后果”。这是一个比模型参数更难的问题。
两个被低估的影响:任务想象力,和工作方式的断层
节目最后给出了两个非常实在的结论。第一,我们严重缺乏“任务想象力”——很多人还在用旧模型时代的思路去指挥新模型,结果自然失望。第二,新一代模型带来的不是线性提升,而是工作方式的断层式变化:有些人 15 分钟就能把 demo 变成可交付成果,有些人却怎么调都不对。这种差距,短期内只会被放大。
总结
Fable 5 真正抬高的不是榜单,而是门槛。它逼着每一个 AI 从业者重新思考三个问题:你衡量模型的标准是不是已经过时?你的任务设计有没有跟上模型能力?以及,你是否准备好在一个“按使用付费、按效果说话”的新阶段里生存?接下来半年,领先的不会是最会追新模型的人,而是最早重构工作方式的人。这个差距,很可能一旦拉开就追不上了。
关键词: Fable 5, Anthropic, Claude, 少样本学习, 提示工程
事实核查备注: 需要核查:1)Fable 5 与 Mythos 5 的具体评测指标是否为 29.3%;2)Artificial Analysis 的排名结论原文表述;3)对比的上一代模型是否为 Claude 3 Opus 及其具体成绩;4)Fable 5 的发布时间(是否为 6 月 9 日/11 日);5)usage-based pricing 是否为 Anthropic 官方明确策略还是评论者判断。