不止最强模型:AI真正的前沿在成本、速度与取舍

AI PM 编辑部 · 2025年07月08日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

ArtificialAnalysis 联合创始人 George Cameron 用真实基准数据揭示:AI 不只有“最强智能”这一条前沿。推理模型的高代价、开源权重的快速逼近、以及成本与速度的数量级差异,正在重塑我们构建 AI 应用的方式。

不止最强模型:AI真正的前沿在成本、速度与取舍

ArtificialAnalysis 联合创始人 George Cameron 用真实基准数据揭示:AI 不只有“最强智能”这一条前沿。推理模型的高代价、开源权重的快速逼近、以及成本与速度的数量级差异,正在重塑我们构建 AI 应用的方式。

从“最聪明”开始:为什么前沿 AI 看起来越来越强

为什么这很重要?因为我们今天谈论的 AI 能力,已经不再是模糊的“感觉很强”,而是可以被量化、被比较的工程指标。

George Cameron 在开场先交代了 Artificial Analysis 的背景:一家独立的 AI 基准测试公司,长期系统性地评测 150 多个模型,覆盖语言、视觉、语音、图像与视频生成,并把大部分结果免费公开。他强调,这些基准并非单一测试,而是由 7 项评估加权形成的“Artificial Analysis Intelligence Index”,目标是给出一个“通用智能”的可比视角。

在这个指数下,当前的“前沿智能”排序对很多从业者并不陌生:o3 位居第一,其后是 o4 mini(reasoning mode high)、DeepSeek R1、Gemini 2.5 Pro,以及 Claude 4 Opus Thinking。Cameron 用一句话概括过去两年的变化:“自从 ChatGPT 和 GPT‑3.5 发布后,一切就变得越来越疯狂。”模型发布频率加快,更多实验室在推动智能上限。

但他很快抛出一个转折:理解谁最聪明,只是问题的起点,而不是终点。真正的难题在于——你是否真的需要、也是否负担得起这种智能。

推理模型的代价:智能提升,为什么要付出数量级成本

为什么这很重要?因为推理模型正在悄悄改变延迟、成本和用户体验,而这些往往在 Demo 里被忽略。

Cameron 将模型分为两类:非推理模型(non‑reasoning)和推理模型(reasoning)。前者输出更少 token、智能较低;后者为了“思考”,会生成大量中间 token,从而显著提高智能。他直言:“这不是感觉慢,而是真的慢——是一个数量级的差距。”

在 Artificial Analysis 的基准中,运行同一套 7 项评估,GPT‑4.1 共消耗约 700 万输出 token;而 o4 mini high 需要 7200 万,Gemini 2.5 Pro 更是高达 1.3 亿 token。推理模型的“话多”,并非修辞,而是可测量的工程事实。

这种差异直接反映到延迟上:通过 API 访问时,GPT‑4.1 返回完整响应的中位时间为 4.7 秒,而 o4 mini high 超过 40 秒,几乎是 10 倍差距。Cameron 半开玩笑地提醒:“你不会在 ChatGPT 里每次都选 o3。”对需要即时反馈的企业聊天机器人或交互式产品来说,这种延迟是决定性约束。

不止闭源:开源权重正在逼近前沿智能

为什么这很重要?因为模型是否开源,直接决定了你能否控制成本、部署环境与长期风险。

Cameron 回顾了 GPT‑4 时代的断层:当时开源权重模型(如 Llama 65B)与闭源模型在智能上存在“巨大差距”。但这种差距在 2024 年底开始发生变化,尤其是 o1 的出现,以及近期 DeepSeek R1 的发布。

他的判断非常明确:“开源权重与闭源模型之间的智能差距,比以往任何时候都要小。”这并不是模糊判断,而是基于同一 Intelligence Index 下的系统比较。

谈到这里,他特意点出一个绕不开的变量——中国。Cameron 表示,讨论开源权重的智能进展,已经无法忽略中国团队在模型规模、工程效率和发布节奏上的影响。这并非地缘政治表态,而是基准数据所呈现的现实趋势:前沿不再只来自少数硅谷实验室。

成本与速度前沿:真正决定能否落地的两条曲线

为什么这很重要?因为大多数 AI 应用失败,不是败在智能不够,而是败在成本不可控、速度不达标。

在成本前沿的展示中,Cameron 给出了一个极具冲击力的数字:运行完整 Intelligence Index,o3 的成本约为 2000 美元。但与此同时,他强调一个长期趋势——“获取 GPT‑4 级别智能的成本,已经下降了超过 100 倍”。这意味着,过去不具备经济可行性的应用,正在进入可落地区间。

然而,成本并不只由单价决定,token 数量和模型冗长度同样关键。推理模型的高 token 输出,会迅速放大账单。他反复提醒听众:在构建应用时,必须把这些量级差异算清楚。

在速度前沿,Cameron 提到推理软件优化、专用加速器等手段正在持续压榨性能,但他也给出了一个“house view”:即便效率在提升,整体算力需求仍在上升。结尾他鼓励工程团队亲自“玩这些数字”,用真实测量,而不是直觉,来决定架构选择。

总结

George Cameron 的核心洞见在于:AI 不只有一个“智能前沿”。推理、开源权重、成本和速度,构成了多条同时存在、彼此制衡的边界。最聪明的模型,未必是最合适的选择。真正成熟的 AI 应用,需要在这些前沿之间做工程化取舍。这或许不如追逐榜首模型刺激,但却是把 AI 带入现实世界的唯一道路。


关键词: AI前沿, 推理模型, Token成本, 开源模型, API延迟

事实核查备注: George Cameron:ArtificialAnalysis 联合创始人;Artificial Analysis Intelligence Index:由7项评估加权;模型名称:o3、o4 mini high、GPT-4.1、Gemini 2.5 Pro、DeepSeek R1、Claude 4 Opus Thinking;Token数据:700万、7200万、1.3亿;API延迟:4.7秒 vs 40秒;成本:o3 约2000美元;趋势判断:GPT-4级智能成本下降超过100倍