为什么生产级AI推理的未来属于定制化开源模型
正在加载视频...
视频章节
Fireworks AI 联合创始人 Dmytro Dzhulgakov 结合自己在 Meta、Google 以及 PyTorch 社区的经历,解释了一个正在发生的转变:生产环境中的 AI 推理,正在从“通用大模型”走向“高度定制的开源模型系统”。这场演讲不仅讨论了成本与性能,更揭示了下一代 AI 产品的真实形态。
为什么生产级AI推理的未来属于定制化开源模型
Fireworks AI 联合创始人 Dmytro Dzhulgakov 结合自己在 Meta、Google 以及 PyTorch 社区的经历,解释了一个正在发生的转变:生产环境中的 AI 推理,正在从“通用大模型”走向“高度定制的开源模型系统”。这场演讲不仅讨论了成本与性能,更揭示了下一代 AI 产品的真实形态。
从 PyTorch 到 Fireworks:一个“生产化”老兵的执念
这场演讲一开始就带着一点意外:Fireworks 的联合创始人之一因个人紧急情况缺席,只剩 Dima 一个人站在台上。他半开玩笑地说:“我们还没有 AI 能搞定视频投影,但其他很多事情已经可以了。”这种自嘲式的开场,反而迅速拉近了与工程师观众的距离。
Dima 的背景,是理解这家公司立场的关键。他来自 Meta 的 PyTorch 核心团队,同时也有 Google AI 的资深工程经验,并且“过去 5 年一直是 PyTorch 的核心维护者之一”。这意味着,他职业生涯中最重要的事情只有一件:如何让 AI 真正跑在生产环境中,而不是停留在论文或 demo。
正因为如此,他对开源模型的信念并不是情怀,而是方法论。他明确表示:“我们真的相信,开源模型同样是生成式 AI 应用的未来。”在他看来,Fireworks 的使命不是再造一个模型,而是解决一个长期被低估的问题:如何把开源模型,变成真正可用、可规模化、可商业化的生产级推理系统。
为什么“一个什么都会的模型”在生产中反而是问题
Dima 在演讲中抛出一个反问:现场有多少人把 GPT-4 或 Claude 用在生产中?又有多少人已经在生产中使用开源模型?结果让他有些意外——后者的比例已经不小。
他并不否认闭源模型的强大:“GPT‑4 很棒,Claude 也很棒,它们在很多领域都是前沿水平。”但问题在于,它们通常是“一个模型,解决所有问题”,而且“几乎以同样的方式服务所有用例”。
这在生产环境中会带来结构性浪费。比如,一个客服机器人并不需要“知道 150 种宝可梦”,也不需要写诗,但你仍然要为这些能力付费。更严重的是,通用大模型往往意味着更高的延迟,而在语音助手、实时交互、Agent 系统中,延迟会被多次调用成倍放大。
Dima 给出的判断非常直接:“在很多狭窄领域,你可以用更小的模型,获得相同甚至更好的质量,而且速度快 10 倍。”这并不是理论假设,而是他们在真实生产负载中反复看到的结果。
延迟、成本与 Agent:小模型反而更像未来
演讲中一个重要转折点,是 Dima 将“模型选择”与 Agent 系统联系起来。他指出,随着 AI 应用从一次性问答,演进为需要多步推理、多次模型调用的 Agent,延迟的重要性被急剧放大。
在这种场景下,大模型的劣势会被无限放大:每一次调用都慢、都贵。而 Fireworks 的经验是,像 Llama、Gemma 这样的开源小模型,在特定领域经过适配后,不仅更快,而且整体系统成本可以显著下降。
他举了一个非常工程化的例子:假设你有一个 5000 token 的长 prompt,同时服务 1 万用户。即使单次调用看起来不贵,整体成本也会迅速失控。而换成更小、更贴合任务的模型,往往可以“轻松砍掉一大块成本”。
在 Dima 看来,这正是开源模型真正发光的地方——不是“更自由”,而是“更容易被塑造成你想要的样子”。他将这一点总结为一个关键词:领域适配性(domain adaptability)。
开源模型的三座大山,以及 Fireworks 的解法
如果开源模型这么好,为什么不是所有人都在用?Dima 非常坦率地列出了三大现实障碍。
第一,是复杂的基础设施和维护成本:你要找 GPU、搭环境、做部署。第二,是优化难度:大语言模型有大量与具体用例强相关的参数和设置,没有标准答案。第三,也是最难的,是“真正让它 production ready”。
Fireworks 的切入点,正是这些痛点。他们从零构建了自己的推理服务栈,并强调这是“从 ground up 设计的”。目标只有一个:在给定延迟约束下,把成本压到最低。
他们不仅支持长 prompt 的 RAG(检索增强生成)场景,也支持多模态模型,并且持续集成当前“质量最好的开源模型”。在定制化方面,他们支持大规模微调,甚至可以在“成千上万个模型”之上,依然提供 serverless、按 token 计费的推理体验。
Dima 强调:“单个模型本身已经不再是产品。”真正的产品,是模型 + RAG + 外部工具 + 上下文管理组成的复合 AI 系统。
从模型到系统:复合 AI 才是终局形态
在演讲后半段,Dima 用一个 Agent 风格的 demo,展示了他们所理解的“下一代 AI 应用”。它不仅能进行自由对话,还能调用外部工具、生成图表,并在多个步骤中保持上下文一致。
这个系统的关键不在于某个模型多强,而在于模型如何被编排。他提到,这种思路与 Databricks 提出的“Compound AI System”高度一致:模型只是系统中的一个函数。
值得注意的是,他特意指出,这套 function calling / agent 相关的模型和 demo 本身是开源的,并已经发布在 Hugging Face 上。这不是营销姿态,而是 Fireworks 一贯的立场:生态比封闭壁垒更重要。
在结尾,Dima 给出了一个极具分量的数据:Fireworks 当前每天在生产环境中处理超过 1500 亿 tokens。这不是实验规模,而是已经被真实业务验证过的系统。他的结论也非常简单:“它已经是 production ready 了。”
总结
这场演讲最有价值的地方,不在于某个模型参数或 benchmark,而在于一种判断:AI 应用的竞争焦点,正在从“谁的模型更大”,转向“谁能更好地把模型变成系统”。Dima 用自己的经历和 Fireworks 的实践说明,开源模型并不等于“更折腾”,而是在正确的基础设施之上,成为性能、成本和可控性的最佳平衡点。对开发者而言,真正值得思考的问题是:你的产品,需要的究竟是一个全能模型,还是一个被精心打磨过的、为你而生的 AI 系统?
关键词: 开源模型, 生产级推理, Fireworks AI, AI Agent, 模型部署
事实核查备注: Dmytro (Dima) Dzhulgakov:Fireworks AI 联合创始人;曾任 Meta PyTorch 核心维护者、Google AI 工程师。视频提到的产品与模型:GPT-4、Claude、Llama、Gemma。技术概念:生产级推理、RAG(检索增强生成)、AI Agent、Compound AI System、Serverless inference、按 token 计费。关键数字:每天处理超过 1500 亿 tokens。相关公司:Meta、Google、Stability AI、Hugging Face。