为什么生产级AI推理的未来属于定制化开源模型

AI PM 编辑部 · 2025年02月16日 · 22 阅读 · AI/人工智能

Token 闭源模型多模态语音AI 推理生成式AI 大语言模型 AI Agent 检索增强生成模型部署

正在加载视频...

视频章节

Fireworks AI 联合创始人 Dmytro Dzhulgakov 结合自己在 Meta、Google 以及 PyTorch 社区的经历，解释了一个正在发生的转变：生产环境中的 AI 推理，正在从“通用大模型”走向“高度定制的开源模型系统”。这场演讲不仅讨论了成本与性能，更揭示了下一代 AI 产品的真实形态。

为什么生产级AI推理的未来属于定制化开源模型

Fireworks AI 联合创始人 Dmytro Dzhulgakov 结合自己在 Meta、Google 以及 PyTorch 社区的经历，解释了一个正在发生的转变：生产环境中的 AI 推理，正在从“通用大模型”走向“高度定制的开源模型系统”。这场演讲不仅讨论了成本与性能，更揭示了下一代 AI 产品的真实形态。

从 PyTorch 到 Fireworks：一个“生产化”老兵的执念

这场演讲一开始就带着一点意外：Fireworks 的联合创始人之一因个人紧急情况缺席，只剩 Dima 一个人站在台上。他半开玩笑地说：“我们还没有 AI 能搞定视频投影，但其他很多事情已经可以了。”这种自嘲式的开场，反而迅速拉近了与工程师观众的距离。

Dima 的背景，是理解这家公司立场的关键。他来自 Meta 的 PyTorch 核心团队，同时也有 Google AI 的资深工程经验，并且“过去 5 年一直是 PyTorch 的核心维护者之一”。这意味着，他职业生涯中最重要的事情只有一件：如何让 AI 真正跑在生产环境中，而不是停留在论文或 demo。

正因为如此，他对开源模型的信念并不是情怀，而是方法论。他明确表示：“我们真的相信，开源模型同样是生成式 AI 应用的未来。”在他看来，Fireworks 的使命不是再造一个模型，而是解决一个长期被低估的问题：如何把开源模型，变成真正可用、可规模化、可商业化的生产级推理系统。

为什么“一个什么都会的模型”在生产中反而是问题

Dima 在演讲中抛出一个反问：现场有多少人把 GPT-4 或 Claude 用在生产中？又有多少人已经在生产中使用开源模型？结果让他有些意外——后者的比例已经不小。

他并不否认闭源模型的强大：“GPT‑4 很棒，Claude 也很棒，它们在很多领域都是前沿水平。”但问题在于，它们通常是“一个模型，解决所有问题”，而且“几乎以同样的方式服务所有用例”。

这在生产环境中会带来结构性浪费。比如，一个客服机器人并不需要“知道 150 种宝可梦”，也不需要写诗，但你仍然要为这些能力付费。更严重的是，通用大模型往往意味着更高的延迟，而在语音助手、实时交互、Agent 系统中，延迟会被多次调用成倍放大。

Dima 给出的判断非常直接：“在很多狭窄领域，你可以用更小的模型，获得相同甚至更好的质量，而且速度快 10 倍。”这并不是理论假设，而是他们在真实生产负载中反复看到的结果。

延迟、成本与 Agent：小模型反而更像未来

演讲中一个重要转折点，是 Dima 将“模型选择”与 Agent 系统联系起来。他指出，随着 AI 应用从一次性问答，演进为需要多步推理、多次模型调用的 Agent，延迟的重要性被急剧放大。

在这种场景下，大模型的劣势会被无限放大：每一次调用都慢、都贵。而 Fireworks 的经验是，像 Llama、Gemma 这样的开源小模型，在特定领域经过适配后，不仅更快，而且整体系统成本可以显著下降。

他举了一个非常工程化的例子：假设你有一个 5000 token 的长 prompt，同时服务 1 万用户。即使单次调用看起来不贵，整体成本也会迅速失控。而换成更小、更贴合任务的模型，往往可以“轻松砍掉一大块成本”。

在 Dima 看来，这正是开源模型真正发光的地方——不是“更自由”，而是“更容易被塑造成你想要的样子”。他将这一点总结为一个关键词：领域适配性（domain adaptability）。

开源模型的三座大山，以及 Fireworks 的解法

如果开源模型这么好，为什么不是所有人都在用？Dima 非常坦率地列出了三大现实障碍。

第一，是复杂的基础设施和维护成本：你要找 GPU、搭环境、做部署。第二，是优化难度：大语言模型有大量与具体用例强相关的参数和设置，没有标准答案。第三，也是最难的，是“真正让它 production ready”。

Fireworks 的切入点，正是这些痛点。他们从零构建了自己的推理服务栈，并强调这是“从 ground up 设计的”。目标只有一个：在给定延迟约束下，把成本压到最低。

他们不仅支持长 prompt 的 RAG（检索增强生成）场景，也支持多模态模型，并且持续集成当前“质量最好的开源模型”。在定制化方面，他们支持大规模微调，甚至可以在“成千上万个模型”之上，依然提供 serverless、按 token 计费的推理体验。

Dima 强调：“单个模型本身已经不再是产品。”真正的产品，是模型 + RAG + 外部工具 + 上下文管理组成的复合 AI 系统。

从模型到系统：复合 AI 才是终局形态

在演讲后半段，Dima 用一个 Agent 风格的 demo，展示了他们所理解的“下一代 AI 应用”。它不仅能进行自由对话，还能调用外部工具、生成图表，并在多个步骤中保持上下文一致。

这个系统的关键不在于某个模型多强，而在于模型如何被编排。他提到，这种思路与 Databricks 提出的“Compound AI System”高度一致：模型只是系统中的一个函数。

值得注意的是，他特意指出，这套 function calling / agent 相关的模型和 demo 本身是开源的，并已经发布在 Hugging Face 上。这不是营销姿态，而是 Fireworks 一贯的立场：生态比封闭壁垒更重要。

在结尾，Dima 给出了一个极具分量的数据：Fireworks 当前每天在生产环境中处理超过 1500 亿 tokens。这不是实验规模，而是已经被真实业务验证过的系统。他的结论也非常简单：“它已经是 production ready 了。”

总结

这场演讲最有价值的地方，不在于某个模型参数或 benchmark，而在于一种判断：AI 应用的竞争焦点，正在从“谁的模型更大”，转向“谁能更好地把模型变成系统”。Dima 用自己的经历和 Fireworks 的实践说明，开源模型并不等于“更折腾”，而是在正确的基础设施之上，成为性能、成本和可控性的最佳平衡点。对开发者而言，真正值得思考的问题是：你的产品，需要的究竟是一个全能模型，还是一个被精心打磨过的、为你而生的 AI 系统？

关键词：开源模型，生产级推理， Fireworks AI， AI Agent，模型部署

事实核查备注： Dmytro （Dima） Dzhulgakov：Fireworks AI 联合创始人；曾任 Meta PyTorch 核心维护者、Google AI 工程师。视频提到的产品与模型：GPT-4、Claude、Llama、Gemma。技术概念：生产级推理、RAG（检索增强生成）、AI Agent、Compound AI System、Serverless inference、按 token 计费。关键数字：每天处理超过 1500 亿 tokens。相关公司：Meta、Google、Stability AI、Hugging Face。

返回文章列表