一次实测告诉你：开源大模型推理到底快到什么程度

AI PM 编辑部 · 2025年06月27日 · 17 阅读 · AI/人工智能

正在加载视频...

视频章节

Charles Frye 用现场基准测试回答了一个被反复讨论却少有数据支撑的问题：今天的 LLM 推理引擎到底有多快？这场分享不讲抽象趋势，而是用真实模型、真实接口、真实延迟，说明为什么“自托管”在 2025 年终于变得合理。

一次实测告诉你：开源大模型推理到底快到什么程度

Charles Frye 用现场基准测试回答了一个被反复讨论却少有数据支撑的问题：今天的 LLM 推理引擎到底有多快？这场分享不讲抽象趋势，而是用真实模型、真实接口、真实延迟，说明为什么“自托管”在 2025 年终于变得合理。

为什么“推理速度”突然变成核心问题

这场演讲一开始，Charles Frye 就点出了背景：两年前，在 AI Engineer Summit 上讨论推理引擎时，更多还是“未来畅想”；而现在，情况已经完全不同。“It sort of finally makes sense to self-host.” 这是他对行业变化最直白的判断。

为什么重要？因为在模型能力逐渐趋同的前提下，真正限制应用体验的，往往不是模型本身，而是推理引擎能否以足够低的延迟、足够高的吞吐跑起来。尤其是当你运行的是开源模型，而不是托管 API 时，推理性能直接决定了成本结构、用户体验，以及是否值得自己部署。

他提出一个关键假设：如果“能力需求”趋于饱和，那么开源模型在工程层面的追赶就会变得极快。而推理引擎，正是这条追赶曲线中变化最激烈的一环。这也是他为什么选择不用 PPT 讲概念，而是直接上数据。

两年时间，推理引擎生态发生了什么变化

在回顾推理引擎生态时，Charles 明确强调：这不是一张“全景图”，而只是他个人维护的一页“almanac”。但正是这种不求全面、只求真实的视角，反而更有价值。

他提到，早期人们谈论推理引擎时，往往停留在“谁支持哪个模型”“是不是能跑起来”；而现在，讨论的重心已经变成：谁的首 token 更快、谁的 requests per second 更高、谁在相同硬件下优化得更好。

现场还有轻松的互动。当他问“Anybody got a favorite？”时，有观众直接喊出了“Mistral”。这种插曲背后其实透露出一个事实：推理引擎已经不再是纯粹的底层工具，而是逐渐形成了口碑和偏好。人们开始记住它们的“性格”——快不快、稳不稳、值不值。

现场实测：首 token 进入 1 秒以内意味着什么

真正让全场安静下来的，是 Charles 的现场演示。他直接通过接口调用不同模型，观察真实的响应时间，而不是展示预先算好的 benchmark 表格。

在某个示例中，他明确指出：“first token under 1 second”。这句话看似简单，但对实际应用意义重大。首 token 延迟（TTFT）决定了用户是否觉得系统“在思考”，哪怕后续生成再快，只要首 token 慢，体验就会崩。

他还现场切换模型，包括有人点名的 Qwen，以及体量更大的 Gemma 327B。后者的表现“definitely slower”，但并非一无是处——你可以清楚看到，哪些模型和引擎组合“had more optimization work”。这不是模型大小的简单对比，而是工程成熟度的直接体现。

这一段演示的价值在于：它让观众直观看到，不同引擎之间的差距，已经足以影响产品决策。

吞吐量、4 倍提升，以及一个反直觉建议

除了延迟，Charles 还重点谈了吞吐量（requests per second）。他给出的结论非常明确：在可对比的条件下，整体性能已经出现了“4x improvement”。

但更有意思的，是他给开发者的建议。“Don’t immediately reach for reasoning.” 在他看来，很多人一遇到复杂任务就直接上推理型模型，却忽略了一个事实：更快的基础模型，加上更高的吞吐，往往能通过并行和重试，解决同样的问题，而且成本和体验都更好。

这不是反对推理模型，而是提醒大家：推理引擎的进步，正在改变“默认选型”。当吞吐和延迟显著改善后，一些过去必须依赖重推理的场景，其实已经有了更工程化的解法。

为什么他说“我更相信数据，而不是黑板”

在接近尾声时，Charles 总结了自己的方法论。他直言自己“like to see data and not chalkboard stuff”。这句话几乎可以当作整场分享的注脚。

无论是对推理引擎的判断，还是对开源模型追赶速度的乐观预期，他都坚持用可复现的请求、可观察的指标来说话。即便在回答提问、解释 benchmark 方法时，他也反复强调：这些数字是“throughput per replica”，有明确前提，而不是营销口径。

这种克制本身就是一种洞见：在一个模型更新速度极快的领域里，唯一不过时的能力，是建立自己的测量体系。

总结

这场演讲真正传递的信息，并不是“某个推理引擎最快”，而是：推理性能已经好到值得你重新思考部署策略。首 token 进入 1 秒以内、吞吐量 4 倍提升、开源模型与工程优化同步成熟，这些变化叠加在一起，让“自托管”从理想变成现实。对开发者而言，最大的启发或许是：别急着追逐最复杂的模型，先把你手里的推理引擎跑明白。

关键词： LLM 推理，推理引擎，开源模型， Token 延迟，模型部署

事实核查备注：演讲者：Charles Frye；视频标题：How fast are LLM inference engines anyway？；时间点提到的关键表述包括“first token under 1 second”“4x improvement”“Don’t immediately reach for reasoning”；现场提及模型名称：Qwen、Gemma 327B、Mistral；指标术语：首 token 延迟（TTFT）、requests per second、throughput per replica。

返回文章列表