正在加载视频...
视频章节
Charles Frye 用现场基准测试回答了一个被反复讨论却少有数据支撑的问题:今天的 LLM 推理引擎到底有多快?这场分享不讲抽象趋势,而是用真实模型、真实接口、真实延迟,说明为什么“自托管”在 2025 年终于变得合理。
一次实测告诉你:开源大模型推理到底快到什么程度
Charles Frye 用现场基准测试回答了一个被反复讨论却少有数据支撑的问题:今天的 LLM 推理引擎到底有多快?这场分享不讲抽象趋势,而是用真实模型、真实接口、真实延迟,说明为什么“自托管”在 2025 年终于变得合理。
为什么“推理速度”突然变成核心问题
这场演讲一开始,Charles Frye 就点出了背景:两年前,在 AI Engineer Summit 上讨论推理引擎时,更多还是“未来畅想”;而现在,情况已经完全不同。“It sort of finally makes sense to self-host.” 这是他对行业变化最直白的判断。
为什么重要?因为在模型能力逐渐趋同的前提下,真正限制应用体验的,往往不是模型本身,而是推理引擎能否以足够低的延迟、足够高的吞吐跑起来。尤其是当你运行的是开源模型,而不是托管 API 时,推理性能直接决定了成本结构、用户体验,以及是否值得自己部署。
他提出一个关键假设:如果“能力需求”趋于饱和,那么开源模型在工程层面的追赶就会变得极快。而推理引擎,正是这条追赶曲线中变化最激烈的一环。这也是他为什么选择不用 PPT 讲概念,而是直接上数据。
两年时间,推理引擎生态发生了什么变化
在回顾推理引擎生态时,Charles 明确强调:这不是一张“全景图”,而只是他个人维护的一页“almanac”。但正是这种不求全面、只求真实的视角,反而更有价值。
他提到,早期人们谈论推理引擎时,往往停留在“谁支持哪个模型”“是不是能跑起来”;而现在,讨论的重心已经变成:谁的首 token 更快、谁的 requests per second 更高、谁在相同硬件下优化得更好。
现场还有轻松的互动。当他问“Anybody got a favorite?”时,有观众直接喊出了“Mistral”。这种插曲背后其实透露出一个事实:推理引擎已经不再是纯粹的底层工具,而是逐渐形成了口碑和偏好。人们开始记住它们的“性格”——快不快、稳不稳、值不值。
现场实测:首 token 进入 1 秒以内意味着什么
真正让全场安静下来的,是 Charles 的现场演示。他直接通过接口调用不同模型,观察真实的响应时间,而不是展示预先算好的 benchmark 表格。
在某个示例中,他明确指出:“first token under 1 second”。这句话看似简单,但对实际应用意义重大。首 token 延迟(TTFT)决定了用户是否觉得系统“在思考”,哪怕后续生成再快,只要首 token 慢,体验就会崩。
他还现场切换模型,包括有人点名的 Qwen,以及体量更大的 Gemma 327B。后者的表现“definitely slower”,但并非一无是处——你可以清楚看到,哪些模型和引擎组合“had more optimization work”。这不是模型大小的简单对比,而是工程成熟度的直接体现。
这一段演示的价值在于:它让观众直观看到,不同引擎之间的差距,已经足以影响产品决策。
吞吐量、4 倍提升,以及一个反直觉建议
除了延迟,Charles 还重点谈了吞吐量(requests per second)。他给出的结论非常明确:在可对比的条件下,整体性能已经出现了“4x improvement”。
但更有意思的,是他给开发者的建议。“Don’t immediately reach for reasoning.” 在他看来,很多人一遇到复杂任务就直接上推理型模型,却忽略了一个事实:更快的基础模型,加上更高的吞吐,往往能通过并行和重试,解决同样的问题,而且成本和体验都更好。
这不是反对推理模型,而是提醒大家:推理引擎的进步,正在改变“默认选型”。当吞吐和延迟显著改善后,一些过去必须依赖重推理的场景,其实已经有了更工程化的解法。
为什么他说“我更相信数据,而不是黑板”
在接近尾声时,Charles 总结了自己的方法论。他直言自己“like to see data and not chalkboard stuff”。这句话几乎可以当作整场分享的注脚。
无论是对推理引擎的判断,还是对开源模型追赶速度的乐观预期,他都坚持用可复现的请求、可观察的指标来说话。即便在回答提问、解释 benchmark 方法时,他也反复强调:这些数字是“throughput per replica”,有明确前提,而不是营销口径。
这种克制本身就是一种洞见:在一个模型更新速度极快的领域里,唯一不过时的能力,是建立自己的测量体系。
总结
这场演讲真正传递的信息,并不是“某个推理引擎最快”,而是:推理性能已经好到值得你重新思考部署策略。首 token 进入 1 秒以内、吞吐量 4 倍提升、开源模型与工程优化同步成熟,这些变化叠加在一起,让“自托管”从理想变成现实。对开发者而言,最大的启发或许是:别急着追逐最复杂的模型,先把你手里的推理引擎跑明白。
关键词: LLM 推理, 推理引擎, 开源模型, Token 延迟, 模型部署
事实核查备注: 演讲者:Charles Frye;视频标题:How fast are LLM inference engines anyway?;时间点提到的关键表述包括“first token under 1 second”“4x improvement”“Don’t immediately reach for reasoning”;现场提及模型名称:Qwen、Gemma 327B、Mistral;指标术语:首 token 延迟(TTFT)、requests per second、throughput per replica。