把实时语音AI成本打到1美元/小时,他们是怎么做到的

AI PM 编辑部 · 2025年07月31日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

Gabber CTO Neil Dwyer 分享了他们托管开源语音模型 Orpheus 的一线经验:从实时语音的成本压力出发,深入讲述音频 token、LoRA 微调、延迟控制与一致性哈希负载均衡,解释如何在真实生产环境中把语音 AI 的单位成本压到极低。

把实时语音AI成本打到1美元/小时,他们是怎么做到的

Gabber CTO Neil Dwyer 分享了他们托管开源语音模型 Orpheus 的一线经验:从实时语音的成本压力出发,深入讲述音频 token、LoRA 微调、延迟控制与一致性哈希负载均衡,解释如何在真实生产环境中把语音 AI 的单位成本压到极低。

从“语音太贵了”开始的创业现实

为什么很多语音 AI 项目卡在早期?Neil 一上来就点破了问题的核心:成本。Gabber 是一家做实时语音产品的小型创业公司,而他本人长期从事实时媒体系统,这让他对“毫秒级延迟”和“规模化成本”格外敏感。正如他在演讲中直说的那样:“because everything's so expensive”,现有语音平台的定价让很多场景根本进不了产品的 top of funnel。

这里的故事并不是宏大的愿景,而是一个非常现实的起点:如果语音交互只能用在高价值、低并发的场景,它就永远成不了基础能力。Gabber 的判断是,语音必须像文本一样便宜,才能真正被大规模集成进应用、SDK 和 API 里。这也解释了他们为什么选择从“自己托管推理”这条更难、但更可控的路开始。

Neil 提到,他们并不打算在模型本身做惊天动地的突破,而是“differentiate in terms of opinion into our product and our SDKs and APIs”。换句话说,模型只是底座,真正的差异来自系统设计、体验取舍和工程细节。正是这种工程视角,推动他们去探索如何用开源模型、在可控硬件上,把实时语音的单位成本压到接近 1 美元/小时这一量级。

Orpheus:音频 token 世界里的硬指标

要理解 Gabber 的技术选择,首先得理解 Orpheus 是什么。Neil 在演讲中介绍,Orpheus 是一个被训练为直接输出音频 token 的模型,而不是传统的先文本、再 TTS 的两阶段流水线。音频 token 可以理解为对声音的离散化表示,模型需要持续、稳定地产生这些 token,才能拼接成自然的语音流。

这里出现了一个非常关键、也非常具体的数字:吞吐量。Neil 明确提到,如果你在托管 Orpheus 做实时语音,“it has to be a throughput of about 85”。低于这个水平,音频就会开始断裂,“the audio and it sounds bad”。这不是理论推导,而是来自真实系统中的经验阈值。

这类细节之所以重要,是因为它直接决定了硬件选型、并发能力和成本模型。实时语音不是离线生成,延迟和抖动都会被用户立刻感知。Gabber 的系统设计目标很明确:宁可在模型能力上保守一点,也要保证 token 生成速度稳定在线。这也是为什么后面他们会不断围绕 token 吞吐、endpointing(端点检测)和调度策略做优化。

LoRA 微调与“听起来不突兀”的细节

当基础推理跑通之后,下一个问题是体验。Gabber 的目标用户希望有“声音克隆”和风格定制,但在实时语音里,任何不连续都会显得格外刺耳。Neil 提到,他们大量使用了 low-rank fine-tunes,也就是 LoRA(低秩适配)来做声音克隆。

LoRA 的好处在于,它允许在不改动大模型主体的情况下,引入轻量级的个性化权重。这对于需要频繁加载、切换不同声音配置的实时系统来说至关重要。Neil 在演示中提到一个很直观的感受:“it’s jarring to me”,当系统在不合适的时机重启或切换时,人耳会立刻察觉异常。

一个有意思的细节是,Neil 强调模型不仅在模仿音色,还“picks up on the language cues as well”。也就是说,好的微调不仅让声音像某个人,还要在语调、节奏和语言习惯上保持一致。这再次说明,实时语音的挑战并不只在模型,而在于模型、推理和系统行为之间的耦合。

基础设施:从 L40 到一致性哈希

真正把成本打下来的,是基础设施层面的选择。Neil 明确提到,他们当前运行在 L40 GPU 上,并且花了大量精力处理所谓的“head of line silence”——队头阻塞导致的无声等待。这类问题在批处理系统里尚可容忍,但在实时语音中几乎是致命的。

一个转折点出现在他们引入新的组件时,Neil 用了一句非常生动的话形容:“VLM to the rescue”。在这次调整之后,系统的吞吐从大约 85 提升到了 105 token,这直接改善了单位 GPU 的产出,“in terms of margins and things like that”。

而在规模化层面,负载均衡成为绕不开的话题。Gabber 选择了带 sticky session 的一致性哈希环(consistent hash ring)方案,让同一个会话尽量命中同一实例,减少状态迁移和缓存失效。Neil 的评价非常工程师化:这是一个“buy the book”的方案,但好处是可以“very elegantly”地做扩缩容,而不需要大量额外工程投入。

总结

这场分享最有价值的地方,不在于某一个模型或参数,而在于一整套“实时语音工程观”。从“语音必须足够便宜”这一判断出发,Gabber 把注意力放在 token 吞吐、延迟边界、微调方式和负载均衡这些常被忽视的细节上。对读者来说,最大的启发或许是:当模型逐渐商品化,真正决定体验和成本的,是你如何把它们放进一个可控、可扩展的系统里。


关键词: 实时语音AI, Orpheus, 音频Token, LoRA微调, 一致性哈希负载均衡

事实核查备注: Neil Dwyer:Gabber CTO;Orpheus:开源语音模型,输出音频 token;实时推理吞吐阈值:约 85 token;优化后吞吐:约 105 token;GPU:NVIDIA L40;微调方式:LoRA(low-rank fine-tuning);负载均衡:sticky session + consistent hash ring