语音智能的临界点：OpenAI谈如何真正做出可用的语音Agent

AI PM 编辑部 · 2026年01月09日 · 18 阅读 · AI/人工智能

语音AI 语音识别少样本学习文本转语音 AI Agent 提示工程文本生成图像多模态生成式AI Sora

正在加载视频...

视频章节

在这场来自 OpenAI 的分享中，Toki Sherbakov 和 Anoop Kotha 用真实演示和架构对比，解释了为什么语音 AI 正站在“可规模化应用”的临界点，并总结了构建高质量语音 Agent 时必须权衡的关键因素。

语音智能的临界点：OpenAI谈如何真正做出可用的语音Agent

在这场来自 OpenAI 的分享中，Toki Sherbakov 和 Anoop Kotha 用真实演示和架构对比，解释了为什么语音 AI 正站在“可规模化应用”的临界点，并总结了构建高质量语音 Agent 时必须权衡的关键因素。

从“能用”到“好用”：语音模型为何迎来转折点

为什么现在才是认真做语音 Agent 的好时机？这是 Toki 一开始就抛出的问题。在他看来，过去十年生成式 AI 的主战场几乎都在文本：聊天机器人、代码助手、搜索问答，技术成熟、应用爆发。但语音长期停留在“功能可用、体验难忍”的阶段。

Toki 回顾了多模态的发展路径：先是文本模型达到接近人类的理解和生成能力，然后是图像理解与生成（包括 Sora 这样的视频生成模型），而语音一直是“补充能力”——转写（speech-to-text）和合成（text-to-speech）虽然存在已久，但并不能支撑真正自然的对话。

真正的变化，来自低延迟的 speech-to-speech（语音到语音）能力。他直言：“音频现在终于到了一个 tipping point（临界点）。”模型在延迟、稳定性和自然度上已经“good enough”，不再只是 demo，而是可以支撑生产级应用。这不是某个单点指标的突破，而是整体体验首次跨过了用户可接受的门槛。

这也是为什么他们把这场分享完全聚焦在 audio modality 上——不是畅想未来，而是总结已经踩过的坑和验证过的模式。

一次尴尬的现场演示，和它背后的技术进化

为了让观众“身体力行”感受差异，Toki 直接在台上演示了语音生成诗歌的对比。

第一个示例来自“过去”的语音系统：用户说出主题，模型停顿明显，生成过程断断续续。Toki 甚至调侃道：“I hope you felt the pain a little bit. Right. These models are incredibly slow.” 等待本身，已经破坏了对话的沉浸感。

而当他切换到“今天”的方案，同样的请求几乎实时得到回应。模型不仅更快，而且语气更连贯，听感更接近一个在“思考并说话”的人。这一快一慢的对比，成为全场最直观的技术说明书。

这个故事之所以重要，是因为它点出了语音 Agent 的核心体验指标：不是聪不聪明，而是“像不像对话”。在语音场景中，几百毫秒的延迟都会被用户感知成“卡顿”或“不自然”。Toki 总结说，正是低延迟 speech-to-speech 的成熟，才让“高质量、可规模化的语音应用”第一次成为现实选项。

两种架构之争：链式方案 vs 端到端语音模型

当真正开始构建语音 Agent 时，架构选择会立刻变成现实问题。Toki 将现有方案清晰地分成两类。

第一类是“chained approach（链式架构）”：语音先转成文本（ASR），再由文本模型生成回复，最后再通过 TTS 转成语音。这种方式的优势是成熟、可控、易于调试，也方便在每一层插入业务逻辑。

第二类是正在兴起的 speech-to-speech 架构。以 OpenAI 的 real-time API 为例，输入和输出都是音频，中间由一个统一模型完成理解和生成。Toki 强调，这种方式“dramatically simplifies the architecture”，极大减少了系统复杂度和整体延迟。

但他并没有把新架构描述成对旧方案的完全替代。相反，他反复提到“trade-offs”：延迟、成本、准确性、以及和现有系统的集成方式。比如在客服场景中，准确性和可解释性可能比极致延迟更重要，链式架构依然合理。

核心洞见在于：不存在放之四海而皆准的语音架构，只有和业务目标匹配的选择。

不只是模型：语音 Agent 成败取决于设计与评估

Anoop 接过话筒后，把视角从“模型能力”拉回到“Agent 系统”。他给出了一个相对克制但实用的定义：Agent 是一个模型，通过工具调用完成任务，而不仅是生成文本或语音。

在语音 Agent 中，很多关键决策其实发生在模型之外。例如品牌定制：使用什么样的提示（prompt），声音是否需要更有情绪、更克制，是否加入 few-shot 示例来塑造表达风格。这些都会直接影响用户是否“信任”这个声音。

工具使用是另一大重点。Anoop 的建议是“start simple”：先把最关键的工具打通，再逐步引入更复杂的 delegation 和 handoff（任务交接）。在语音场景下，过早引入复杂流程，往往只会放大失败体验。

最后是 evals（评估）。他们把评估分成多个层次：基于转写文本的评估、直接测试音频输出、以及使用合成对话来做规模化测试。同时，guardrails（安全边界）并不是事后补丁，而是从一开始就要设计进系统。

这部分内容传递了一个隐含但重要的信息：语音 Agent 的难点，已经从“模型行不行”转移到了“系统设计是否成熟”。

总结

这场分享并没有制造“语音 AI 即将颠覆一切”的宏大叙事，而是给出了一个更有价值的判断：语音技术终于跨过了可用性的门槛，但真正的差异化，来自架构选择、体验设计和评估体系。对开发者而言，现在是一个需要工程判断力，而不仅是模型崇拜的阶段。谁能把这些细节做好，谁就更可能做出真正被用户长期使用的语音 Agent。

关键词：语音AI， Speech-to-Speech， AI Agent，多模态， OpenAI

事实核查备注：人物：Toki Sherbakov（OpenAI Solution Architecture 负责人之一）、Anoop Kotha（OpenAI Solution Architecture）。公司：OpenAI。技术名词：speech-to-text、text-to-speech、speech-to-speech、real-time API、chained architecture、few-shot、guardrails、evals。产品示例：Sora（视频生成模型）。所有观点均来自公开视频内容，无额外推断。

返回文章列表