OpenAI开发者亲述：语音Agent真正难的不是说话

AI PM 编辑部 · 2025年06月29日 · 26 阅读 · AI/人工智能

AI安全 Token 对话AI 语音AI 推理 AI Agent 提示工程上下文窗口文本转语音语音识别

正在加载视频...

视频章节

这是一场来自OpenAI开发者体验团队的一线分享。Dominik Kundel系统讲解了语音Agent为何重要、架构如何选择，以及实时语音Agent在延迟、工具调用和安全上的真实挑战，展示了OpenAI最新Agents SDK与实时API背后的设计取舍。

OpenAI开发者亲述：语音Agent真正难的不是说话

这是一场来自OpenAI开发者体验团队的一线分享。Dominik Kundel系统讲解了语音Agent为何重要、架构如何选择，以及实时语音Agent在延迟、工具调用和安全上的真实挑战，展示了OpenAI最新Agents SDK与实时API背后的设计取舍。

为什么语音Agent正在成为“API级入口”

在正式写代码之前，Dominik Kundel花了不短的时间回答一个看似简单的问题：我们为什么要做语音Agent？他的回答并不浪漫，却非常现实。语音让技术“对更多人可用”，尤其是那些不擅长打字、阅读或操作复杂界面的用户。更重要的是，语音本身是一种信息密度极高的交互方式，可以在更短时间内传递更多上下文。

他用了一个很有洞察力的比喻：语音Agent可以成为“现实世界的API”。用户不是在点按钮或填表，而是在描述意图；Agent则在背后完成理解、决策和执行。这也是他对Agent的定义——“代表用户独立完成任务的系统，被封装在一个运行时中，统一管理生命周期”。这里的关键词不是聊天，而是任务。

这种定位直接影响了技术选型。Dominik强调，如果你的目标只是对话，聊天机器人就够了；但如果你要的是跨系统执行、调用后端、处理异常的能力，那你必须从一开始就把它当成Agent来设计。这种区分，是很多团队在早期容易忽略、但后期代价极高的地方。

两种语音架构：链式很稳，实时很难

在架构层面，Dominik把当前语音Agent分成了两类：链式（chained）和语音到语音（speech-to-speech）。前者是大多数团队的起点：先语音转文本（STT），再用文本Agent推理，最后把结果转成语音（TTS）。好处是可以复用现有的文本能力、工具和评估体系，但代价是延迟和“轮次判断”——系统必须判断用户什么时候说完了。

另一条路是语音到语音，不经过显式转写。Dominik直言，这种方式“对话更自然，延迟更低”，尤其适合打断、插话等真实交流场景。但问题也同样明显：你很难直接复用基于文本的工具和逻辑，调试和评估也更复杂。

真正有意思的转折在于他的解决方案：不是二选一，而是通过“委托（delegation）”把实时语音Agent和后端推理Agent结合起来。前端语音Agent负责对话、打断和节奏控制；复杂推理、退款处理、谜题求解则交给后端Agent完成。在现场演示中，用户一边查询天气、一边插话，系统还能同时把退款请求交给后台处理——这正是Agent“分工协作”的价值。

Agents SDK与Tracing：调试语音Agent的关键基础设施

这场演讲的重要背景是：OpenAI当天发布了新的Agents SDK（TypeScript）。Dominik列出的功能清单很长，但核心只有一件事——让Agent“可控、可查”。SDK内置了handoffs（任务交接）、guard rails（安全约束）、流式输入输出、MCP支持，以及原生的语音Agent能力。

其中被反复提到的是Tracing。通过Traces UI，开发者可以看到一次对话中发生的所有事情：音频输入、转写结果、工具调用、上下文变化，前端和后端一览无余。Dominik坦言，在实时语音场景下，很多问题“不是模型不聪明，而是你根本不知道它刚刚经历了什么”。Tracing解决的正是这个可观测性问题。

在随后的现场编码中，他从一个最简单的文本Agent开始，逐步加入工具，再切换到实时Agent，所有步骤都能在Tracing面板里回放。这种“所见即所得”的调试方式，是语音Agent能否落地的分水岭。

真实世界的难题：打断、成本、安全与人

进入Q&A后，讨论明显从“能不能做”转向“怎么活下去”。实时语音Agent最大的技术挑战之一是打断（interruption）。Dominik解释，打断会直接影响转写准确性，而Tracing往往是唯一的排错手段。

另一个绕不开的问题是成本。实时API按token和音频计算，语音到语音和链式方案在价格结构上不同，工具调用也会计入成本。这意味着架构选择不仅是体验问题，也是商业问题。

在安全层面，他强调实时Agent的guard rails往往是“基于转写而不是音频本身”，这会带来时间上的滞后。因此，设计时要允许Agent自我纠正，并通过提示（policy hints）提前约束行为。对于高风险操作，最佳实践仍然是“human-in-the-loop”——让人类明确批准。

谈到情绪、语气和节奏时，Dominik给了一个很实用的建议：把它们当成提示工程的一部分，而不是后期修饰。他在playground和openai.fm中演示了如何通过提示定义性格，这比硬编码规则更灵活。

总结

这场分享最有价值的地方，不在于某个API细节，而在于方法论：语音Agent不是“会说话的模型”，而是一个需要架构、分工、监控和安全设计的系统。Dominik反复强调，从小目标开始、尽早做评估和guard rails、用Tracing理解真实行为，才能避免在实时语音的复杂性中迷失。对任何想进入语音Agent领域的团队来说，这些经验都比单纯的技术参数更重要。

关键词：语音Agent， OpenAI Agents SDK，实时语音API， Tracing， AI安全

事实核查备注：演讲者：Dominik Kundel（OpenAI Developer Experience）；发布时间：2025-06-29；发布内容：OpenAI Agents SDK（TypeScript），包含handoffs、guard rails、streaming、MCP、tracing、语音Agent支持；核心架构：链式STT-文本-TTS vs 语音到语音；关键概念：delegation、real-time agents、Tracing UI、guard rails、human-in-the-loop

返回文章列表