OpenAI开发者亲述:语音Agent真正难的不是说话
正在加载视频...
视频章节
这是一场来自OpenAI开发者体验团队的一线分享。Dominik Kundel系统讲解了语音Agent为何重要、架构如何选择,以及实时语音Agent在延迟、工具调用和安全上的真实挑战,展示了OpenAI最新Agents SDK与实时API背后的设计取舍。
OpenAI开发者亲述:语音Agent真正难的不是说话
这是一场来自OpenAI开发者体验团队的一线分享。Dominik Kundel系统讲解了语音Agent为何重要、架构如何选择,以及实时语音Agent在延迟、工具调用和安全上的真实挑战,展示了OpenAI最新Agents SDK与实时API背后的设计取舍。
为什么语音Agent正在成为“API级入口”
在正式写代码之前,Dominik Kundel花了不短的时间回答一个看似简单的问题:我们为什么要做语音Agent?他的回答并不浪漫,却非常现实。语音让技术“对更多人可用”,尤其是那些不擅长打字、阅读或操作复杂界面的用户。更重要的是,语音本身是一种信息密度极高的交互方式,可以在更短时间内传递更多上下文。
他用了一个很有洞察力的比喻:语音Agent可以成为“现实世界的API”。用户不是在点按钮或填表,而是在描述意图;Agent则在背后完成理解、决策和执行。这也是他对Agent的定义——“代表用户独立完成任务的系统,被封装在一个运行时中,统一管理生命周期”。这里的关键词不是聊天,而是任务。
这种定位直接影响了技术选型。Dominik强调,如果你的目标只是对话,聊天机器人就够了;但如果你要的是跨系统执行、调用后端、处理异常的能力,那你必须从一开始就把它当成Agent来设计。这种区分,是很多团队在早期容易忽略、但后期代价极高的地方。
两种语音架构:链式很稳,实时很难
在架构层面,Dominik把当前语音Agent分成了两类:链式(chained)和语音到语音(speech-to-speech)。前者是大多数团队的起点:先语音转文本(STT),再用文本Agent推理,最后把结果转成语音(TTS)。好处是可以复用现有的文本能力、工具和评估体系,但代价是延迟和“轮次判断”——系统必须判断用户什么时候说完了。
另一条路是语音到语音,不经过显式转写。Dominik直言,这种方式“对话更自然,延迟更低”,尤其适合打断、插话等真实交流场景。但问题也同样明显:你很难直接复用基于文本的工具和逻辑,调试和评估也更复杂。
真正有意思的转折在于他的解决方案:不是二选一,而是通过“委托(delegation)”把实时语音Agent和后端推理Agent结合起来。前端语音Agent负责对话、打断和节奏控制;复杂推理、退款处理、谜题求解则交给后端Agent完成。在现场演示中,用户一边查询天气、一边插话,系统还能同时把退款请求交给后台处理——这正是Agent“分工协作”的价值。
Agents SDK与Tracing:调试语音Agent的关键基础设施
这场演讲的重要背景是:OpenAI当天发布了新的Agents SDK(TypeScript)。Dominik列出的功能清单很长,但核心只有一件事——让Agent“可控、可查”。SDK内置了handoffs(任务交接)、guard rails(安全约束)、流式输入输出、MCP支持,以及原生的语音Agent能力。
其中被反复提到的是Tracing。通过Traces UI,开发者可以看到一次对话中发生的所有事情:音频输入、转写结果、工具调用、上下文变化,前端和后端一览无余。Dominik坦言,在实时语音场景下,很多问题“不是模型不聪明,而是你根本不知道它刚刚经历了什么”。Tracing解决的正是这个可观测性问题。
在随后的现场编码中,他从一个最简单的文本Agent开始,逐步加入工具,再切换到实时Agent,所有步骤都能在Tracing面板里回放。这种“所见即所得”的调试方式,是语音Agent能否落地的分水岭。
真实世界的难题:打断、成本、安全与人
进入Q&A后,讨论明显从“能不能做”转向“怎么活下去”。实时语音Agent最大的技术挑战之一是打断(interruption)。Dominik解释,打断会直接影响转写准确性,而Tracing往往是唯一的排错手段。
另一个绕不开的问题是成本。实时API按token和音频计算,语音到语音和链式方案在价格结构上不同,工具调用也会计入成本。这意味着架构选择不仅是体验问题,也是商业问题。
在安全层面,他强调实时Agent的guard rails往往是“基于转写而不是音频本身”,这会带来时间上的滞后。因此,设计时要允许Agent自我纠正,并通过提示(policy hints)提前约束行为。对于高风险操作,最佳实践仍然是“human-in-the-loop”——让人类明确批准。
谈到情绪、语气和节奏时,Dominik给了一个很实用的建议:把它们当成提示工程的一部分,而不是后期修饰。他在playground和openai.fm中演示了如何通过提示定义性格,这比硬编码规则更灵活。
总结
这场分享最有价值的地方,不在于某个API细节,而在于方法论:语音Agent不是“会说话的模型”,而是一个需要架构、分工、监控和安全设计的系统。Dominik反复强调,从小目标开始、尽早做评估和guard rails、用Tracing理解真实行为,才能避免在实时语音的复杂性中迷失。对任何想进入语音Agent领域的团队来说,这些经验都比单纯的技术参数更重要。
关键词: 语音Agent, OpenAI Agents SDK, 实时语音API, Tracing, AI安全
事实核查备注: 演讲者:Dominik Kundel(OpenAI Developer Experience);发布时间:2025-06-29;发布内容:OpenAI Agents SDK(TypeScript),包含handoffs、guard rails、streaming、MCP、tracing、语音Agent支持;核心架构:链式STT-文本-TTS vs 语音到语音;关键概念:delegation、real-time agents、Tracing UI、guard rails、human-in-the-loop