从语音到智能体:一场对话式AI代理的实战工作坊
这是一场面向开发者的实战工作坊,演讲者以构建对话式AI代理为主线,拆解了从语音识别、语义理解到语音合成的完整链路,并通过现场演示和问答,分享了延迟、配置灵活性与滥用风险等一线经验。
这是一场面向开发者的实战工作坊,演讲者以构建对话式AI代理为主线,拆解了从语音识别、语义理解到语音合成的完整链路,并通过现场演示和问答,分享了延迟、配置灵活性与滥用风险等一线经验。
这场演讲没有谈影像识别或新药研发,而是把镜头对准了医疗体系中最不性感、却最烧钱的角落:收入周期管理。Nathan Wan 结合自己在 Google、医疗 AI 创业公司以及 Ensemble Health 的经历,讲述了为什么“让 AI 把钱收回来”,可能是当下对医疗系统影响最大的一件事。
Brian Balfour 用25年创业与产品经验,拆解当下最残酷的AI产品竞争现实:模型不是护城河,速度也不再安全。真正的胜负,来自对未被满足需求的洞察,以及数据、功能与AI能力的系统化组合。
这是一场来自OpenAI开发者体验团队的一线分享。Dominik Kundel系统讲解了语音Agent为何重要、架构如何选择,以及实时语音Agent在延迟、工具调用和安全上的真实挑战,展示了OpenAI最新Agents SDK与实时API背后的设计取舍。
这场由 Pipecat 与 Tavus 联合分享的演讲,罕见地从工程一线拆解了“实时对话视频 AI”为什么过去很糟、现在终于可行,以及真正的难点不在模型本身,而在编排与部署。读完你会理解,一个 600 毫秒响应的对话式视频系统,究竟是怎样被搭出来的。
这支演讲并不是吐槽ChatGPT功能不够强,而是直指一个更少被讨论的问题:设计。演讲者通过真实演示,指出ChatGPT在语音与文本、多模型协作上的割裂体验,并展示如何用现成API重构一个“更像人类交流”的AI界面。
在 AI Agent 工具爆发的当下,Aparna Dhinkaran 提醒行业:真正决定成败的不是你能不能“做出 Agent”,而是你是否知道它在真实世界里有没有正确工作。这场演讲系统拆解了 Agent 的结构、评估方法,以及语音与多模态时代带来的全新挑战。
这次访谈中,百度硅谷AI实验室负责人分享了百度如何从搜索公司转型为AI公司,以及语音识别技术从研究走向产品的真实路径。内容涵盖数据规模、口音难题、研究转化机制,以及他对“语音是否已被解决”的冷静判断。
在这场来自 OpenAI 的分享中,Toki Sherbakov 和 Anoop Kotha 用真实演示和架构对比,解释了为什么语音 AI 正站在“可规模化应用”的临界点,并总结了构建高质量语音 Agent 时必须权衡的关键因素。