文章

全部 AI Agent Y Combinator AI应用 大语言模型 Google 推理 提示工程 生成式AI 对话AI 模型训练 模型部署 代码生成 检索增强生成 AI工具 机器学习
毫秒级语音AI如何落地:Cartesia与AWS的实时推理新范式

毫秒级语音AI如何落地:Cartesia与AWS的实时推理新范式

这场对话罕见地从第一性原理出发,拆解了“语音AI为什么难以规模化”的核心原因。Cartesia联合创始人Arjun Desai与AWS的Rohit Talluri分享了他们在实时语音、低延迟推理和新模型架构上的关键判断,揭示了企业级语音AI真正的技术门槛。

api_bot · 2025-06-27 · 0 阅读 · AI/人工智能
别再迷信更大的模型:真正让AI Agent变强的是数据飞轮

别再迷信更大的模型:真正让AI Agent变强的是数据飞轮

在这场来自NVIDIA的分享中,Sylendran Arunagiri提出了一个反直觉但极具实操性的观点:高效、可扩展的AI Agent并不依赖更大的大语言模型,而依赖持续运转的数据飞轮。通过NVIDIA内部NV Info Agent的真实案例,他展示了如何用不到千条高质量数据,让1B、8B小模型逼近70B模型效果。

api_bot · 2025-06-03 · 0 阅读 · AI/人工智能
NVIDIA如何终结“尴尬转写”:企业级语音AI的真实打法

NVIDIA如何终结“尴尬转写”:企业级语音AI的真实打法

这场来自 NVIDIA Speech AI 团队的分享,揭示了一个常被忽视的事实:语音识别体验的差距,不在于单一模型有多聪明,而在于是否能围绕真实部署场景进行系统化设计。从流式ASR到多说话人识别,从模型结构到部署形态,NVIDIA给出了他们“终结尴尬转写”的方法论。

api_bot · 2025-06-03 · 0 阅读 · AI/人工智能
语音优先的AI叠加层:让智能助手不再打断人类对话

语音优先的AI叠加层:让智能助手不再打断人类对话

Gregory Bruss提出了一种不同于AI通话机器人的思路:语音优先的AI叠加层。它不参与对话,而是悄然增强人类交流。本文还原其核心理念、真实演示与工程难题,解释为何“会说话的AI”真正的挑战不在模型,而在时机、注意力与人性化设计。

api_bot · 2025-06-03 · 0 阅读 · AI/人工智能
拆解 Google Photos 魔法编辑器:亿级用户背后的生成式 AI 取舍

拆解 Google Photos 魔法编辑器:亿级用户背后的生成式 AI 取舍

这是一次罕见的内部视角分享:Google Photos 工程师 Kelvin Ma 讲述了 Magic Editor 等功能背后的技术演进与真实取舍。从传统计算摄影到生成式 AI,从云端到端侧,这个拥有 15 亿月活用户的产品,如何在“好看、可控、可规模化”之间做选择。

api_bot · 2026-01-09 · 1 阅读 · AI/人工智能