文章

全部 AI Agent Y Combinator AI应用 大语言模型 Google 推理 创业 提示工程 代码生成 生成式AI 对话AI 模型训练 模型部署 检索增强生成 AI工具
当书会“回应你”:他用AI把阅读变成一场对话式体验

当书会“回应你”:他用AI把阅读变成一场对话式体验

这场演讲展示了一种全新的阅读范式:书不再只是静态文字,而是能听、能问、能理解上下文的互动体验。演讲者通过真实的个人困惑出发,讲述了如何用AI重构阅读,并分享了隐藏AI、强调人类审美的产品方法论。

api_bot · 2025-07-22 · 2 阅读 · AI/人工智能
Gemini这一年:一次“转折点”背后的模型、组织与未来

Gemini这一年:一次“转折点”背后的模型、组织与未来

这是一次来自Google DeepMind一线的内部复盘。Logan Kilpatrick用不到12分钟,讲清了Gemini过去一年真正的转折点:为什么2.5 Pro意义重大,DeepMind为何从“纯研究”转向“研究+交付”,以及他们眼中多模态、Agent和“无限上下文”的下一站。

api_bot · 2025-07-10 · 1 阅读 · AI/人工智能
不止最强模型:AI真正的前沿在成本、速度与取舍

不止最强模型:AI真正的前沿在成本、速度与取舍

ArtificialAnalysis 联合创始人 George Cameron 用真实基准数据揭示:AI 不只有“最强智能”这一条前沿。推理模型的高代价、开源权重的快速逼近、以及成本与速度的数量级差异,正在重塑我们构建 AI 应用的方式。

api_bot · 2025-07-08 · 0 阅读 · AI/人工智能
OpenAI开发者亲述:语音Agent真正难的不是说话

OpenAI开发者亲述:语音Agent真正难的不是说话

这是一场来自OpenAI开发者体验团队的一线分享。Dominik Kundel系统讲解了语音Agent为何重要、架构如何选择,以及实时语音Agent在延迟、工具调用和安全上的真实挑战,展示了OpenAI最新Agents SDK与实时API背后的设计取舍。

api_bot · 2025-06-29 · 0 阅读 · AI/人工智能
把“机器人前台”做成真人对话:实时视频AI的工程真相

把“机器人前台”做成真人对话:实时视频AI的工程真相

这场由 Pipecat 与 Tavus 联合分享的演讲,罕见地从工程一线拆解了“实时对话视频 AI”为什么过去很糟、现在终于可行,以及真正的难点不在模型本身,而在编排与部署。读完你会理解,一个 600 毫秒响应的对话式视频系统,究竟是怎样被搭出来的。

api_bot · 2025-06-27 · 0 阅读 · AI/人工智能
毫秒级语音AI如何落地:Cartesia与AWS的实时推理新范式

毫秒级语音AI如何落地:Cartesia与AWS的实时推理新范式

这场对话罕见地从第一性原理出发,拆解了“语音AI为什么难以规模化”的核心原因。Cartesia联合创始人Arjun Desai与AWS的Rohit Talluri分享了他们在实时语音、低延迟推理和新模型架构上的关键判断,揭示了企业级语音AI真正的技术门槛。

api_bot · 2025-06-27 · 1 阅读 · AI/人工智能
NVIDIA如何终结“尴尬转写”:企业级语音AI的真实打法

NVIDIA如何终结“尴尬转写”:企业级语音AI的真实打法

这场来自 NVIDIA Speech AI 团队的分享,揭示了一个常被忽视的事实:语音识别体验的差距,不在于单一模型有多聪明,而在于是否能围绕真实部署场景进行系统化设计。从流式ASR到多说话人识别,从模型结构到部署形态,NVIDIA给出了他们“终结尴尬转写”的方法论。

api_bot · 2025-06-03 · 1 阅读 · AI/人工智能
语音优先的AI叠加层:让智能助手不再打断人类对话

语音优先的AI叠加层:让智能助手不再打断人类对话

Gregory Bruss提出了一种不同于AI通话机器人的思路:语音优先的AI叠加层。它不参与对话,而是悄然增强人类交流。本文还原其核心理念、真实演示与工程难题,解释为何“会说话的AI”真正的挑战不在模型,而在时机、注意力与人性化设计。

api_bot · 2025-06-03 · 1 阅读 · AI/人工智能