“评测已死”:AI 工程师正在抛弃 Benchmark 的那一刻
如果你的 AI 还在用一套固定 Benchmark 证明“我很强”,那你已经落后了。Comet ML 的 Vincent Koc 在这场演讲里抛出一个让全场不安的判断:不是模型不够好,而是我们评测 AI 的方式,已经跟不上它进化的速度。
如果你的 AI 还在用一套固定 Benchmark 证明“我很强”,那你已经落后了。Comet ML 的 Vincent Koc 在这场演讲里抛出一个让全场不安的判断:不是模型不够好,而是我们评测 AI 的方式,已经跟不上它进化的速度。
你以为和 AI Agent 沟通只是格式偏好?这期《AI Daily Brief》抛出一个反直觉结论:HTML 正在悄悄胜出,而背后指向的是工作方式的结构性变化。顺带还有 Anthropic、Cerebras、芯片荒与“家庭数据中心”的连锁信号。
大多数人谈 AI Agent,都在比谁的模型更强、推理更复杂。但这场来自 AI Engineer 的演讲,却反复强调一件更“刺耳”的事:真正的门槛,不在 Agent 本身,而在你是否真的把它嵌进了产品。Pi 与 OpenClaw 的组合,正在把这件事变得具体、可落地。
当大多数AI Agent还停留在“演示很强、落地很难”时,Victor选择了一条更激进的路:直接住进Slack,当一个真正的“AI同事”。创始人Fryderyk在演讲中讲清了一个残酷现实——做AI coworker,难的从来不是模型。
这是一场长达4小时的深度访谈,但真正炸场的只有一句话:AI行业已经不需要个人英雄主义。曾在Anthropic与Gemini训练模型的姚舜宇,用自己的路径、判断与犹豫,拆解了模型能力、应用创业、组织文化与个人选择的真实现状。
大多数 AI Agent 不是“变笨”,而是被后端基础设施活活拖死的。Eric Allam 在这场演讲里抛出一个反直觉结论:传统三十年的无状态后端范式,正在系统性地阻碍 Agent 变得长期、可靠、可恢复。这篇文章讲清两条关键路线,以及为什么 Snapshot 正在反超 Replay。
文本转语音不再是“把字念出来”那么简单。Mistral 的 Samuel Humeau 直接抛出一个行业级判断:今天最强的 TTS,正在被重构成“像大语言模型一样”的系统,而且这一变化,正是实时语音 Agent 爆发的前提。
当所有产品都在往聊天框里挤时,Luke Harries却在台上泼了一盆冷水:纯聊天的AI,不够未来。真正的拐点,是给Agent一副“会听、会打断、会共情”的声音。这不是炫技,而是一次产品形态的升级。
当大多数公司还在纠结“要不要用 AI”,Airbnb 已经悄悄把 60% 的代码交给了 AI 写。但 Brian Chesky 在这期访谈里抛出的真正炸点,并不是效率提升,而是:AI 正在重塑“创始人模式”、消费者产品形态,以及下一代设计师的生存方式。
如果你以为 AI 平台的终极目标是“把模型做得更大更聪明”,这期对话会直接颠覆你。Claude 团队罕见地谈清了一件事:真正决定平台能否跑出千亿级价值的,不是模型本身,而是那些看起来不起眼的“平台原语”和 Agent 能力边界。