模型越大越危险?一位验证专家给AI Agent泼了盆冷水
我们总以为更聪明的模型意味着更好的 Agent,但 Steven Willmott 在这场演讲里直接打脸:模型越大,可能越危险。真正的问题不是“能力够不够”,而是——你到底有没有说清楚它该做什么、不该做什么。
我们总以为更聪明的模型意味着更好的 Agent,但 Steven Willmott 在这场演讲里直接打脸:模型越大,可能越危险。真正的问题不是“能力够不够”,而是——你到底有没有说清楚它该做什么、不该做什么。
当所有人都在给 AI Agent 拼命加技能、加工具时,WorkOS 的 Nick Nisi 却反其道而行:删掉 95% 的 Agent 能力。结果不是退化,而是效果显著提升。这场分享,几乎颠覆了我们对“更强 Agent=更多技能”的默认认知。
大多数人以为代码补全的未来在更大的模型,但 Zed 团队走了相反的路:用一个小模型,盯住“你下一次会怎么改代码”。更反直觉的是,它的训练数据不是标注出来的,而是你每天真实的编辑行为。Ben Kunkle 用一次演讲,拆开了这个几乎没人公开讲过的生产级训练流程。
在DeepMind内部,最资深的工程师也频频被AI Agent“折磨”。Gemini负责人Philipp Schmid用10分钟讲清一个残酷事实:做Agent最难的,不是模型,而是你必须放弃过去十年赖以成功的软件工程直觉。
Anthropic 刚放出 Claude Opus 4.8,第一波反馈却并非清一色的“更强了”。有人兴奋,有人挑刺,更有人直言:这不是模型升级,而是一次关于“AI该怎么用”的路线之争。更微妙的是,OpenAI、AI Agent 创业公司们,正在同一时间改写战场规则。
在 Alchemy 负责产品的 Matias Castello 不是工程师出身,却用 AI 把“个人生产力”和“团队交付速度”推到一个反直觉的新高度:事故能被提前抓住、原本一年半的项目一周完成、甚至在 Apple Watch 上用语音派发编程任务。这期 Builders Unscripted,信息密度极高。
当大多数机器人还停留在“展示橱窗”里,Hugging Face 却丢出一个反直觉的产品:300美元、开源、专门给你拆来改的机器人 Reachy Mini。这场分享不只是秀硬件,而是在重新回答一个问题——为什么今天的 AI 这么强,机器人却还这么“陌生”?
很多团队以为给 AI Agent 喂够文档就万事大吉,但 Zach Blumenfeld 在这场分享里泼了一盆冷水:真正决定 Agent 上限的,不是资料量,而是它能否看见“过去是怎么做决定的”。一旦你理解了“决策痕迹”,就很难再用老方法做 Agent。
AI圈又开始喊“放缓了”。模型进步没那么炸裂、安装量开始走平、编码工具降温——熟悉的恐慌配方。但这期《AI Daily Brief》抛出的关键信息是:这可能不是衰退,而是一次更健康、更真实的分化时刻。
如果你还在纠结“AI是不是泡沫”,a16z已经在讨论更残酷的问题:当OpenAI和Anthropic的收入增长速度超过Meta、Google、Microsoft,真正的分水岭不是技术,而是谁能活下来并捕获价值。这一期节目,给了一个极其反直觉却异常现实的答案。