Anthropic 工程师直说真相:AI Agent 跑不久,不是模型不够强
为什么今天最强的 AI Agent,跑几个小时就“开始胡来”?Anthropic 两位一线工程师给出的答案,几乎颠覆了很多从业者的直觉:问题不在模型,而在我们构建 Agent 的方式。这场分享,第一次系统拆开了“长时间运行 Agent”真正的技术瓶颈。
为什么今天最强的 AI Agent,跑几个小时就“开始胡来”?Anthropic 两位一线工程师给出的答案,几乎颠覆了很多从业者的直觉:问题不在模型,而在我们构建 Agent 的方式。这场分享,第一次系统拆开了“长时间运行 Agent”真正的技术瓶颈。
所有人都在盯着 token 消耗,但真正决定 AI 生死的指标,可能恰恰不是 token。本期播客里,一位长期投资 OpenAI、Anthropic 的投资人,抛出了几个让硅谷都不安的判断:token 是幻觉,agent 才是引擎,而真正的稀缺品正在从算力转向人的连接。
如果你还在纠结用 GPT-4 还是更大的模型,IBM 的 Tejas Kumar 已经给了你一个更冷静、也更残酷的答案:真正决定 AI 能不能落地的,不是模型能力,而是 Harness。这场 18 分钟的演讲,把无数工程师踩过的坑一次性摊在台面上。
当所有人都在讨论如何“把 AI 做得更聪明”时,incident.io 的创始工程师却踩中了一个更残酷的现实:真正让 AI 产品崩溃的,从来不是模型能力,而是你根本不知道它为什么会这么回答。这场演讲讲的不是炫技,而是 AI 工程化里最容易被忽视、却最致命的一环。
几乎所有 AI 从业者都在用同一种方式做聊天,但真正拖垮体验的,恰恰是这套“行业默认”。这场演讲抛出一个刺耳结论:AI UX 崩坏,责任不在模型,而在你用错了连接方式。
GitHub 正在迎来史上最疯狂的代码增长期:一年 140 亿次提交,其中大量由 AI 共同完成。但更大的问题来了——代码更多,开发者真的更高效了吗?微软开发者布道师 Marlene Mhangami 用一场 Playwright 实战演示,给了一个让很多人不太舒服、却极其重要的答案。
当所有人都在争论MCP是不是AI Agent的“终极接口”时,Supabase的一次内部实验给出了一个让人不安的结论:只给工具,不给“正确用法”,最强模型也会把你的产品用错。这场分享讲的不是概念,而是为什么“Skill+MCP”才是当下最现实的解法。
Intercom 的工程团队做了一件很反直觉的事:他们不再纠结“用哪个模型更强”,而是直接把 AI 当成一名高级工程师来管理。结果是,在不扩招的前提下,工程产出真的翻了一倍。这不是概念,而是已经跑在生产里的现实。
OpenAI 悄悄把一件危险又迷人的东西塞进了手机:你可以用 ChatGPT App 远程控制 Codex 写代码、部署应用,甚至“YOLO 式”放手让它干活。这不是玩具,而是一次对开发者工作方式的正面冲击。
Laurie Voss 在这场演讲里抛出一个让很多工程师不舒服的事实:真正决定 AI Agent 能不能上线的,从来不是模型有多强,而是你有没有一套“能发现失败”的评估体系。这不是学术 talk,而是一条从 demo 到 production 的血路。