LLM 代码生成最致命的失败,不是模型,而是你自己
如果你觉得 LLM 写代码翻车,是因为模型不够聪明,这个视频会狠狠打你的脸。PostHog 的 Danilo Campos 用一连串“被机器人打到流鼻血”的真实经验,拆穿了 autonomous coding agent 最常见、也最容易被忽视的失败根源。
如果你觉得 LLM 写代码翻车,是因为模型不够聪明,这个视频会狠狠打你的脸。PostHog 的 Danilo Campos 用一连串“被机器人打到流鼻血”的真实经验,拆穿了 autonomous coding agent 最常见、也最容易被忽视的失败根源。
如果你还以为“做AI应用”等于调模型参数,这场来自Google DeepMind的演示会让你彻底改观。Paige Bailey用一小时,把多模态模型、AI Studio、世界模型和一键部署串成了一条几乎不用写代码的生产线。
很多人以为 Codex 只是“更会写代码的 ChatGPT”,但视频里真正炸裂的一点是:Codex 被定位成一个能直接控制你电脑、管理文件、记住长期上下文、还能自动化工作的 AI Agent 超级应用。看完你会明白,为什么它更像一个能长期共事的 AI 同事,而不是聊天工具。
Google DeepMind 悄悄干了一件“反直觉”的事:没有堆参数、没有锁生态,却用 Gemma 4 把开源模型直接送进榜单前六。从 31B 多模态到能跑在设备端的小模型,这次更新释放了一个强烈信号——下一轮 AI 竞争,不再只属于巨无霸模型。
当所有人都在追逐“一个人+一堆AI Agent=一支团队”时,GitHub Next 的 Maggie Appleton 站出来泼了盆冷水:真正拖垮团队的,从来不是写代码慢,而是没人对“该不该做”达成一致。这场演讲,几乎是在否定当下最流行的 Agent 使用方式。
把所有 API 一股脑喂给 Agent,看起来很聪明,实际上却是灾难。Cloudflare 的 Matt Carey 用一次真实的工程踩坑告诉你:上下文窗口不是瓶颈,思路才是。
GPT‑5.5(内部代号 Spud)终于来了,但它没有用“智商碾压”震撼所有人。恰恰相反,这次测试最反直觉的发现是:你几乎感觉不到它变了,可一旦算清成本、放进真实工作流,它可能正在悄悄改变 AI 从业者的竞争方式。
在这场超长 AI Coding 工作坊里,Matt Pocock 抛出了一个反直觉结论:多数 AI 编程翻车,不是因为模型太弱,而是工程师根本没理解 LLM 的“怪癖”。从“聪明区/愚蠢区”到“记忆只有几分钟的失忆症”,这是一套专为真实工程师准备的 AI 协作方法论。
如果你还把 AI 当成 Copilot、当成“效率工具”,那你已经落后一个时代了。Y Combinator 合伙人 Diana 在这期视频里抛出一个更激进的判断:AI 不是工具,而是公司运行的操作系统,组织结构、工程方式、管理层级都要被彻底推翻。
OpenAI 在一周内同时发布 GPT‑5.5 和 ChatGPT Images 2,看似例行升级,却在真实对战中暴露出一个反直觉结论:它不再追求“最聪明”,而是开始全面服务“能干活的人”。Peter Yang 用 4 个实测,给了一个极其清醒的判断。