这位工程师用一场工作坊说明:AI 编程失败,往往不是模型不行
在这场超长 AI Coding 工作坊里,Matt Pocock 抛出了一个反直觉结论:多数 AI 编程翻车,不是因为模型太弱,而是工程师根本没理解 LLM 的“怪癖”。从“聪明区/愚蠢区”到“记忆只有几分钟的失忆症”,这是一套专为真实工程师准备的 AI 协作方法论。
在这场超长 AI Coding 工作坊里,Matt Pocock 抛出了一个反直觉结论:多数 AI 编程翻车,不是因为模型太弱,而是工程师根本没理解 LLM 的“怪癖”。从“聪明区/愚蠢区”到“记忆只有几分钟的失忆症”,这是一套专为真实工程师准备的 AI 协作方法论。
当所有排行榜都在狂飙,Peter Gostev却当众泼了一盆冷水:模型变强了,但在“拒绝胡扯”这件事上,进步几乎停滞。更残酷的是,新模型有时还不如小模型。这场演讲用一个看似荒谬的基准,戳穿了我们对AI能力的集体幻觉。
OpenAI 在一周内同时发布 GPT‑5.5 和 ChatGPT Images 2,看似例行升级,却在真实对战中暴露出一个反直觉结论:它不再追求“最聪明”,而是开始全面服务“能干活的人”。Peter Yang 用 4 个实测,给了一个极其清醒的判断。
Every 团队提前内测 GPT‑5.5 三周,结论只有一句话:这是一次真正的能力跃迁。它还没到“高级工程师”水平,却已经把所有对手甩在身后;写作没那么有性格,却意外成了商业场景的利器。更重要的是,它正在重新定义什么叫“日常工作模型”。
把 Gemma 4 直接跑在 iPhone 上,而且速度能到 40 tokens/s——这不是概念演示,而是已经能用的体验。Adrien Grondin 用 MLX 展示了边缘大模型的临界点:不靠云、不等网络,AI 开始真正住进你的手机。
如果你还在担心“让大模型写代码是不是自找麻烦”,Sunil Pai 这场演讲会让你重新站队。他在台上用真实系统演示了一种叫 Code Mode 的思路:不是让模型生成文本,而是直接生成可执行、可约束、可观察的代码——结果不但更稳,还更安全。
Anthropic、OpenAI、Perplexity 看似在打产品战,实际上却在集体“抄作业”。Claude Desktop、泄露的 Codex 超级应用、各种 AI Agent 工具,界面和逻辑高度一致。更反直觉的是:真正拉开差距的,早就不是功能,而是你如何用它。
YC 最新一期《Light Cone》抛出一个让人坐不住的判断:机器人不是慢慢变好,而是刚刚跨过一个临界点。成本在塌陷、模型在统一、数据在重组,最重要的是——机器人第一次开始遵循我们在 AI 软件世界里熟悉的 scaling 逻辑。
很多人以为AI安全只能靠更大的模型、更贵的系统。但这支视频抛出一个反直觉的结论:用一个成本低到“1美元级别”的微调ModernBERT,就能构建有效的LLM安全护栏,而且不是纸上谈兵,而是真正跑过攻击向量的实战方案。
这期 Every 的对话抛出一个刺耳但重要的观点:LLM 的问题不是不够强,而是它天生就在“猜”。而有一类模型,从设计之初就拒绝猜答案。它不是下一代大模型,而是另一条路线。