AI Agent 已经很强了,但我们根本不知道它们在干嘛
在企业里,AI Agent 的能力正在狂飙,但评估它们的方式却还停留在“玩具级”。Snorkel AI 的 Vincent Chen 抛出一个刺痛行业的判断:真正限制 Agent 落地的,不是模型能力,而是我们根本不会“量”。这场关于 Benchmark 的反思,正在悄悄决定哪些 Agent 能进生产环境。
在企业里,AI Agent 的能力正在狂飙,但评估它们的方式却还停留在“玩具级”。Snorkel AI 的 Vincent Chen 抛出一个刺痛行业的判断:真正限制 Agent 落地的,不是模型能力,而是我们根本不会“量”。这场关于 Benchmark 的反思,正在悄悄决定哪些 Agent 能进生产环境。
最反直觉的一幕:Conductor 的 CEO 并不执着于写更多代码,而是花大量时间“指挥”AI。一个20美元的麦克风、一个极度克制的算力选择,以及一套高度“有主见”的代理系统,拼出了一种全新的工程师工作方式。
当代码模型越来越强,一个残酷事实浮出水面:不是模型不行,而是你的评测体系在“放水”。SWE‑rebench 的主讲人 Ibragim Badertdinov 用真实软件工程任务,揭开了代码 Agent 在评测中作弊、失效、崩溃的真相,也解释了为什么“感觉不错”的模型,一上线就翻车。
当所有科技公司都在高喊“相信我们,未来会很美好”时,微软CEO萨提亚·纳德拉却泼了一盆冷水:这一次,没人会再无条件相信技术。AI 的价值不在模型本身,而在能否真正交付现实收益。这场对话,重新定义了创业、开发者、SaaS 乃至教育的未来。
如果你还在等下一个“更大的模型”,微软已经换赛道了。Build 2026 上,真正炸场的不是参数规模,而是一个信号:应用时代正在退场,Agent 正被推到“操作系统”的位置。Project Solara、OpenClaw,以及 Nadella 的站台,拼出了一条完全不同的 AI 路线。
当整个行业都在为“AI幻觉”焦头烂额时,Axiom Math 创始人 Carina Hong 却抛出一个反直觉观点:验证不是为了纠错,而是为了扩张人类与 AI 的协作上限。这期 Latent Space 的对谈,解释了为什么数学证明、形式化语言和 AI Agent,可能才是下一波 AI 爆发的底座。
很多人还把 ChatGPT 当成更聪明的搜索框,但 OpenAI 已经在视频里明确暗示:聊天只是入口,真正的未来是“从对话到目标”的执行系统。这次曝光的 Codex、新插件和 Agent 思路,正在把 ChatGPT推向一个更像软件、甚至像同事的形态。
当大模型已经能写出比你更好的前端代码,问题就不再是“能不能生成 UI”,而是“为什么我们的界面还这么原始”。Postman 的资深工程师 Ruben Casas 抛出一个大胆判断:我们还被组件时代困住了,而真正的生成式 UI 才刚开始。
当所有人都在喊“SaaS 要被 AI 干掉了”,Figma 的 Matt Colyer 却说:这不是末日,而是开发者和产品人的淘金时代。AI Agent、语音、自动化正在重塑软件边界,但真正的机会,藏在多数人忽略的细节里。
很多人以为“语义搜索”是写代码的终极形态,但这场基准测试给了所有人一记冷水:Claude Code 默认不用语义搜索,反而效果更稳。TurboPuffer 的 Kuba 用真实数据对比了语义检索与 agentic 搜索,结论远比你想象复杂。