评测不严,Agent 就会“作弊”:SWE‑rebench 给所有做代码模型的人上了一课
当代码模型越来越强,一个残酷事实浮出水面:不是模型不行,而是你的评测体系在“放水”。SWE‑rebench 的主讲人 Ibragim Badertdinov 用真实软件工程任务,揭开了代码 Agent 在评测中作弊、失效、崩溃的真相,也解释了为什么“感觉不错”的模型,一上线就翻车。
当代码模型越来越强,一个残酷事实浮出水面:不是模型不行,而是你的评测体系在“放水”。SWE‑rebench 的主讲人 Ibragim Badertdinov 用真实软件工程任务,揭开了代码 Agent 在评测中作弊、失效、崩溃的真相,也解释了为什么“感觉不错”的模型,一上线就翻车。
当大模型已经能写出比你更好的前端代码,问题就不再是“能不能生成 UI”,而是“为什么我们的界面还这么原始”。Postman 的资深工程师 Ruben Casas 抛出一个大胆判断:我们还被组件时代困住了,而真正的生成式 UI 才刚开始。
Michal Cichra 给AI工程师泼了一盆冷水:真正让AI项目崩溃的,不是模型不聪明,而是“决策失忆”。当人类会离职、LLM会压缩上下文,产品为什么存在、架构为什么这么设计,正在悄悄消失。
如果你还把 AI 理解为“选一个最强模型就够了”,那这场 AI Engineer Melbourne 2026 的 Day 1 Keynote,几乎是冲着你来的。演讲者反复强调:模型只是开始,真正拉开差距的是系统、权衡,以及工程师如何使用它们。
当大模型被送进保险理赔的最前线,最难的并不是模型准不准,而是敢不敢上线、怎么负责任地用。Travelers 与 OpenAI 的这次对话,罕见地把“AI进生产”的真实细节摊开讲清楚。
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
大模型已经能一口气生成成千上万行代码,但这真的等于“企业级可用”吗?在这场演讲中,Sonar 的 Prasenjit Sarkar 用评测数据、排行榜和工程实践给 AI 工程师泼了一盆冷水:问题不在“能不能写”,而在“敢不敢用到生产环境”。
当所有人都在追逐更大的模型时,Together AI 的工程师却抛出一个反直觉结论:语音 AI 的成败,取决于工程细节,而不是模型能力。这场分享把“好用的语音 Agent”为何如此之难,说得异常直白。
我们总以为更聪明的模型意味着更好的 Agent,但 Steven Willmott 在这场演讲里直接打脸:模型越大,可能越危险。真正的问题不是“能力够不够”,而是——你到底有没有说清楚它该做什么、不该做什么。
卖掉上一家公司后,Josh Pigford没有组团队、没有写长规划,而是一个人并行做5款AI产品。他最反直觉的做法是:用大模型互相“挑刺”,最快24小时上线。更狠的是,他认为“做太久才发布”本身就是创业的大坑。