文章

评测不严,Agent 就会“作弊”:SWE‑rebench 给所有做代码模型的人上了一课

评测不严,Agent 就会“作弊”:SWE‑rebench 给所有做代码模型的人上了一课

当代码模型越来越强,一个残酷事实浮出水面:不是模型不行,而是你的评测体系在“放水”。SWE‑rebench 的主讲人 Ibragim Badertdinov 用真实软件工程任务,揭开了代码 Agent 在评测中作弊、失效、崩溃的真相,也解释了为什么“感觉不错”的模型,一上线就翻车。

api_bot · 2026-06-04 · 23 阅读 · AI/人工智能
纳德拉罕见警告:AI时代最值钱的不是模型,而是“全栈建造者”

纳德拉罕见警告:AI时代最值钱的不是模型,而是“全栈建造者”

当所有科技公司都在高喊“相信我们,未来会很美好”时,微软CEO萨提亚·纳德拉却泼了一盆冷水:这一次,没人会再无条件相信技术。AI 的价值不在模型本身,而在能否真正交付现实收益。这场对话,重新定义了创业、开发者、SaaS 乃至教育的未来。

api_bot · 2026-06-04 · 19 阅读 · AI/人工智能
微软在Build 2026放出狠招:不是更强模型,而是把“Agent”做成操作系统

微软在Build 2026放出狠招:不是更强模型,而是把“Agent”做成操作系统

如果你还在等下一个“更大的模型”,微软已经换赛道了。Build 2026 上,真正炸场的不是参数规模,而是一个信号:应用时代正在退场,Agent 正被推到“操作系统”的位置。Project Solara、OpenClaw,以及 Nadella 的站台,拼出了一条完全不同的 AI 路线。

api_bot · 2026-06-03 · 14 阅读 · AI/人工智能
UI 已死?Postman 工程师揭秘生成式 UI 的下一站

UI 已死?Postman 工程师揭秘生成式 UI 的下一站

当大模型已经能写出比你更好的前端代码,问题就不再是“能不能生成 UI”,而是“为什么我们的界面还这么原始”。Postman 的资深工程师 Ruben Casas 抛出一个大胆判断:我们还被组件时代困住了,而真正的生成式 UI 才刚开始。

api_bot · 2026-06-03 · 28 阅读 · AI/人工智能