为什么评测是AI走向生产的真正分水岭
正在加载视频...
视频章节
在这场演讲中,Braintrust 的 Manu Goyal 用童年故事和自动驾驶的真实经历,解释了为什么“Eval”不是AI开发的附属品,而是决定模型能否安全、快速走向生产的核心基础设施。
为什么评测是AI走向生产的真正分水岭
在这场演讲中,Braintrust 的 Manu Goyal 用童年故事和自动驾驶的真实经历,解释了为什么“Eval”不是AI开发的附属品,而是决定模型能否安全、快速走向生产的核心基础设施。
从任天堂到AI工程师:一次关于技术失望的童年顿悟
为什么有人会对“评测(Eval)”如此执着?Manu Goyal 的答案并不是从公司白皮书开始,而是从一张童年照片说起。舞台上,他展示了一张自己小时候玩 Nintendo 64 的照片,并调侃道:表面看是“一个可爱的小男孩沉浸在游戏里”,但实际上,那是“一个对当时技术现状深感失望的孩子”。
这种失望并非来自性能不足,而是来自范式本身。Manu 认为,技术不该被“规则系统反复执行同一件事”所束缚,而应该“活起来,能够成长、适应,并成为人类的思考伙伴”。正是这种早期的直觉,让他后来选择投身 AI 行业,成为一名软件工程师。
这个故事的重要性在于,它解释了他为何对 Eval 有着近乎执念的关注。在他看来,如果没有一套让系统持续反馈、修正和演化的机制,再聪明的模型也只是更复杂的规则机器。Eval,正是让技术“活起来”的关键一环。
自动驾驶的残酷现实:99%准确率也不配上路
真正让 Manu 理解 Eval 价值的,是他在自动驾驶行业的工作经历。在那里,他亲眼看到一个残酷事实:你可以整天调模型、换架构、改 loss function,但这远不足以让系统进入真实世界。
他在演讲中给了一个极具冲击力的例子:“我的图像分类准确率从 98% 提升到 99%,并不意味着你就可以把车放到路上。”原因很简单,现实世界关心的不是离线指标,而是具体行为:系统是否避让行人?是否能处理复杂交通场景?是否遵守交通法规?
这些问题,单一指标无法回答。这也是 Manu 强调的一点:“Eval 不只是 AI 的单元测试。”它不仅用于发现回归问题,更重要的是,它为模型提供了语境化的判断标准。如果没有 Eval,工程师获得反馈的唯一方式就是“直接上生产环境”,而这“昂贵、缓慢,而且风险极高”。
Eval不是测试,而是一座实验室
在 Manu 的方法论里,Eval 的真正价值在于,它让 AI 团队拥有了一座可反复实验的“实验室”。他用了一个非常形象的比喻:当你投入足够多精力去构建高质量 Eval,你实际上是在搭建一个环境,让自己可以在上线前完成 90% 的产品迭代。
这意味着什么?意味着模型改动、提示词调整、策略变化,都可以在受控环境中获得可靠信号,而不是把真实用户当实验对象。这样一来,团队不仅能“更快”,还能“更自信”地发布。
更进一步,他指出,如果你在离线 Eval 和线上生产数据中使用同一套指标,你就能获得真正的数据驱动信号:哪些真实案例最值得进入下一轮训练和优化。这一闭环,标志着他所说的 Eval 旅程的完成——从“那个困惑的工程师”,转变为“知道该如何推进系统演化的人”。
为什么整个行业都在反复强调Eval
如果个人经历还不足以令人信服,Manu 还搬出了“行业共识”。他提到,包括 Greg Brockman 在内的多位技术领袖,都在公开场合反复强调 Eval 的重要性。他半开玩笑地说:如果所有人都在说这件事,那它“大概不至于是个彻头彻尾的骗局”。
也正是在这样的背景下,他加入了 Braintrust,希望构建一个不仅支持 Eval,还能覆盖提示工程、实验、日志记录和可观测性的开发平台。在他的描述中,这些组件共同形成了一个“数据飞轮”,不断把真实世界的反馈转化为模型进化的动力。
演讲最后,他将复杂内容压缩成一句极具舞台效果的总结:“行业转型的关键,成功的关键,就是 Eval。”这不是口号,而是来自多个高风险领域反复验证后的结论。
总结
Manu Goyal 的演讲之所以打动人,并不在于他介绍了某种新技术,而在于他重新定义了 AI 工程的重心:不是模型本身,而是你如何判断它是否值得被信任。Eval 在这里不再是测试工具,而是连接实验室与现实世界的桥梁。对于任何希望把 AI 真正推向生产的人来说,这可能是最值得优先投入的基础设施。
关键词: Evals, AI工程, 模型部署, 自动驾驶, Braintrust
事实核查备注: 演讲者:Manu Goyal;公司:Braintrust;引用人物:Greg Brockman;核心概念:Eval(评测)、自动驾驶、离线指标与线上指标;关键原话包括“Eval 不只是 AI 的单元测试”“98% 到 99% 不代表可以上路”“成功的关键就是 Eval”。