不只看准确率：在大模型时代如何把Evals真正跑起来

AI PM 编辑部 · 2025年07月22日 · 16 阅读 · AI/人工智能

正在加载视频...

视频章节

Adobe应用AI负责人Muktesh Mishra在这场分享中，系统拆解了为何“评估（Evals）”已成为AI应用的生命线，以及如何跳出准确率与相似度的局限，把Evals当作一套可规模化、可演进的工程体系来建设。

不只看准确率：在大模型时代如何把Evals真正跑起来

Adobe应用AI负责人Muktesh Mishra在这场分享中，系统拆解了为何“评估（Evals）”已成为AI应用的生命线，以及如何跳出准确率与相似度的局限，把Evals当作一套可规模化、可演进的工程体系来建设。

为什么没有Evals，就没有真正的AI应用

这场演讲一开始，Muktesh Mishra就抛出了一个很多AI工程师都有切身体会的问题：当模型输出是非确定性的，我们到底该怎么“测试”AI应用？同样的输入，每次回答都不一样；改了一句Prompt，却不知道会破坏哪条业务链路。这些并不是个别现象，而是大语言模型时代的常态。

他的核心判断非常明确：“没有Evals，我们就无法构建任何AI应用。”在他看来，Evals本质上就是AI世界里的测试用例，只不过测试对象从确定性程序，变成了需要主观判断的生成式系统。Evals存在的价值，不只是评估准确率，而是帮助团队回答三个更大的问题：系统是否在朝目标前进？是否在持续变好？以及，用户是否能信任它。

Muktesh特别强调了“信任与问责”。当AI应用直接面向客户时，输出质量不再只是技术问题，而是业务风险。评估不是锦上添花，而是企业敢不敢上线、敢不敢持续迭代的前提条件。这也是为什么他观察到，Evals正在成为AI应用开发中最重要的趋势之一。

从数据开始：Evals不是写出来的，是“养”出来的

当谈到如何真正开始做Evals时，Muktesh把重心放在一个看似朴素、却最容易被忽略的点上：数据。他反复强调，Evals的第一步不是选工具，也不是定指标，而是数据本身。

他的建议是“从小开始，用合成数据起步”。合成数据并不意味着随意编造，而是有意识地生成覆盖关键场景的测试输入，用来验证系统输出是否符合预期。更重要的是，这不是一次性工作，而是一个持续改进的过程：生成输出、观察系统、补充数据集，再回到评估本身。

另一个来自实践的经验是：“一个数据集永远不够。”不同应用流、不同用户路径、不同失败模式，都需要各自的数据集来覆盖。数据还必须被清晰标注，明确它在评估哪一类能力、哪一种风险。Muktesh的隐含观点很清楚：Evals的质量，最终取决于你对自己系统的理解深度，而这种理解，几乎全部体现在数据上。

没有通用指标：Evals必须为应用“量身定制”

在演讲中，Muktesh多次强调一个反直觉但极其重要的结论：“不存在通用的Eval。”评估方式必须紧密贴合应用类型，否则指标再漂亮也毫无意义。

以RAG（检索增强生成）或问答系统为例，准确率、相似度、回答是否有用，往往是合理的评估维度；但一旦进入代码生成场景，评估重点就彻底改变了——是否能通过现有代码库的测试、功能是否正确、生成代码是否足够健壮，才是核心。

而在AI Agent场景中，复杂度进一步上升。Agent可能通过不同路径完成同一目标，这时“轨迹评估”就变得至关重要：它走了哪条路径？是否调用了正确的工具？在多轮对话中是否保持一致性？Muktesh并没有给出统一答案，而是反复提醒：评估设计本身，就是对应用本质的一次深度建模。

把Evals跑到规模：流程比工具更重要

真正的难点不在于“有没有Evals”，而在于如何把它们跑到规模。Muktesh给出的关键词是：编排、并行、频率和迭代。

在工程层面，他建议缓存中间结果、做回归测试，通过并行化来提升评估效率；在方法论层面，他提出了一个在行业中逐渐流行的循环：“Measure， Monitor， Analyze， Repeat（测量、监控、分析、重复）”。评估不是一次性验收，而是一条伴随应用整个生命周期的反馈回路。

他也非常坦率地谈到了人类参与的问题：有些场景必须有人在环，才能保证高保真；有些场景则需要自动化来换取速度。这里没有标准答案，只有取舍。正如他所说，与其迷信工具，不如先把流程定义清楚——因为“你无法自动化一切”。

总结

Muktesh Mishra的分享传递了一个清晰信号：在大模型时代，评估不再是上线前的检查项，而是一种持续性的工程能力。从数据出发，针对应用定制指标，用流程而非工具驱动规模化运行，才能让AI系统真正变得可控、可信、可演进。对每一个正在构建AI应用的团队来说，Evals不是成本中心，而是长期竞争力的来源。

关键词： Evals，大语言模型， AI应用， RAG， AI Agent

事实核查备注：演讲者：Muktesh Mishra；公司背景：Adobe 应用AI负责人；核心概念：Evals、RAG、AI Agent、轨迹评估、Measure-Monitor-Analyze-Repeat；观点：不存在通用Eval、Evals类似AI时代的测试用例

返回文章列表