把LLM评估做到可规模化：一线工程师的实战方法论

AI PM 编辑部 · 2025年06月27日 · 33 阅读 · AI/人工智能

监督学习 AI应用推理检索增强生成 AI Agent 模型部署提示工程幻觉 Copilot 模型训练

正在加载视频...

视频章节

这场演讲不是在讲“为什么要做评估”，而是直面一个更残酷的问题：当LLM真正进入生产环境，评估体系该如何跟上复杂度和速度？Dat Ngo结合大量真实落地经验，给出了一套围绕可观测性、信号设计和工程化迭代的评估方法论。

把LLM评估做到可规模化：一线工程师的实战方法论

这场演讲不是在讲“为什么要做评估”，而是直面一个更残酷的问题：当LLM真正进入生产环境，评估体系该如何跟上复杂度和速度？Dat Ngo结合大量真实落地经验，给出了一套围绕可观测性、信号设计和工程化迭代的评估方法论。

为什么“评估”成了LLM工程的最大瓶颈

这场分享一开始就没有从模型能力讲起，而是从一个更现实的问题切入：在生产环境里，你根本不可能人工检查每一条LLM调用的结果。Dat Ngo在台上问了三个问题——“谁构建过Agent？”、“谁跑过Eval？”、“谁把AI产品真正推到过生产？”——举手的人越来越少，这本身就是一个信号。

在Dat看来，很多团队已经意识到评估的重要性，但依然停留在“跑一次benchmark”的阶段。他明确指出：“Observability answers what is happening， evals tell you whether it’s good.” 可观测性（Observability）关注的是系统发生了什么，比如trace、span、调用链路；而评估（Eval）本质上是一种“信号提取机制”，用来判断这些行为是否符合预期。

一个关键洞见是，LLM团队正在自然分裂成两类：平台团队关心成本、延迟、吞吐；应用团队关心业务指标和用户体验。不同角色关注的指标完全不同，这意味着评估体系不可能是“一套通吃”。如果你的评估只回答技术问题，却无法映射到业务决策，那它在生产中几乎没有价值。

Eval不是“LM as a Judge”，而是一整套信号工程

在谈到评估具体怎么做时，Dat首先泼了一盆冷水：“Eval is a really clever word for signal.” 评估不是某种神秘技术，而是工程上如何持续、低成本地获得可信信号。

他举了RAG（检索增强生成）的例子。一个看似简单的问答背后，其实隐藏着多层评估：检索结果是否相关、上下文是否被正确使用、最终回答是否忠于资料。Dat特别强调，这些“箭头上的评估”并不等同于原始任务本身，“The original task is not the eval task.” 评估往往是一个被拆解、被简化、被代理的子问题。

更重要的是，评估不一定非要用大模型。他明确提到，很多场景下encoder-only模型、规则、甚至代码逻辑（如正则、JSON解析）更便宜也更稳定。“Code-based evals are cheaper.” 人类反馈、真实用户行为同样是极其宝贵的信号，只是成本更高、规模受限。真正成熟的评估体系，一定是多种信号的组合，而不是押宝在LM-as-a-judge这一种方式上。

从黄金数据集到“良性循环”，评估如何真正改善系统

当LLM应用进入生产后，评估的角色会发生变化。Dat提到一个核心概念：Golden Dataset（黄金数据集）。它代表的是高质量、被人工确认的重要样本，用来锚定系统的“质量上限”。“Golden data set represents quality.” 与之对应的，是规模化的自动评估，用来覆盖分布和变化。

一个非常工程化的流程被反复强调：先通过可观测性收集真实失败案例，比如幻觉；再对这些样本进行标注；然后更新提示词、路由或模型配置；最后用评估来验证是否真的变好。Dat很坦率地说：“Evals are not perfect.” 评估本身也会出错，所以你必须持续收集评估失败的案例，反过来改进评估提示词或规则。

他把这个过程称为“virtuous cycles（良性循环）”，并反复强调一句话：“Velocity matters.” 在真实业务里，评估体系最大的价值不是绝对准确，而是能否足够快地缩短反馈回路，让工程团队持续迭代。

Agent时代，评估复杂度首次追平应用本身

如果说前半段还适用于大多数LLM应用，那么在Agent和Copilot场景下，Dat的判断就显得尤为尖锐：评估的复杂度，已经和应用本身一样高了。

在Agent架构中，单次任务往往包含多轮推理、多次工具调用和条件分支。Dat指出，你不能只评估最终答案，而必须评估“轨迹”（trajectory）：Agent是否选择了正确的工具、是否走了合理的路径、是否在中途出现系统性失败。“AI evaluating AI”正在成为常态。

他分享了一套常见做法：先在组件级别评估（如工具调用正确率），再放大到工作流和会话级别；通过聚合trace分析失败模式，统计工具使用频率，甚至构建“golden trajectories”作为参考路径。没有所谓的“一站式评估方案”，他的hot take非常直接：“Customize evals heavily.”

在问答环节，Dat进一步讨论了在线/离线评估、护栏（guardrails）的局限，以及OpenTelemetry在分布式LLM系统中的重要性。他提醒大家，护栏不是万能的，“fix the prompt first”，评估和可观测性必须结合起来看，才能真正理解系统行为。

总结

这场演讲最有价值的地方，不在于某个具体评估指标，而在于一种工程视角：把评估当作持续获取信号、驱动决策的系统，而不是上线前的检查清单。随着Agent和复杂工作流成为主流，评估不再是配角，而是直接决定LLM系统能否被信任、被迭代、被规模化的核心基础设施。对每一个AI工程师来说，真正的挑战不是“会不会做Eval”，而是“你的Eval，是否跟得上系统演进的速度”。

关键词： LLM评估，可观测性， AI Agent， RAG，提示工程

事实核查备注：演讲者：Dat Ngo；公司：Arize AI（演讲中称为AI evals和observability领域的重要玩家）；关键概念：Observability、Eval、LM as a Judge、RAG、Golden Dataset、Agent Trajectory、OpenTelemetry；原话引用需核对英文原意与上下文一致性。

返回文章列表