做 LLM 的人都会踩的坑:Dat Ngo 说真正难的不是模型,而是这三件事

AI PM 编辑部 · 2026年06月07日 · 17 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还在为“该用哪个大模型”纠结,那你已经落后了。Arize AI 的 Dat Ngo 直言:当 LLM 进入生产环境,真正决定成败的不是模型能力,而是你有没有把可观测、评估和实验这三件事做对。这场分享,把行业最容易忽略、却最致命的问题摊在了桌面上。

做 LLM 的人都会踩的坑:Dat Ngo 说真正难的不是模型,而是这三件事

如果你还在为“该用哪个大模型”纠结,那你已经落后了。Arize AI 的 Dat Ngo 直言:当 LLM 进入生产环境,真正决定成败的不是模型能力,而是你有没有把可观测、评估和实验这三件事做对。这场分享,把行业最容易忽略、却最致命的问题摊在了桌面上。

最反直觉的真相:LLM 不神秘,难的是让它“稳定工作”

Dat Ngo 一上来就泼了盆冷水:AI 不是魔法,尤其是 LLM。站在 Arize AI 的位置,他几乎能看到所有大型企业在做什么——结果惊人地一致。大家用着不同的模型、不同的框架,但最后都会撞上同一堵墙:模型上线后,开始“不可解释地”变差。

他把行业里五花八门的讨论强行收敛成三件事:Observability(可观测性)、Evaluation(评估)、Experimentation(实验)。这不是学术分类,而是血淋淋的工程现实。LLM 天生是非确定性的系统,你永远不可能靠一次 prompt 或一次微调“调好就完事”。如果你不知道模型在生产环境里到底输出了什么、为什么这么输出、变化从哪一刻开始发生——那你根本不算在“做 AI 系统”。

为什么 LLM 的可观测性,远比你想的复杂

在传统软件里,可观测性意味着日志、指标、链路追踪。但 Dat 强调:LLM 的 observability 是“升级版地狱难度”。一次用户请求,背后可能是多个 agent、多次工具调用、多段 prompt 拼接。

他提到一个关键实践:用 OpenTelemetry 把每一次 LLM 调用、每一个 span 都记录下来,形成完整的 trace 和 audit record。这不是为了看 QPS,而是为了回答更尖锐的问题:是哪一段 prompt 导致输出跑偏?是模型版本变了,还是上下文状态变了?

更进一步,Dat 把“会话(session)”放到核心位置。真实世界里的 LLM 应用,大多不是单轮问答,而是来回对话。你要能从 session、run、trajectory 等不同视角,看清用户是在哪一步开始不满意的。这也是为什么他们强调分布视角(distributional view)——不是看一个 case,而是看整体流量里,失败是如何逐渐堆积的。

评估不是打分,而是在不确定世界里抓“信号”

当世界是非确定性的,评估就不可能只有一种答案。Dat 把 eval 称为“signal”,而且一口气列出了五种来源:LLM-as-a-Judge、人类标注、黄金数据集、确定性规则、业务指标。

这里有一个很容易被忽略的点:确定性评估其实非常值钱。比如基于规则的校验、明确的 business metric(是否赚钱、是否转化),它们不性感,但稳定、便宜、可复现。

在 Arize 的实践里,eval 还有“尺度”之分:你可以评估单个组件,也可以评估跨多个 span 的 trajectory,甚至在 session 级别判断“用户到底满不满意”。Dat 的提醒很克制:不是 eval 越多越好,而是要选“最小但足够”的一组评估,否则复杂度会反噬整个系统。

真正拉开差距的,是把观测和评估变成实验引擎

Dat 的 TL;DR 非常工程师:Observability + Evals 的终点,不是 dashboard,而是 experimentation。你把真实流量的数据收集起来,上传成数据集,然后系统性地测试 prompt 改动、模型切换、参数变化。

更有意思的是他对未来的判断:工具会不断“压缩”。最终你可能不需要点一堆按钮,甚至不需要手动选择 eval。系统会暴露底层 primitives,但在上层给出强烈的 opinionated workflow,甚至内置 AI 帮你决定下一步该怎么改。

这也是 Arize 推 Phoenix 和 AX 的长期目标:不是让你更忙,而是“自动化你出这个流程”,直到它真的像魔法一样自然。

总结

这场分享真正的价值,不在于具体工具,而在于一次思维校准:做 LLM 应用,本质是在做一个长期演化的系统,而不是一次性模型选择题。对从业者来说,最现实的行动建议是三步:先把调用链路完整地观测下来;再用最小但关键的 eval 抓住质量信号;最后,把这些信号变成可重复的实验流程。未来拉开差距的,不是你用了哪个模型,而是你改进系统的速度有多快。


关键词: LLM 可观测性, 模型评估, 实验平台, OpenTelemetry, Arize AI

事实核查备注: 需核查:Dat Ngo 的职务与 Arize AI 角色;视频中提到的产品名称 Phoenix 与 AX;OpenTelemetry 在分享中的具体使用语境;“五种评估信号”的原始表述是否完整一致