做 LLM 的人都会踩的坑：Dat Ngo 说真正难的不是模型，而是这三件事

AI PM 编辑部 · 2026年06月07日 · 17 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还在为“该用哪个大模型”纠结，那你已经落后了。Arize AI 的 Dat Ngo 直言：当 LLM 进入生产环境，真正决定成败的不是模型能力，而是你有没有把可观测、评估和实验这三件事做对。这场分享，把行业最容易忽略、却最致命的问题摊在了桌面上。

做 LLM 的人都会踩的坑：Dat Ngo 说真正难的不是模型，而是这三件事

如果你还在为“该用哪个大模型”纠结，那你已经落后了。Arize AI 的 Dat Ngo 直言：当 LLM 进入生产环境，真正决定成败的不是模型能力，而是你有没有把可观测、评估和实验这三件事做对。这场分享，把行业最容易忽略、却最致命的问题摊在了桌面上。

最反直觉的真相：LLM 不神秘，难的是让它“稳定工作”

Dat Ngo 一上来就泼了盆冷水：AI 不是魔法，尤其是 LLM。站在 Arize AI 的位置，他几乎能看到所有大型企业在做什么——结果惊人地一致。大家用着不同的模型、不同的框架，但最后都会撞上同一堵墙：模型上线后，开始“不可解释地”变差。

他把行业里五花八门的讨论强行收敛成三件事：Observability（可观测性）、Evaluation（评估）、Experimentation（实验）。这不是学术分类，而是血淋淋的工程现实。LLM 天生是非确定性的系统，你永远不可能靠一次 prompt 或一次微调“调好就完事”。如果你不知道模型在生产环境里到底输出了什么、为什么这么输出、变化从哪一刻开始发生——那你根本不算在“做 AI 系统”。

为什么 LLM 的可观测性，远比你想的复杂

在传统软件里，可观测性意味着日志、指标、链路追踪。但 Dat 强调：LLM 的 observability 是“升级版地狱难度”。一次用户请求，背后可能是多个 agent、多次工具调用、多段 prompt 拼接。

他提到一个关键实践：用 OpenTelemetry 把每一次 LLM 调用、每一个 span 都记录下来，形成完整的 trace 和 audit record。这不是为了看 QPS，而是为了回答更尖锐的问题：是哪一段 prompt 导致输出跑偏？是模型版本变了，还是上下文状态变了？

更进一步，Dat 把“会话（session）”放到核心位置。真实世界里的 LLM 应用，大多不是单轮问答，而是来回对话。你要能从 session、run、trajectory 等不同视角，看清用户是在哪一步开始不满意的。这也是为什么他们强调分布视角（distributional view）——不是看一个 case，而是看整体流量里，失败是如何逐渐堆积的。

评估不是打分，而是在不确定世界里抓“信号”

当世界是非确定性的，评估就不可能只有一种答案。Dat 把 eval 称为“signal”，而且一口气列出了五种来源：LLM-as-a-Judge、人类标注、黄金数据集、确定性规则、业务指标。

这里有一个很容易被忽略的点：确定性评估其实非常值钱。比如基于规则的校验、明确的 business metric（是否赚钱、是否转化），它们不性感，但稳定、便宜、可复现。

在 Arize 的实践里，eval 还有“尺度”之分：你可以评估单个组件，也可以评估跨多个 span 的 trajectory，甚至在 session 级别判断“用户到底满不满意”。Dat 的提醒很克制：不是 eval 越多越好，而是要选“最小但足够”的一组评估，否则复杂度会反噬整个系统。

真正拉开差距的，是把观测和评估变成实验引擎

Dat 的 TL；DR 非常工程师：Observability + Evals 的终点，不是 dashboard，而是 experimentation。你把真实流量的数据收集起来，上传成数据集，然后系统性地测试 prompt 改动、模型切换、参数变化。

更有意思的是他对未来的判断：工具会不断“压缩”。最终你可能不需要点一堆按钮，甚至不需要手动选择 eval。系统会暴露底层 primitives，但在上层给出强烈的 opinionated workflow，甚至内置 AI 帮你决定下一步该怎么改。

这也是 Arize 推 Phoenix 和 AX 的长期目标：不是让你更忙，而是“自动化你出这个流程”，直到它真的像魔法一样自然。

总结

这场分享真正的价值，不在于具体工具，而在于一次思维校准：做 LLM 应用，本质是在做一个长期演化的系统，而不是一次性模型选择题。对从业者来说，最现实的行动建议是三步：先把调用链路完整地观测下来；再用最小但关键的 eval 抓住质量信号；最后，把这些信号变成可重复的实验流程。未来拉开差距的，不是你用了哪个模型，而是你改进系统的速度有多快。

关键词： LLM 可观测性，模型评估，实验平台， OpenTelemetry， Arize AI

事实核查备注：需核查：Dat Ngo 的职务与 Arize AI 角色；视频中提到的产品名称 Phoenix 与 AX；OpenTelemetry 在分享中的具体使用语境；“五种评估信号”的原始表述是否完整一致

返回文章列表