MCP正在制造可观测性黑洞,而答案可能是OpenTelemetry
正在加载视频...
视频章节
在这场由 Weights & Biases 与 Dylibso 带来的分享中,两位一线实践者揭示了 MCP 在生产环境中带来的“可观测性失明”问题,并用真实案例说明:只有走向 vendor-neutral、以 OpenTelemetry 为核心的标准化路径,AI Agent 和 MCP 生态才能真正进入企业级阶段。
MCP正在制造可观测性黑洞,而答案可能是OpenTelemetry
在这场由 Weights & Biases 与 Dylibso 带来的分享中,两位一线实践者揭示了 MCP 在生产环境中带来的“可观测性失明”问题,并用真实案例说明:只有走向 vendor-neutral、以 OpenTelemetry 为核心的标准化路径,AI Agent 和 MCP 生态才能真正进入企业级阶段。
从一次“观测失明”说起:为什么MCP让老问题变得更糟
为什么要在今天讨论 MCP 的可观测性?答案并不是“为了更优雅的监控面板”,而是一次真实发生在生产环境里的意外。Alex Volkov 是 Weights & Biases 的 AI Evangelist,也长期从事可观测性工具 Weave 的工作,但他在舞台上抛出了一个反差极大的问题:“自从我开始给 agent 加上 MCP 能力,可观测性就直接黑了。”
这并不是夸张。Benjamin Eckel 曾在 Datadog 工作,如今是 Dylibso 的联合创始人兼 CTO,他们的 MCP.Run 从一开始就在生产中运行 MCP 客户端和服务器。随着 MCP(Model Context Protocol)在 AI Agent 中快速普及,系统的调用路径变得更长、更分散,但开发者对端到端行为的理解却在下降。正如他们总结的那样:“The rise of MCP is creating an observability blind spot.”
问题的本质在于:MCP 让 Agent 可以自由调用工具和远程服务器,但这些调用往往跨越进程、语言甚至组织边界。每一层都可能是黑盒,一旦线上出问题,响应时间被拉长,定位成本直线上升。Benjamin 直言,在 MCP.Run 的实践中,他们不得不“临时拼凑”观测方案,而整个社区几乎是在各自为战。
没有可观测性,企业根本不会上船
这一问题并不仅仅困扰创业团队。第二个关键转折点来自企业现实。Alex 和 Benjamin 都在为企业级用户构建工具,而他们看到的共识非常清晰:没有成熟的可观测性,企业团队不会把 MCP 带进生产环境。
Benjamin 说得很直接:“Enterprise teams won't ship without it.” 企业已经在 Datadog、New Relic 等观测平台上投入了大量资金和流程,MCP 如果不能无缝融入这些体系,就注定只能停留在实验阶段。这意味着,问题不是“要不要做 MCP 可观测性”,而是“必须做,而且要用企业已经接受的方式做”。
在这个背景下,Weights & Biases 率先给出了一个工程化答案。Alex 展示了 Weave 对 MCP 的支持:只需要设置一个环境变量,Python MCP 客户端的工具调用、调用耗时就会自动出现在 Weave 的界面里。这个 demo 看起来几乎“太简单了”,甚至让人产生一种错觉:‘Observability solves, right? Let’s get off the stage.’
但真正的问题,恰恰在这个时候才被抛出来。
从“厂商集成”到“开放标准”:OpenTelemetry登场
Alex 的自问自答点出了核心矛盾:Weave 的支持很好,但这是不是一个 vendor lock-in 的方案?MCP 生态是否需要一种“厂商中立”的可观测性路径?两位演讲者给出的答案非常明确:必须对齐开放 MCP 的精神,走向标准化。
他们提出的基础判断是:MCP Agent 本质上是一个分布式系统。而在分布式系统领域,已经存在一个被广泛接受的事实标准——OpenTelemetry(简称 Otel)。Otel 的核心原语是 trace(追踪),由多个 span 组成,每一个 span 表示一次具体步骤,从 HTTP 请求到函数调用都可以被精确描述。
Benjamin 详细解释了为什么这套体系天然适合 MCP:所有 telemetry 数据被发送到一个集中式存储中,统一的 schema、统一的协议,使得不同语言、不同工具链的数据可以被同一套 UI、告警系统消费。正如他所说:“Observability tools support Otel. It’s becoming the global standard.”
真正的难点在于,MCP 规范本身并没有定义任何可观测性 hook。于是他们在 demo 中展示了一种“略显 hacky 但可行”的方法:通过 MCP 协议的 meta payload 传播 trace context,让服务器端继承客户端的 span,再通过 sync 把不同进程的 trace stitch 在一起。他们坦言,这是在“abusing low-level interfaces”,也正因如此,规范层面的改进才显得迫在眉睫。
一个“魔法时刻”:Agent开始观察并修复自己
整场分享最令人印象深刻的,是最后那个被称为“magic MCP moment”的演示。Benjamin 使用 Opus 4 构建了一个 MCP server,专门用于暴露 traces。结果出现了一个极具象征意义的场景:Agent 开始读取并分析自己的观测数据。
在 demo 中,Agent 通过 traces 发现了一次错误的输出,进一步定位到背后其实是一个支持机器人(support bot)的异常行为。随后,它根据这些信息调整了自己的逻辑并完成修复,全程没有任何人工键盘介入。台下的反应可以用 Alex 的一句话概括:“That’s awesome.”
这一刻的意义远不止一个炫酷 demo。它展示了一个可能的未来:可观测性不只是给人看的仪表盘,而是可以反过来成为 Agent 的输入信号。MCP + Otel 不只是解决 Debug 问题,而是在为“自我反思、自我修复”的 AI 系统打基础。
在结尾,团队宣布 MCP.Run 已经支持导出 Otel telemetry,并呼吁社区参与语义规范(semantic conventions)的制定。“Help define standards”,这不是一句口号,而是 MCP 能否走向规模化的关键分水岭。
总结
这场分享的价值,并不在于某个具体工具的发布,而在于一次清晰的路线选择:当 MCP 把 AI Agent 推向分布式系统的复杂度时,唯一可持续的答案是开放、标准和生态协作。从 Weave 的快速集成,到 OpenTelemetry 的 vendor-neutral 路径,再到 Agent 观察自身的“魔法时刻”,这是一条从现实痛点走向未来能力的完整链路。对开发者而言,现在参与标准的定义,可能比选择某个具体平台更重要。
关键词: MCP, 可观测性, OpenTelemetry, AI Agent, Weights & Biases
事实核查备注: 人物:Alex Volkov(Weights & Biases AI Evangelist),Benjamin Eckel(Dylibso 联合创始人 CTO);公司/产品:Weights & Biases、Weave、Dylibso、MCP.Run;技术名词:MCP(Model Context Protocol)、OpenTelemetry、trace、span;演示要点:通过 meta payload 传播 trace context,客户端与服务器 trace stitch;视频发布时间:2025-06-20