他们用一整天证明一件事:真正有用的研究 Agent,绝不是“多问几次模型”

AI PM 编辑部 · 2026年04月20日 · 13 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还以为 Deep Research Agent 只是把 Prompt 写长一点、模型串多一点,那这场 1 小时 50 分钟的工作坊会直接打脸。AI Engineer 团队现场拆解了他们如何从“几乎没价值的输出”,一步步构建出真正能产出可用研究结果的 Agent 系统,而且过程比你想象得更残酷、更工程化。

他们用一整天证明一件事:真正有用的研究 Agent,绝不是“多问几次模型”

如果你还以为 Deep Research Agent 只是把 Prompt 写长一点、模型串多一点,那这场 1 小时 50 分钟的工作坊会直接打脸。AI Engineer 团队现场拆解了他们如何从“几乎没价值的输出”,一步步构建出真正能产出可用研究结果的 Agent 系统,而且过程比你想象得更残酷、更工程化。

最反直觉的一点:大模型本身,几乎不等于“研究”

工作坊一上来就抛出一个让人不太舒服的判断:“直接问模型要研究结论,几乎没有任何价值。” 他们展示的早期结果非常诚实——模型会生成看起来很完整的段落,但逻辑松散、来源模糊、无法复用,更谈不上工程可控。

问题不在模型聪不聪明,而在于研究这件事,本质上是一个长链路、多决策、强约束的过程。如果你只是让模型一次性‘写完’,那得到的只是语言能力的幻觉,而不是研究能力。

这也是为什么他们反复强调:Deep Research Agent 不是一个 Prompt,而是一整套流程设计。你必须承认一个现实——模型默认不会帮你“认真思考”,除非你把思考拆解成它必须执行的步骤。

从“写得像样”到“真的有用”,中间差的是流程而不是模型

在随后的拆解中,团队不断回到一个核心问题:什么时候,一个 Agent 才‘值得存在’?

他们给出的判断标准非常工程化:
- 输出是否可验证
- 中间步骤是否可追踪
- 失败时能否定位问题
- 能否在相同任务上稳定复现

这也是他们选择把“研究”和“写作”强行拆开的原因。研究 Agent 只负责搜集、筛选、对齐信息,而写作只是后置消费这些结构化结果。

一个很有冲击力的细节是:他们宁愿让 Agent 在中途停下来、返回“不确定”,也不接受一段看似完整但无法溯源的文本。这和我们日常用模型的习惯完全相反,但却是让系统从‘演示级’走向‘生产级’的关键分水岭。

Agent 设计里最容易被忽略的坑:上下文会“吃掉”你的一切

当讨论进入 Agent 内部结构时,现场开始变得非常具体,也非常残酷。

他们指出一个几乎所有人都会踩的坑:上下文膨胀。研究任务天然会生成大量中间信息,而这些信息一旦无脑塞回上下文,不但成本暴涨,还会直接拉低模型判断质量。

解决方式并不是“用更大的模型”,而是引入显式的选择机制:什么信息值得保留,什么必须丢弃,什么只留下摘要。这已经不再是 Prompt 工程,而是系统设计。

也正是在这里,他们开始引入 Claude 作为执行节点之一,利用其在长上下文和工具调用上的稳定性,承担特定子任务,而不是“一把梭”。模型不再是主角,而是流水线上的工人。

为什么他们最后决定:必须自己“造轮子”

在 20 分钟之后,话题终于落到一个很多工程师心里都有的纠结点:现成框架够不够?

答案很直接:不够。

他们并没有否定现有 Agent 框架的价值,但明确指出一个问题——当你对研究流程有非常具体的控制需求时,抽象反而会成为阻碍。为了“能精确做我们想做的事”,他们选择自己搭建核心管线,而不是被框架的假设牵着走。

这也是一个重要信号:Deep Research Agent 并不是通用产品,而是高度任务定制的系统工程。如果你不知道自己要控制什么,那你也不可能靠换框架解决问题。

跑通一次还不够:他们真正关心的是“能不能重来”

在后半段的 demo 和 pipeline 演示中,有一个被反复提到但很少被写进文章的关键词:可重复性

他们关心的不是“这次跑出来了”,而是:
- 能不能从头再跑一遍
- 换一个模型会发生什么
- 某一步失败是否会污染后续结果

这也是他们坚持把每个阶段拆成明确节点、并允许人工介入的原因。一个不能被打断、不能被重跑的 Agent,本质上是个黑箱演示,而不是工程资产。

当他们展示如何重新跑完整 pipeline、并对比前后差异时,整个工作坊的气质已经非常清楚了——这不是教你炫技,而是在教你如何不被 Demo 欺骗。

总结

这场工作坊真正厉害的地方,不在于展示了多复杂的 Agent,而在于不断提醒你:如果你不把研究当成工程问题,那模型永远只会给你‘看起来很聪明’的废品。

对 AI 从业者来说,最大的 takeaway 是三个:第一,研究 Agent 的核心不是模型能力,而是流程约束;第二,可控性和可重复性比“一次成功”重要得多;第三,当你开始认真问“失败时怎么办”,你才真的在做系统。

如果你正在构建自己的 Research Agent,不妨反问自己一句:当它第一次胡说八道时,你是打算换模型,还是已经准备好了下一步?


关键词: Deep Research Agent, AI Agent 工程, Claude, 研究型工作流, LLM 系统设计

事实核查备注: 需核查:视频标题与作者信息;是否明确提及使用 Claude 作为模型节点;工作坊是否由 AI Engineer 频道发布;视频发布时间 2026-04-20 是否准确