他们用一整天证明一件事：真正有用的研究 Agent，绝不是“多问几次模型”

AI PM 编辑部 · 2026年04月20日 · 13 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还以为 Deep Research Agent 只是把 Prompt 写长一点、模型串多一点，那这场 1 小时 50 分钟的工作坊会直接打脸。AI Engineer 团队现场拆解了他们如何从“几乎没价值的输出”，一步步构建出真正能产出可用研究结果的 Agent 系统，而且过程比你想象得更残酷、更工程化。

他们用一整天证明一件事：真正有用的研究 Agent，绝不是“多问几次模型”

如果你还以为 Deep Research Agent 只是把 Prompt 写长一点、模型串多一点，那这场 1 小时 50 分钟的工作坊会直接打脸。AI Engineer 团队现场拆解了他们如何从“几乎没价值的输出”，一步步构建出真正能产出可用研究结果的 Agent 系统，而且过程比你想象得更残酷、更工程化。

最反直觉的一点：大模型本身，几乎不等于“研究”

工作坊一上来就抛出一个让人不太舒服的判断：“直接问模型要研究结论，几乎没有任何价值。” 他们展示的早期结果非常诚实——模型会生成看起来很完整的段落，但逻辑松散、来源模糊、无法复用，更谈不上工程可控。

问题不在模型聪不聪明，而在于研究这件事，本质上是一个长链路、多决策、强约束的过程。如果你只是让模型一次性‘写完’，那得到的只是语言能力的幻觉，而不是研究能力。

这也是为什么他们反复强调：Deep Research Agent 不是一个 Prompt，而是一整套流程设计。你必须承认一个现实——模型默认不会帮你“认真思考”，除非你把思考拆解成它必须执行的步骤。

从“写得像样”到“真的有用”，中间差的是流程而不是模型

在随后的拆解中，团队不断回到一个核心问题：什么时候，一个 Agent 才‘值得存在’？

他们给出的判断标准非常工程化：
- 输出是否可验证
- 中间步骤是否可追踪
- 失败时能否定位问题
- 能否在相同任务上稳定复现

这也是他们选择把“研究”和“写作”强行拆开的原因。研究 Agent 只负责搜集、筛选、对齐信息，而写作只是后置消费这些结构化结果。

一个很有冲击力的细节是：他们宁愿让 Agent 在中途停下来、返回“不确定”，也不接受一段看似完整但无法溯源的文本。这和我们日常用模型的习惯完全相反，但却是让系统从‘演示级’走向‘生产级’的关键分水岭。

Agent 设计里最容易被忽略的坑：上下文会“吃掉”你的一切

当讨论进入 Agent 内部结构时，现场开始变得非常具体，也非常残酷。

他们指出一个几乎所有人都会踩的坑：上下文膨胀。研究任务天然会生成大量中间信息，而这些信息一旦无脑塞回上下文，不但成本暴涨，还会直接拉低模型判断质量。

解决方式并不是“用更大的模型”，而是引入显式的选择机制：什么信息值得保留，什么必须丢弃，什么只留下摘要。这已经不再是 Prompt 工程，而是系统设计。

也正是在这里，他们开始引入 Claude 作为执行节点之一，利用其在长上下文和工具调用上的稳定性，承担特定子任务，而不是“一把梭”。模型不再是主角，而是流水线上的工人。

为什么他们最后决定：必须自己“造轮子”

在 20 分钟之后，话题终于落到一个很多工程师心里都有的纠结点：现成框架够不够？

答案很直接：不够。

他们并没有否定现有 Agent 框架的价值，但明确指出一个问题——当你对研究流程有非常具体的控制需求时，抽象反而会成为阻碍。为了“能精确做我们想做的事”，他们选择自己搭建核心管线，而不是被框架的假设牵着走。

这也是一个重要信号：Deep Research Agent 并不是通用产品，而是高度任务定制的系统工程。如果你不知道自己要控制什么，那你也不可能靠换框架解决问题。

跑通一次还不够：他们真正关心的是“能不能重来”

在后半段的 demo 和 pipeline 演示中，有一个被反复提到但很少被写进文章的关键词：可重复性。

他们关心的不是“这次跑出来了”，而是：
- 能不能从头再跑一遍
- 换一个模型会发生什么
- 某一步失败是否会污染后续结果

这也是他们坚持把每个阶段拆成明确节点、并允许人工介入的原因。一个不能被打断、不能被重跑的 Agent，本质上是个黑箱演示，而不是工程资产。

当他们展示如何重新跑完整 pipeline、并对比前后差异时，整个工作坊的气质已经非常清楚了——这不是教你炫技，而是在教你如何不被 Demo 欺骗。

总结

这场工作坊真正厉害的地方，不在于展示了多复杂的 Agent，而在于不断提醒你：如果你不把研究当成工程问题，那模型永远只会给你‘看起来很聪明’的废品。

对 AI 从业者来说，最大的 takeaway 是三个：第一，研究 Agent 的核心不是模型能力，而是流程约束；第二，可控性和可重复性比“一次成功”重要得多；第三，当你开始认真问“失败时怎么办”，你才真的在做系统。

如果你正在构建自己的 Research Agent，不妨反问自己一句：当它第一次胡说八道时，你是打算换模型，还是已经准备好了下一步？

关键词： Deep Research Agent， AI Agent 工程， Claude，研究型工作流， LLM 系统设计

事实核查备注：需核查：视频标题与作者信息；是否明确提及使用 Claude 作为模型节点；工作坊是否由 AI Engineer 频道发布；视频发布时间 2026-04-20 是否准确

返回文章列表