从零搭建多模态AI Agent:一场关于“何时该用智能体”的现实主义演讲

AI PM 编辑部 · 2025年06月27日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

MongoDB 的 Apoorva Joshi 用一场近 90 分钟的演讲,系统拆解了如何从零构建多模态 AI Agent,更重要的是,她反复强调一个被忽视的问题:什么时候真的需要 Agent,什么时候反而不该用。

从零搭建多模态AI Agent:一场关于“何时该用智能体”的现实主义演讲

MongoDB 的 Apoorva Joshi 用一场近 90 分钟的演讲,系统拆解了如何从零构建多模态 AI Agent,更重要的是,她反复强调一个被忽视的问题:什么时候真的需要 Agent,什么时候反而不该用。

为什么这场演讲从“不要急着用 Agent”开始

在一开场,Apoorva Joshi 并没有急着展示炫酷的多模态 Demo,而是花了相当多时间澄清一个现实问题:过去两年里,行业里出现了三种构建 AI 应用的主要范式,但 Agent 并不是默认答案。她直言不讳地说过一句让人印象深刻的话:“Let’s just throw an agent at the problem —— 对简单问题来说,这通常是最糟的选择。”

她将任务明确分层:简单、确定性的任务,用单次模型调用或流程化调用就足够;中等复杂度的任务,可以用链式调用;只有当任务本身具备开放目标、多步决策、需要与环境反复交互时,Agent 才真正有价值。这种克制态度在当下“万物皆 Agent”的氛围中显得格外清醒,也为后续的技术展开定下了基调。

这一部分的重要性在于,它为工程实践划清了边界。Apoorva 强调,Agent 的成本不仅是算力,更是系统复杂度、调试难度和不可预测性。如果不先想清楚问题本身,再强大的模型也会被用错地方。

AI Agent 的核心组件:不是模型,而是协作机制

在系统拆解 Agent 时,Apoorva 并没有把“模型”放在中心位置。她将一个完整的 AI Agent 拆分为多个关键组件:决策逻辑、工具(Tools)、记忆(Memory)以及与外部世界的交互方式。模型只是其中之一,而且往往不是最复杂的部分。

她特别强调了 Tools 的作用:Agent 并不是靠“想”完成任务,而是靠调用工具来行动。这些工具可能是数据库查询、API 调用,甚至是对现实世界状态的读取。她提到,Agent 的价值来自“知道什么时候该停止思考,转而去做”。这也是为什么工具设计直接决定了 Agent 的上限。

在这一段中,她用一句总结性的原话概括了自己的观点:“Use agents for complex tasks, not for everything.” 这不是反对 Agent,而是要求开发者对复杂性保持敬畏。

多模态 Agent 的真实用法:从一张截图开始

真正让演讲进入“实战”的,是多模态 Agent 的构建示例。Apoorva 选择了一个非常具体、也非常现实的场景:用户只提供一张文档截图,Agent 需要理解其中的内容并给出答案。她强调,在多模态模型出现之前,这类任务往往需要复杂的 OCR、解析和规则处理。

而在新的多模态模型体系下,流程被极大简化:“All you really need is a screenshot of documents.” 模型直接处理图像输入,Agent 负责组织步骤、调用工具、管理上下文。这个例子并不炫技,却清晰展示了多模态 Agent 的真正优势:减少人为 glue code,让系统更接近人类的工作方式。

她也坦率地提醒,这并不意味着系统变简单了。相反,错误处理、结果验证和用户反馈机制变得更加重要,否则 Agent 只是在更快地犯错。

记忆管理:Agent 是否“聪明”的分水岭

在接近尾声时,Apoorva 专门用一节讨论 Agent 的记忆管理机制。她指出,很多看似“聪明”的 Agent,其实只是上下文堆得足够长,但这并不等于真正的记忆。

她区分了短期上下文、长期记忆以及结构化存储的不同角色,并强调需要明确哪些信息值得被保留,哪些应该被丢弃。否则,Agent 会在历史信息中迷失,甚至给出自相矛盾的回答。这里她结合自己在 MongoDB 的工作背景,解释了为什么结构化数据存储在 Agent 架构中依然不可或缺。

这一部分的隐含信息是:Agent 工程已经不再只是模型调用问题,而是完整系统设计问题。谁忽视这一点,谁就会在规模化时付出代价。

总结

这场演讲最有价值的地方,并不在于某个具体框架或 Demo,而在于 Apoorva Joshi 反复传达的一种工程理性:Agent 很强,但并非万能;多模态很诱人,但系统设计更重要。对开发者而言,真正的启发是学会在兴奋之前先问一句:这个问题,真的需要一个 Agent 吗?


关键词: AI Agent, 多模态, 工具调用, 记忆管理, 系统设计

事实核查备注: 演讲者:Apoorva Joshi;视频标题:Building Multimodal AI Agents From Scratch;发布时间:2025-06-27;核心概念:AI Agent、多模态、Tools、Memory;引用原话包括“Let’s just throw an agent at the problem”“Use agents for complex tasks”“All you really need is a screenshot of documents”;提及 MongoDB 仅作为演讲者工作背景。