Google DeepMind详解:Deep Research如何把聊天机器人变成研究助理

AI PM 编辑部 · 2025年03月26日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

这场来自Google DeepMind的分享,首次系统揭示了Gemini Deep Research背后的产品动机、UX权衡与技术挑战。它不只是“更慢但更长的回答”,而是一次试图让AI真正完成研究工作的实验。

Google DeepMind详解:Deep Research如何把聊天机器人变成研究助理

这场来自Google DeepMind的分享,首次系统揭示了Gemini Deep Research背后的产品动机、UX权衡与技术挑战。它不只是“更慢但更长的回答”,而是一次试图让AI真正完成研究工作的实验。

为什么要做Deep Research:从“回答蓝图”到“真正答案”

这一切的起点,其实源自一个很具体、甚至有点失望的体验。Mukund Sridhar和Aarush Selvan提到,研究型问题已经是Gemini里最常见的使用场景之一,但当用户抛出“真正困难”的问题时,聊天机器人往往只给出一个行动清单,而不是答案本身。

他们举了一个反复使用的内部例子:"我需要什么条件才能拿到铅球项目的体育奖学金?" 现有AI通常会说:去联系教练、保持好成绩、查清楚要求。但用户真正想知道的是明确的数字——GPA底线是多少?铅球要扔多远?

正是在这里,团队看到了机会。他们的目标不是让模型“更聪明地聊天”,而是让它“像研究员一样工作”。Aarush用一句很直白的话概括了产品哲学:“让Gemini花它想花的时间,浏览它需要的网页,换取一个真正全面的答案。”

但理想立刻遇到了现实:算力是有限的。“你可以这么做,但得在5分钟内完成,因为再久我们就没有芯片了。”这句带着自嘲的原话,也奠定了Deep Research的基本约束条件。

在同步聊天里,塞进一个异步研究流程

从产品角度看,Deep Research首先挑战的不是模型能力,而是Gemini本身的交互范式。Gemini是一个典型的同步聊天产品,用户提问、模型立刻回答。但研究,天然是一个异步过程。

团队遇到的第一个难题是:如何在聊天界面中,让用户愿意等待5分钟?第二个问题是预期管理——显然,查询天气或写个笑话,并不值得启动Deep Research。Aarush明确指出,这个功能“只适合一种非常特定的问题类型”。

第三个挑战来自输出本身。Deep Research生成的结果往往是“成千上万字的报告”,而不是几段回复。如果仍然用普通对话气泡承载,用户几乎无法阅读。

他们的解决方案,是把“过程”本身展示出来:当用户点击开始,Gemini会先生成一份研究计划,然后实时展示它在做什么——在搜哪些主题、读哪些网页、如何逐步扩展问题范围。这样,等待不再是黑盒,而是一种可理解、可被信任的过程。

一次VC调研的演示:研究计划、执行与长报告

在现场演示中,团队选择了一个典型高价值场景:假设你是一名VC,正在评估是否要投资美国的核能产业。这个问题本身就高度复杂,涉及政策、技术、公司、时间线。

Gemini Deep Research的第一步不是搜索,而是“先想清楚怎么查”。它会生成一份研究计划,拆分出关键子问题。只有在用户确认后,系统才真正开始执行。

执行过程中,系统会持续展示“幕后进度”,让用户看到它如何浏览网页、筛选信息。最终生成的,是一份可以达到“几千字”的结构化研究报告。

一个被反复强调的重点,是信任与出版方关系。报告中包含清晰的引用来源,用户在导出时可以看到完整的出处。正如演讲中所说,这不仅是用户信任的问题,也是“对内容发布者负责”。

模型在5分钟里做了什么:检索、实体消歧与权衡

在技术层面,Mukund详细拆解了模型在这几分钟内的工作方式。这并不是一次简单的“多轮搜索”,而是涉及多个经典但棘手的问题。

其中一个是实体消歧(entity resolution):当网页中反复出现相似公司名、项目名时,模型必须判断它们是否指向同一对象。另一个挑战,是信息排序的偏差问题,比如“过度偏向最新内容”的recency bias。

团队明确表示,这些选择都存在权衡,没有完美解法。他们展示的方案,是在覆盖面、准确性和时效性之间做取舍,同时保持系统在时间和算力预算内完成任务。

正如Mukund所说,几乎所有做过Web相关工作的工程师,都会在这里遇到熟悉的难题,只不过这一次,决策者是一个AI研究代理。

总结

Deep Research并不是一次单纯的模型升级,而是一种产品态度的转变:承认有些问题就该慢慢回答。它试图把“研究”从人类独有的技能,变成AI可以部分承担的工作流。对用户来说,这意味着更少的搜索标签页;对行业来说,这可能预示着AI Agent真正走向复杂知识工作的第一步。


关键词: Deep Research, Gemini, AI Agent, Google DeepMind, 研究型AI

事实核查备注: 演讲者:Mukund Sridhar(软件工程师)、Aarush Selvan(产品经理);产品:Gemini 1.5 Pro with Deep Research;等待时间目标:约5分钟;使用场景:Gemini Advanced付费版本;核心技术点:异步研究流程、实体消歧、信息排序与recency bias、引用与来源标注。