Gemini这一年:一次“转折点”背后的模型、组织与未来

AI PM 编辑部 · 2025年07月10日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一次来自Google DeepMind一线的内部复盘。Logan Kilpatrick用不到12分钟,讲清了Gemini过去一年真正的转折点:为什么2.5 Pro意义重大,DeepMind为何从“纯研究”转向“研究+交付”,以及他们眼中多模态、Agent和“无限上下文”的下一站。

Gemini这一年:一次“转折点”背后的模型、组织与未来

这是一次来自Google DeepMind一线的内部复盘。Logan Kilpatrick用不到12分钟,讲清了Gemini过去一年真正的转折点:为什么2.5 Pro意义重大,DeepMind为何从“纯研究”转向“研究+交付”,以及他们眼中多模态、Agent和“无限上下文”的下一站。

一个关键转折点:Gemini 2.5 Pro为什么重要

为什么要从一个“新模型发布”讲起?因为在Logan看来,Gemini 2.5 Pro并不是一次普通的版本更新,而是开发者认知层面的转折点。他在台上直言:“2.5 Pro对我们内部来说,是在为Gemini的未来定调;而在开发者生态中,它是一个真正的转折点。”

这次发布被他称为“可能是2.5 Pro的最终更新”,背后是过去一年密集的开发者反馈。团队针对前代模型在关键能力上的短板进行了系统性补强,在多个开发者关注的基准测试上实现提升,包括ADer、HLE等。他强调,这不是为了“刷榜”,而是补齐“大家明确指出的问题”。

一个细节很有意思:这次模型在演讲当天还没“正式官宣”,只是“推文即将发布”。这种略带即兴感的发布方式,反而体现出DeepMind如今的节奏——模型能力、开发者反馈和上线速度被紧密绑在一起。Logan反复邀请开发者“如果有问题就直接反馈”,并承诺会“继续把石头往山上推”。这不是公关话术,更像是一种持续迭代的工作方式宣言。

12个月像10年:Gemini主线模型是如何炼成的

这一节的核心不是某个功能,而是规模与速度。Logan引用了Sundar Pichai在Google I/O上的一张幻灯片,用一句话形容过去一年:“感觉像是10年的进展,被压缩进了12个月。”

Gemini并不是一个孤立项目,而是DeepMind内部多条研究路线的“汇流点”。他提到,像AlphaProof、AlphaGeometry这样的研究成果,正在被持续“upstream”到主线Gemini模型中,直接提升推理和数学相关能力。这是DeepMind的独特优势:研究不是停留在论文里,而是不断被产品化。

更直观的信号来自使用规模。Logan透露,Gemini相关的AI推理需求在一年内增长了50倍。这不是一个模糊的“增长很快”,而是明确的数量级变化。对他来说,这种采用速度本身就是验证——证明模型能力、产品形态和开发者需求正在形成正反馈。

从研究院到产品工厂:DeepMind的组织转向

很多人低估了组织结构对模型能力的影响。Logan花了整整一段时间,专门解释“我们是如何走到今天的”。他的答案并不是算法突破,而是组织调整。

DeepMind正在发生一个根本变化:不再只是研究机构,而是同时承担“交付”的责任。他明确说:“DeepMind现在既做模型,也做产品。”Gemini App、Gemini API,以及开发者平台,都被直接拉进DeepMind的核心工作流。

这种变化带来的结果,是研究团队和产品团队以前所未有的紧密度协作。新模型不再是“研究完成后再找地方落地”,而是从一开始就围绕真实使用场景设计。Logan用一句很朴素的话总结他们的公式:“把最好的人聚在一起,利用基础设施优势,然后持续交付。”在TPU被“烧到极限”的玩笑背后,是一种把规模优势真正转化为产品速度的策略。

下一站:一个“默认具备Agent能力”的多模态模型

如果说前半场在讲过去,那么“what’s next”才是这次演讲信息密度最高的部分。Logan从Gemini App的愿景讲起:一个“通用助手”,最终统一Google的各类产品体验。他甚至抛出一个耐人寻味的问题:未来的核心是Google账号,还是Gemini线程?

在模型层面,方向同样清晰:走向单一的、原生多模态模型。语音、视频、文本不再是外挂能力,而是“生来如此”。他提到原生音频能力、Astro、Gemini Live,以及正在进行的视频和扩散模型实验。

更重要的是“Agentic by default”——模型默认具备代理能力,而不是额外配置。随着推理能力持续扩展、上下文窗口不断放大(他甚至提到“无限上下文”的长期目标),Gemini正在从“回答问题的模型”,演进为“系统性完成任务的模型”。这是一次范式转移,而不是简单的功能叠加。

给开发者的信号:平台、Embedding与Agent工具

演讲的最后,Logan把话题拉回开发者。他提到,Tulsi正在主导核心模型工作,而他的重心是“developer stuff”。这包括新的Gemini Embeddings模型、Deep Research API,以及V3和Imagine 4 API的持续推进。

AI Studio的定位也在变得更清晰:不是炫技工具,而是开发者体验的核心入口。他反复强调一个目标——“更好的开发者体验”,尤其是在Agent和编码工具方向。

这些信息单看并不炸裂,但合在一起释放了一个明确信号:Gemini不只是一个模型品牌,而是一整套围绕多模态、推理和Agent构建的平台。对开发者而言,真正的变化不是某个API上线,而是底层能力正在被系统性地打包、稳定输出。

总结

Logan的分享不像一次发布会,更像一次内部复盘。真正的关键信息不在参数或榜单,而在三个转变:模型能力的主线化、组织从研究走向交付,以及对Agent和多模态的长期下注。对开发者来说,这意味着Gemini正在成为一个“可预期进化”的平台;而对行业而言,这是一次把研究优势持续转化为产品速度的真实尝试。


关键词: Gemini, Google DeepMind, 多模态模型, AI Agent, 推理扩展

事实核查备注: 演讲者:Logan Kilpatrick(Google DeepMind);提及人物:Sundar Pichai;模型版本:Gemini 2.5 Pro;数据点:AI推理需求一年增长50倍;技术名词:AlphaProof、AlphaGeometry、TPU、Gemini App、Gemini API、Gemini Embeddings、Deep Research API、AI Studio;核心观点原话:2.5 Pro是“turning point”、“feels like 10 years packed into 12 months”、“DeepMind builds models and products”、“agentic by default”。