一场真正“动手”的Gemini工程课:从Notebook到智能体

AI PM 编辑部 · 2025年07月11日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一场少见的、以工程实践为中心的Google Gemini工作坊。演讲者不讲宏大叙事,而是带着开发者一步步跑Notebook、问价格、调输出、连工具,展示了Gemini 2.0在真实工程场景中的使用方式与边界。

一场真正“动手”的Gemini工程课:从Notebook到智能体

这是一场少见的、以工程实践为中心的Google Gemini工作坊。演讲者不讲宏大叙事,而是带着开发者一步步跑Notebook、问价格、调输出、连工具,展示了Gemini 2.0在真实工程场景中的使用方式与边界。

为什么这不是一场普通的模型发布演讲

这场工作坊一开始就定下了基调:它不是发布会,也不是概念宣讲。Philipp Schmid开场就说,这是一个“super hands-on”的Workshop,并反复提醒大家“please keep all computer open”。这背后的信号很明确:Google希望开发者把Gemini当作一个工程组件,而不是一段需要被仰望的AI能力。

与常见AI演讲不同,这里几乎没有对未来的宏大畅想,更多是工程现场的真实摩擦:Slack频道用于随时提问,Notebook作为统一入口,问题可以随时打断流程。演讲者多次在被提问后说“Good question”,然后直接调整讲解节奏。这种不追求完美流程、而是围绕开发者即时反馈展开的方式,本身就传递了一个重要观点:AI工程的核心不是模型有多强,而是你能否快速把它用起来。

这种姿态也解释了为什么整场内容都围绕具体操作展开。Gemini 2.0不是被包装成“智能革命”,而是被放进了一个个Notebook单元格里,等待被调用、被质疑、被对比。

从默认设置讲起:模型不是魔法,而是参数组合

Workshop的第一部分,从很多人容易忽略的地方开始:默认配置。Philipp明确指出,第一个章节“will be all about the default”,这是一个很工程化的选择。因为在真实项目中,大多数问题并不是出在模型架构上,而是出在你是否理解并正确使用这些默认行为。

在这一段里,讨论的不只是如何调用Gemini 2.0,而是这些调用在什么情况下会失败、变慢或者变贵。现场有观众直接问到“Is there a different price for token?”,这并不是跑题,而是工程现实。模型能力和成本从来是绑定的,开发者必须在设计阶段就理解这一点。

这里的一个隐含洞见是:Google并没有试图掩盖复杂性。相反,演讲者选择正面回答这些问题,并在Notebook中继续演示。这种方式让Gemini看起来更像一个需要被精细调校的系统,而不是一个一键解决问题的黑盒。

结构化输出与函数调用:Gemini的工程化优势

真正拉开差距的,是第三部分关于“structured output and function calling”的内容。Philipp明确指出,这是Gemini非常重要的一块能力。这里的函数调用,并不是简单的API封装,而是模型在训练阶段就被设计成可以理解并调用“原生工具”。

他在讲解中提到,Gemini“is basically trained to do native things”,这句话虽然朴素,但信息量很大。它意味着模型并非事后适配工具,而是从一开始就被当作一个可以嵌入工程系统的组件。这也解释了为什么结构化输出如此重要:只有当输出稳定、可预期,模型才能真正参与到自动化流程中。

这一部分的演示,让人清楚看到Gemini与“只会聊天的模型”的区别。它更像一个可以被编排的执行单元,而不是一个只负责生成文本的接口。对于工程师来说,这种能力决定了模型能否进入生产环境。

从MCP到浏览器使用:AI开始“动手”

在最后一个章节,话题转向了Model Context Protocol(MCP)以及浏览器/计算机使用场景。Philipp提到,“everyone of you might have heard about model context protocol by now”,然后迅速进入实际讨论。这不是科普,而是默认你已经在关注这一领域。

这里的关键转折在于:AI不再只是被动响应输入,而是开始理解并操作外部环境。无论是浏览器使用还是计算机使用,这些用例都指向同一个方向——模型正在从“回答问题”走向“完成任务”。

虽然演示保持克制,没有夸张效果,但正是这种克制让人意识到变化的真实发生。AI工程的边界正在被重新定义,而Gemini显然被放在了这个新边界的前沿位置。

总结

这场Workshop最有价值的地方,不在于它展示了多少新功能,而在于它展示了Google如何看待AI工程:以Notebook为起点,以真实问题为驱动,以工具和协议为落点。Gemini 2.0在这里不是主角,而是被反复调用、质疑和验证的工程材料。对开发者而言,最大的启发或许是:当AI真正进入工程体系,问题不再是“它能不能”,而是“你准备好怎么用”。


关键词: Gemini 2.0, Google, AI工程, 函数调用, 结构化输出

事实核查备注: 视频标题为《AI Engineering with the Google Gemini 2.5 Model Family》,但内容片段与标签中多次提及Gemini 2.0;演讲形式为Workshop,强调hands-on;明确出现的技术概念包括Notebook、structured output、function calling、Model Context Protocol、browser/computer use;引用原话包括“super hands-on”“Good question”“is basically trained to do native things”。