一场真正“动手”的Gemini工程课：从Notebook到智能体

AI PM 编辑部 · 2025年07月11日 · 21 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一场少见的、以工程实践为中心的Google Gemini工作坊。演讲者不讲宏大叙事，而是带着开发者一步步跑Notebook、问价格、调输出、连工具，展示了Gemini 2.0在真实工程场景中的使用方式与边界。

一场真正“动手”的Gemini工程课：从Notebook到智能体

这是一场少见的、以工程实践为中心的Google Gemini工作坊。演讲者不讲宏大叙事，而是带着开发者一步步跑Notebook、问价格、调输出、连工具，展示了Gemini 2.0在真实工程场景中的使用方式与边界。

为什么这不是一场普通的模型发布演讲

这场工作坊一开始就定下了基调：它不是发布会，也不是概念宣讲。Philipp Schmid开场就说，这是一个“super hands-on”的Workshop，并反复提醒大家“please keep all computer open”。这背后的信号很明确：Google希望开发者把Gemini当作一个工程组件，而不是一段需要被仰望的AI能力。

与常见AI演讲不同，这里几乎没有对未来的宏大畅想，更多是工程现场的真实摩擦：Slack频道用于随时提问，Notebook作为统一入口，问题可以随时打断流程。演讲者多次在被提问后说“Good question”，然后直接调整讲解节奏。这种不追求完美流程、而是围绕开发者即时反馈展开的方式，本身就传递了一个重要观点：AI工程的核心不是模型有多强，而是你能否快速把它用起来。

这种姿态也解释了为什么整场内容都围绕具体操作展开。Gemini 2.0不是被包装成“智能革命”，而是被放进了一个个Notebook单元格里，等待被调用、被质疑、被对比。

从默认设置讲起：模型不是魔法，而是参数组合

Workshop的第一部分，从很多人容易忽略的地方开始：默认配置。Philipp明确指出，第一个章节“will be all about the default”，这是一个很工程化的选择。因为在真实项目中，大多数问题并不是出在模型架构上，而是出在你是否理解并正确使用这些默认行为。

在这一段里，讨论的不只是如何调用Gemini 2.0，而是这些调用在什么情况下会失败、变慢或者变贵。现场有观众直接问到“Is there a different price for token？”，这并不是跑题，而是工程现实。模型能力和成本从来是绑定的，开发者必须在设计阶段就理解这一点。

这里的一个隐含洞见是：Google并没有试图掩盖复杂性。相反，演讲者选择正面回答这些问题，并在Notebook中继续演示。这种方式让Gemini看起来更像一个需要被精细调校的系统，而不是一个一键解决问题的黑盒。

结构化输出与函数调用：Gemini的工程化优势

真正拉开差距的，是第三部分关于“structured output and function calling”的内容。Philipp明确指出，这是Gemini非常重要的一块能力。这里的函数调用，并不是简单的API封装，而是模型在训练阶段就被设计成可以理解并调用“原生工具”。

他在讲解中提到，Gemini“is basically trained to do native things”，这句话虽然朴素，但信息量很大。它意味着模型并非事后适配工具，而是从一开始就被当作一个可以嵌入工程系统的组件。这也解释了为什么结构化输出如此重要：只有当输出稳定、可预期，模型才能真正参与到自动化流程中。

这一部分的演示，让人清楚看到Gemini与“只会聊天的模型”的区别。它更像一个可以被编排的执行单元，而不是一个只负责生成文本的接口。对于工程师来说，这种能力决定了模型能否进入生产环境。

从MCP到浏览器使用：AI开始“动手”

在最后一个章节，话题转向了Model Context Protocol（MCP）以及浏览器/计算机使用场景。Philipp提到，“everyone of you might have heard about model context protocol by now”，然后迅速进入实际讨论。这不是科普，而是默认你已经在关注这一领域。

这里的关键转折在于：AI不再只是被动响应输入，而是开始理解并操作外部环境。无论是浏览器使用还是计算机使用，这些用例都指向同一个方向——模型正在从“回答问题”走向“完成任务”。

虽然演示保持克制，没有夸张效果，但正是这种克制让人意识到变化的真实发生。AI工程的边界正在被重新定义，而Gemini显然被放在了这个新边界的前沿位置。

总结

这场Workshop最有价值的地方，不在于它展示了多少新功能，而在于它展示了Google如何看待AI工程：以Notebook为起点，以真实问题为驱动，以工具和协议为落点。Gemini 2.0在这里不是主角，而是被反复调用、质疑和验证的工程材料。对开发者而言，最大的启发或许是：当AI真正进入工程体系，问题不再是“它能不能”，而是“你准备好怎么用”。

关键词： Gemini 2.0， Google， AI工程，函数调用，结构化输出

事实核查备注：视频标题为《AI Engineering with the Google Gemini 2.5 Model Family》，但内容片段与标签中多次提及Gemini 2.0；演讲形式为Workshop，强调hands-on；明确出现的技术概念包括Notebook、structured output、function calling、Model Context Protocol、browser/computer use；引用原话包括“super hands-on”“Good question”“is basically trained to do native things”。

返回文章列表