从46%到90%:谷歌工程师用“微调小模型”颠覆端侧Agent认知
当所有人都在堆参数、追大模型时,Google 的工程师却给出了一组反直觉的数据:把一个“微型模型”微调好,端侧 Agent 的成功率可以从 46% 飙到 90%。这场分享不讲玄学,讲的是为什么“小”反而更聪明,以及你该如何把它用到真实产品里。
当所有人都在堆参数、追大模型时,Google 的工程师却给出了一组反直觉的数据:把一个“微型模型”微调好,端侧 Agent 的成功率可以从 46% 飙到 90%。这场分享不讲玄学,讲的是为什么“小”反而更聪明,以及你该如何把它用到真实产品里。
如果你还把 Codex 当成“更聪明的补全工具”,那你已经落后了。这期 AI Daily Brief 丢出了 Codex 团队亲自验证的 9 条使用心法,同时无意中揭开了 Cursor 在 AI 编程竞赛中的真实野心——不是追参数,而是重塑开发者的工作系统。
如果你还在把 AI 当成“写代码的工具”,Stripe 在 2026 Sessions 的 Keynote 会让你彻底坐不住:他们公开把 AI Agent 定义为“互联网里的自主经济体”,而整个支付、风控、收入系统,正在为这些“非人类客户”重写。
今年的 Google I/O,看起来像一场产品发布会,实际上却更像一次商业宣言:更强的视频模型、更快的 Gemini 3.5 Flash、更像“活物”的个人 AI Agent,但真正的猛料只有一个——Google 终于要把 AI 变成一台可持续印钞的机器。
如果一个提示,就能调动“50名科学家”为你工作一天,会发生什么?DeepMind最新展示的 Co-Scientist,不是帮你写论文,而是直接生成可验证的新科学假设,把原本需要数月甚至数年的探索,压缩到几天之内。
很多团队以为“主权AI”就是把API换成自托管模型,但真正动手后才发现:最先失控的不是效果,而是架构、流程和工程心智。来自 deepset 的一线经验,讲清楚主权约束下,AI系统到底会在哪些地方坏掉。
很多团队都在“做 AI Agent”,但 Ara Khan 在这场分享里毫不客气地指出:大多数人只是在生产 Slop。真正有价值的 Agent,不是换个框架就升级,而是要跨越四个成熟度层级,其中第三层甚至逼近强化学习系统的设计方式。
陪审团只用了90分钟就否决了马斯克,顶级对冲基金的13F却让市场看不清方向;一边是AI需求爆炸,另一边是芯片、能源和水资源的硬约束。这期TBPN把AI时代的光与影一次性摊开。
如果你只把 Google I/O 当成一次产品发布会,那你可能低估了这周的意义。这期《AI Daily Brief》抛出一个尖锐判断:AI 竞赛的分水岭,已经从“模型能力”转向“谁真正占领工作流”。而 Google,正站在一个不进则退的临界点。
一个创作者坦言:他现在95%的内容与营销工作,都不是自己做的,而是交给了AI Agent。更反直觉的是,这不是靠一个“更聪明的模型”,而是靠一套精心设计的“技能层”。这条视频,第一次把AI营销团队的真实搭建方式摊开讲清楚了。