40 tok/s 跑在 iPhone 上:Gemma 4 让大模型第一次真正“贴身”

AI PM 编辑部 · 2026年04月20日 · 17 阅读 · AI/人工智能

正在加载视频...

视频章节

把 Gemma 4 直接跑在 iPhone 上,而且速度能到 40 tokens/s——这不是概念演示,而是已经能用的体验。Adrien Grondin 用 MLX 展示了边缘大模型的临界点:不靠云、不等网络,AI 开始真正住进你的手机。

40 tok/s 跑在 iPhone 上:Gemma 4 让大模型第一次真正“贴身”

把 Gemma 4 直接跑在 iPhone 上,而且速度能到 40 tokens/s——这不是概念演示,而是已经能用的体验。Adrien Grondin 用 MLX 展示了边缘大模型的临界点:不靠云、不等网络,AI 开始真正住进你的手机。

最反直觉的一幕:你的 iPhone,比你想象得更像一台 AI 服务器

视频一开始就抛出了一个让人警觉的事实:Gemma 4 这样的通用大语言模型,已经可以在 iPhone 上以接近“顺滑对话”的速度运行。40 tokens/s 意味着什么?意味着你几乎感觉不到它是在“本地算”,而不是在云端等返回。

更反直觉的是,这并不是某种高度阉割的 Demo。Adrien 展示的是一个完整的、本地运行的聊天体验——输入、生成、上下文管理,全在设备上完成。过去我们默认:手机端只能跑小模型,真正的 LLM 一定要上云。这个演示本身就在拆这个共识。

这也是为什么很多现场观众会意识到:边缘 AI 已经不是“未来趋势”,而是正在发生的现实。

MLX + Locally AI:本地大模型真正能落地的关键组合

真正让这件事成立的,是 MLX。Adrien 用了很短的时间解释它:这是一个为 Apple 芯片体系深度优化的机器学习框架,让模型可以更自然地吃到 iPhone 的算力红利。

Locally AI 则是另一个关键角色。它不是单纯跑模型的壳,而是一个“原生、本地优先”的聊天应用:模型在设备上,数据不出设备,同时还能支持不同模型切换,包括 Apple Foundation 模型。

这里有个容易被忽略的细节:整个集成过程,被描述为“真的不难”。对于开发者来说,这句话很重——意味着门槛开始下降。本地 LLM 不再是需要一堆 hack 和妥协的实验,而是一个可以被认真放进产品 Roadmap 的选项。

从 Q&A 到 tool calling:本地模型不再只是‘能聊’

在视频后半段的问答里,一个问题点中了要害:是否支持 tool calling?Adrien 的回答并不夸张,但信息量很大——现在已经“好多了”,而且在持续改进。

这句话的潜台词是:本地模型正在跨过一个重要门槛。从“离线聊天玩具”,走向“能执行任务的智能体”。一旦 tool calling 在本地稳定下来,意味着什么?意味着你的手机可以在没有网络的情况下,理解指令、调用工具、完成复杂流程。

这也解释了为什么现场的讨论氛围明显变了。大家意识到,本地 LLM 的价值不只是隐私和省钱,而是一种全新的产品形态:低延迟、强控制、永远在线。

总结

这次演示真正重要的不是 Gemma 4,也不只是 40 tokens/s,而是一个信号:移动端已经具备承载“像样大模型”的能力。对开发者来说,现在就值得动手试 MLX、试本地推理,哪怕只是一个小功能;对产品人来说,也该重新思考哪些能力不必再依赖云端。一个很现实的判断是:未来两年,最有差异化的 AI 体验,很可能不是更大的模型,而是更贴近设备、更贴近用户的模型。问题只剩一个——你准备好把 AI 真正放进用户口袋了吗?


关键词: 边缘AI, 本地大模型, MLX, Gemma 4, iPhone 推理

事实核查备注: 需要核查:1)Gemma 4 在 iPhone 上达到 40 tokens/s 的具体测试条件;2)MLX 的官方定位与支持范围;3)Locally AI 对 tool calling 的当前支持程度;4)视频作者 Adrien Grondin 的身份与项目背景;5)视频发布时间 2026-04-20 是否准确。