40 tok/s 跑在 iPhone 上：Gemma 4 让大模型第一次真正“贴身”

AI PM 编辑部 · 2026年04月20日 · 17 阅读 · AI/人工智能

边缘AI 大语言模型模型部署对话AI

正在加载视频...

视频章节

把 Gemma 4 直接跑在 iPhone 上，而且速度能到 40 tokens/s——这不是概念演示，而是已经能用的体验。Adrien Grondin 用 MLX 展示了边缘大模型的临界点：不靠云、不等网络，AI 开始真正住进你的手机。

40 tok/s 跑在 iPhone 上：Gemma 4 让大模型第一次真正“贴身”

把 Gemma 4 直接跑在 iPhone 上，而且速度能到 40 tokens/s——这不是概念演示，而是已经能用的体验。Adrien Grondin 用 MLX 展示了边缘大模型的临界点：不靠云、不等网络，AI 开始真正住进你的手机。

最反直觉的一幕：你的 iPhone，比你想象得更像一台 AI 服务器

视频一开始就抛出了一个让人警觉的事实：Gemma 4 这样的通用大语言模型，已经可以在 iPhone 上以接近“顺滑对话”的速度运行。40 tokens/s 意味着什么？意味着你几乎感觉不到它是在“本地算”，而不是在云端等返回。

更反直觉的是，这并不是某种高度阉割的 Demo。Adrien 展示的是一个完整的、本地运行的聊天体验——输入、生成、上下文管理，全在设备上完成。过去我们默认：手机端只能跑小模型，真正的 LLM 一定要上云。这个演示本身就在拆这个共识。

这也是为什么很多现场观众会意识到：边缘 AI 已经不是“未来趋势”，而是正在发生的现实。

MLX + Locally AI：本地大模型真正能落地的关键组合

真正让这件事成立的，是 MLX。Adrien 用了很短的时间解释它：这是一个为 Apple 芯片体系深度优化的机器学习框架，让模型可以更自然地吃到 iPhone 的算力红利。

Locally AI 则是另一个关键角色。它不是单纯跑模型的壳，而是一个“原生、本地优先”的聊天应用：模型在设备上，数据不出设备，同时还能支持不同模型切换，包括 Apple Foundation 模型。

这里有个容易被忽略的细节：整个集成过程，被描述为“真的不难”。对于开发者来说，这句话很重——意味着门槛开始下降。本地 LLM 不再是需要一堆 hack 和妥协的实验，而是一个可以被认真放进产品 Roadmap 的选项。

从 Q&A 到 tool calling：本地模型不再只是‘能聊’

在视频后半段的问答里，一个问题点中了要害：是否支持 tool calling？Adrien 的回答并不夸张，但信息量很大——现在已经“好多了”，而且在持续改进。

这句话的潜台词是：本地模型正在跨过一个重要门槛。从“离线聊天玩具”，走向“能执行任务的智能体”。一旦 tool calling 在本地稳定下来，意味着什么？意味着你的手机可以在没有网络的情况下，理解指令、调用工具、完成复杂流程。

这也解释了为什么现场的讨论氛围明显变了。大家意识到，本地 LLM 的价值不只是隐私和省钱，而是一种全新的产品形态：低延迟、强控制、永远在线。

总结

这次演示真正重要的不是 Gemma 4，也不只是 40 tokens/s，而是一个信号：移动端已经具备承载“像样大模型”的能力。对开发者来说，现在就值得动手试 MLX、试本地推理，哪怕只是一个小功能；对产品人来说，也该重新思考哪些能力不必再依赖云端。一个很现实的判断是：未来两年，最有差异化的 AI 体验，很可能不是更大的模型，而是更贴近设备、更贴近用户的模型。问题只剩一个——你准备好把 AI 真正放进用户口袋了吗？

关键词：边缘AI，本地大模型， MLX， Gemma 4， iPhone 推理

事实核查备注：需要核查：1）Gemma 4 在 iPhone 上达到 40 tokens/s 的具体测试条件；2）MLX 的官方定位与支持范围；3）Locally AI 对 tool calling 的当前支持程度；4）视频作者 Adrien Grondin 的身份与项目背景；5）视频发布时间 2026-04-20 是否准确。

返回文章列表