为什么AI工程师迟早要补上GPU这一课

AI PM 编辑部 · 2026年01月09日 · 21 阅读 · AI/人工智能

推理 Token 大语言模型 AI应用 GPU AI芯片 DeepSeek NVIDIA AMD

正在加载视频...

视频章节

Charles Frye 在这次演讲中给 AI 工程师泼了一盆冷水：只会调用模型 API 已经不够了。随着推理成本、延迟和规模问题暴露，理解 GPU 的设计哲学——带宽、并行性和张量计算——正成为构建下一代 AI 应用的基础能力。

为什么AI工程师迟早要补上GPU这一课

Charles Frye 在这次演讲中给 AI 工程师泼了一盆冷水：只会调用模型 API 已经不够了。随着推理成本、延迟和规模问题暴露，理解 GPU 的设计哲学——带宽、并行性和张量计算——正成为构建下一代 AI 应用的基础能力。

从“只用API”到“必须懂GPU”，拐点已经出现

这场演讲一开始，Charles Frye 就点出了一个让很多 AI 工程师不安的事实：过去几年，大量 AI 应用都是“搭在模型 API 之上”的。这种方式极大降低了门槛，但也埋下了隐患。一旦你试图在性能、成本或可控性上做优化，系统复杂度会“直接崩塌”。他半开玩笑地说，这是一个 meme，但也是现实。

为什么现在必须补 GPU 这门课？Frye 的判断是，大语言模型正在进入一个新阶段：工程师将“更有能力、也更有必要”去紧密集成和运行自己的模型，而不是完全依赖外部服务。这并不是每个人都要造芯片，而是你至少要理解模型运行时，GPU 在做什么、不擅长什么。

他把这个变化类比为一个行业拐点：当抽象层足够好时，人们可以忽略底层；但当规模、成本和延迟成为核心竞争力时，底层细节就会重新浮出水面。GPU 正是那个被重新拉回视野的底层。

GPU 的核心信仰：牺牲延迟，换取极致带宽

理解 GPU，首先要放下 CPU 的直觉。Frye 明确指出：“GPUs embrace high bandwidth， not low latency。”这句话几乎贯穿了整场演讲。CPU 的设计目标是尽快响应单个任务，而 GPU 的目标是让海量数据持续不断地流动。

他花了不少时间区分“延迟”和“带宽”。延迟是一次操作要等多久，带宽是单位时间能处理多少数据。GPU 选择了后者，并且在硬件层面用两种策略把带宽推到极限：一是宽内存接口，二是通过并行访问隐藏等待时间。这并不是新思路——Frye 提到，早在 2000 年代初，单核性能提升就“掉下了悬崖”，行业被迫转向并行和带宽扩展。

他还引用了 Patterson 定律：“Latency lags bandwidth.” 延迟的改善总是落后于带宽。这意味着，试图用降低延迟的方式榨干 GPU，往往方向就错了。

并行到极致：为什么GPU适合矩阵，而不是‘聪明的逻辑’

在比较 GPU 和 CPU 时，Frye 用了一个非常直观的例子。他拿 AMD 的 EPYC CPU 作对比，强调 GPU 能同时运行上万条线程——“可以做超过 16，000 个并行线程”。这不是为了炫技，而是为了说明设计取舍：GPU 不擅长复杂控制流，但极其擅长重复、规则的计算。

这也是为什么他会调侃一句：“Use the tensor cores， Luke.” 在 NVIDIA GPU 中，真正为 AI 打造的核心是张量核心（Tensor Cores），它们专门为浮点矩阵乘法而生。而几乎所有现代大语言模型的核心计算，本质上都可以归结为这种矩阵运算。

Frye 反复强调：如果你的工作负载不是在做大规模的浮点矩阵乘法，那 GPU 的优势就会被严重削弱。这也是许多工程师“明明用了 GPU，却跑不快”的根本原因。

推理阶段的真问题：解码、吞吐量与小模型优势

在谈到大语言模型推理时，Frye 给出了一个非常工程化的视角。他指出，推理并不是一个单一阶段：在 prompt 处理阶段，GPU 表现得非常好；但在 decoding（逐 token 生成）阶段，情况就复杂得多。

原因在于算术带宽与内存带宽的比例。解码阶段往往更受内存访问限制，而不是纯计算。这也解释了一个看似反直觉的现象：在某些场景下，小模型反而有“固有优势”，因为它们更容易被 GPU 的并行和缓存特性充分利用。

他还提到，通过吞吐量导向的设计，例如一次生成多个 token、多个样本（包括像 DeepSeek 这类多 token 预测思路），可以更好地匹配 GPU 的工作方式。这不是模型技巧，而是硬件友好的系统设计。

总结

这场演讲并不是在教工程师如何“调 CUDA”，而是在提醒一个更大的趋势：AI 工程正在回到底层现实。理解 GPU 的带宽哲学、并行模型和张量计算，并不只是为了性能优化，而是为了在模型选择、系统架构和成本决策上少走弯路。正如 Frye 所暗示的那样，未来能把 AI 系统做好的工程师，一定是既懂模型，也尊重硬件的人。

关键词： GPU，大语言模型，推理， NVIDIA，并行计算

事实核查备注：视频来源：What every AI engineer needs to know about GPUs — Charles Frye， Modal；提到的公司：NVIDIA、AMD；CPU 示例：AMD EPYC；概念：带宽 vs 延迟、Patterson 定律、Tensor Cores、并行线程（约16，000）；推理阶段区分：prompt processing 与 decoding；产品名称：DeepSeek。

返回文章列表