为什么AI工程师迟早要补上GPU这一课
正在加载视频...
视频章节
Charles Frye 在这次演讲中给 AI 工程师泼了一盆冷水:只会调用模型 API 已经不够了。随着推理成本、延迟和规模问题暴露,理解 GPU 的设计哲学——带宽、并行性和张量计算——正成为构建下一代 AI 应用的基础能力。
为什么AI工程师迟早要补上GPU这一课
Charles Frye 在这次演讲中给 AI 工程师泼了一盆冷水:只会调用模型 API 已经不够了。随着推理成本、延迟和规模问题暴露,理解 GPU 的设计哲学——带宽、并行性和张量计算——正成为构建下一代 AI 应用的基础能力。
从“只用API”到“必须懂GPU”,拐点已经出现
这场演讲一开始,Charles Frye 就点出了一个让很多 AI 工程师不安的事实:过去几年,大量 AI 应用都是“搭在模型 API 之上”的。这种方式极大降低了门槛,但也埋下了隐患。一旦你试图在性能、成本或可控性上做优化,系统复杂度会“直接崩塌”。他半开玩笑地说,这是一个 meme,但也是现实。
为什么现在必须补 GPU 这门课?Frye 的判断是,大语言模型正在进入一个新阶段:工程师将“更有能力、也更有必要”去紧密集成和运行自己的模型,而不是完全依赖外部服务。这并不是每个人都要造芯片,而是你至少要理解模型运行时,GPU 在做什么、不擅长什么。
他把这个变化类比为一个行业拐点:当抽象层足够好时,人们可以忽略底层;但当规模、成本和延迟成为核心竞争力时,底层细节就会重新浮出水面。GPU 正是那个被重新拉回视野的底层。
GPU 的核心信仰:牺牲延迟,换取极致带宽
理解 GPU,首先要放下 CPU 的直觉。Frye 明确指出:“GPUs embrace high bandwidth, not low latency。”这句话几乎贯穿了整场演讲。CPU 的设计目标是尽快响应单个任务,而 GPU 的目标是让海量数据持续不断地流动。
他花了不少时间区分“延迟”和“带宽”。延迟是一次操作要等多久,带宽是单位时间能处理多少数据。GPU 选择了后者,并且在硬件层面用两种策略把带宽推到极限:一是宽内存接口,二是通过并行访问隐藏等待时间。这并不是新思路——Frye 提到,早在 2000 年代初,单核性能提升就“掉下了悬崖”,行业被迫转向并行和带宽扩展。
他还引用了 Patterson 定律:“Latency lags bandwidth.” 延迟的改善总是落后于带宽。这意味着,试图用降低延迟的方式榨干 GPU,往往方向就错了。
并行到极致:为什么GPU适合矩阵,而不是‘聪明的逻辑’
在比较 GPU 和 CPU 时,Frye 用了一个非常直观的例子。他拿 AMD 的 EPYC CPU 作对比,强调 GPU 能同时运行上万条线程——“可以做超过 16,000 个并行线程”。这不是为了炫技,而是为了说明设计取舍:GPU 不擅长复杂控制流,但极其擅长重复、规则的计算。
这也是为什么他会调侃一句:“Use the tensor cores, Luke.” 在 NVIDIA GPU 中,真正为 AI 打造的核心是张量核心(Tensor Cores),它们专门为浮点矩阵乘法而生。而几乎所有现代大语言模型的核心计算,本质上都可以归结为这种矩阵运算。
Frye 反复强调:如果你的工作负载不是在做大规模的浮点矩阵乘法,那 GPU 的优势就会被严重削弱。这也是许多工程师“明明用了 GPU,却跑不快”的根本原因。
推理阶段的真问题:解码、吞吐量与小模型优势
在谈到大语言模型推理时,Frye 给出了一个非常工程化的视角。他指出,推理并不是一个单一阶段:在 prompt 处理阶段,GPU 表现得非常好;但在 decoding(逐 token 生成)阶段,情况就复杂得多。
原因在于算术带宽与内存带宽的比例。解码阶段往往更受内存访问限制,而不是纯计算。这也解释了一个看似反直觉的现象:在某些场景下,小模型反而有“固有优势”,因为它们更容易被 GPU 的并行和缓存特性充分利用。
他还提到,通过吞吐量导向的设计,例如一次生成多个 token、多个样本(包括像 DeepSeek 这类多 token 预测思路),可以更好地匹配 GPU 的工作方式。这不是模型技巧,而是硬件友好的系统设计。
总结
这场演讲并不是在教工程师如何“调 CUDA”,而是在提醒一个更大的趋势:AI 工程正在回到底层现实。理解 GPU 的带宽哲学、并行模型和张量计算,并不只是为了性能优化,而是为了在模型选择、系统架构和成本决策上少走弯路。正如 Frye 所暗示的那样,未来能把 AI 系统做好的工程师,一定是既懂模型,也尊重硬件的人。
关键词: GPU, 大语言模型, 推理, NVIDIA, 并行计算
事实核查备注: 视频来源:What every AI engineer needs to know about GPUs — Charles Frye, Modal;提到的公司:NVIDIA、AMD;CPU 示例:AMD EPYC;概念:带宽 vs 延迟、Patterson 定律、Tensor Cores、并行线程(约16,000);推理阶段区分:prompt processing 与 decoding;产品名称:DeepSeek。