用“搜索”重写深度学习编译器：Luminal的反直觉选择

AI PM 编辑部 · 2025年06月03日 · 17 阅读 · AI/人工智能

正在加载视频...

视频章节

Joe Fioti在这场演讲中提出了一个反直觉但极具启发性的观点：深度学习并不复杂，复杂的是我们构建它的方式。Luminal选择从搜索出发重新设计深度学习编译器，试图用极致的简化换取更大的系统空间。

用“搜索”重写深度学习编译器：Luminal的反直觉选择

Joe Fioti在这场演讲中提出了一个反直觉但极具启发性的观点：深度学习并不复杂，复杂的是我们构建它的方式。Luminal选择从搜索出发重新设计深度学习编译器，试图用极致的简化换取更大的系统空间。

为什么说深度学习“本质上很简单”？

这场演讲最抓人的地方，并不是某个炫目的性能数字，而是Joe Fioti一开始就抛出的判断：“So deep learning fundamentally is very simple.” 他强调，深度学习在数学和结构层面并不神秘，本质上就是一组可以完全描述的计算图。真正让人痛苦的，是围绕它构建的工具链——框架、编译器、运行时——越来越难理解、难扩展。

这个判断之所以重要，是因为它直接挑战了行业共识。过去几年，深度学习系统似乎天然就该复杂：动态图、自动微分、混合精度、分布式调度层层叠加。但Joe的视角是“top down”的：先从模型整体出发，再看这些复杂性是否真的必要。他提到，无论是Transformer还是其他主流模型，本质上都可以被完全指定，并不依赖运行时的动态行为。

这也是Luminal诞生的思想起点。如果模型本身是静态可描述的，那为什么不承认这一点，并围绕它重新设计编译器？

从“图”到“搜索”：把编译问题当成搜索问题

在解释Luminal的核心方法时，Joe多次强调一个关键词：search（搜索）。“We take our graphs… it is fundamentally a search problem.” 这句话几乎概括了整个系统的哲学。

传统深度学习编译器通常依赖一系列手写规则和启发式优化：算子融合、内存复用、调度变换。但Luminal选择了一条更直接、也更“笨”的路——在可能的实现空间中搜索更优解。给定一个计算图，系统并不急着生成代码，而是枚举、评估不同的执行方式。

这种做法的代价是显而易见的：搜索意味着时间成本，意味着“默认很慢”。Joe在演讲中坦率地承认：“Luminal is slow by default.” 但这不是缺陷，而是设计选择。因为一旦搜索完成，系统就能生成高度专用、贴近硬件的代码，其最终执行效率可以显著超过更通用的实现。

简化带来的真实收益：更贴近CUDA，更少魔法

Luminal的另一个核心主张，是通过简化系统层级来获得透明度。Joe特别提到，Luminal的抽象层非常薄，“CUDA right beneath”。这意味着开发者更容易理解最终代码是如何映射到GPU上的，而不是被隐藏在多层中间表示之后。

这点在生成代码的展示中尤为关键。Joe指出，“this is the generated output code”，强调这些内核并不是手工调优的艺术品，而是搜索过程的结果。一旦找到了足够快的kernel，后续推理就可以反复复用，节省大量时间。

这里的故事并不在于某次惊艳的benchmark，而在于取舍：Luminal放弃了“一开始就快”，换来了“结构上更简单、结果上更可控”的系统。这种选择在当下高度工程化的AI基础设施中，显得格外少见。

从一开始就为推理而生，而不是万能框架

在演讲后段，Joe明确了Luminal的定位：“Luminal was from day one always an inference library.” 这句话点出了一个关键背景：它并不是试图覆盖训练、推理、分布式的一体化平台。

专注推理意味着可以做出更激进的假设。模型是已知的、固定的，批大小和输入形状也更可控。在这样的前提下，搜索式编译才真正可行。Joe也提到，训练场景下的动态性和复杂调度，并不是Luminal当前的目标。

这个选择背后，是一种克制。与其做一个“什么都支持一点”的系统，不如把一个问题做到极致。对很多部署场景来说，推理性能和可预测性，远比灵活性更重要。

总结

Joe Fioti关于Luminal的分享，本质上是在提醒我们重新审视习以为常的复杂性。通过承认深度学习模型的静态本质，把编译器问题还原为搜索问题，Luminal选择了一条不那么流行、但逻辑自洽的道路。它未必适合所有场景，却为“如何构建下一代深度学习系统”提供了一个清晰而勇敢的答案。

关键词： Luminal，深度学习编译器，搜索式优化，推理系统，机器学习基础设施

事实核查备注：演讲者：Joe Fioti；项目名称：Luminal；核心概念：search-based deep learning compiler、计算图、CUDA、推理（inference）；关键原话包括“deep learning fundamentally is very simple”“it is fundamentally a search problem”“Luminal is slow by default”“from day one always an inference library”。

返回文章列表