为什么AI开发者体验不必糟糕：Modal从冷启动地狱走出的路

AI PM 编辑部 · 2025年02月22日 · 10 阅读 · AI/人工智能

正在加载视频...

视频章节

这场演讲并不是在推销又一个AI平台，而是一次来自一线创业者的反思：为什么AI开发者的体验长期“很糟糕”，以及Modal是如何在一次次踩坑中，围绕冷启动、调度和GPU使用，把体验重新做对的。

为什么AI开发者体验不必糟糕：Modal从冷启动地狱走出的路

这场演讲并不是在推销又一个AI平台，而是一次来自一线创业者的反思：为什么AI开发者的体验长期“很糟糕”，以及Modal是如何在一次次踩坑中，围绕冷启动、调度和GPU使用，把体验重新做对的。

从“并不是为AI而生”，到意外撞上生成式AI

理解Modal，必须先理解它并非一开始就为生成式AI设计。CEO Eric Bernhardson在开场就坦诚介绍了背景：Modal最初关注的是“高代码（high-code）使用场景”，目标是让开发者能用熟悉的代码方式，运行分布式计算任务，而不是去学一套全新的平台抽象。

真正的转折点来自生成式AI的爆发。他在演讲中回忆道：“as it turned out， gen was a perfect use case for this — we just didn't know it at that time。”生成式AI对计算资源弹性、启动速度、并发能力的极端要求，恰好把Modal原本在做的底层能力推到了台前。

这个故事之所以重要，是因为它解释了Modal的产品气质：它不是从模型或API出发，而是从“开发者如何写代码、如何调试、如何迭代”出发。这也决定了它后面在架构上的一系列艰难选择——尤其是对容器冷启动问题的执着。

与许多“为AI定制”的新平台不同，Modal更像是被现实推着前进的工程产物：先解决真实的分布式计算痛点，再发现这些能力正好击中了AI开发者最头疼的地方。

冷启动不是小问题，而是一个“深不见底的兔子洞”

在技术层面，Bernhardson反复强调一个点：容器冷启动（container cold start）在分布式系统中远比想象复杂。他用了一个很重的说法：“solving container cold start in a distributed system is a very very deep rabbit hole。”

这句话点出了很多平台不愿正面面对的问题。对于AI工作负载来说，模型推理和训练往往是短任务、高并发，但传统容器系统在启动、拉取镜像、分配资源时，会引入不可忽视的延迟。这种延迟直接转化为糟糕的开发体验：每一次测试都要等，每一次迭代都被打断。

Modal的选择不是“忍受它”，而是深入到底层。他明确提到：团队最终不得不“build our own scheduler”。调度器（scheduler）是分布式系统的核心组件，负责决定任务何时、在什么资源上运行。自己写调度器意味着极高的工程成本，但换来的，是对启动路径、资源复用和并发行为的完全控制。

这一节的价值在于，它解释了为什么“开发者体验”不是一个UI问题，而是一个系统架构问题。Modal的判断很清晰：如果底层不变，体验永远不可能好。

用现场写代码证明：快不是口号，而是可感知的差异

为了避免抽象空谈，Bernhardson在演讲中直接进入现场写代码。他直言：“it's a little bit abstract to talk about modal without going into code。”这段live coding的目的只有一个：展示真实的迭代速度。

在演示中，他从本地代码开始，几乎不改变开发习惯，就把任务运行到了云端GPU上。当他说出“let's actually run this on an H100”时，现场给出的不是配置说明，而是结果——代码真的跑在了H100上。这种体验对开发者来说非常直观：你关心的是模型和逻辑，而不是基础设施细节。

更重要的是扩展性演示。“let's try to scale things out a little bit”之后，任务被迅速横向扩展。这背后隐含的，是前面提到的调度和冷启动优化成果。如果启动慢、资源调度不可控，这种展示根本无法成立。

这一段并不是炫技，而是在用事实回答一个问题：一个AI平台到底能不能跟上你的思考速度？Modal给出的答案是用代码和运行结果，而不是PPT。

在演讲后半段，Bernhardson主动补充了一些“刚才没展示但很重要”的内容，开始解释Modal是如何在底层支撑这种体验的。他强调，所有这些设计，都是为了兑现一个承诺：AI developer experience doesn't have to suck。

为了这个目标，Modal在内部做了大量用户几乎感知不到的工程工作：自定义调度器、对启动路径的极致优化、对不同硬件资源的统一抽象。这些都不是营销上好讲的点，但却直接决定了开发者每天要不要“等”。

他还提到，这些能力并不是只为某一类客户或某一个模型服务，而是面向“any customer”。这暗示了Modal希望成为一种通用的AI计算基础，而不是某个细分场景的工具。

这一节的启发在于：真正好的开发者体验，往往来自那些最枯燥、最重的工程决策。Modal选择把难的事留给自己，把简单留给用户。

总结

这场演讲最有价值的地方，不在于Modal用了多新的技术，而在于它对问题本质的判断：AI开发者的痛苦，根源在系统层，而不是工具层。通过直面冷启动、调度和GPU资源这些“硬问题”，Modal证明了体验是可以被工程出来的。对所有做AI平台或基础设施的人来说，这都是一个清晰的提醒：别急着做包装，先把底层打通。

关键词： Modal， AI开发者体验，容器冷启动，调度器， H100 GPU

事实核查备注：演讲者：Eric Bernhardson；公司：Modal；关键技术点：container cold start、distributed system、scheduler；演示硬件：NVIDIA H100；原话引用包括“very very deep rabbit hole”、“build our own scheduler”、“let's actually run this on an H100”、“the AI developer experience doesn't have to suck”。

返回文章列表

为什么AI开发者体验不必糟糕：Modal从冷启动地狱走出的路

视频章节

为什么AI开发者体验不必糟糕：Modal从冷启动地狱走出的路

从“并不是为AI而生”，到意外撞上生成式AI

冷启动不是小问题，而是一个“深不见底的兔子洞”

用现场写代码证明：快不是口号，而是可感知的差异

为了开发者体验，Modal在底层做了哪些“不性感”的事

总结