为什么AI开发者体验不必糟糕:Modal从冷启动地狱走出的路

AI PM 编辑部 · 2025年02月22日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这场演讲并不是在推销又一个AI平台,而是一次来自一线创业者的反思:为什么AI开发者的体验长期“很糟糕”,以及Modal是如何在一次次踩坑中,围绕冷启动、调度和GPU使用,把体验重新做对的。

为什么AI开发者体验不必糟糕:Modal从冷启动地狱走出的路

这场演讲并不是在推销又一个AI平台,而是一次来自一线创业者的反思:为什么AI开发者的体验长期“很糟糕”,以及Modal是如何在一次次踩坑中,围绕冷启动、调度和GPU使用,把体验重新做对的。

从“并不是为AI而生”,到意外撞上生成式AI

理解Modal,必须先理解它并非一开始就为生成式AI设计。CEO Eric Bernhardson在开场就坦诚介绍了背景:Modal最初关注的是“高代码(high-code)使用场景”,目标是让开发者能用熟悉的代码方式,运行分布式计算任务,而不是去学一套全新的平台抽象。

真正的转折点来自生成式AI的爆发。他在演讲中回忆道:“as it turned out, gen was a perfect use case for this — we just didn't know it at that time。”生成式AI对计算资源弹性、启动速度、并发能力的极端要求,恰好把Modal原本在做的底层能力推到了台前。

这个故事之所以重要,是因为它解释了Modal的产品气质:它不是从模型或API出发,而是从“开发者如何写代码、如何调试、如何迭代”出发。这也决定了它后面在架构上的一系列艰难选择——尤其是对容器冷启动问题的执着。

与许多“为AI定制”的新平台不同,Modal更像是被现实推着前进的工程产物:先解决真实的分布式计算痛点,再发现这些能力正好击中了AI开发者最头疼的地方。

冷启动不是小问题,而是一个“深不见底的兔子洞”

在技术层面,Bernhardson反复强调一个点:容器冷启动(container cold start)在分布式系统中远比想象复杂。他用了一个很重的说法:“solving container cold start in a distributed system is a very very deep rabbit hole。”

这句话点出了很多平台不愿正面面对的问题。对于AI工作负载来说,模型推理和训练往往是短任务、高并发,但传统容器系统在启动、拉取镜像、分配资源时,会引入不可忽视的延迟。这种延迟直接转化为糟糕的开发体验:每一次测试都要等,每一次迭代都被打断。

Modal的选择不是“忍受它”,而是深入到底层。他明确提到:团队最终不得不“build our own scheduler”。调度器(scheduler)是分布式系统的核心组件,负责决定任务何时、在什么资源上运行。自己写调度器意味着极高的工程成本,但换来的,是对启动路径、资源复用和并发行为的完全控制。

这一节的价值在于,它解释了为什么“开发者体验”不是一个UI问题,而是一个系统架构问题。Modal的判断很清晰:如果底层不变,体验永远不可能好。

用现场写代码证明:快不是口号,而是可感知的差异

为了避免抽象空谈,Bernhardson在演讲中直接进入现场写代码。他直言:“it's a little bit abstract to talk about modal without going into code。”这段live coding的目的只有一个:展示真实的迭代速度。

在演示中,他从本地代码开始,几乎不改变开发习惯,就把任务运行到了云端GPU上。当他说出“let's actually run this on an H100”时,现场给出的不是配置说明,而是结果——代码真的跑在了H100上。这种体验对开发者来说非常直观:你关心的是模型和逻辑,而不是基础设施细节。

更重要的是扩展性演示。“let's try to scale things out a little bit”之后,任务被迅速横向扩展。这背后隐含的,是前面提到的调度和冷启动优化成果。如果启动慢、资源调度不可控,这种展示根本无法成立。

这一段并不是炫技,而是在用事实回答一个问题:一个AI平台到底能不能跟上你的思考速度?Modal给出的答案是用代码和运行结果,而不是PPT。

在演讲后半段,Bernhardson主动补充了一些“刚才没展示但很重要”的内容,开始解释Modal是如何在底层支撑这种体验的。他强调,所有这些设计,都是为了兑现一个承诺:AI developer experience doesn't have to suck。

为了这个目标,Modal在内部做了大量用户几乎感知不到的工程工作:自定义调度器、对启动路径的极致优化、对不同硬件资源的统一抽象。这些都不是营销上好讲的点,但却直接决定了开发者每天要不要“等”。

他还提到,这些能力并不是只为某一类客户或某一个模型服务,而是面向“any customer”。这暗示了Modal希望成为一种通用的AI计算基础,而不是某个细分场景的工具。

这一节的启发在于:真正好的开发者体验,往往来自那些最枯燥、最重的工程决策。Modal选择把难的事留给自己,把简单留给用户。

总结

这场演讲最有价值的地方,不在于Modal用了多新的技术,而在于它对问题本质的判断:AI开发者的痛苦,根源在系统层,而不是工具层。通过直面冷启动、调度和GPU资源这些“硬问题”,Modal证明了体验是可以被工程出来的。对所有做AI平台或基础设施的人来说,这都是一个清晰的提醒:别急着做包装,先把底层打通。


关键词: Modal, AI开发者体验, 容器冷启动, 调度器, H100 GPU

事实核查备注: 演讲者:Eric Bernhardson;公司:Modal;关键技术点:container cold start、distributed system、scheduler;演示硬件:NVIDIA H100;原话引用包括“very very deep rabbit hole”、“build our own scheduler”、“let's actually run this on an H100”、“the AI developer experience doesn't have to suck”。