把上下文拉到500万Token,Together AI是怎么把H100榨干的

AI PM 编辑部 · 2026年06月08日 · 11 阅读 · AI/人工智能

正在加载视频...

视频章节

如果我告诉你:在8张H100上训练一个3B模型,光是把模型参数放进去就会直接OOM,你可能会觉得夸张。但Together AI的Max Ryabinin不仅验证了这一点,还一路把上下文长度推到了500万Token。这不是炫技,而是一场关于“内存从哪儿漏光”的硬核拆解。

把上下文拉到500万Token,Together AI是怎么把H100榨干的

如果我告诉你:在8张H100上训练一个3B模型,光是把模型参数放进去就会直接OOM,你可能会觉得夸张。但Together AI的Max Ryabinin不仅验证了这一点,还一路把上下文长度推到了500万Token。这不是炫技,而是一场关于“内存从哪儿漏光”的硬核拆解。

炸点在这里:真正卡住长上下文的,不是算力

过去一年,长上下文几乎成了所有大模型团队的执念。Agent要吃下完整任务历史,视频模型要记住成百上千帧——Token像洪水一样灌进Transformer。但Max一上来就泼了冷水:问题不在算力,而在内存。

用最朴素的Transformer训练方式,瓶颈有两个:注意力的二次计算复杂度,以及随序列长度线性暴涨的显存占用。很多人以为“多上几张卡就好了”,但现实是——你甚至连模型都放不进GPU。Max举的例子很残酷:Llama 3B,300万Token,上8张H100,第一步就直接爆显存。

这也是这场分享最反直觉的地方:在长上下文训练里,GPU并不是被算满的,而是被各种你没注意过的中间激活和缓冲区‘悄悄吃掉’的。

从FSDP到Ulysses:显存是怎么被一点点省出来的

Together AI的路径非常工程化,也非常诚实:没有银弹,只有一层层拆。

第一步是FSDP,把模型参数切碎分到8张卡上。这一步很基础,也确实有效——参数显存大幅下降。但问题马上暴露:attention activations 依然在疯狂吃内存。

接下来是关键转折点:上下文并行(Context Parallelism)。Max重点提到了DeepSpeed Ulysses。它不再让每张GPU对完整序列、完整head算一遍注意力,而是把不同head、不同时间片分摊到不同GPU上,通过通信在需要时拼回来。好处是,你还能继续用Flash Attention这种最优实现。

效果立竿见影:attention相关显存下降了接近8倍。但离‘能跑’还差一大截。这也是很多团队卡住的地方——Ulysses很强,但还不够。

真正的狠活:重算、CPU卸载,以及“Untitled Ulysses”

从这里开始,分享进入Together AI的“独家经验区”。

先是activation checkpointing:反向传播时再算一遍激活,显存再砍一刀,直接是8倍量级的下降。代价是算力时间,但在长上下文面前,这是划算的交易。

然后是一个很容易被忽略、但极其关键的技巧:把部分Transformer block的输入激活暂时丢到CPU。Max特别点名,这个思路最早由Unsloth实现。它的本质不是加速,而是给显存‘续命’,让上下文窗口继续往外推。

再配合对MLP、loss等逐元素计算的chunk化(Arctic sequence length training),Together AI终于在现实硬件上把上下文推到了300万Token。

但他们没停。为冲击500万Token,团队做了更激进的事:重新审视Ulysses本身。结论很出人意料——哪怕一次只算一部分head,GPU算力已经饱和了。那为什么还要一次性分配那么大的buffer?

于是就有了“Untitled Ulysses”:把head再切块,循环复用同一块小buffer。显存继续下降,而吞吐几乎不变。Max给出的实测结果显示,在8B和32B模型上,他们的内存效率已经贴近理论最优,同时上下文还能继续拉长到500万Token。

这不只是炫技,而是下一代应用的地基

在QA环节,Max被问到QKV是不是量化参数。他的回答很‘工程师’:不是量化,就是最普通的Q、K、V矩阵,但在百万级序列下,它们会生成你根本不敢分配的巨大张量。

这句话其实点出了整个项目的核心价值:长上下文不是换个位置编码就能解决的问题,而是一次对Transformer内存模型的系统性重构。

Agent、视频、多模态、持续学习——这些被反复讨论的方向,都会把上下文推向‘反常规’的长度。如果你现在不理解显存是怎么被attention、activation、buffer一点点吃光的,未来你只会更被动。

总结

Together AI这条“500万Token之路”给从业者的最大启发,不是某一个具体技巧,而是一种思维方式:不要迷信单点优化,真正的突破来自对整个训练流程的逐层解剖。对工程团队来说,PyTorch Profiler、activation checkpointing、上下文并行,已经不再是‘进阶技巧’,而是长上下文时代的基本功。一个值得思考的问题是:当上下文不再是瓶颈,模型能力的下一堵墙,会出现在哪里?


关键词: 长上下文, Transformer训练, Context Parallelism, H100 GPU, Together AI

事实核查备注: 需要核查的关键事实包括:1)Together AI提出并实现500万Token上下文训练的公开结果;2)DeepSpeed Ulysses作为上下文并行技术的描述;3)Unsloth最早实现CPU激活卸载的说法;4)实验所用GPU为8×H100;5)涉及模型规模(3B、8B、32B)的对应结论。