把上下文拉到500万Token，Together AI是怎么把H100榨干的

AI PM 编辑部 · 2026年06月08日 · 11 阅读 · AI/人工智能

AI Agent 大语言模型微调 GPU 强化学习量化 Transformer 注意力机制推理上下文窗口

正在加载视频...

视频章节

如果我告诉你：在8张H100上训练一个3B模型，光是把模型参数放进去就会直接OOM，你可能会觉得夸张。但Together AI的Max Ryabinin不仅验证了这一点，还一路把上下文长度推到了500万Token。这不是炫技，而是一场关于“内存从哪儿漏光”的硬核拆解。

把上下文拉到500万Token，Together AI是怎么把H100榨干的

如果我告诉你：在8张H100上训练一个3B模型，光是把模型参数放进去就会直接OOM，你可能会觉得夸张。但Together AI的Max Ryabinin不仅验证了这一点，还一路把上下文长度推到了500万Token。这不是炫技，而是一场关于“内存从哪儿漏光”的硬核拆解。

炸点在这里：真正卡住长上下文的，不是算力

过去一年，长上下文几乎成了所有大模型团队的执念。Agent要吃下完整任务历史，视频模型要记住成百上千帧——Token像洪水一样灌进Transformer。但Max一上来就泼了冷水：问题不在算力，而在内存。

用最朴素的Transformer训练方式，瓶颈有两个：注意力的二次计算复杂度，以及随序列长度线性暴涨的显存占用。很多人以为“多上几张卡就好了”，但现实是——你甚至连模型都放不进GPU。Max举的例子很残酷：Llama 3B，300万Token，上8张H100，第一步就直接爆显存。

这也是这场分享最反直觉的地方：在长上下文训练里，GPU并不是被算满的，而是被各种你没注意过的中间激活和缓冲区‘悄悄吃掉’的。

从FSDP到Ulysses：显存是怎么被一点点省出来的

Together AI的路径非常工程化，也非常诚实：没有银弹，只有一层层拆。

第一步是FSDP，把模型参数切碎分到8张卡上。这一步很基础，也确实有效——参数显存大幅下降。但问题马上暴露：attention activations 依然在疯狂吃内存。

接下来是关键转折点：上下文并行（Context Parallelism）。Max重点提到了DeepSpeed Ulysses。它不再让每张GPU对完整序列、完整head算一遍注意力，而是把不同head、不同时间片分摊到不同GPU上，通过通信在需要时拼回来。好处是，你还能继续用Flash Attention这种最优实现。

效果立竿见影：attention相关显存下降了接近8倍。但离‘能跑’还差一大截。这也是很多团队卡住的地方——Ulysses很强，但还不够。

真正的狠活：重算、CPU卸载，以及“Untitled Ulysses”

从这里开始，分享进入Together AI的“独家经验区”。

先是activation checkpointing：反向传播时再算一遍激活，显存再砍一刀，直接是8倍量级的下降。代价是算力时间，但在长上下文面前，这是划算的交易。

然后是一个很容易被忽略、但极其关键的技巧：把部分Transformer block的输入激活暂时丢到CPU。Max特别点名，这个思路最早由Unsloth实现。它的本质不是加速，而是给显存‘续命’，让上下文窗口继续往外推。

再配合对MLP、loss等逐元素计算的chunk化（Arctic sequence length training），Together AI终于在现实硬件上把上下文推到了300万Token。

但他们没停。为冲击500万Token，团队做了更激进的事：重新审视Ulysses本身。结论很出人意料——哪怕一次只算一部分head，GPU算力已经饱和了。那为什么还要一次性分配那么大的buffer？

于是就有了“Untitled Ulysses”：把head再切块，循环复用同一块小buffer。显存继续下降，而吞吐几乎不变。Max给出的实测结果显示，在8B和32B模型上，他们的内存效率已经贴近理论最优，同时上下文还能继续拉长到500万Token。

这不只是炫技，而是下一代应用的地基

在QA环节，Max被问到QKV是不是量化参数。他的回答很‘工程师’：不是量化，就是最普通的Q、K、V矩阵，但在百万级序列下，它们会生成你根本不敢分配的巨大张量。

这句话其实点出了整个项目的核心价值：长上下文不是换个位置编码就能解决的问题，而是一次对Transformer内存模型的系统性重构。

Agent、视频、多模态、持续学习——这些被反复讨论的方向，都会把上下文推向‘反常规’的长度。如果你现在不理解显存是怎么被attention、activation、buffer一点点吃光的，未来你只会更被动。

总结

Together AI这条“500万Token之路”给从业者的最大启发，不是某一个具体技巧，而是一种思维方式：不要迷信单点优化，真正的突破来自对整个训练流程的逐层解剖。对工程团队来说，PyTorch Profiler、activation checkpointing、上下文并行，已经不再是‘进阶技巧’，而是长上下文时代的基本功。一个值得思考的问题是：当上下文不再是瓶颈，模型能力的下一堵墙，会出现在哪里？

关键词：长上下文， Transformer训练， Context Parallelism， H100 GPU， Together AI

事实核查备注：需要核查的关键事实包括：1）Together AI提出并实现500万Token上下文训练的公开结果；2）DeepSpeed Ulysses作为上下文并行技术的描述；3）Unsloth最早实现CPU激活卸载的说法；4）实验所用GPU为8×H100；5）涉及模型规模（3B、8B、32B）的对应结论。

返回文章列表