10B参数如何做出顶级Agent？Miniax M2的反直觉路径

AI PM 编辑部 · 2025年12月13日 · 30 阅读 · AI/人工智能

多模态文本转语音代码生成开源模型强化学习 Token 模型训练 AI Agent 视觉语言模型

正在加载视频...

视频章节

这场演讲并不是一次常规的模型发布，而是一份关于“如何把小模型做成好用Agent”的方法论说明。Olive Song从开发者体验出发，解释了Miniax M2为何以10B参数，却在真实编码与Agent任务中赢得社区认可。

10B参数如何做出顶级Agent？Miniax M2的反直觉路径

这场演讲并不是一次常规的模型发布，而是一份关于“如何把小模型做成好用Agent”的方法论说明。Olive Song从开发者体验出发，解释了Miniax M2为何以10B参数，却在真实编码与Agent任务中赢得社区认可。

从“模型指标”到“真实可用”：MiniMax走的不是常规路

这场分享一开始就带着一种轻微的反差感。Olive Song并没有急着展示参数规模或SOTA曲线，而是先抛出一个开发者都心有戚戚的问题：为什么有些“高分模型”，一接入真实环境就不好用？她在台上直言不讳地说：“numbers don't tell everything… sometimes you plug them into your environment and they suck.” 这句话几乎奠定了Miniax M2的设计立场。

Miniax是一家同时做基础模型和应用的公司，研究人员和一线开发者“坐在一起工作”。这种结构带来的直接结果，是模型目标并非追求抽象智能，而是明确指向“开发者每天真的在用什么”。Olive反复强调，M2不是通用大模型，而是一个“designed specifically for coding workplace agentic tasks”的开源模型。

因此，M2的一个核心背景故事是取舍：它只有100亿激活参数，是一个刻意保持“小而精”的open-weight模型。代价是无法在所有任务上炫技，回报则是成本、延迟和可控性，刚好命中Agent和自动化工作流的现实约束。这也是为什么，发布后第一周，它在社区下载量和OpenRouter的token使用量迅速爬升到前列——不是因为更强，而是因为更合适。

把“真实开发者”引入奖励模型，是一次关键转折

在代码体验这一节，Olive给出了M2训练中最有辨识度的做法：不仅扩展环境规模，还“scale expert developers”。在强化学习中，奖励模型决定了模型会被塑造成什么样的“性格”。而Miniax选择的，不只是自动指标或合成信号，而是由内部的资深开发者直接参与。

这些专家并不是事后评测，而是深度嵌入训练循环：他们定义问题（例如真实仓库中的bug修复、重构任务），判断哪些行为“开发者会信任”，并对最终交付结果给出精确反馈。Olive明确指出，这些开发者本身每天就在写代码、维护系统，因此非常清楚“什么是看起来聪明但不可用”。

这种做法带来的变化并不抽象。M2被训练成一个“full stack multilingual”的模型，能跨语言、跨工具工作，更重要的是，在真实代码库里不容易犯低级错误。正如Olive总结的那样，目标不是炫技，而是“a model that developers really want to work with”。这也是M2在真实使用中领先于许多纯benchmark导向模型的关键原因。

长程任务与Interleaved Thinking：Agent能不能跑到最后

如果说代码能力解决的是“单步是否靠谱”，那么Agent场景真正考验的是：模型能否在复杂环境中坚持到最后一步。Miniax M2的第二个核心特性，就是对长时序、多工具任务的稳定支持。

Olive将其归因于两点：强化学习，以及一种被称为“interleaved thinking”的思考模式。与传统“先想清楚再调用工具”的方式不同，interleaved thinking允许模型在推理、行动、再推理之间不断交错。这种结构在现实环境中更抗噪声，也更符合真实工作流。

在演示案例中，M2可以同时操作Gmail、Notion和终端，自动推进一整段流程，而不是在中途迷失状态。Olive特别提到，很多模型在这类环境下会逐步失稳，而M2“was able to perform pretty stably”。这并不是因为它更大，而是因为训练时就被反复暴露在类似的复杂动态中，并被奖励“把事情做完”。

小模型的隐藏优势：多Agent并行与成本结构

演讲的后半段，Olive点出了一个常被忽视的事实：在多Agent系统中，模型大小本身就是架构的一部分。M2之所以能支持multi-agent scalability，根本原因并不复杂——它足够小，也足够便宜。

在现场视频中，可以看到多个M2实例并行运行：有的负责调研，有的执行，有的验证结果。对于这类需要长期运行、存在并行分工的任务，使用超大模型往往在成本和延迟上都不可持续。M2的定位，恰好卡在“可规模化复制”的区间。

与此同时，Miniax还通过数据管线中的扰动（perturbations）来训练模型适应不同Agent scaffold。Olive给出的定义很直接：泛化能力，本质上是“适应整个操作空间中各种扰动的能力”。这让M2不依赖某一种固定框架，而能迁移到不同Agent系统中继续工作。

总结

Miniax M2这场分享真正有价值的地方，并不在于它又刷新了哪些榜单，而在于它清晰展示了一种不同的建模哲学：从开发者体验出发，用真实环境、真实反馈和可控规模，去塑造一个“能长期共事”的Agent模型。对读者而言，这不仅是一个10B模型的成功案例，更是一份关于如何在Agent时代重新权衡规模、成本与可用性的参考答案。

关键词： Miniax M2，开源模型，强化学习， AI Agent，代码生成

事实核查备注：演讲者：Olive Song；模型名称：Miniax M2；模型规模：100亿激活参数；模型类型：open-weight；核心应用：编码与工作场景Agent任务；技术方法：强化学习、interleaved thinking、专家开发者作为奖励模型；社区数据：发布首周下载量领先，OpenRouter token 使用量进入前三。

返回文章列表