10B参数如何做出顶级Agent?Miniax M2的反直觉路径
正在加载视频...
视频章节
这场演讲并不是一次常规的模型发布,而是一份关于“如何把小模型做成好用Agent”的方法论说明。Olive Song从开发者体验出发,解释了Miniax M2为何以10B参数,却在真实编码与Agent任务中赢得社区认可。
10B参数如何做出顶级Agent?Miniax M2的反直觉路径
这场演讲并不是一次常规的模型发布,而是一份关于“如何把小模型做成好用Agent”的方法论说明。Olive Song从开发者体验出发,解释了Miniax M2为何以10B参数,却在真实编码与Agent任务中赢得社区认可。
从“模型指标”到“真实可用”:MiniMax走的不是常规路
这场分享一开始就带着一种轻微的反差感。Olive Song并没有急着展示参数规模或SOTA曲线,而是先抛出一个开发者都心有戚戚的问题:为什么有些“高分模型”,一接入真实环境就不好用?她在台上直言不讳地说:“numbers don't tell everything… sometimes you plug them into your environment and they suck.” 这句话几乎奠定了Miniax M2的设计立场。
Miniax是一家同时做基础模型和应用的公司,研究人员和一线开发者“坐在一起工作”。这种结构带来的直接结果,是模型目标并非追求抽象智能,而是明确指向“开发者每天真的在用什么”。Olive反复强调,M2不是通用大模型,而是一个“designed specifically for coding workplace agentic tasks”的开源模型。
因此,M2的一个核心背景故事是取舍:它只有100亿激活参数,是一个刻意保持“小而精”的open-weight模型。代价是无法在所有任务上炫技,回报则是成本、延迟和可控性,刚好命中Agent和自动化工作流的现实约束。这也是为什么,发布后第一周,它在社区下载量和OpenRouter的token使用量迅速爬升到前列——不是因为更强,而是因为更合适。
把“真实开发者”引入奖励模型,是一次关键转折
在代码体验这一节,Olive给出了M2训练中最有辨识度的做法:不仅扩展环境规模,还“scale expert developers”。在强化学习中,奖励模型决定了模型会被塑造成什么样的“性格”。而Miniax选择的,不只是自动指标或合成信号,而是由内部的资深开发者直接参与。
这些专家并不是事后评测,而是深度嵌入训练循环:他们定义问题(例如真实仓库中的bug修复、重构任务),判断哪些行为“开发者会信任”,并对最终交付结果给出精确反馈。Olive明确指出,这些开发者本身每天就在写代码、维护系统,因此非常清楚“什么是看起来聪明但不可用”。
这种做法带来的变化并不抽象。M2被训练成一个“full stack multilingual”的模型,能跨语言、跨工具工作,更重要的是,在真实代码库里不容易犯低级错误。正如Olive总结的那样,目标不是炫技,而是“a model that developers really want to work with”。这也是M2在真实使用中领先于许多纯benchmark导向模型的关键原因。
长程任务与Interleaved Thinking:Agent能不能跑到最后
如果说代码能力解决的是“单步是否靠谱”,那么Agent场景真正考验的是:模型能否在复杂环境中坚持到最后一步。Miniax M2的第二个核心特性,就是对长时序、多工具任务的稳定支持。
Olive将其归因于两点:强化学习,以及一种被称为“interleaved thinking”的思考模式。与传统“先想清楚再调用工具”的方式不同,interleaved thinking允许模型在推理、行动、再推理之间不断交错。这种结构在现实环境中更抗噪声,也更符合真实工作流。
在演示案例中,M2可以同时操作Gmail、Notion和终端,自动推进一整段流程,而不是在中途迷失状态。Olive特别提到,很多模型在这类环境下会逐步失稳,而M2“was able to perform pretty stably”。这并不是因为它更大,而是因为训练时就被反复暴露在类似的复杂动态中,并被奖励“把事情做完”。
小模型的隐藏优势:多Agent并行与成本结构
演讲的后半段,Olive点出了一个常被忽视的事实:在多Agent系统中,模型大小本身就是架构的一部分。M2之所以能支持multi-agent scalability,根本原因并不复杂——它足够小,也足够便宜。
在现场视频中,可以看到多个M2实例并行运行:有的负责调研,有的执行,有的验证结果。对于这类需要长期运行、存在并行分工的任务,使用超大模型往往在成本和延迟上都不可持续。M2的定位,恰好卡在“可规模化复制”的区间。
与此同时,Miniax还通过数据管线中的扰动(perturbations)来训练模型适应不同Agent scaffold。Olive给出的定义很直接:泛化能力,本质上是“适应整个操作空间中各种扰动的能力”。这让M2不依赖某一种固定框架,而能迁移到不同Agent系统中继续工作。
总结
Miniax M2这场分享真正有价值的地方,并不在于它又刷新了哪些榜单,而在于它清晰展示了一种不同的建模哲学:从开发者体验出发,用真实环境、真实反馈和可控规模,去塑造一个“能长期共事”的Agent模型。对读者而言,这不仅是一个10B模型的成功案例,更是一份关于如何在Agent时代重新权衡规模、成本与可用性的参考答案。
关键词: Miniax M2, 开源模型, 强化学习, AI Agent, 代码生成
事实核查备注: 演讲者:Olive Song;模型名称:Miniax M2;模型规模:100亿激活参数;模型类型:open-weight;核心应用:编码与工作场景Agent任务;技术方法:强化学习、interleaved thinking、专家开发者作为奖励模型;社区数据:发布首周下载量领先,OpenRouter token 使用量进入前三。