MiniMax M3来了！12小时无人干预炼出4个模型，还把CUDA内核加速到9.4倍

今天，MiniMax正式发布了其新一代旗舰大模型MiniMax M3，在多个衡量编程与Agent能力的基准测试中达到前沿水平。在真实软件工程能力基准测试SWE-Bench Pro上，MiniMax M3的表现小幅度超过GPT-5.5和Gemini 3.1 Pro，接近Claude Opus 4.7。

MiniMax M3采用了全新的稀疏注意力架构——MSA（MiniMax Sparse Attention）。这一架构的引入让MiniMax M3得以支持100万上下文窗口，同时也大幅提升了计算速度：与上一代采用全注意力机制的MimiMax M2相比，该模型在prefilling（预填充）阶段实现了超过9倍的加速倍率，在decoding（解码）阶段有超过15倍的加速倍率。

同时，MiniMax M3还是一个原生多模态模型，支持图片和视频的输入，并能操作电脑桌面。在多模态测试集OmniDocBench上，MiniMax M3的得分超过Gemini 3.1 Pro，在面向自主Agent的端到端评测框架Claw-Eval上，MiniMax M3得到最高分。

这种能力的结合，让MiniMax M3得以驾驭高度复杂的任务。在考察模型后训练能力的PostTrainBench测试中，研究团队交予M3一项挑战：在12小时内，从零开始训练4个仅有预训练基座的模型。全程无人干预，M3自主完成了“数据合成、训练、评测到迭代”的完整闭环，最终驱动这4个模型在数学推理、工具调用、代码生成等五项任务上习得了基本能力。M3最终得分0.37，紧追GPT-5.5（0.39）与Opus 4.7（0.42），并大幅领先其他模型。

MiniMax M3还可以连续工作24小时，在147次benchmark提交、1959次工具调用之后完成对CUDA内核的优化，将Hopper FP8硬件峰值利用率从首版7.6%推进至71.3%，实现相较于原始版本的9.4×加速。

与MiniMax M3一同发布的，还有更新后的AI编程工具MiniMax Code。MiniMax Code专为M3设计、并与M3一起训练，能够充分发挥M3在长上下文、Coding/Agentic、原生多模态方面的能力。

得益于M3的原生多模态能力，MiniMax Code具备Computer Use能力，可在电脑端完成跨应用、跨文件、跨系统的操作。

智东西第一时间对MiniMax M3进行了实测体验，它展现出不错的Agentic能力和扎实的多模态分析底子：能主动迭代需求、规划项目并持续反思纠错，视觉任务中对细节的描述也相当详尽。但在具体任务交付上，不少结果的完成度还不够高。

目前，MiniMax M3已在MiniMax Code、Token Plan和API中上线，接下来10天内MiniMax会更新模型的技术报告、以及开源对应的模型权重。MiniMax Code也计划在未来进行开源。

MiniMax M3的API调用价格以512k上下文为界分为两档，并提供优先调用和标准模式两种方案。512k以内上下文的调用有7天限时五折的优惠，标准模式下的调用价格分别为2.1元/百万输入tokens、8.4元/百万输出tokens，缓存读取的价格为0.42元/百万tokens。

API调用入口：

https://platform.minimaxi.com/docs/api-reference/api-overview

MiniMax Code：

agent.minimaxi.com/download

值得一提的是，MiniMax已在上周向上海证监局提交了，开启A股上市进程，冲刺A股大模型第一股。截至港股今天午间休市，MiniMax今日股价下跌14.64%至717.00港元，最新市值为2248.77亿港元（约合1942.71亿元人民币）。

一、编程与Agent能力成提升重点，能理解真实开发工作流

编程与Agent能力是MiniMax M3本次性能提升的重点，该模型也在多个相关基准测试中达到领先水平。不过，MiniMax发现，目前主流的编程测试基准存在一个比较明显的局限：很难完整反映出真实的用户体验。

现在大多数编程智能体的训练和评测，都假设任务是单轮完成的。但在实际的开发场景中，开发者往往会反复沟通需求、持续调整方案、同时推进多个任务，还要根据中间结果不断迭代优化。

为了缩小测试基准和真实体验之间的差距，MiniMax做了一个交互式用户模拟器框架。这个框架可以模拟真实开发者的协作行为，让模型在训练和评测阶段，就能接触到更接近实际工作环境的交互场景。它能还原需求补充、方案讨论、反馈修正、连续切换任务，以及复杂项目迭代这些典型行为，让智能体不只是被动执行指令，而是能够主动和用户协作完成任务。

我们迅速体验了MiniMax M3在编程与Agent任务方面的能力。

在网页游戏生成任务中，MiniMax M3制作的赛车游戏从审美上看还不错，但是实际试玩后，我们发现这一游戏的可玩性比较差。