MiniMax M3独立评测：DeepSWE通过率13.3%，落后Kimi与GLM

MiniMax M3编码模型在DeepSWE长程软件工程基准的独立评测中，仅在113个真实开源feature任务中取得13.3%（15/113）的strict智能体通过率，远低于官方宣称的59.0%。在语言维度上，JavaScript任务通过率为40.0%（2/5），TypeScript为17.1%（6/35），Go为11.8%（4/34），Python为8.8%（3/34），而5个Rust任务全部失败。尽管未通过的任务中，M3在35个任务的测试中显示出90%以上的解决精度，且在113个任务中仅有8次因破坏原有测试套件而导致失败，表明其代码稳定性良好。测试报告指出，若放宽运行时间，模型的extended通过率可提升至16.8%（19/113），额外解决4个耗时超90分钟的复杂任务。

MiniMax M3独立评测：DeepSWE通过率13.3%，落后Kimi与GLM

发表回复