MiniMax M3独立评测:DeepSWE通过率13.3%,落后Kimi与GLM

MiniMax M3编码模型在DeepSWE长程软件工程基准的独立评测中,仅在113个真实开源feature任务中取得13.3%(15/113)的strict智能体通过率,远低于官方宣称的59.0%。在语言维度上,JavaScript任务通过率为40.0%(2/5),TypeScript为17.1%(6/35),Go为11.8%(4/34),Python为8.8%(3/34),而5个Rust任务全部失败。尽管未通过的任务中,M3在35个任务的测试中显示出90%以上的解决精度,且在113个任务中仅有8次因破坏原有测试套件而导致失败,表明其代码稳定性良好。测试报告指出,若放宽运行时间,模型的extended通过率可提升至16.8%(19/113),额外解决4个耗时超90分钟的复杂任务。

上一篇:

下一篇:

发表回复

登录后才能评论