Qwen3.7-Max 测评

短的结论：而今迈步从头越

基本情况：

从初代Qwen3-Max 算起，通义团队做万亿参数模型已经有半年多。期间也更新过多次，但都透着一股随意，要么根本不宣传，要么不给API，只上竞技场。能力上也不太担得起万亿模型该有的水平，和自家的中杯Plus 拉不开差距，预训练和后训练都不足。

但通义的迭代速度惊人，26 年以来几乎一月一更，速度超过国内其他对手，4月20刚发布Qwen3.6-Max-Preview, 仅过一个月便正式推出了新一代 Max 模型。

新的Max 大幅拉开了和之前Plus 模型的差距，性能跃升至国模第一梯队头部序列。虽然 Token 使用比前代多 50%，但价格也是前代的6 折，综合下来成本持平。加上不低的TPS，实用性大幅改善。

逻辑成绩：

Qwen3.7-Max 相比前代3.6-Preview 提升超过30%，在所有测试项中均有提升，不再适合对比，因此下文选取能力更接近同代国模DeepSeek V4 Pro(max)，以下简称DSV4，作为对照。

需要说明，在Qwen3.7-Max 发布blog 中，有一段小字注明了使用模型进行推理需要额外附加一段提示词。笔者测试发现如果不加提示词，则模型有概率使用中文进行思考，增加提示词后则都是英文思维链。而使用中文思考时，在编程，几何，空间直觉等问题上，回答质量会显著下降。因此测试遵从blog 指导，使用了推荐的超参和系统提示词。

优势：

指令遵循：DSV4 的指令能力已经很强，但在一些场景下会自行发挥，导致轻微的不遵循。而Qwen3.7-Max 可以更加精准地遵守原始提示词。在要求本身多且复杂的情况，Qwen3.7-Max 会花费额外的Token 进行多次确认，这导致其开销甚至比DSV4 开max 档位还要高不少，在同样成绩下，比花费最低的GPT-5.5，Opus4.6 等模型平均高出1 倍多。Qwen3.7-Max 的指令遵循好，但代价不小。
上下文幻觉：幻觉抑制是Qwen 系列的长板，Qwen3.7-Max 将这一长项发挥到更好。原先#42 年报整理是10K 文本中提取约100 处信息，对前代Qwen3.6 已经不是问题，而最近增加新增的#65 题，将上下文规模极大扩充，提取信息也不再是明显文本，这依然难不倒Qwen3.7-Max，其表现在国模中名列第一，仅次于GPT-5.5。在其他上下文相关问题上，模型基本没有因为看错信息而丢分。
稳定性：模型的输出稳定性一方面依赖于幻觉抑制，另一方面也有赖于扎实的预训练。前代Qwen3.6 已经算国模稳定性最强者，接近北美御三家表现，而Qwen3.7-Max 则直接扎进御三家中间，中位分差仅有4.6%，在中等难度推理问题上，多Pass 可以稳定输出基本一致的过程和答案，表现与GPT-5.4/5.5 相似。复杂问题也能保持高概率一致。不过在涉及空间感知，几何理解，算法问题，数学证明等方面，做不到同等稳定性，可见其在训练阶段的取舍。

不足：

输出问题：Qwen 系列模型喜欢在正式输出里写一部分推理过程，除非提示词明确禁止。这不能算不可接受的问题，只不过对比其他输出可读性更好的模型，如Opus 4.6，Qwen的输出还显得冗长一些。而且这个问题自Qwen3 以来便存在，恐怕短期不会改了。
推理效率：Qwen3.7-Max 目前的性能有一定比例是靠思考更深入来换取的，代价如前所述，消耗比前代增加50%，达到平均44K，仅比DSV4 少1K。北美与之性能相近的模型，消耗只有其1/3。不过还在Qwen 能合理分配思维预算，比较少无效思考，给更多预算可以换来相应的性能提升。

编程能力：

单独分析模型的编程水平，就目前已经进行的 0到1 工程和 N+1 工程的情况来看，Qwen3.7-Max 在热门领域前后端的工程表现可以给到 C+ 档，表现好时有 B 档表现，即犯错较少，指出后立刻修复。前端审美比前代有巨大提升，偶尔会随机到较为惊艳的效果。细分来看，其 Coding 能力呈现三个主要特征。

其一，是当上下文接近100K，幻觉轻微的上升。测试工程中有些场景会不重启环境连续提问，往往在第2轮结束 Context 就会累计到100K 附近，导致模型在第 3 轮的出错概率上升，通常是遗忘来自第 1 轮的初始约束，或者是开始犯一些较低级错误。如果在第 3 轮清掉Context 重启环境，低级错误会明显变少，但会因为对Code Base 探索不充分，尤其一些不明显的工程约束，传值等，导致实现的功能考虑不周，丢失一些前向兼容等。因此使用该模型不推荐把Context 用到过满。

其二，Debug 能力不够智力来补。综合来看，Qwen3.7-Max 无论在热门技术栈还是“冷门”方向，Debug 能力都是不够全面的，只是够用的程度，这导致一些复杂问题，GPT，Opus 这类顶级模型能使用十八般兵器逐渐缩小问题范围，然后精准命中，而Qwen3.7-Max 就只会常见手段，超出的部分只能靠智力来推导。而足够复杂的问题并不能靠智力解决。这类后训练不足的问题除了依赖 Qwen 后续版本提升，搭配垂类 Skill 也可以极大缓解。

其三，知识分布不均。前面提到，Qwen3.7-Max 在热门领域最好时候表现能达到 B 档，而在冷门方向，则可能掉到 D 档。这方面和 DeepSeek V4 比较像，二者同为万亿模型，理论上都拥有足够的领域知识，但具体到 Coding 场景里，本应该想到的实现方式，问题归因等无法被正确提取。只能退化到最原始的靠反复打 log 来磨，但这样失败率很高。

总体上，Qwen3.7-Max 的Coding 能力显著超过前代3.6 的Max 和Plus，跨过可用线。优势和缺点都很明显，实际使用搭配环境，可发挥其最大价值。

赛博史官曰：

基础智力高的模型，经过良好的专项训练，通常也能在对应领域突飞猛进。之前OpenAI 长期沉迷于追求模型智力上限，被Anthropic 在Coding 领域弯道超车后，幡然醒悟，只用了不到半年直接，在Coding 赛道上直线加速反超对手。而Qwen 也是这样一位选手，通义也曾经迷失在各类学术榜单上，放任Agent 领域被当时的小厂占据。而醒悟后的通义同样在Agent 上开启了狂奔模型，Qwen3.6 一举摆脱了3.5 的高分低能，而3.7 则再向前一大步，Qwen的加速度令人瞩目。

大模型竞赛从来不是一蹴而就，也没有魔法，任何一家都做不到在所有领域全面领先，后发者想要追赶也必须一城一地，步步为营。同为互联网老玩家的腾讯在痛定思痛后，拿出了Hy3 证明其破釜沉舟的决心，当时笔者曾以《七律长征》中的一句示以鼓励，而同为老玩家的阿里如果也重新正在正确道路上，也值得一句“雄关漫道真如铁，而今迈步从头越”。

本文来自转载大模型观测员，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。