Qwen3.7-Max 测评

Qwen3.7-Max 测评

短的结论:而今迈步从头越

基本情况:

从初代Qwen3-Max 算起,通义团队做万亿参数模型已经有半年多。期间也更新过多次,但都透着一股随意,要么根本不宣传,要么不给API,只上竞技场。能力上也不太担得起万亿模型该有的水平,和自家的中杯Plus 拉不开差距,预训练和后训练都不足。

但通义的迭代速度惊人,26 年以来几乎一月一更,速度超过国内其他对手,4月20刚发布Qwen3.6-Max-Preview, 仅过一个月便正式推出了新一代 Max 模型。

新的Max 大幅拉开了和之前Plus 模型的差距,性能跃升至国模第一梯队头部序列。虽然 Token 使用比前代多 50%,但价格也是前代的6 折,综合下来成本持平。加上不低的TPS,实用性大幅改善。

逻辑成绩:

Qwen3.7-Max 相比前代3.6-Preview 提升超过30%,在所有测试项中均有提升,不再适合对比,因此下文选取能力更接近同代国模DeepSeek V4 Pro(max),以下简称DSV4,作为对照。

需要说明,在Qwen3.7-Max 发布blog 中,有一段小字注明了使用模型进行推理需要额外附加一段提示词。笔者测试发现如果不加提示词,则模型有概率使用中文进行思考,增加提示词后则都是英文思维链。而使用中文思考时,在编程,几何,空间直觉等问题上,回答质量会显著下降。因此测试遵从blog 指导,使用了推荐的超参和系统提示词。

优势:

  • 指令遵循:DSV4 的指令能力已经很强,但在一些场景下会自行发挥,导致轻微的不遵循。而Qwen3.7-Max 可以更加精准地遵守原始提示词。在要求本身多且复杂的情况,Qwen3.7-Max 会花费额外的Token 进行多次确认,这导致其开销甚至比DSV4 开max 档位还要高不少,在同样成绩下,比花费最低的GPT-5.5,Opus4.6 等模型平均高出1 倍多。Qwen3.7-Max 的指令遵循好,但代价不小。
  • 上下文幻觉:幻觉抑制是Qwen 系列的长板,Qwen3.7-Max 将这一长项发挥到更好。原先#42 年报整理是10K 文本中提取约100 处信息,对前代Qwen3.6 已经不是问题,而最近增加新增的#65 题,将上下文规模极大扩充,提取信息也不再是明显文本,这依然难不倒Qwen3.7-Max,其表现在国模中名列第一,仅次于GPT-5.5。在其他上下文相关问题上,模型基本没有因为看错信息而丢分。
  • 稳定性:模型的输出稳定性一方面依赖于幻觉抑制,另一方面也有赖于扎实的预训练。前代Qwen3.6 已经算国模稳定性最强者,接近北美御三家表现,而Qwen3.7-Max 则直接扎进御三家中间,中位分差仅有4.6%,在中等难度推理问题上,多Pass 可以稳定输出基本一致的过程和答案,表现与GPT-5.4/5.5 相似。复杂问题也能保持高概率一致。不过在涉及空间感知,几何理解,算法问题,数学证明等方面,做不到同等稳定性,可见其在训练阶段的取舍。

不足:

  • 输出问题:Qwen 系列模型喜欢在正式输出里写一部分推理过程,除非提示词明确禁止。这不能算不可接受的问题,只不过对比其他输出可读性更好的模型,如Opus 4.6,Qwen的输出还显得冗长一些。而且这个问题自Qwen3 以来便存在,恐怕短期不会改了。
  • 推理效率:Qwen3.7-Max 目前的性能有一定比例是靠思考更深入来换取的,代价如前所述,消耗比前代增加50%,达到平均44K,仅比DSV4 少1K。北美与之性能相近的模型,消耗只有其1/3。不过还在Qwen 能合理分配思维预算,比较少无效思考,给更多预算可以换来相应的性能提升。

编程能力:

单独分析模型的编程水平,就目前已经进行的 0到1 工程和 N+1 工程的情况来看,Qwen3.7-Max 在热门领域前后端的工程表现可以给到 C+ 档,表现好时有 B 档表现,即犯错较少,指出后立刻修复。前端审美比前代有巨大提升,偶尔会随机到较为惊艳的效果。细分来看,其 Coding 能力呈现三个主要特征。

其一,是当上下文接近100K,幻觉轻微的上升。测试工程中有些场景会不重启环境连续提问,往往在第2轮结束 Context 就会累计到100K 附近,导致模型在第 3 轮的出错概率上升,通常是遗忘来自第 1 轮的初始约束,或者是开始犯一些较低级错误。如果在第 3 轮清掉Context 重启环境,低级错误会明显变少,但会因为对Code Base 探索不充分,尤其一些不明显的工程约束,传值等,导致实现的功能考虑不周,丢失一些前向兼容等。因此使用该模型不推荐把Context 用到过满。

其二,Debug 能力不够智力来补。综合来看,Qwen3.7-Max 无论在热门技术栈还是“冷门”方向,Debug 能力都是不够全面的,只是够用的程度,这导致一些复杂问题,GPT,Opus 这类顶级模型能使用十八般兵器逐渐缩小问题范围,然后精准命中,而Qwen3.7-Max 就只会常见手段,超出的部分只能靠智力来推导。而足够复杂的问题并不能靠智力解决。这类后训练不足的问题除了依赖 Qwen 后续版本提升,搭配垂类 Skill 也可以极大缓解。

其三,知识分布不均。前面提到,Qwen3.7-Max 在热门领域最好时候表现能达到 B 档,而在冷门方向,则可能掉到 D 档。这方面和 DeepSeek V4 比较像,二者同为万亿模型,理论上都拥有足够的领域知识,但具体到 Coding 场景里,本应该想到的实现方式,问题归因等无法被正确提取。只能退化到最原始的靠反复打 log 来磨,但这样失败率很高。

总体上,Qwen3.7-Max 的Coding 能力显著超过前代3.6 的Max 和Plus,跨过可用线。优势和缺点都很明显,实际使用搭配环境,可发挥其最大价值。

赛博史官曰:

基础智力高的模型,经过良好的专项训练,通常也能在对应领域突飞猛进。之前OpenAI 长期沉迷于追求模型智力上限,被Anthropic 在Coding 领域弯道超车后,幡然醒悟,只用了不到半年直接,在Coding 赛道上直线加速反超对手。而Qwen 也是这样一位选手,通义也曾经迷失在各类学术榜单上,放任Agent 领域被当时的小厂占据。而醒悟后的通义同样在Agent 上开启了狂奔模型,Qwen3.6 一举摆脱了3.5 的高分低能,而3.7 则再向前一大步,Qwen的加速度令人瞩目。

大模型竞赛从来不是一蹴而就,也没有魔法,任何一家都做不到在所有领域全面领先,后发者想要追赶也必须一城一地,步步为营。同为互联网老玩家的腾讯在痛定思痛后,拿出了Hy3 证明其破釜沉舟的决心,当时笔者曾以《七律长征》中的一句示以鼓励,而同为老玩家的阿里如果也重新正在正确道路上,也值得一句“雄关漫道真如铁,而今迈步从头越”。

本文来自转载大模型观测员 ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
评测组小编的头像评测组小编
剪映海外版CapCut联手谷歌Gemini,一个APP里生成、剪辑、出片全包了
上一篇 19小时前
5个月MaaS收入增长15倍,阿里云找到了做大Token生意的办法
下一篇 15小时前



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论