把大模型，压缩到 200MB 内存：面壁智能的新模型，手表也够跑

评测组小编 • 文章来源: 赛博禅心 • 2026年5月25日下午12:11 • 评测

谁才是最大赢家？

刚刚的，面壁智能联合 OpenBMB 搞了个端侧开源周。今天作为开源周的第一天，端出来的是个好东西 BitCPM-CANN，模型权重只需要约 200 MB 的内存，手表也够跑

同时，这是首款【基于国产算力平台训练】的【三值大模型】，并开源。对于这个模型，从量化算子到训练算法，全在华为昇腾上原生跑通

所谓三值大模型，其参数权重只保留：-1、0、1 三个状态，占用 1.58 位的比特…诶…没反应过来的同学，可以想一想高中数学，log2(3) 是多少嘞？1.58

把大模型，压缩到 200MB 内存：面壁智能的新模型，手表也够跑

比起常规下用 FP16 来存权重，减少了90%的尺寸（至于为啥是这么算的，后面我详细说，方便非 CS 专业的朋友听来当个饭后谈资）

把大模型，压缩到 200MB 内存：面壁智能的新模型，手表也够跑

除此之外，面壁的这个模型也一次端出了 0.5B 到 8B 四个尺寸，全系开源

只用 10% 的尺寸，保留了 95% 的能力

把尺寸压到 10%

在这里我得先说一下【模型参数】这个东西。大模型眼中的世界，是由一堆数字组成的，这些数字就是大模型的参数。我们说 DeepSeek R1 是 671B，指的就是它的参数大小是 671 B

参数是需要被存放的，常见的是 BF16(Brain Float16)，每个参数通过浮点数的方式存成小数，比如 1145141919810 按 BF16 来储存的话，就是：0101001110000101，意为：在二进制下的 1.0000101₂ × 2⁴⁰

如果是按三值呢？1145141919810 -> +1，就是这么暴力。会把所有参数按算法切成三个选项：正的就是 +1 表示激活；负的就是 -1，表示抑制；中间的就是 0，表示断开

我之前写 MiniCPM-V 4.6 那篇的时候，做过一张量化精度对照表，从 FP16 一路排到 1-bit 的 BitNet

这里再插入一个信息，BitNet 刚出来的时候只用 +1/-1 两种状态来存，所以是占了 1 个位宽的大小；之后 BitNet 1.58 发布，也是用的三值 +1/-1/0

从直觉上想，如果把数据量化到这份上，大模型就可能变成一个智障；但经过专门的训练后，这模型和原版竟然相差无几

在模型的 model card 信息里有这么张图，我给拎了出来，大概就是跑了 11 项评测，把它的评分和自家全精度的 MiniCPM4 做了一对一对照，然后发现 1B 到 8B 三个档位，能力保留率都在 95% 以上。3B 档位保留率最高，97.2%。最容易因为精度丢失而崩溃的数学和代码任务，也稳在了全精度上限附近

把大模型，压缩到 200MB 内存：面壁智能的新模型，手表也够跑

然后 0.5B 档位保留率会低一些，在 90.1%，这也说明了越小的模型对量化扰动越敏感，不过这方面的成因也找到了，是能继续优化的，面壁团队接下来会数据配比和课程学习上继续下功夫

国产算力的第一次

三值，在大模型在学术圈不算新物种，正如上文注释里提到的，微软研究院两年前发过 BitNet b1.58，验证了三值权重是训练可用的

那么，这次面壁的工作克服了哪些困难呢？大概是以下几点：

脱离 CUDA 生态：之前公开的三值工作，都是基于英伟达多算力卡的，很依赖于 CUDA 生态。在去昇腾上做的话，底层的量化算子得进行重写，训练流程、通信接口什么的也都要重新适配
规模推到 8B：BitNet 公开的模型最大在 3.9B，面壁这次的工作把整个尺寸拉到了 8B 的尺寸，那么训练稳定性、显存调度和多卡通信什么的，难度自然也都会提升
沉淀成了基础设施：这是一个值得称道的地方，面壁在 Megatron-LM 和华为 MindSpeed 上嵌了一个可插拔的量化并行线性层，量化训练和全精度训练共用了同一套检查点和通信框架，让 32K 的长序列训练也在这上面跑通了

至此，这套东西也算得上是在昇腾上做低比特训练的 best practice，后面再有人尝试做类似的东西，也有了现成的作业可以抄

往大了讲，这是国产底层算力生态在“极低比特大模型”这条前沿路线上的一次破局，说明证明了脱离 CUDA 体系，用纯血昇腾，一样能训模型