小米：请叫我 Token 价格屠夫

资讯组小编 • 文章来源: APPSO • 5小时前 • 新闻

押注 2026 年 Token 大涨价的人，短短一周迎来两次打脸。

5 月 22 日，DeepSeek 宣布 DeepSeek V4 Pro 永久降价；今天凌晨，小米 MiMo-V2.5 系列跟进降价，最高降幅达到 99%。

与此同时，小米 Token Plan 计费体系同步优化，定价不变，可用量提升至原来的 5 至 8 倍。

没有出乎太多意料，海外 Reddit、X 平台以及各大开发者论坛上关于小米 MiMo 模型降价的讨论热度也是迅速飙升。

只是，在全行业都在高喊 Token 成本吃不消的当下，小米为何敢于逆流降价？更重要的是，这波降价操作又会把 AI 行业推向何方？

Token 价格打骨折，AI 行业迎来最严厉的父亲

小米公告显示，旗下 AI 大模型 MiMo-V2.5 系列 API 将进行永久降价，最高降幅达 99%，且不再区分上下文长度。新价格已于北京时间 5 月 27 日 0 点全球同步生效。

不过，99% 的降幅并不意味着每一次调用都会按最低价计费，关键变量在于输入缓存是否命中。

以 MiMo-V2.5-Pro 为例，一旦命中缓存，输入价格被击穿至约 0.025 元每百万 Tokens。而如果输入缓存未命中，价格依然维持在 3 元每百万 Tokens，输出价格则为 6 元每百万 Tokens。

也就是说，这个极低价格成立的先决条件，是请求必须大量命中缓存。

对于高重复上下文、高频 Agent、多轮代码任务以及批量推理任务来说，这个价格拥有极强的吸引力，但如果你的应用场景缓存命中率堪忧，真实成本显然不会触及最低点。

Token Plan 的玩法也有着相似的逻辑。

小米强调定价不变，Credits 大幅提升：Lite、Standard、Pro、Max 四档月费仍是 39 元、99 元、329 元和 659 元， Credits 的额度，也从 0.6 亿、2 亿、7 亿、16 亿提升到对应的 41 亿、110 亿、380 亿、820 亿。

且按照新的换算关系，MiMo-V2.5-Pro 命中缓存只需 2.5 Credits / token，未命中缓存则要 300 Credits / token，输出为 600 Credits / token。

这与 DeepSeek 的打法如出一辙。

简单回顾一下时间线：4 月 24 日 DeepSeek V4 预览版发布；次日 V4-Pro 开启 2.5 折优惠；4 月 26 日，缓存命中价格暴降至首发价的十分之一；到 5 月 22 日，临时折扣干脆变成了永久降价，V4-Pro 永久降至原价的四分之一。

一番调整过后，DeepSeek-V4-Pro 的输入缓存命中价格从 0.1 元直接降到了 0.025 元。随着小米 MiMo-V2.5-Pro 的火速跟进，国产模型的缓存命中输入价已经被彻底焊死在了这一基准线上。

DeepSeek 和小米都把最有冲击力的价格放在缓存命中和场景，原因并不复杂。大模型正在从聊天走向干活，而 Agent 才是 token 消耗真正放大的地方。

在聊天场景里，用户问一句，模型答一句，成本相对容易估算。

但在 Agent 场景里，一个任务可能包含长上下文、多轮推理、代码生成、工具调用、网页读取、文件分析和结果校验。用户看到的只是最后一次输出，后台却可能已经发生了多次请求和大量上下文读取。

这就是缓存命中重要的地方。

Agent、代码助手和长上下文应用有一个共同特点：很多内容会反复出现。比如系统提示词、项目代码、API 文档、工具说明、历史对话、依赖文件等。这些内容如果每次都重新计算，成本会很高；但如果能被缓存，下次再用时只按缓存命中价格计费，推理成本就会明显下降。

也就是说，缓存命中价格越低，越适合高频、多轮、长上下文的真实工作场景。DeepSeek 和小米低价背后，其实也是为了先把开发者和高频应用吸引进来，让更多 Agent、代码助手和办公自动化应用愿意跑在自己的模型上。

同理，小米此前通过 MiMo Orbit、百万亿 Token 创造者激励计划等活动，让更多人体验 MiMo，并解决真实问题。这个百万亿 Token 激励计划自 4 月 28 日上线，到 5 月 26 日 16:08，100T Tokens 已全部提前发放完毕。

从平台视角看，低价 token 和免费额度换来的是海量真实调用。真实调用会带来复杂任务、失败样本、用户反馈、Agent 工作流、代码场景和长上下文数据，这些都会反过来帮助模型和推理系统迭代。

社区里的「养虾党」现象，也可以放在这个逻辑里理解。用户在最大化消耗额度的同时，也在帮助平台制造压力、暴露问题、积累调用数据。

所以这笔账不能只看单次推理毛利。短期收入被压低，换来的是开发者迁移、调用规模和真实反馈。对想争夺 Agent 生态位置的模型厂商来说，这是一种非常划算的平台投入。

罗福莉的真香定律，背后是工程暴力

不过，光有意愿还不够，关键是降得起。小米这次降价的特殊之处，正在于它和 MiMo 大模型负责人罗福莉此前的公开表态形成了反差。

一个月前，罗福莉曾公开反对 token 价格战。她当时的判断是，低价 token 加开放第三方 Agent 框架，容易让平台陷入成本失控。

她提到，第三方 Agent 框架往往上下文管理粗放。单次用户查询可能触发多轮低价值工具调用，每次请求又携带超过 10 万 token 的超长上下文。如果平台无法约束这类浪费，真实 API 成本可能是订阅价格的数十倍。

她还认为，全球算力供给已经跟不上 Agent 带来的 token 需求增长。大模型公司在没有厘清编程和 Agent 场景成本结构之前，盲目价格战会导致限流、降配、稳定性下降，最终损害用户体验。

但小米这次降价显然没有推翻此前判断，而是改变了价格战成立的前提。罗福莉此前反对的是没有成本结构支撑的低价，然而，小米现在向我们展示的，却是一套能够支撑低价的工程方案。

按照小米公告，其技术团队基于 SGLang HiCache 完整支持 SWA，也就是 Sliding Window Attention，将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近七分之一，并将可缓存 token 数量提升至优化前的近五倍。

与此同时，小米还优化了专家并行方案和输入长度分桶策略，以提升集群输入吞吐能力。没有这层工程能力，低价很容易就会变成不可持续的补贴。有了足够强的 Infra 能力，低价才可能转化为长期优势。