普通网线也能跑万亿大模型!月之暗面抛出王炸架构,亲证:不用全买 H100!1T模型实测:延迟暴降64%!大模型推理“围城”攻破了!

编辑 | 云昭

在 AI 工程界,长文本推理一直是个“富贵病”。

为了让大模型回话快一点,厂商们不得不把数千颗昂贵的GPU塞进同一个机房,并配上天价的 InfiniBand 交换机。

原因只有一个:KVCache(键值缓存)太重了。 只要跨出机房、跨过普通网线,传输延迟就会瞬间拖垮系统,让推理变成“慢动作”。

难道算力只能在昂贵的“孤岛”上跳舞?

近日,月之暗面发表重磅论文,提出 PrfaaS(Prefill-as-a-Service,预填充即服务) 架构。他们用一组惊人的数据证明:即便没有天价网络,靠普通的以太网线,也能实现万亿参数模型的跨中心调度!

普通网线也能跑万亿大模型!月之暗面抛出王炸架构,亲证:不用全买 H100!1T模型实测:延迟暴降64%!大模型推理“围城”攻破了!

剑指大规模LLM推理挑战:KVCache带宽瓶颈

相信关注AI圈的朋友现在都已经知道了这个概念:PD 分离。

而月暗的这篇论文,简单理解,就是将剑锋指向了大规模 LLM 服务中非常实际的问题:

如何在不同数据中心之间、异构硬件环境下,高效地将 Prefill 和 Decode 分离,而不被 KVCache 传输带宽所限制

过去,跨数据中心推理被视为“工程自杀”,是因为传统模型的 KVCache 像海啸一样,会瞬间挤爆带宽。

论文中指出了原因所在:传统的 PD 分离架构虽然把计算密集的 Prefill 和内存带宽密集的 Decode 分开,但 Prefill 阶段产生的大量 KVCache 必须通过高带宽网络(如 RDMA)快速传输给 Decode 节点,否则会阻塞推理。这导致:

  • Prefill 和 Decode 必须部署在同一个高带宽网络域内(如单数据中心)。

  • 异构硬件(如 H100 用于 Prefill,H20 用于 Decode)很难独立扩展,因为无法跨低带宽网络高效传输 KVCache。

  • 资源弹性差:一旦硬件比例固定,难以适应请求长度、缓存命中率的变化。

普通网线也能跑万亿大模型!月之暗面抛出王炸架构,亲证:不用全买 H100!1T模型实测:延迟暴降64%!大模型推理“围城”攻破了!

单数据中心设计问题大,跨数据中心又难存在各种诸如带宽等软硬件扩展的瓶颈,如何解决呢?

关键观察:混合注意力模型能大幅降低 KVCache

论文指出,新型混合注意力模型(如 Kimi Linear、SWA + GQA)中,只有少数全注意力层产生随序列长度增长的 KVCache,多数线性复杂度层只产生固定大小的状态。

通过建模分析,团队发现:

KV Throughput(单位时间产生的 KVCache 大小)仅仅是稠密模型1/4,甚至最低可以达到 1/36

普通网线也能跑万亿大模型!月之暗面抛出王炸架构,亲证:不用全买 H100!1T模型实测:延迟暴降64%!大模型推理“围城”攻破了!

这种数量级级别的 KVCache 减少,就好比:以前传输数据像是在搬运一整座山,现在只需快递一张光盘。堪比对 KVCache 来了一场算法级的“物理瘦身”。

这使得 KVCache 通过普通以太网跨数据中心传输成为可能。 

除了这一观察,论文中 Kimi 团队还提出了一个构建跨数据中心的万亿模型的核心思路:

跨数据中心 KVCache 的核心思路,并不是把所有 prefill 都外包,而是在“远程 prefill 加速收益大于传输成本”时,有选择地将解耦后的 LLM 服务扩展到单一集群之外

PrfaaS 的核心思路:

如何把推理“海啸”变成“溪流”?

那么,理论上可行之外,实际工程方面,PrfaaS 是怎么实现的呢?不得不说,团队确实是做到了“算法+系统”的双重创新。

PrfaaS-PD 架构的整体思路很清晰,即将本地 PD 集群和 PrfaaS 集群的处理职责区分开:

专用的 PrfaaS 集群:在高吞吐、成本更优的加速器上执行计算密集型长上下文 prefill(未命中前缀的缓存),并通过通用以太网将生成的 KVCache 流式传输到本地 PD 集群;

本地 PD 集群处理短请求或已命中缓存等对带宽不友好的请求,负责 Decode。

注意:两者是通过普通以太网(如 VPC、专线)来传输 KVCache 的。

普通网线也能跑万亿大模型!月之暗面抛出王炸架构,亲证:不用全买 H100!1T模型实测:延迟暴降64%!大模型推理“围城”攻破了!

而专用 PrfaaS 集群的灵魂设计就在于: 混合前缀缓存池(Hybrid Prefix Cache Pool)的设计。

虽然混合注意力模型的 KVCache 变小了,但类型却也多元了。

在混合模型中,线性注意力或 SWA 层的循环状态是请求级别的:它们的大小与输入长度无关,并且只有当缓存长度完全匹配时才能被复用。

相比之下,全注意力层的 KVCache 是块级别的:它们随输入长度线性增长,并支持部分前缀匹配。

这种异构性对传统的全层统一 KVCache 存储范式提出了挑战。

显然,混合前缀缓存池的设计解决的正是这个问题,同时也可以做到跨集群、跨数据中心的 KVCache 高效传输与复用

篇幅关系,这里用简单一点的话来解释如何做到的:分开管理,内存统一。缓存池将线性状态和全注意力 KVCache 分开管理,但这些组具有对齐的块大小,允许所有组从一个共享的 KVCache 池中分配和释放块。

多说一嘴,这个缓存池是 Kimi 团队基于 vLLM 的混合 KVCache 管理器发明的。感兴趣的朋友可以翻阅相关的论文。

普通网线也能跑万亿大模型!月之暗面抛出王炸架构,亲证:不用全买 H100!1T模型实测:延迟暴降64%!大模型推理“围城”攻破了!

内置双尺度调度,避免推理卡顿

解决了这个问题之后,还要解决的则是调度问题。PrfaaS 并非天真地外发所有任务。对此,研究团队内置了聪明的“分流”逻辑:

  • 选择性卸载:只有增量长度 > 阈值的请求才发往 PrfaaS,避免短请求浪费跨集群带宽。“短请求本地消化,长请求异地处理”。系统会自动识别:只有当文本足够长(比如超过 19.4K token),才派发给远端的高算力中心。

  • 带宽感知:实时监控 egress 带宽和队列深度,动态调整路由。考虑缓存亲和性:如果某集群已有部分前缀缓存,优先使用,必要时跨集群传输缓存。

就像手机导航会避开拥堵路段,调度器会监控网速。如果两地之间的网线“堵车”了,它会自动调整路由,优先保证本地推理不卡顿。

此外,调度策略上,团队还给出了一种双时间尺度调度策略:

  • 短时:根据带宽和缓存分布动态路由请求。

  • 长时:根据流量变化调整 PD 集群内的 Prefill/Decode 实例比例,重新优化阈值 t。

硬件解构:让 H200 专心“冲刺”

不仅如此,在实测中,Kimi 团队用 H200 组成 PrfaaS 集群(专攻计算,负责 Prefill),而用 H20 集群负责 Decode(解码)。

这种“跨机房合体”让每颗芯片都跑在自己的舒适区,可以说为业界解决了“算力够、带宽不够”的尴尬问题。

实测数据:1T模型的“降维打击”

在这项针对 1 万亿参数级混合架构模型(类似 Kimi Linear)的实测中,PrfaaS 交出了一份足以重塑行业逻辑的成绩单!

具体部署如下:

PrfaaS 集群:32 × H200(高算力)

本地 PD 集群:64 × H20(带宽优化)

跨集群带宽:100 Gbps 以太网

首先,相比传统部署,PrfaaS 系统吞吐量提升了 54%。比无调度的异构 PD 提升 32%

这还没完,结果显示,如果在同等成本下,PrfaaS 系统吞吐量仍提升约 15%

普通网线也能跑万亿大模型!月之暗面抛出王炸架构,亲证:不用全买 H100!1T模型实测:延迟暴降64%!大模型推理“围城”攻破了!

其次,延迟也大幅降低: 代表用户体验的 P90 首字延迟(TTFT)大幅降低 64%

普通网线也能跑万亿大模型!月之暗面抛出王炸架构,亲证:不用全买 H100!1T模型实测:延迟暴降64%!大模型推理“围城”攻破了!

更重要的是,成功实现了跨城市级别顶级算力调度。据介绍,PrfaaS 处理万亿模型时,跨中心带宽占用仅为 13 Gbps(占 100 Gbps 的 13%),远低于稠密模型的需求

这意味着,你用一根最普通的 100G 网线,就能在两座城市之间调度顶级算力。

终结“唯显卡论”:普通网线也能调度全球算力

大模型迎来“东数西算”时代

这是大模型狂奔的第四个年头。在推理算力日益紧缺的语境之下,Kimi团队 之一 PrfaaS 架构的出现,恰逢其时。

这篇论文不止是提出了跨城市跨数据中心的分布式算力AI框架,还给出了许多关于未来AI推理的想象空间。

小编看来,有这样几点值得讨论:

首先,Kimi 这篇研究让“异地推理”的真正落地更近了一步。大模型领域的“东数西算”被它证明完全在工程上是可行的:以后 Prefill 可以放在电费便宜的西北,Decode 放在靠近用户的北上广。这一点就足够 amazing。

其次,异构芯片也终于有了大规模采用的希望。推理非得全用 H100?当然不是。

大家同样可以用国产大算力芯片做 Prefill 中心,用高带宽芯片做 Decode 中心。而 PrfaaS 就像“粘合剂”,让不同品牌、不同地域的芯片也可以很好地协同。

最后,则是二阶影响。大家或许看到“吞吐量提升”、“延迟降低”这样的术语感觉不深,但这背后其实都会真实反映到大家的“钱袋子”上。

因为这些指标的改进,折射到模型侧,就意味着 1T 模型的处理效率翻倍,意味着处理千万级上下文的成本将大幅下降,而折射到用户侧,则意味着 API 价格的实打实的下降!

总之,不难预见,模型圈很快将会经历“单体机房”向“分布式算力云”的转变。

而月之暗面的 PrfaaS 也再一次用实际效果向外界证明:通过算法和工程的协同进化,用普通网线也可以调度全球算力!而大家的模型订阅价格降下来的希望也更大了!

从这个维度上看,AI 的普及才真正开始。

论文地址:

https://arxiv.org/pdf/2604.15039v1

本文来自转载51CTO技术栈 ,不代表发现AI立场,如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
评测组小编的头像评测组小编
Xiaomi miclaw,今日开启小范围封测
上一篇 9小时前
爱奇艺高调官宣百人AI艺人库,为何吃了个瘪?
下一篇 6小时前

扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注