LLM(大型语言模型)的推理阶段与训练阶段面临完全不同的性能瓶颈。训练以吞吐量为核心,推理则以用户体验为核心——TTFT(Time to First Token,首token延迟)决定了用户感知响应速度,而TPOT(Time Per Output Token)决定了流式输出的流畅度。KV Cache是推理阶段最关键的内存消耗来源,随着上下文长度从4K扩展至128K甚至更长,单张A100 GPU的80GB显存已远不能满足大批量并发推理的需要。联瑞电子从CXL内存池扩展和高速RDMA网络两个维度,提出系统性的大模型推理加速方案,帮助AI企业在同等硬件投入下显著提升推理服务的吞吐量与响应速度。
大模型推理不同于批量训练,其性能瓶颈呈现出多维度、互相制约的特征:
CXL(Compute Express Link)是基于PCIe物理层的新一代内存互联标准,支持通过PCIe 5.0/6.0插槽挂载额外的DDR5或HBM内存模块(CXL Type 3设备),实现CPU可寻址内存容量的无损扩展。其核心价值在于:
以Llama3-70B模型为例,在128K上下文长度、batch size=32的场景下,所需KV Cache约为1280GB(1.25TB),远超单卡甚至单节点GPU显存(8×H100=640GB显存中,扣除模型权重约140GB后,可用于KV Cache的显存仅余约500GB)。引入CXL内存扩展卡后,可将KV Cache总容量扩展至TB级别,支持batch size提升至128或更高,推理吞吐提升3~5倍。
当模型规模超出单节点承载能力时(如Llama3-405B、GPT-4级别参数量),必须采用Tensor Parallel(张量并行)将模型层切分到多个GPU上协同推理。此时节点间的通信效率直接决定推理吞吐:
Tensor Parallel通信特征:每个Transformer层的前向传播需要在TP组内进行一次AllReduce通信,将各分片的激活值汇总。以TP=8(8卡张量并行)为例,每层AllReduce的数据量为激活张量大小(通常为batch×seq×hidden_dim的FP16数据)。对于128K上下文长度、batch=8的推理请求,单次AllReduce约需传输2~4GB数据,若网络带宽不足,AllReduce成为推理的串行瓶颈。
节点间互联需求:单节点内的GPU通过NVLink高速互联(NVLink4带宽达3.2TB/s),已不构成瓶颈。跨节点推理(跨服务器的TP)依赖服务器网卡和交换机,400G RDMA网卡配合RoCEv2协议可将跨节点AllReduce延迟控制在20~50μs,而普通以太网卡的延迟则高达1~5ms,差距高达100倍。
Disaggregated Prefill/Decode(P/D分离)架构:新兴的P/D分离架构将Prefill阶段(计算密集)和Decode阶段(内存密集)分配到不同的GPU池中独立处理,通过高速RDMA网络在两个池之间传输KV Cache(称为KV Cache Migration)。KV Cache Migration的数据量大(每次迁移可达数GB),对网络带宽要求极高,400G RDMA网卡是P/D分离架构的必要条件。
方案一:单机推理优化(适合中小型模型 / 预算有限场景)
针对单节点8卡GPU服务器的推理优化,重点解决KV Cache内存不足问题:安装联瑞电子CXL内存扩展卡将系统内存扩展至4TB,配合vLLM的PagedAttention+CPU KV Cache卸载功能,在不增加GPU的情况下将并发请求数量提升3~5倍。同时升级PCIe 5.0 NVMe扩展卡(LRSV9500-4I)加速模型权重加载速度,将冷启动时间从15分钟缩短至3分钟以内。
方案二:分布式推理加速(适合大型模型 / 高并发生产场景)
针对Llama3-405B、GPT-4级别的超大模型推理,采用多节点Tensor Parallel + P/D分离架构:Prefill节点配备LRES1260PF-2QSFP112(400G RDMA)实现节点间AllReduce高速通信,并安装CXL内存扩展卡加速KV Cache暂存;Decode节点同样配备400G RDMA网卡,通过RDMA直接接收Prefill节点迁移的KV Cache,避免经过CPU中转引入的额外延迟。整体吞吐较无优化基线提升5~10倍。
客户背景:某AI独角兽企业,提供基于Llama3-70B的企业级对话AI服务,用户规模快速增长,峰值并发请求超过10,000个,现有推理集群(32节点×8卡A100)在长上下文场景下频繁出现TTFT超时(>30秒)和请求排队积压问题。
实施方案:为每台推理服务器安装1张LRES1260PF-2QSFP112(400G RDMA,PCIe 5.0)替换原有25G网卡,并在Prefill节点安装CXL内存扩展卡(2TB DDR5)。采用vLLM v0.6+的P/D分离部署模式,通过联瑞RDMA网卡实现Prefill节点与Decode节点之间的KV Cache高速迁移。整体改造周期15天,硬件改造成本比新增GPU节点方案降低约60%。
随着大模型推理服务规模化落地,单节点推理已无法满足超大参数量模型和高并发业务需求。合理规划GPU推理集群的网络架构,是充分发挥硬件算力、降低每token成本的关键工程实践。
推理集群网络拓扑:Leaf-Spine + 400G RDMA
大型LLM推理集群(通常为16~256节点规模)推荐采用Leaf-Spine两层网络拓扑:Leaf交换机(每台连接8~16台GPU服务器)通过400G上联口连接至Spine交换机,服务器侧下联部署400G RDMA网卡。Leaf层采用RoCEv2协议承载Tensor Parallel AllReduce和KV Cache Migration流量,Spine层提供高带宽无阻塞互联(超额订阅比建议不超过2:1)。相较于传统以太网,400G RDMA网络的AllReduce延迟降低约97%(从1~5ms降至20~50μs),有效消除跨节点张量并行的通信瓶颈。联瑞电子LRES1260PF-2QSFP112(PCIe 5.0,双口400G,RoCEv2)支持高性能RDMA协议栈,是构建推理集群RDMA互联网络的首选网卡。推理集群中建议同时部署专用的带外管理网络(1G/10G),与业务RDMA网络完全隔离,避免管理流量干扰推理通信。
KV Cache跨GPU共享:NVLink + RDMA协同机制
在解耦推理(Disaggregated Inference)架构中,KV Cache需要在Prefill GPU和Decode GPU之间高速传输(KV Cache Migration)。节点内8卡GPU通过NVLink 4.0互联(带宽3.2TB/s),KV Cache在同节点不同GPU间传输延迟极低(微秒级);跨节点的KV Cache Migration则依赖RDMA网络。以Llama3-70B、batch=16、序列长度8K为例,单次KV Cache Migration数据量约2.1GB,在400G RDMA网络下传输时间约42ms,而在100G网络下则需168ms——差异达4倍,400G RDMA是保障P/D分离架构吞吐性能的必要条件。vLLM 0.6+版本已原生支持通过RDMA进行KV Cache Migration(需配合UCX/NCCL库),与LRES1260PF-2QSFP112的RDMA能力完全适配。GPUDirect RDMA(GDR)技术进一步允许网卡DMA引擎直接访问GPU显存,绕过CPU中转,将KV Cache传输的端到端延迟再降低约40%。
Prefill与Decode阶段分离的网络影响分析
P/D分离架构将两个阶段对网络的需求解耦:Prefill阶段(计算密集型)的网络压力来自Tensor Parallel AllReduce,每个Transformer层执行一次;Decode阶段(内存带宽密集型)的网络压力来自KV Cache Migration接收以及自回归步骤间的状态同步。推理集群节点间网络带宽需求可按以下公式估算:
vLLM + Ray Serve分布式推理部署架构:在vLLM + Ray Serve的生产部署中,Ray负责推理请求的调度和节点间负载均衡,vLLM负责具体的模型推理执行(包括连续批处理Continuous Batching和PagedAttention KV Cache管理)。每个vLLM Worker进程对应一块GPU,Worker间通过NCCL(基于RDMA)执行Tensor Parallel通信。Ray Head节点通过400G网卡与各Worker节点通信,传递调度指令和模型元数据。LRES1260PF-2QSFP112支持GPUDirect RDMA(GDR),允许NCCL直接从GPU显存执行DMA传输,将AllReduce通信延迟降低约40%,在生产集群中实测可使每GPU推理吞吐提升20~35%。针对分布式注意力机制(Distributed Attention),不同GPU分片处理不同的注意力头(Head),注意力输出需要在TP组内进行AllGather聚合——这一操作的数据量与序列长度成正比,长上下文推理(128K token)场景下对网络带宽的需求进一步增大,400G RDMA在此类场景下的性能优势尤为显著。
以上数据基于联瑞电子实验室环境(Intel Sapphire Rapids + NVIDIA H100 SXM × 8节点 × 8卡,MLNX_OFED 23.10驱动,vLLM 0.6.2 + NCCL 2.19)的基准测试结果。实际生产环境中受模型量化(INT8/FP8)、批处理策略和请求到达率分布的影响,提升幅度可能略有差异。