你大概遇到过这样的场景:GPU利用率跑到80%就上不去了,CPU和内存都还有余量,存储IO也没打满。排查一圈,问题出在网络——GPU之间传梯度、同步参数的带宽不够,网卡成了整个训练流水线的瓶颈。
这不是个别现象。在AI训练集群中,网络往往是最容易被低估的环节。很多人把预算花在GPU和高速存储上,却用着办公级别的网卡方案。等到模型参数量上去了、分布式训练跑起来,才发现数据在GPU之间"堵车"了。
这篇文章,我们从实际部署的角度,聊聊AI训练集群的网卡到底该怎么选、怎么配,以及从25G到400G的升级路径该怎么走。
分布式训练的核心操作是梯度同步。无论是数据并行(Data Parallelism)还是模型并行(Model Parallelism),每一轮迭代都需要GPU之间交换大量中间数据。以ResNet-152训练为例,一个8卡节点每步迭代需要同步约240MB的梯度数据;到了大模型时代,单个节点的同步数据量可以轻松超过1GB。
这些数据走的是网络。如果网卡带宽不够或者延迟过高,GPU就得"等"——等梯度传完、等参数更新到位。这个等待时间,直接拉低了GPU利用率,也拉长了训练周期。
更具体地说,网卡对训练性能的影响体现在三个层面:
带宽天花板:单张GPU产出的梯度数据量随模型参数量线性增长。当多卡同步的聚合流量超过网卡带宽上限时,训练吞吐就会出现明显下降。
延迟敏感性:AllReduce、Ring-AllReduce等集合通信操作对延迟非常敏感。即使带宽足够,如果单次传输延迟过高,累积起来也会显著拖慢每步迭代的时间。
CPU占用:传统TCP/IP协议栈处理网络流量时,CPU开销不小。在训练场景中,CPU还需要负责数据预处理、调度等任务,网卡如果大量占用CPU资源,会间接影响训练效率。
这三个问题,在传统以太网方案中尤为突出。这也是为什么RDMA技术逐渐成为AI集群网络的标配。
RDMA(Remote Direct Memory Access)的核心价值在于绕过操作系统内核,让网卡直接在应用内存之间搬运数据。带来的好处很直接:
在AI训练场景中,常用的RDMA实现是RoCE v2(RDMA over Converged Ethernet),它跑在标准以太网之上,不需要专用的InfiniBand网络,部署成本更低,同时又能获得接近InfiniBand的性能表现。
选择支持RDMA的网卡,是AI训练集群网络规划中性价比最高的一步。
不同规模的AI训练集群,对网络带宽的需求差异很大。盲目追求高带宽会造成浪费,而带宽不足则会拖慢训练。下面按三个典型规模来梳理升级路径。
4到8张GPU的训练节点,通常跑在单台服务器内,或者两台服务器之间做简单的数据并行。这个规模下,梯度同步的聚合流量一般在10-20Gbps左右。
推荐方案:LRES1026PF-2SFP28 25G双口SFP28网卡
这张卡支持RDMA RoCE v2,双口设计可以提供50Gbps的聚合带宽,留有充足的冗余空间。SFP28接口兼容主流的25G DAC线缆和光模块,部署简单。对于入门级AI训练集群或者高校实验室环境,25G方案在性能和成本之间取得了不错的平衡。
当GPU数量扩展到16张以上,跨节点通信量急剧增加。特别是跑Transformer类大模型时,模型并行带来的All-to-All通信模式对网络带宽要求很高。这个阶段,25G已经捉襟见肘,100G是当前的主流选择。
推荐方案:LRES1014PF-2QSFP28 100G双口QSFP28网卡
基于Intel E810主控,支持RDMA,双口100G设计提供200Gbps总带宽。QSFP28接口的生态非常成熟,可选的DAC线缆、光模块和分支线缆(如 breakout to 4x25G)种类丰富,网络拓扑灵活。对于中型AI训练集群,100G方案是当前性价比最高的选择。
128张GPU以上的集群,通常用于大语言模型预训练或者大规模多模态训练。节点间通信量巨大,对网络的带宽和延迟要求都到了极致。这个阶段需要200G甚至400G的网络方案。
200G推荐方案:
400G推荐方案:
400G方案目前主要面向头部AI实验室和大规模预训练场景。如果你的集群规模还在增长通道中,提前部署400G网卡可以减少后续升级的网络改造成本。
| 集群规模 | GPU数量 | 推荐带宽 | 推荐产品 | 接口类型 |
|---|---|---|---|---|
| 入门级 | 4-8卡 | 25G | LRES1026PF-2SFP28 | SFP28 |
| 主流级 | 16-64卡 | 100G | LRES1014PF-2QSFP28 | QSFP28 |
| 高性能 | 64-128卡 | 200G | LRES1080PF-2QSFP56 / SP226D | QSFP56 |
| 旗舰级 | 128+卡 | 400G | LRES1260PF-QSFP112 | QSFP112 |
选对了网卡只是第一步,部署时还有几个容易踩的坑:
交换机匹配:网卡速率要和交换机端口速率一致,或者做好降速兼容。25G网卡接100G交换机端口没问题,但400G网卡接100G端口就需要确认是否支持breakout模式。
RDMA网络配置:RoCE v2需要交换机开启PFC(Priority Flow Control)或ECN(Explicit Congestion Notification)来做无损以太网配置。不开启的话,RDMA性能会大打折扣,甚至不如普通TCP。
多网卡绑定:对于高可用需求,可以用Linux bonding或team驱动将多张网卡绑定,实现负载均衡和故障切换。但注意bonding模式的选择——Mode 4(802.3ad LACP)是最常用的方案。
NUMA亲和性:多路CPU服务器上,网卡和GPU的NUMA节点归属要规划好。把网卡中断绑定到与GPU同一NUMA节点的CPU上,可以减少跨NUMA的内存访问延迟。
小规模(2-4 GPU)的入门训练,普通TCP以太网也能跑。但一旦上了分布式训练,RDMA的优势就很明显了——延迟降低一个数量级,CPU占用接近零。如果你的集群规模在持续扩大,RDMA网卡是值得投入的基础设施。
可以。大多数数据中心交换机支持多速率端口,或者通过breakout线缆实现速率转换。比如100G端口可以拆分为4个25G端口。但规划时注意,不同速率混用会增加布线复杂度,建议同一层级尽量统一速率。
QSFP28是100G接口标准,每个通道25G,共4通道。QSFP56是200G/400G接口标准,每个通道50G,共4通道。两者物理接口相似但电气规格不同,不能直接互用。不过部分QSFP56端口可以向下兼容QSFP28模块,具体需要看交换机和网卡的支持情况。
以华为Hi1822主控的 SP226D 为例,200G QSFP56接口,原生支持RDMA,在实际训练场景中性能表现与同级别方案相当。对于有国产化需求的政企和科研机构,这是一个成熟可用的选择。
不一定。如果交换机支持多速率或者有100G上行端口,可以只更换网卡和对应的光模块/线缆。建议升级前先做一次网络流量分析,确认瓶颈确实在网卡带宽而非交换机背板或链路聚合配置上。