新闻中心

选型指导

AI训练集群网卡配置指南从25G到400G的升级路径

2026-06-29 选型指导AI训练网卡,RDMA网卡,25G网卡,100G网卡,200G网卡,400G网卡,分布式训练,GPU集群网络,RoCE v2,联瑞电子网卡浏览: 31

你大概遇到过这样的场景：GPU利用率跑到80%就上不去了，CPU和内存都还有余量，存储IO也没打满。排查一圈，问题出在网络——GPU之间传梯度、同步参数的带宽不够，网卡成了整个训练流水线的瓶颈。

这不是个别现象。在AI训练集群中，网络往往是最容易被低估的环节。很多人把预算花在GPU和高速存储上，却用着办公级别的网卡方案。等到模型参数量上去了、分布式训练跑起来，才发现数据在GPU之间"堵车"了。

这篇文章，我们从实际部署的角度，聊聊AI训练集群的网卡到底该怎么选、怎么配，以及从25G到400G的升级路径该怎么走。

为什么网卡是AI集群的性能瓶颈

分布式训练的核心操作是梯度同步。无论是数据并行（Data Parallelism）还是模型并行（Model Parallelism），每一轮迭代都需要GPU之间交换大量中间数据。以ResNet-152训练为例，一个8卡节点每步迭代需要同步约240MB的梯度数据；到了大模型时代，单个节点的同步数据量可以轻松超过1GB。

这些数据走的是网络。如果网卡带宽不够或者延迟过高，GPU就得"等"——等梯度传完、等参数更新到位。这个等待时间，直接拉低了GPU利用率，也拉长了训练周期。

更具体地说，网卡对训练性能的影响体现在三个层面：

带宽天花板：单张GPU产出的梯度数据量随模型参数量线性增长。当多卡同步的聚合流量超过网卡带宽上限时，训练吞吐就会出现明显下降。

延迟敏感性：AllReduce、Ring-AllReduce等集合通信操作对延迟非常敏感。即使带宽足够，如果单次传输延迟过高，累积起来也会显著拖慢每步迭代的时间。

CPU占用：传统TCP/IP协议栈处理网络流量时，CPU开销不小。在训练场景中，CPU还需要负责数据预处理、调度等任务，网卡如果大量占用CPU资源，会间接影响训练效率。

这三个问题，在传统以太网方案中尤为突出。这也是为什么RDMA技术逐渐成为AI集群网络的标配。

RDMA：AI训练网络的标配选择

RDMA（Remote Direct Memory Access）的核心价值在于绕过操作系统内核，让网卡直接在应用内存之间搬运数据。带来的好处很直接：

延迟降低：省去内核协议栈的多次拷贝和上下文切换，端到端延迟可以从毫秒级降到微秒级
CPU释放：数据传输由网卡硬件处理，CPU几乎零开销，可以专注做计算和调度
吞吐提升：网卡线速转发，不浪费带宽

在AI训练场景中，常用的RDMA实现是RoCE v2（RDMA over Converged Ethernet），它跑在标准以太网之上，不需要专用的InfiniBand网络，部署成本更低，同时又能获得接近InfiniBand的性能表现。

选择支持RDMA的网卡，是AI训练集群网络规划中性价比最高的一步。

从25G到400G：按集群规模选网卡

不同规模的AI训练集群，对网络带宽的需求差异很大。盲目追求高带宽会造成浪费，而带宽不足则会拖慢训练。下面按三个典型规模来梳理升级路径。

小规模集群（4-8 GPU）：25G起步

4到8张GPU的训练节点，通常跑在单台服务器内，或者两台服务器之间做简单的数据并行。这个规模下，梯度同步的聚合流量一般在10-20Gbps左右。

推荐方案：LRES1026PF-2SFP28 25G双口SFP28网卡

LRES1026PF-2SFP28

速率: 25Gbps 接口: SFP28 端口: 2口 RDMA: RoCE v2

这张卡支持RDMA RoCE v2，双口设计可以提供50Gbps的聚合带宽，留有充足的冗余空间。SFP28接口兼容主流的25G DAC线缆和光模块，部署简单。对于入门级AI训练集群或者高校实验室环境，25G方案在性能和成本之间取得了不错的平衡。

中规模集群（16-64 GPU）：100G是甜点

当GPU数量扩展到16张以上，跨节点通信量急剧增加。特别是跑Transformer类大模型时，模型并行带来的All-to-All通信模式对网络带宽要求很高。这个阶段，25G已经捉襟见肘，100G是当前的主流选择。

推荐方案：LRES1014PF-2QSFP28 100G双口QSFP28网卡

LRES1014PF-2QSFP28

速率: 100Gbps 接口: QSFP28 端口: 2口主控: Intel E810 RDMA: 支持

基于Intel E810主控，支持RDMA，双口100G设计提供200Gbps总带宽。QSFP28接口的生态非常成熟，可选的DAC线缆、光模块和分支线缆（如 breakout to 4x25G）种类丰富，网络拓扑灵活。对于中型AI训练集群，100G方案是当前性价比最高的选择。

大规模集群（128+ GPU）：200G/400G面向未来

128张GPU以上的集群，通常用于大语言模型预训练或者大规模多模态训练。节点间通信量巨大，对网络的带宽和延迟要求都到了极致。这个阶段需要200G甚至400G的网络方案。

200G推荐方案：

LRES1080PF-2QSFP56 — 200G双口QSFP56，基于Intel E830，支持RDMA，适合新建的高性能训练集群
SP226D — 200G QSFP56，基于华为Hi1822主控，原生支持RDMA，在国产化场景中有明显优势

LRES1080PF-2QSFP56

速率: 200Gbps 接口: QSFP56 端口: 2口主控: Intel E830 RDMA: 支持

SP226D

速率: 200Gbps 接口: QSFP56 主控: 华为Hi1822 RDMA: 原生支持

400G推荐方案：

LRES1260PF-QSFP112 — 400G单口QSFP112，面向下一代AI训练集群的旗舰级方案，单端口即可满足超高带宽需求

LRES1260PF-QSFP112

速率: 400Gbps 接口: QSFP112 端口: 1口

400G方案目前主要面向头部AI实验室和大规模预训练场景。如果你的集群规模还在增长通道中，提前部署400G网卡可以减少后续升级的网络改造成本。

选型速查表

集群规模	GPU数量	推荐带宽	推荐产品	接口类型
入门级	4-8卡	25G	LRES1026PF-2SFP28	SFP28
主流级	16-64卡	100G	LRES1014PF-2QSFP28	QSFP28
高性能	64-128卡	200G	LRES1080PF-2QSFP56 / SP226D	QSFP56
旗舰级	128+卡	400G	LRES1260PF-QSFP112	QSFP112

部署建议

选对了网卡只是第一步，部署时还有几个容易踩的坑：

交换机匹配：网卡速率要和交换机端口速率一致，或者做好降速兼容。25G网卡接100G交换机端口没问题，但400G网卡接100G端口就需要确认是否支持breakout模式。

RDMA网络配置：RoCE v2需要交换机开启PFC（Priority Flow Control）或ECN（Explicit Congestion Notification）来做无损以太网配置。不开启的话，RDMA性能会大打折扣，甚至不如普通TCP。

多网卡绑定：对于高可用需求，可以用Linux bonding或team驱动将多张网卡绑定，实现负载均衡和故障切换。但注意bonding模式的选择——Mode 4（802.3ad LACP）是最常用的方案。

NUMA亲和性：多路CPU服务器上，网卡和GPU的NUMA节点归属要规划好。把网卡中断绑定到与GPU同一NUMA节点的CPU上，可以减少跨NUMA的内存访问延迟。

Q1：AI训练必须用RDMA网卡吗？普通以太网不行？

小规模（2-4 GPU）的入门训练，普通TCP以太网也能跑。但一旦上了分布式训练，RDMA的优势就很明显了——延迟降低一个数量级，CPU占用接近零。如果你的集群规模在持续扩大，RDMA网卡是值得投入的基础设施。

Q2：25G网卡和100G网卡能用同一套交换机吗？

可以。大多数数据中心交换机支持多速率端口，或者通过breakout线缆实现速率转换。比如100G端口可以拆分为4个25G端口。但规划时注意，不同速率混用会增加布线复杂度，建议同一层级尽量统一速率。

Q3：QSFP28和QSFP56接口有什么区别？

QSFP28是100G接口标准，每个通道25G，共4通道。QSFP56是200G/400G接口标准，每个通道50G，共4通道。两者物理接口相似但电气规格不同，不能直接互用。不过部分QSFP56端口可以向下兼容QSFP28模块，具体需要看交换机和网卡的支持情况。

Q4：国产网卡在AI训练场景中表现如何？

以华为Hi1822主控的 SP226D 为例，200G QSFP56接口，原生支持RDMA，在实际训练场景中性能表现与同级别方案相当。对于有国产化需求的政企和科研机构，这是一个成熟可用的选择。

Q5：从25G升级到100G，需要更换整套网络吗？

不一定。如果交换机支持多速率或者有100G上行端口，可以只更换网卡和对应的光模块/线缆。建议升级前先做一次网络流量分析，确认瓶颈确实在网卡带宽而非交换机背板或链路聚合配置上。

上一篇万兆网卡选购避坑指南从芯片到接口全面解析

下一篇信创服务器网卡采购指南国产芯片方案全梳理

Server行业解决方案

PC行业解决方案

IPC行业解决方案

SSD测试行业

客户服务

新闻资讯

招贤纳士

关于联瑞

新闻中心

最新发布