新闻中心

基础科普

技术详解什么是iWARP？RDMA三大传输协议深度对比：iWARP vs RoCEv2 vs InfiniBand

2026-06-10 基础科普iWARP,RDMA网卡,2.5G网卡,万兆网卡,TOE硬件卸载,TCP/IP卸载,NAS用什么网卡,软路由网卡推荐,Intel网卡替代方案,RoCEv2对比,iWARP vs RoCE,广域网RDMA方案浏览: 283

技术详解

什么是iWARP？RDMA三大传输协议深度对比：iWARP vs RoCEv2 vs InfiniBand

导读

RDMA（Remote Direct Memory Access，远程直接内存访问）技术通过绕过操作系统内核，实现跨节点的内存直接读写，显著降低通信延迟、减少CPU占用。当前RDMA有三种实现方式：InfiniBand、RoCE（基于以太网）和iWARP（基于TCP/IP）。其中iWARP常被忽视，但其"天然适配有损以太网"的特性在特定场景下具有独特价值。本文系统梳理三种协议的技术原理与差异，帮助您在AI训练、存储互联、分布式计算等场景中做出正确的RDMA网卡选型决策。

RDMA三大传输协议概述

RDMA的核心价值在于：发送方可以直接将数据写入接收方的内存缓冲区，无需接收方CPU参与，从而实现微秒级延迟和接近零CPU占用的高性能通信。然而，"RDMA"并非一个单一技术标准，而是一个能力描述，其具体实现在传输层存在三条技术路线：

InfiniBand（IB）：由IBTA组织制定的专有高速互联技术，从物理层到传输层均为独立标准，与以太网完全隔离。InfiniBand提供无损网络保障（基于基于信用的流控），延迟最低，通常在AI超算集群中作为首选，但需要专用交换机（如NVIDIA Quantum系列），部署成本最高。

RoCE（RDMA over Converged Ethernet）：将RDMA语义运行在以太网之上的技术标准，分为RoCEv1（基于以太帧，不可路由）和RoCEv2（基于UDP/IP，可路由）。RoCEv2复用标准以太网交换机基础设施，但需要配置PFC（优先级流控）和ECN（显式拥塞通知）来构建无损以太网，是目前AI训练集群的主流选择。

iWARP（Internet Wide Area RDMA Protocol）：将RDMA语义运行在标准TCP/IP协议栈之上的技术，由IETF制定。由于TCP本身已提供可靠、有序的数据传输，iWARP天然支持在有损以太网（甚至广域网WAN）上运行，无需PFC等特殊网络配置，但TCP协议的开销也带来了相比InfiniBand和RoCEv2更高的延迟和CPU负载。iWARP的实现依赖于硬件TCP卸载引擎（TOE，TCP Offload Engine），必须通过专用RDMA网卡（如早期Chelsio T-Series、Marvel FastLinQ系列）实现。

▲ 支持RDMA的高速网络适配器

iWARP技术原理深解

iWARP协议栈由三层协议叠加构成，每一层均有明确的IETF RFC定义：

RDMAP（RFC 5040）：RDMA协议层，定义RDMA语义（Send/Recv, Read, Write操作）及其与下层协议的接口。
DDP（Direct Data Placement，RFC 5041）：直接数据放置层，负责将数据直接放置到内存目标地址，避免数据拷贝。DDP基于MPA分片进行传输，每个DDP Segment对应一个MPA帧。
MPA（Marker PDU Alignment，RFC 5044）：标记PDU对齐层，运行于TCP之上，负责将DDP分段封装为可通过TCP字节流传输的帧，并通过Marker机制实现在TCP重传恢复后的边界对齐。

iWARP的关键实现挑战在于硬件TCP卸载引擎（TOE）。由于iWARP需要在硬件中实现完整的TCP/IP协议栈处理（包括三次握手、重传、流控、拥塞控制等），以避免CPU参与TCP处理导致延迟增加，这要求网卡芯片内置专用的TOE硬件单元。TOE的实现复杂度远高于RoCEv2的UDP卸载，这也是iWARP网卡种类相对较少、成本较高的根本原因之一。

从延迟角度看，iWARP的硬件TOE实现可以将单向延迟控制在2~5μs（微秒）范围内，虽高于InfiniBand的<1μs和RoCEv2的1~2μs，但在数据中心WAN场景（延迟本身就在毫秒级）中，这一差异可以忽略不计。

iWARP vs RoCEv2 vs InfiniBand 核心对比

对比维度	InfiniBand	RoCEv2	iWARP
底层传输协议	IB 专有协议	UDP/IP/Ethernet	TCP/IP/Ethernet
典型单向延迟	<1 μs	1～2 μs	2～5 μs
最大吞吐（单卡）	400Gbps (NDR)	400Gbps	25/100Gbps
无损网络要求	内置，信用流控	需配置PFC+ECN	无需（TCP自带）
交换机要求	专用IB交换机	支持PFC/ECN的以太网交换机	标准以太网交换机
广域网（WAN）支持	不支持	有限支持	原生支持
部署复杂度	高（独立网络）	中（需无损配置）	低（标准IP网络）
成本	高	中	中
典型场景	AI超算集群、HPC	AI训练/推理、NVMe-oF、存储	WAN RDMA、异构存储网络

三种RDMA协议栈架构对比图

▲ RDMA三种实现方式协议栈层次对比（iWARP基于TCP，原生兼容有损网络）

iWARP的优势与劣势

核心优势：

天然支持有损以太网：TCP本身具备可靠传输机制，丢包时由硬件TOE自动重传，无需部署PFC（优先级流控）。这意味着iWARP可以在未经特殊配置的标准以太网交换机上直接运行RDMA业务，大幅简化网络运维。
广域网（WAN）RDMA能力：由于基于标准TCP/IP，iWARP数据可以跨路由器、跨数据中心传输，是目前唯一能够在WAN上实现RDMA语义的主流方案。对于需要跨园区或跨数据中心存储复制的场景，iWARP具有独特价值。
与现有IP基础设施完全兼容：无需升级交换机固件，无需配置PFC域，运维人员无需掌握RDMA网络运维技能，降低了IT团队的学习成本。
防火墙穿透能力：基于TCP端口的流量可以通过防火墙和NAT设备，这是基于UDP的RoCEv2所无法实现的。

主要劣势：

延迟高于RoCEv2：TCP的三次握手、ACK机制和拥塞控制算法引入了额外的延迟开销，在同等硬件条件下，iWARP的单向延迟通常比RoCEv2高50%~200%。对于延迟敏感的AI训练AllReduce操作，这一差异会显著影响训练速度。
芯片实现复杂，产品选择少：硬件TOE的实现复杂度使支持iWARP的网卡产品种类有限，主要集中在低速端口（25G/100G），400G iWARP产品极为稀少，限制了其在高性能计算场景的应用。
连接建立开销大：每个iWARP RDMA连接需要先建立TCP连接，在大规模集群（如数千节点的AI集群）中，节点间的All-to-All连接建立需要消耗大量资源。

RoCEv2为何成为AI时代主流方案

随着大规模AI训练集群（数百至数千GPU节点）的兴起，RDMA的性能需求被推向极限，RoCEv2凭借以下优势成为当前业界首选：

更低延迟满足AllReduce要求：分布式训练的AllReduce集合通信对延迟极为敏感，RoCEv2 1~2μs的延迟使千卡集群的同步效率显著优于iWARP。
PFC+ECN技术成熟：主流数据中心交换机（Cisco Nexus、Arista、华为CloudEngine等）均支持PFC和ECN配置，无损以太网的部署已相当成熟，运维体系完善。
Mellanox/NVIDIA生态主导：ConnectX系列网卡（CX5/CX6/CX7）对RoCEv2的支持极为完善，配合NVIDIA UFM网络管理软件，提供了一套完整的AI集群网络解决方案。
成本优势：复用标准以太网基础设施，相比InfiniBand节省专用交换机成本30%~50%。

▲ 基于RoCEv2的大规模AI训练集群网络

什么场景应该选择iWARP？

尽管RoCEv2在AI训练场景中占据主导，但iWARP在以下特定场景中仍有不可替代的价值：

跨数据中心或WAN的RDMA存储复制：当两个数据中心之间需要通过RDMA协议同步复制NVMe-oF存储数据，且WAN链路不支持PFC时，iWARP是唯一可用的RDMA方案。典型应用包括金融双活数据中心的数据同步。
无法改造现有网络基础设施的环境：部分企业的遗留网络交换机不支持PFC配置，或网络运维团队无力进行无损以太网配置，此时iWARP可以在不改造网络的前提下获得RDMA加速能力。
存储网络（iSER/NVMe-oF over iWARP）：对于不要求最低延迟，但希望降低CPU开销的NVMe-oF存储访问场景，iWARP提供了在标准IP网络上运行NVMe-oF的能力。
云原生和容器化RDMA场景：在Kubernetes/OpenStack混合云环境中，东西向流量跨越多个网络域，PFC的无损保障难以在整个路径上维持，iWARP的TCP传输优势更加凸显。

联瑞电子RDMA产品推荐（支持RoCEv2）

联瑞电子提供完整的RDMA网卡产品线，覆盖25G至400G各速率段，全部支持RoCEv2 RDMA：

25G RoCEv2

LRES1021PF-2SFP28

接口：PCIe 4.0 x8
端口：双口 SFP28 25G
芯片：Intel E810
RDMA：RoCEv2 / DPDK

适用场景：存储集群、小规模AI推理、NVMe-oF

100G RoCEv2

LRES1014PF-2QSFP28

接口：PCIe 4.0 x16
端口：双口 QSFP28 100G
芯片：Intel E810
RDMA：RoCEv2 / SR-IOV / DPDK

适用场景：AI推理集群互联、分布式存储NVMe-oF

400G RoCEv2

LRES1260PF-2QSFP112

接口：PCIe 5.0 x16
端口：双口 QSFP112 (2×200G)
芯片：高性能RDMA控制器
RDMA：RoCEv2 / RDMA over PCIe / DPDK

适用场景：大规模AI训练集群、GPU超算节点互联

常见问题 FAQ

Q：我的网络交换机不支持PFC，能否使用RoCEv2？

A：在没有PFC的有损网络中使用RoCEv2会遇到丢包触发严重性能下降（称为"RDMA性能悬崖"），通常不推荐。此时有两个选择：一是升级交换机并配置PFC+ECN构建无损以太网；二是改用iWARP，天然兼容有损网络，无需任何交换机配置变更。

Q：同一台服务器能否同时使用RoCEv2和iWARP？

A：可以。RoCEv2和iWARP网卡可以同时安装在同一台服务器上，通过不同的网口分别处理局域网内的高性能训练流量（RoCEv2）和跨数据中心的存储复制流量（iWARP）。上层RDMA应用通过标准RDMA Verbs API访问，通过rdma_cm选择不同的设备。

Q：联瑞电子的RoCEv2网卡是否支持NVMe-oF协议？

A：是的。LRES1021PF-2SFP28、LRES1014PF-2QSFP28和LRES1260PF-2QSFP112均支持NVMe-oF over RoCEv2（NVMe/RDMA）协议，Linux内核4.9+已原生支持NVMe-oF initiator，配合nvme-cli工具可快速挂载远端NVMe存储，实现微秒级存储访问延迟。

需要专业选型建议？

联瑞电子技术团队提供一对一选型咨询，助您找到最优方案

立即咨询 →

上一篇技术指南无损以太网构建指南：PFC、ECN与DCQCN配置实践

下一篇大模型推理加速实践：CXL内存扩展与400G RDMA高速网络协同优化方案