欢迎光临深圳市联瑞电子有限公司官网!
全国服务热线 : 4000-588-108 | 网站地图 | English 京东店铺 淘宝店铺1688店铺天猫店铺 关注LR-LINK官方微博
LR-LINK联瑞电子官网
[返回上一页]您现在的位置:首页 > 新闻中心 > 基础科普
基础科普

技术详解 什么是iWARP?RDMA三大传输协议深度对比:iWARP vs RoCEv2 vs InfiniBand

2026-06-10 基础科普iWARP,RDMA网卡,2.5G网卡,万兆网卡,TOE硬件卸载,TCP/IP卸载,NAS用什么网卡,软路由网卡推荐,Intel网卡替代方案,RoCEv2对比,iWARP vs RoCE,广域网RDMA方案 浏览: 9
什么是iWARP?RDMA三大传输协议深度对比
技术详解

什么是iWARP?RDMA三大传输协议深度对比:iWARP vs RoCEv2 vs InfiniBand

导读

RDMA(Remote Direct Memory Access,远程直接内存访问)技术通过绕过操作系统内核,实现跨节点的内存直接读写,显著降低通信延迟、减少CPU占用。当前RDMA有三种实现方式:InfiniBand、RoCE(基于以太网)和iWARP(基于TCP/IP)。其中iWARP常被忽视,但其"天然适配有损以太网"的特性在特定场景下具有独特价值。本文系统梳理三种协议的技术原理与差异,帮助您在AI训练、存储互联、分布式计算等场景中做出正确的RDMA网卡选型决策。

RDMA三大传输协议概述

RDMA的核心价值在于:发送方可以直接将数据写入接收方的内存缓冲区,无需接收方CPU参与,从而实现微秒级延迟和接近零CPU占用的高性能通信。然而,"RDMA"并非一个单一技术标准,而是一个能力描述,其具体实现在传输层存在三条技术路线:

InfiniBand(IB):由IBTA组织制定的专有高速互联技术,从物理层到传输层均为独立标准,与以太网完全隔离。InfiniBand提供无损网络保障(基于基于信用的流控),延迟最低,通常在AI超算集群中作为首选,但需要专用交换机(如NVIDIA Quantum系列),部署成本最高。

RoCE(RDMA over Converged Ethernet):将RDMA语义运行在以太网之上的技术标准,分为RoCEv1(基于以太帧,不可路由)和RoCEv2(基于UDP/IP,可路由)。RoCEv2复用标准以太网交换机基础设施,但需要配置PFC(优先级流控)和ECN(显式拥塞通知)来构建无损以太网,是目前AI训练集群的主流选择。

iWARP(Internet Wide Area RDMA Protocol):将RDMA语义运行在标准TCP/IP协议栈之上的技术,由IETF制定。由于TCP本身已提供可靠、有序的数据传输,iWARP天然支持在有损以太网(甚至广域网WAN)上运行,无需PFC等特殊网络配置,但TCP协议的开销也带来了相比InfiniBand和RoCEv2更高的延迟和CPU负载。iWARP的实现依赖于硬件TCP卸载引擎(TOE,TCP Offload Engine),必须通过专用RDMA网卡(如早期Chelsio T-Series、Marvel FastLinQ系列)实现。

RDMA高速网卡硬件
▲ 支持RDMA的高速网络适配器

iWARP技术原理深解

iWARP协议栈由三层协议叠加构成,每一层均有明确的IETF RFC定义:

  • RDMAP(RFC 5040):RDMA协议层,定义RDMA语义(Send/Recv, Read, Write操作)及其与下层协议的接口。
  • DDP(Direct Data Placement,RFC 5041):直接数据放置层,负责将数据直接放置到内存目标地址,避免数据拷贝。DDP基于MPA分片进行传输,每个DDP Segment对应一个MPA帧。
  • MPA(Marker PDU Alignment,RFC 5044):标记PDU对齐层,运行于TCP之上,负责将DDP分段封装为可通过TCP字节流传输的帧,并通过Marker机制实现在TCP重传恢复后的边界对齐。

iWARP的关键实现挑战在于硬件TCP卸载引擎(TOE)。由于iWARP需要在硬件中实现完整的TCP/IP协议栈处理(包括三次握手、重传、流控、拥塞控制等),以避免CPU参与TCP处理导致延迟增加,这要求网卡芯片内置专用的TOE硬件单元。TOE的实现复杂度远高于RoCEv2的UDP卸载,这也是iWARP网卡种类相对较少、成本较高的根本原因之一。

从延迟角度看,iWARP的硬件TOE实现可以将单向延迟控制在2~5μs(微秒)范围内,虽高于InfiniBand的<1μs和RoCEv2的1~2μs,但在数据中心WAN场景(延迟本身就在毫秒级)中,这一差异可以忽略不计。

iWARP vs RoCEv2 vs InfiniBand 核心对比

对比维度 InfiniBand RoCEv2 iWARP
底层传输协议 IB 专有协议 UDP/IP/Ethernet TCP/IP/Ethernet
典型单向延迟 <1 μs 1~2 μs 2~5 μs
最大吞吐(单卡) 400Gbps (NDR) 400Gbps 25/100Gbps
无损网络要求 内置,信用流控 需配置PFC+ECN 无需(TCP自带)
交换机要求 专用IB交换机 支持PFC/ECN的以太网交换机 标准以太网交换机
广域网(WAN)支持 不支持 有限支持 原生支持
部署复杂度 高(独立网络) 中(需无损配置) 低(标准IP网络)
成本
典型场景 AI超算集群、HPC AI训练/推理、NVMe-oF、存储 WAN RDMA、异构存储网络

三种RDMA协议栈架构对比图

RDMA 三大传输协议栈对比 InfiniBand RoCEv2 iWARP 应用层 RDMA Verbs API(共同接口) RDMA Transport (IB RC/UC/UD) InfiniBand Network Layer InfiniBand Link Layer IB Physical (专用光/铜缆) RDMA Transport (RC/UC/UD) UDP / IP(GRH over UDP) Ethernet (需 PFC + ECN) 标准以太网光/铜缆 RDMAP(RFC 5040) DDP(RFC 5041) MPA / TCP(硬件TOE卸载) 标准以太网 (有损/无损均可) 专用物理网络 延迟最低,成本最高 需无损以太网(PFC+ECN) 主流AI训练方案 标准IP网络,无需特殊配置 天然支持有损网络 / WAN
▲ RDMA三种实现方式协议栈层次对比(iWARP基于TCP,原生兼容有损网络)

iWARP的优势与劣势

核心优势:

  • 天然支持有损以太网:TCP本身具备可靠传输机制,丢包时由硬件TOE自动重传,无需部署PFC(优先级流控)。这意味着iWARP可以在未经特殊配置的标准以太网交换机上直接运行RDMA业务,大幅简化网络运维。
  • 广域网(WAN)RDMA能力:由于基于标准TCP/IP,iWARP数据可以跨路由器、跨数据中心传输,是目前唯一能够在WAN上实现RDMA语义的主流方案。对于需要跨园区或跨数据中心存储复制的场景,iWARP具有独特价值。
  • 与现有IP基础设施完全兼容:无需升级交换机固件,无需配置PFC域,运维人员无需掌握RDMA网络运维技能,降低了IT团队的学习成本。
  • 防火墙穿透能力:基于TCP端口的流量可以通过防火墙和NAT设备,这是基于UDP的RoCEv2所无法实现的。

主要劣势:

  • 延迟高于RoCEv2:TCP的三次握手、ACK机制和拥塞控制算法引入了额外的延迟开销,在同等硬件条件下,iWARP的单向延迟通常比RoCEv2高50%~200%。对于延迟敏感的AI训练AllReduce操作,这一差异会显著影响训练速度。
  • 芯片实现复杂,产品选择少:硬件TOE的实现复杂度使支持iWARP的网卡产品种类有限,主要集中在低速端口(25G/100G),400G iWARP产品极为稀少,限制了其在高性能计算场景的应用。
  • 连接建立开销大:每个iWARP RDMA连接需要先建立TCP连接,在大规模集群(如数千节点的AI集群)中,节点间的All-to-All连接建立需要消耗大量资源。

RoCEv2为何成为AI时代主流方案

随着大规模AI训练集群(数百至数千GPU节点)的兴起,RDMA的性能需求被推向极限,RoCEv2凭借以下优势成为当前业界首选:

  • 更低延迟满足AllReduce要求:分布式训练的AllReduce集合通信对延迟极为敏感,RoCEv2 1~2μs的延迟使千卡集群的同步效率显著优于iWARP。
  • PFC+ECN技术成熟:主流数据中心交换机(Cisco Nexus、Arista、华为CloudEngine等)均支持PFC和ECN配置,无损以太网的部署已相当成熟,运维体系完善。
  • Mellanox/NVIDIA生态主导:ConnectX系列网卡(CX5/CX6/CX7)对RoCEv2的支持极为完善,配合NVIDIA UFM网络管理软件,提供了一套完整的AI集群网络解决方案。
  • 成本优势:复用标准以太网基础设施,相比InfiniBand节省专用交换机成本30%~50%。
AI数据中心网络
▲ 基于RoCEv2的大规模AI训练集群网络

什么场景应该选择iWARP?

尽管RoCEv2在AI训练场景中占据主导,但iWARP在以下特定场景中仍有不可替代的价值:

  • 跨数据中心或WAN的RDMA存储复制:当两个数据中心之间需要通过RDMA协议同步复制NVMe-oF存储数据,且WAN链路不支持PFC时,iWARP是唯一可用的RDMA方案。典型应用包括金融双活数据中心的数据同步。
  • 无法改造现有网络基础设施的环境:部分企业的遗留网络交换机不支持PFC配置,或网络运维团队无力进行无损以太网配置,此时iWARP可以在不改造网络的前提下获得RDMA加速能力。
  • 存储网络(iSER/NVMe-oF over iWARP):对于不要求最低延迟,但希望降低CPU开销的NVMe-oF存储访问场景,iWARP提供了在标准IP网络上运行NVMe-oF的能力。
  • 云原生和容器化RDMA场景:在Kubernetes/OpenStack混合云环境中,东西向流量跨越多个网络域,PFC的无损保障难以在整个路径上维持,iWARP的TCP传输优势更加凸显。

联瑞电子RDMA产品推荐(支持RoCEv2)

联瑞电子提供完整的RDMA网卡产品线,覆盖25G至400G各速率段,全部支持RoCEv2 RDMA:

25G RoCEv2

LRES1021PF-2SFP28

  • 接口:PCIe 4.0 x8
  • 端口:双口 SFP28 25G
  • 芯片:Intel E810
  • RDMA:RoCEv2 / DPDK
适用场景:存储集群、小规模AI推理、NVMe-oF
100G RoCEv2

LRES1014PF-2QSFP28

  • 接口:PCIe 4.0 x16
  • 端口:双口 QSFP28 100G
  • 芯片:Intel E810
  • RDMA:RoCEv2 / SR-IOV / DPDK
适用场景:AI推理集群互联、分布式存储NVMe-oF
400G RoCEv2

LRES1260PF-2QSFP112

  • 接口:PCIe 5.0 x16
  • 端口:双口 QSFP112 (2×200G)
  • 芯片:高性能RDMA控制器
  • RDMA:RoCEv2 / RDMA over PCIe / DPDK
适用场景:大规模AI训练集群、GPU超算节点互联

常见问题 FAQ

Q:我的网络交换机不支持PFC,能否使用RoCEv2?
A:在没有PFC的有损网络中使用RoCEv2会遇到丢包触发严重性能下降(称为"RDMA性能悬崖"),通常不推荐。此时有两个选择:一是升级交换机并配置PFC+ECN构建无损以太网;二是改用iWARP,天然兼容有损网络,无需任何交换机配置变更。
Q:同一台服务器能否同时使用RoCEv2和iWARP?
A:可以。RoCEv2和iWARP网卡可以同时安装在同一台服务器上,通过不同的网口分别处理局域网内的高性能训练流量(RoCEv2)和跨数据中心的存储复制流量(iWARP)。上层RDMA应用通过标准RDMA Verbs API访问,通过rdma_cm选择不同的设备。
Q:联瑞电子的RoCEv2网卡是否支持NVMe-oF协议?
A:是的。LRES1021PF-2SFP28、LRES1014PF-2QSFP28和LRES1260PF-2QSFP112均支持NVMe-oF over RoCEv2(NVMe/RDMA)协议,Linux内核4.9+已原生支持NVMe-oF initiator,配合nvme-cli工具可快速挂载远端NVMe存储,实现微秒级存储访问延迟。
需要专业选型建议?
联瑞电子技术团队提供一对一选型咨询,助您找到最优方案
立即咨询 →
粤ICP备18078389号      Copyright © All Rights Reserved. 深圳市联瑞电子有限公司 版权所有
网安备案标识

粤公网安备 44030602003563号

产品咨询
关注官方微信
技术支持
关注官方微信
客服电话服务电话

服务热线:
4000-588-108