凌晨 9:29:59.997,某券商自营交易团队的监控系统上,一笔套利订单因为网络抖动多跑了 12 微秒,被对手盘抢先 0.3 个价位成交。一笔单子,几十万的利润窗口就这样从指缝间溜走。
这不是段子,而是高频交易(HFT)团队的日常。在这个赛道里,“快”不是竞争优势——是入场门票。而网络,往往是整个交易链路中最容易被低估、也最有优化空间的环节。
今天这篇文章,我们就来聊聊:在金融低延迟网络架构中,网卡(NIC)到底扮演什么角色,以及怎么选型才能把每一微秒都“抠”出来。
在讨论网卡之前,先搞清楚延迟到底花在了哪里。以一笔典型的行情驱动交易为例,数据包从交易所网关到策略引擎的完整路径大致如下:
1. 物理链路延迟
光信号在光纤中的传播速度约为 2×10⁸ m/s,每公里约 5 微秒。机房内 100 米光纤带来的延迟约 0.5 微秒——这部分基本是“物理定律税”,能优化的空间有限,但机房选址、机柜位置、跳线路径都值得精细规划。
2. 交换机处理延迟
传统三层交换机逐包查表、转发,单跳延迟通常在 1-5 微秒。低延迟交换机(如基于 FPGA 或 ASIC 的 Cut-Through 模式)可以压缩到亚微秒级。这部分优化在近年来已经相对成熟。
3. 终端网络栈延迟——这是网卡的主战场
数据包到达服务器后,要经过中断处理、DMA 拷贝、内核协议栈解析、Socket 缓冲区、最终到达应用层。在标准 Linux 内核路径下,这一整套流程可能消耗 10-50 微秒甚至更多。对于高频交易系统来说,这个数字是不可接受的。
好消息是:通过正确的网卡选型和软件架构优化,终端网络栈延迟可以压缩到 1 微秒以内。关键就在于接下来要讲的几项核心技术。
PTP(Precision Time Protocol,IEEE 1588)是金融网络中实现纳秒级时钟同步的标准协议。超低延迟网卡通过硬件时间戳引擎,在数据包进入 PHY 层时即打上精确时间标记,避免了软件时间戳的不确定性。
对于高频交易场景,PTP 时间戳的意义在于:
选型时重点关注:网卡是否支持 IEEE 1588-2008 的硬件时间戳(而非软件实现)、是否支持 PTP Grandmaster 模式、时间戳分辨率是纳秒还是亚纳秒级。
DPDK(Data Plane Development Kit)的核心思路是“绕过内核”。传统 Linux 网络路径中,每个数据包都要经历中断→内核协议栈→用户空间拷贝,多次上下文切换带来大量开销。DPDK 通过以下机制实现旁路:
实测数据表明,在 10GbE 环境下,DPDK 可以将单包处理延迟从内核路径的 15-25 微秒降低到 1-3 微秒。在 25G/100G 环境下,收益更加显著。
选型时重点关注:网卡芯片是否有成熟的 DPDK PMD 驱动、是否支持多队列 RSS 和 Flow Director 以实现精细的流量分发。
RDMA(Remote Direct Memory Access)允许一台服务器直接读写另一台服务器的内存,完全绕过远端 CPU 和操作系统。在金融场景中,RDMA 的典型应用包括:
RoCEv2(RDMA over Converged Ethernet v2)基于 UDP/IP 封装,可跨三层路由,是目前金融数据中心的主流选择。
选型时重点关注:网卡是否支持 RDMA、支持的 RDMA 类型(RoCEv2 优先)、是否支持 PFC(Priority Flow Control)和 ECN 以实现无损网络。
部分高端网卡集成了 FPGA,允许将自定义逻辑直接部署在网卡上。在金融场景中,FPGA 可以实现:
FPGA 方案的成本和开发门槛较高,通常用于对延迟有极致要求的头部机构。
不同金融子系统对网络的需求差异很大,“一刀切”的选型往往既浪费预算又达不到效果。下面按三个典型场景给出选型思路:
需求特征:极致低延迟(< 2 微秒端到端)、纳秒级时间戳、DPDK 用户态驱动、RDMA 零拷贝
推荐方案:
需求特征:高吞吐(百万级 PPS)、组播支持、精确时间戳
推荐方案:
需求特征:稳定可靠、中等延迟要求、与核心交易网络隔离
推荐方案:
以下是联瑞(LR-LINK)针对金融场景的五款推荐网卡,均为在售产品,覆盖从 10G 到 200G 的完整带宽梯度:
RDMA + DPDK 全面支持,100G 带宽兼顾吞吐与延迟。适用:行情分发骨干、分布式交易引擎
PCIe 4.0 x16 满带宽,RDMA + DPDK 支持,4 口实现行情/交易/风控/管理物理隔离。适用:高频交易核心系统首选
RDMA + DPDK 支持,4 口灵活部署。适用:行情分发系统、中大规模交易系统
不是。DPDK 需要网卡提供用户态驱动(PMD),目前 Intel 芯片系列(E810、E830、X710 等)的 DPDK 支持最为成熟。选型时建议先到 DPDK 官网的 NIC 支持列表确认具体型号的驱动状态。联瑞基于 Intel E810/E830 的网卡产品均有完善的 DPDK 适配。
软件时间戳受操作系统调度影响,抖动通常在微秒到毫秒级。硬件时间戳在 PHY 层打标记,精度可达纳秒级,抖动在 100 纳秒以内。对于高频交易来说,这个差距是决定性的——它直接影响行情排序的准确性和策略回测的可信度。
单包处理延迟主要取决于网卡芯片架构和驱动优化,与带宽没有直接线性关系。25G 和 100G 网卡在“单包延迟”上可能差异不大,但 100G 在高并发场景下的排队延迟更低、吞吐余量更大。选型时应根据实际流量模型决定:低并发极致延迟选 25G 即可,高并发场景建议上 100G。
如果交易系统涉及多节点协作(如分布式策略引擎、集中风控),RDMA 的价值非常显著——它可以将节点间通信延迟从 TCP/IP 的 10-30 微秒压缩到 1-2 微秒。但如果只是单机策略引擎,RDMA 的收益有限,不如把精力放在 DPDK 优化上。
建议搭配支持 Cut-Through 转发模式的低延迟交换机,如基于 Broadcom Trident 系列或 Microchip(原 Microsemi)芯片的交换机。交换机端口缓冲区要足够小以避免排队延迟。同时确保交换机也支持 PTP 透明时钟(Transparent Clock)或边界时钟(Boundary Clock),实现端到端的时间同步。
金融低延迟网络优化是一个系统工程,网卡是其中投入产出比最高的环节之一。选对网卡,配合 DPDK、RDMA、PTP 等软件协议,可以把终端网络栈延迟从“几十微秒”压缩到“亚微秒”——这往往是盈利交易和亏损交易之间的分水岭。
选型的核心原则:
如果您正在为金融交易系统选型低延迟网卡,或者需要针对具体场景定制网络方案,欢迎联系联瑞技术团队——我们在金融低延迟网络领域有丰富的落地经验,可以提供从选型咨询到部署支持的全流程服务。