单机 T 级流量转发吞吐提升 5 倍，可编程负载均衡网关 1.0 上线

作者：百度智能云开发者中心2023.05.16 14:25浏览量：3274

简介：负载均衡网关是云计算网络的一个关键基础设施，为云计算各应用业务提供高性能的转发功能。

1. 背景

负载均衡网关是云计算网络的一个关键基础设施，为云计算各应用业务提供高性能的转发功能。

目前云计算网关普遍是基于 X86 CPU + DPDK 通用服务器平台的形态实现。百度智能云自研的 BGW（BaiduGateWay）四层负载均衡网关 2012 年开始使用，从最初的单机 10Gbps 吞吐演进到目前单机 200Gbps，是一种云计算网络中用量最多的网关。

随着百度智能云业务的发展，对负载均衡网关提出了新的需求与挑战：

单核计算能力受限。为了防止报文乱序，需要同一条业务流调度到同一个网关的同一个 CPU 核上处理。由于 CPU 单核能力已基本停止提升，因此单流的极限吞吐能力发展缓慢。如今，即使采用最新的 CPU，单流的实际吞吐能力也仅能做到 10-20Gbps，而这一数据也只是理想情况下的最优结果。

如果两个或更多的大流量被同时调度到同一个 CPU 核上，由于处理能力的限制，那么会因争抢 CPU 引起相互影响而降低业务整体吞吐量；更坏情况下，该 CPU 核上处理的其他流量也会受到影响，可能导致概率性的丢包。
时延不稳定。使用 CPU 软件处理相对于硬件转发而言，通常有较高的时延。在软件网关上，一个报文的处理流程要经过以下步骤：从网卡接收开始，经过 PCIe 送到 CPU 上的 DPDK 驱动，然后网关软件再做业务逻辑处理，之后提交给 DPDK 驱动，最后经过 PCIe 下发到网卡上再发送出去。

从实测结果来看，当前百度智能云的软件网关在一般负载水平下的报文平均处理时延通常在 30-50us，转发负载较高时 100us 以上的长尾时延也很常见，极端情况甚至会出现 ms 级的时延。另外时延波动和 CPU 缓存的实际命中情况密切相关，难以预期。较大时延波动尺度对于跨机房或跨地域的通信一般没什么实质影响，但是对于强依赖同机房内低时延的业务来说访问的影响却较大。
大带宽场景的 TCO（Total Cost of Ownership）较高。尽管 CPU 的核数在不断提升，但是在网关这种重 I/O 吞吐的业务上，软件处理报文的能力并不能随着 CPU 核数线性提升。例如，使用 64 物理核的 AMD Milan 服务器上运行 BGW，当 32 核以上增加 CPU 核数，对整体吞吐则没有明显的增加。这一现象和当前 CPU 的微架构（尤其是 L3 缓存）强相关。

实际上当前软件网关通常可承诺的带宽规格大致上是 100-200G（如果只考虑大包也能做到 400G）。如果需要一个网关的集群支撑 10T 带宽，那么即使在不考虑冗余的情况下，也需要部署 50-100 台服务器。

综上所述，基于 X86 CPU 通用服务器的软件网关，随业务量的增加和深度使用单网关性能将无法进一步满足需求，吞吐性能提升困难，同时无法解决高负载时延时大幅增加、易抖动，大流量时打满 CPU 造成丢包等问题。

2. 解决方案

为了应对不断发展的业务需求，百度智能云打造了第三代可编程网关平台 — UNP（Universal Networking Platform）。UNP 平台将 X86 CPU、可编程交换芯片、FPGA 加速卡融合在一起，形成一个可扩展的异构融合网关平台。相比 X86 软件网关平台该 UNP 具备如下优势：