近日,2023第六届SD-WAN & SASE大会暨云网络大会在北京顺利召开。移动云云网产品部副总经理姚军受邀分享题为“开放云网络之高性能网关”的演讲,并正式发布了《开放云网络之高性能网关技术白皮书》。
云网络在发展早期主要使用厂商硬件设备方案支撑相关网关业务发展,但随着云网络业务快速发展,上述方案逐渐暴露出一些问题,如设备的采购与维护成本高昂,设备的规格和特性无法快速升级迭代,已严重制约云网络可持续发展。由此,云网络网关开始往NFV网关技术方向演进,目前已经过NFV 1.0、NFV2.0、NFV3.0三轮迭代演进。移动云的NFV网关也完整地经历了以下三个发展阶段。
可编程芯片Tofino芯片的出现,为克服NFV形态网关的性能和成本局限性带来希望,一些云厂商考虑采用可编程芯片Tofino实现高性能SDN网关。
单个Tofino芯片就可以提供12.8Tbps的转发性能,相当于几十台的x86服务器的性能,且由于单个流水线转发吞吐极大,流量突发或汇聚产生的网关打爆导致丢包现象将很少出现。
针对云网络不同的应用场景,移动云已经自主研发了包括公网网关、专线网关、对等连接网关等8款可编程硬件网关产品。上述产品均基于统一的SONIC开源网络操作系统+Tofino可编程芯片白盒交换机。
但是当前Tofino芯片的片上内存容量(即SRAM、TCAM)相对较小,且无法在流水线的不同Stage之间共享,无法满足大规模云网络对数以百万计的VPC路由容量需求。为此,一些云厂商引入多级存储转发架构的超融合硬件网关,超融合硬件网关也称作Server Switch,其包含了Tofino、x86 CPU甚至FPGA等硬件资源,用FPGA甚至CPU作为可编程交换机中可编程交换芯片有限片上内存资源的补充,可编程芯片没有流表命中的流量将转到FPGA甚至CPU处理。但超融合硬件网关同样存在系统架构相对复杂、产品定制化程度高以及开发和维护技术门槛较高的问题。
当前业界针对高性能SDN网关实现的技术路线,通常采用将有状态网关和无状态网关功能耦合的超融合网关设计思路,这类超融合网关不仅需要维护大量的路由表项,也需要维护会话创建的会话连接表项。但是,有状态网关和无状态网关的主要功能诉求不同,有状态网关和无状态网关紧耦合的超融合网关实现导致SDN系统的可扩展性差,要么是(NFV形态网关)转发性能不足,要么是(多芯片硬件网关)系统架构复杂。
有状态网关(如NAT网关, SLB负载均衡网关)的核心诉求是超大规模新建会话(如百万级别)和并发会话(如千万甚至上亿级别)处理能力,对网络转发逻辑的灵活性要求较高(如会话状态跟踪、会话限速),部分场景也存在高吞吐需求。
基于此,有状态网关的最佳技术路线是采用NFV形态设备,通过扩展主机内存和增加CPU核数来解决大规模新建和并发会话处理需求,并通过DPU/IPU卡所具备的超大流表缓存能力,按需将流表信息加载到DPU/IPU以便进行硬件卸载,即将有数据转发需求的流表条目卸载到IPU/DPU的转发加速引擎,以此提升数据包转发性能。服务器是通用设备,DPU/IPU通过标准的PCIE接口插槽加入服务器,整体系统开放解耦程度较高,可以实现快速迭代。
无状态网关(如公网网关、专线网关)的核心诉求是高吞吐能力(如Tbps级别线速转发能力)以及超大规模硬件表项规格能力(如10K以上的VRF规格,10K以上的隧道规格,M以上甚至10M以上主机路由表项规格)。
因此,无状态网关的最佳技术路线是采用具有超大规模硬件表资源且高吞吐的新一代可编程交换芯片实现上述两个核心诉求。由此带来的好处是系统架构简单,不存在多个转发逻辑单元(比如交换芯片即ASIC和FPGA)之间的协同,产品开发维护技术门槛较低。
通过将网关功能解耦之后各自采用最佳技术实现路线实现高性能网关,可以实现更加开放的软硬件架构,可采用更加通用的硬件平台和组件,同时极大降低开发维护技术门槛。
移动云在开放云网络领域和网关技术方面,始终坚持创新和探索,不断提升云网络的性能、稳定性和安全性,为客户提供更加优质的云服务。未来,移动云将继续秉承“开放、合作、共赢”的理念,与合作伙伴共同推动云网络的发展,为构建智慧社会贡献更多力量。
原文链接:https://baijiahao.baidu.com/s?id=1784498294529274831&wfr=spider&for=pc