传统的Chassis交换机已经成为DCN架构未来持续快速演进的阻碍,单芯片Box交换机是否能一统天下?
背景
数据中心网络作为互联网业务快速持续发展的重要基础设施,已经从大家熟知的千兆网络到万兆网络,再到今天已经规模部署的25G/100G网络,网络性能的快速提升,满足了业务对带宽的迫切需求。那么既然已经是25G/100G网络了,为什么还要谈所谓的“下一代25G/100G数据中心网络”呢,这个“下一代”难道只是一个噱头?
今天的数据中心网络到底遇到了什么挑战?
业务的“不确定性”对数据中心网络技术的演进提出严峻挑战。
大家都熟悉业务发展驱动了技术的不断进步。但是从业务本身特点看,会发现业务是很难被看清,体现出很多的“不确定性”,包括业务内容的不确定性、业务技术的不确定性以及业务部署的不确定性。从基础网络的角度去看业务,其实是很难看得懂,也很难跟得上,这就对传统被动演进的数据中心网络提出了巨大的挑战。
面对这些”不确定性”,我们的网络到底应该如何做?如果还是被动地跟随、演进,在时间和架构成熟度上很难保障,所以网络架构设计必须寻找一个“确定性”的策略主动应对这些业务的“不确定性”,具体体现在以下几点:
网络性能的持续提升,提供更高的转发性能,包括服务器接入带宽和上行带宽,以及更低的网络收敛;同时基于RDMA技术的超低延时转发也是性能提升的重要方面;
网络稳定性的持续提升,特别是在高带宽下,网络稳定性更加重要,任何单点故障都会带来巨大的损失。除了网络本身组网的高可靠,还需要进一步提升运维能力,实现简单、标准、统一组网;
持续提高单集群服务器规模,降低每服务器的网络建设成本。建议单集群可以支撑10万台服务器,核心在于实现流量的大集中,大大减少DCI的链路成本,提供更高性能的转发能力和更低的转发时延;
所以总结来看,未来网络的架构演进,面对业务的各种“不确定性”,必须在网络性能、稳定性、网络规模上持续、快速迭代,走在业务的前面,摆脱网络层面的被动局面后,才能有更多精力和能力去探索、研究更加有价值的、贴近业务的技术研究和创新。
正基于此,25G/100G数据中心网络已经成为当前主流的网络形态。
▲ 图 1-1 传统25G/100G数据中心网络架构
如上图所示,传统25 G/100G数据中心网络可以实现服务器25G或100G接入,通过三级组网可以实现大规模组网,单集群服务器规模可以超过5万台。基于T1+T2组合的Server-Pod可以像搭积木一样灵活地横向扩展,按需建设,整体看起来似乎已经很完美,如果不考虑未来带宽升级400G/800G,这个架构还有必要再去折腾吗?
为什么25G/100G数据中心网络还需要迭代升级?
传统25G/100G数据中心网络之所以还需要进一步演进的关键就在于图 1-1 中T3设备。
传统大型10G及25G/100G数据中心网络中,T3层次的设备类型是多采用了多槽架构的框式交换机,即Chassis。虽然Chassis在以往的数据中心及MAN(Metropolitan Area Network,城域网)中可以很好地服务业务,但是对于未来网络架构持续快速演进、追求更大规模、更低成本、更快交付等层面,Chassis已经成为我们的障碍。
▲ 图 2-1 Chassis交换机
Chassis交换机多芯片结构消耗更多的转发时延
Chassis交换机采用的是多芯片的设计,在接口板卡和Fabric板卡上大多采用多个交换机芯片组合,实现更高性能和更高端口密度,如下图:
▲ 图 2-2 36个100G接口线卡
但是这种多芯片的结构会消耗更多的转发时延,如下图 2-3 所示:
▲ 图 2-3 Chassis多芯片内部转发示意图
在上面的示意图中有两条流,无论是跨板卡转发还是同一个板卡的两个端口转发,在Chassis交换机内部至少有三跳,理论产生的时延在10us左右。10us看似很小,但是业务是有感知的,因为基于RDMA的超低延时转发业务,优化过的端到端延时是1us,所以多芯片结构消耗的延时很重要。
Chassis交换机阻碍每服务器组网成本的持续降低
基于传统Chassis交换机组网时,相比单芯片Box交换机,每服务器的组网成本差异比较大,特别是在单集群服务器规模较小的情况。
▲ 图 2-4 Chassis交换机和单芯片 Box交换机的每服务器组网成本分析
(蓝色实线代表Chassis交换机,红色实线代表单芯片Box交换机)
图 2-4是模拟计算在不同规模的服务器组网下,采用Chassis交换机(576个100G接口)和单芯片Box交换机(128个100G接口)的每服务器组网成本差异,这里包括交换机、线缆等组件,进行归一化的处理,方便直观看到差异。
大家会发现,在单集群服务器规模2万台以下时,两种交换机组网思路的每服务器成本差异很大,即使到了单集群10万台服务器规模,两者的每服务器组网成本仍然有20%以上的差异。
备注1:模拟计算按照1台Chassis交换机对标4台单芯片Box交换机,保证总端口数相等,这种比较模型也有一定的假设,4台单芯片Box交换机对标1台Chassis交换机时不需要通过独立的Fabric互联形成一个整体。
另外,Chassis交换机组网带来的间接成本高,且无法支撑未来持续迭代。
首当其冲的是Chassis交换机的高功耗阻碍基础网络的快速交付,且无法持续支撑。因为Chassis交换机多板卡、多芯片的特性,随着接口速率及接口密度的升级,整机的功耗逐渐上升,整机576个100G接口的Chassis交换机(16槽)典型功耗已经达到20kW左右,如果再升级到全400G接口,整机的功耗预计达到50kW,这会导致机房的供电线路改造工作十分复杂,周期也非常长,甚至根本无法改造,这就严重影响业务对基础网络快速交付的要求,这就带来时间成本、物料成本的大量支出。Chassis交换机的大功耗,还带来散热的问题,需要特殊设计,这也涉及成本的增加。
Chassis交换机体积更大,当前16槽位36口100G交换机高度最低可以做到21U,但是16槽位36口400G交换机高度超过30U,需要占用更多的机柜空间,也是成本问题;
另外,因为Chassis芯片的特殊性及产品结构复杂性,对于架构同学和运维同学来讲,需要考虑的更加全面,自动化运维平台可能也需要做特殊的考虑,大大增加技术学习成本和运维成本,不利于网络简单、稳定、可靠的设计目标。
Chassis交换机阻碍网络架构持续快速迭代
Chassis交换机因为所采用芯片的特殊性、产品开发设计的高难度等问题,导致Chassis交换机自身更新迭代速率相对Box交换机慢,成为整网架构演进速度的短板。
Chassis交换机芯片与Box交换机芯片因为技术体系差异导致芯片迭代不同步。Chassis交换机通常采用专用的芯片,提供大容量的缓存及信元切片等特性,可以提供更强大的QoS能力,相比Box交换机采用的芯片,Chassis交换机采用的芯片架构、技术更加复杂,也就导致芯片的转发性能、功能特性迭代的周期长。而Box级交换机芯片技术相比简单,虽然不提供大缓存等能力,但是其转发性能、功能特性迭代更快,更加轻量级,几乎每1~1.5年可以升级一代。当Chassis交换机与Box交换机混合组网时,可能会出现性能及特性的不匹配,导致类似INT等新特性无法整网统一部署,造成一定程度的资源浪费。
Chassis交换机与Box交换机因为芯片差异及结构差异导致整机产品开发周期不同步。Chassis交换机一般由主控板、接口板、交换板等多个关键组件组成,整机多板卡+每板卡多芯片,很多功能需要依托集中式计算+分布式处理,同时需要实现跨板卡、跨芯片的表项同步等,导致Chassis产品的商业化开发难度和周期相比单芯片Box交换机要复杂N个量级,所以产品开发周期也非常长,这就会严重影响整体组网架构的迭代速度。