好文档 - 专业文书写作范文服务资料分享网站

技术盛宴丨大型数据中心BGP路由协议规划 - 图文 

天下 分享 时间: 加入收藏 我要投稿 点赞

需要向Spine通告主机路由。 南向路由传递

MAN/DCI至Spine至Leaf,传递整个内网的汇总路由,比如10.0.0.0/8;172.16.0.0/12;192.168.0.0/16。而Leaf至TOR,除了通告内网汇总路由外,还需要通告本Pod的业务网段+管理网段+Loopback(当Leaf上行链路故障时,同POD的流量仍可以匹配明细路由,通过Spine转发)。 值得注意的是

目前TOR层级越来越多地使用了去堆叠技术实现服务器双归(推荐参考技术盛宴的另一篇文章《如何实现数据中心网络架构“去”堆叠》)。在去堆叠场景下,Leaf会从ToR交换机上接收到大量的主机路由(取决于Pod内主机数量,可能是数以万计),Leaf在TOR之间传递主机路由,很可能导致TOR交换机路由容量超限,因此需要在TOR的收方向做策略,过滤掉其他TOR发过来的主机路由。 6、BGP双栈规划

近年来国家大力推动IPv6建设,实际上大型IDC私网地址也面临枯竭。因此在IDC内部署IPv4/IPv6双栈,也是迫在眉睫的需求。

BGP本身支持多协议,可以在同一个BGP进程中支持v4/v6双栈。一般的做法是为BGP v4和v6邻居分别建立BGP会话,但这样相当于增加了一倍的配置和维护工作量。实际上,BGP v4的update消息可以通过v6建立的 TCP连接来发送,反之亦然,即单个连接允许多种协议族的消息通告。

▲ 图5:在IPv6 Session上通告IPv4路由信息

如图5所示,我们提供了一种优化方案:只建立单会话来承载双栈的路由,这样做的好处除了简化配置、节省IP,还为类似BFD for BGP等协议的部署减少了一半的性能消耗。 BGP运维能力规划

除了要考虑BGP基础能力的规划,数据中心对于BGP网络可运维能力也提出了极高的要求。常见的BGP运维能力的设计包括如下几点: 1、使用BFD技术加速BGP网络收敛

虽然IDC网络是以高度冗余来构建的,但网络的可靠性仍受限于网络设备检测出故障,并重新将流量路由到其他的路径的能力(尤其是在光模块或者光纤出现单通的极端情况下)。当下数据中心,故障收敛时间要

求越低越好(云业务要求做到亚秒级)。如前文所述,可以通过修改BGP计时器加速收敛,但这种慢hello机制收敛时间最快也是秒级,还不足以满足要求。

而BFD可以提供毫秒级的检测精度,通过与BGP联动,可以实现BGP路由快速收敛,确保业务连续。在数据中心IDC中推荐开启BFD for BGP的设置,考虑到设备性能,全端口开启时推荐采用300ms*3配置。

以我们的RGOS软件为例,BFD主要配置如下:

2、不间断业务能力-BGP快速切换

BGP路由收敛需要在路由表中删除失效路由,并增加新的路由,同时在芯片转发表中实现对应的增、删。在存在大量路由的情况下,逐条删除并刷新路由表需要一定的时间,收敛时间可能达到数秒甚至数十秒。RGOS软件在路由收敛上提供了优化的手段:支持前缀无关收敛。如图6所示,Leaf 1设备到Spine设备所有EBGP邻居都失效时,Leaf 1会向所有TOR通告去往Spine的 AS不可达。TOR接收到此消息,查找预先分配好的对应的ID索引(依据Spine的AS号及Leaf的Router-ID分配),通告转发表进行下一跳切换,从而实现业务的快速收敛,其收敛速度不再受限于路由条目数。(某大型互联网公司实测12K路由,收敛时间0.7秒)

▲ 图6:BGP前缀无关收敛

3、不间断业务能力-BGP NSR

数据中心的Leaf/Spine设备对可靠性要求比较高,大多数配置了双管理板;对于TOR设备,在堆叠组网场景下,也实现了类似双管理板的效果。主备管理板在发生切换时,由于状态信息的不一致很容易引起协议震荡。

NSR(None-Stop-Routing,不间断路由),是为了实现交换机管理板主备切换时,在协议的重新启动过程中路由不间断而设计的。使能NSR功能后,会打开TCP nss(none-stop-service)服务,开始备份相关邻居以及路由信息到从板。在管理板主备切换过程中,NSR 功能使网络拓扑保持稳定,维持邻居状态和转发表,保障关键业务不中断。

4、不间断业务能力-BGP平滑退出和延迟发布

BGP平滑退出:在CLOS数据中心网络中,在对设备进行隔离升级等类似操作时,使用BGP平滑退出功能可以确保业务不断流或者极少断流。 其实现步骤是:

首先向邻居设备通告优先级最低的路由(local-preference 值为0 或med 值为4294967295),并且会携带知名的gshut community,从而使邻居设备进行路由更新,使其流量预先切换到备份链路或其他等价链路上。

接着再延迟一定时间,确保路由学习完成之后,断开与邻居设备间的BGP 连接。

BGP延迟发布:在设备重启时,可能会存在路由表还未下发到本地的硬件表项,却将路由信息通告给邻

居,从而提前引流导致流量转发异常的情况。为避免此问题,可以设置BGP在整机重启时把发布的路由调整为最低优先级

该能力建议在设备中预配置,以RGOS为例,需配置:

写在最后

规划、建设和运营好数据中心BGP网络,是一件非常不容易的事情,这需要大量的实践经验积累。所幸的是BGP在IDC的应用已经日趋成熟,大型互联网公司、运营商有非常多实践案例可以参考。我们也有幸参与其中,为腾讯、阿里巴巴、字节跳动等客户交付了多个大型BGP数据中心网络。 关于BGP性能优化以及更多BGP运维特性,敬请期待技术盛宴后续分享。

技术盛宴丨大型数据中心BGP路由协议规划 - 图文 

需要向Spine通告主机路由。南向路由传递MAN/DCI至Spine至Leaf,传递整个内网的汇总路由,比如10.0.0.0/8;172.16.0.0/12;192.168.0.0/16。而Leaf至TOR,除了通告内网汇总路由外,还需要通告本Pod的业务网段+管理网段+Loopback(当Leaf上行链路故障时,同POD的流量仍可以匹配明细路由,通过Spi
推荐度:
点击下载文档文档为doc格式
6f9vi1igl96c4rp7oypx5gf8x599ez00sz1
领取福利

微信扫码领取福利

微信扫码分享