好文档 - 专业文书写作范文服务资料分享网站

最新pingmesh(中文翻译)

天下 分享 时间: 加入收藏 我要投稿 点赞

pingmesh(中文翻译)

精品好资料-如有侵权请联系网站删除 Pingmesh:

数据中心网络时延测量与分析的大规模系统

摘要

我们能在一个大规模的数据中心网络中的任意两个服务器之间获得任何时候的网络延迟吗?收集的延迟数据可以用来定位一系列问题:告知应用程序是否被感知延迟问题是由网络引起的,定义和跟踪网络服务级别协议(SLA),自动网络故障排除。我们已经开发了Pingmesh:大型数据中心的网络延迟测量和分析系统来回答上述问题。pingmesh系统已经在微软数据中心运行超过四年,它每天收集数百万兆字节延迟数据。Pingmesh不仅广泛被网络软件开发人员和工程师使用,也包括应用程序和服务开发人员和运营商。

CCS的概念

?网络→网络测量;云计算;网络监控;?计算机系统 组织→云计算;

关键词

数据中心联网;网络故障诊断;静默丢包

1 简介

现在的数据中心中有成千上万的服务器。这些服务器是通过网络接口卡

(NIC),交换机和路由器,电缆和光纤连接,形成大规模的批内和批间数据中心网络。数据中心网络规模(DCNS)由于云计算的快速发展越来越大。在物理数据中心基础设施之上,构建了各种大规模的分布式服务,例如,搜索[ 5 ],分布式文件系统[ 17 ]和存储[ 7 ],MapReduce [ 11 ]。这些分布式服务是大型的、演化的软件系统,具有多个组件并且有复杂的依赖关系。所有这些服务都是分布式的,他们的许多组件需要通过在一个数据中心或不同的数据中心之间进行网络交互。在这样的大系统中,软件和硬件失败是常态而非例外。因此,网管团队面临着一些挑战。第一个挑战是确定一个问题是否是一个网络问题。由于分布式系统的特性,许多故障表现为“网络”问题,例如,某些组件只能间歇性地到达,或端到端延迟增加到九十九个百分点,网络吞吐量从

20Mb/s下降到小于5MB/s。我们的经验表明大约50%的“网络”问题不是网络本身造成的. 然而,也不能简单地说一个“网络”问题是否确实是由网络引起

精品好资料-如有侵权请联系网站删除

精品好资料-如有侵权请联系网站删除 的。第二个挑战是定义和跟踪网络服务水平协议(SLA)。许多服务需要网络提供一定的性能保证。例如,搜索查询可能涉及数千个服务器,搜索查询的性能取决于最慢服务器的最后一次响应。这些服务对网络延迟和丢包是敏感的。他们关心网络服务水平协议SLA。网络SLA对于不同的服务需要单独测量和跟踪。因为它们可能使用不同的服务器集群和或者不同的网络。这是一项艰巨的任务,由于网络中数量庞大的服务和客户。第三个挑战是网络故障诊断。网络服务水平协议SLAs由于各种网络问题和“直播网站”事件被破坏。直播网站事件会对客户,合作伙伴或收入产生影响。直播现场事件需要被尽快检测,缓解和解决。但是数据中心网络有成百上千的服务器,交换机,以及数以百万计的电缆和光纤。因此,检测问题所在的位置是一个难题。针对上述问题,我们设计并实现了Pingmesh:一个大型数据中心的网络延迟测量分析系统。pingmesh利用所有服务器发起TCP或HTTP层提供最大延迟的测量范围。pingmesh形成多层次的完整图。在数据中心,Pingmesh让机架内的服务器构成一个完整的图形,并使用机架(Tor)开关的顶部作为虚拟节点,并让它们形成第二个完整图。在数据中心中,Pingmesh通过处理每个数据中心作为一个虚拟节点形成了第三个完全图。完整的图及相关参数的计算由一个中央pingmesh控制器控制。测量的延迟数据被收集和存储,通过数据存储和分析管道进行汇总和分析。从延迟的数据,网络SLAs的定义和在宏观层面追踪(即数据中心层面)和微观层面(例如,每服务器和每机架水平)。所有的服务和应用SLAs网络的服务和应用程序映射到他们使用的服务器计算。

Pingmesh已经在成千上万的全球分布式数据中心的微软运行了四年。它产生24百万兆字节数据和2000亿多个探头的每一天。由于Pingmesh数据的通用性,回答如果直播网站事件是因为网络变得更容易:如果Pingmesh的数据并不表明网络问题,然后LiveSite可以满足事件不是由网络引起的。Pingmesh是大量用于网络故障定位问题所在。通过可视化和自动模式检测,我们能够回答何时何地数据包下降和/或延迟增加,识别无声开关包下降和黑洞在网络中。由

Pingmesh制作的结果也被用于应用程序开发人员和服务考虑网络更好的服务器选择算子延迟和丢包率。本文提出了以下贡献:我们展示的可行性建设大规模的网络延迟测量和分析系统的设计与实现Pingmesh。通过让每个服务器参与,我们提供所有服务器的延迟数据。我们发现,pingmesh可以帮助我们更好地了解数据中心网络的定义,在宏观和微观范围跟踪网络的SLA,并pingmesh有助于揭示和定位开关的分组丢失数据包的黑洞和沉默的随机丢包,这是不了解以前。

2 背景

2.1数据中心网络

数据中心网络通过高速连接服务器,提供高服务器到服务器带宽。今天的大型数据中心网络是由商品以太网交换机和路由器(1, 12, 2)构建的。图1显示了典型的数据中心网络结构。该网络有两部分:内部数据中心(dc)网络和数据

精品好资料-如有侵权请联系网站删除

最新pingmesh(中文翻译)

pingmesh(中文翻译)精品好资料-如有侵权请联系网站删除Pingmesh:数据中心网络时延测量与分析的大规模系统摘要我们能在一个大规模的数据中心网络中的任意两个服务器之间获得任何时候的网络延迟吗?收集的延迟数据可以用来定位一系列问题:告知应用程序是否被感知延迟问题是由网络引起的,定义
推荐度:
点击下载文档文档为doc格式
3h7dl20ran00kc5204u903ypi6bk8900j16
领取福利

微信扫码领取福利

微信扫码分享