IDC云数据中心运维支持服务
方案建议书
目录
1
数据中心概述 ............................................. 1 1.1 1.2 1.3 1.4 2
数据中心定义..................................................................................... 1 数据中心功能..................................................................................... 2 业务特点............................................................................................. 3 IDC典型构成 ..................................................................................... 3
项目需求 ................................................. 4
3 IDC运维服务 ................................................. 5
3.1 3.2
IDC运维服务前言 ............................................................................. 5 IDC运维服务内容 ............................................................................. 6 3.2.1 数据中心机房环境运维............................................................. 6 3.2.2 数据中心资源与配置运维分析................................................. 6 3.2.3 数据中心网络流量运维............................................................. 9 3.2.4 数据中心用户管理运维分析................................................... 10 3.2.5 数据中心其他运维分析........................................................... 11
4
技术服务 ................................................ 15 4.1 4.2 4.3 4.4 4.5 4.6
技术服务概述................................................................................... 15 专业技术服务................................................................................... 15 售前技术服务................................................................................... 16 技术培训........................................................................................... 16 售后技术服务................................................................................... 16 项目管理技术服务........................................................................... 17
1 数据中心概述
1.1
数据中心定义
互联网数据中心(Internet Data Center)简称IDC,是整合网络通信线路、带宽资源,建立的标准化的电信级机房环境,可以为客户提供服务器托管、租用、接入、运维等一系列服务。
对于任何机构而言,数据中心都好比是它的心脏。员工、合作伙伴和客户都需要依赖数据中心里的数据和资源才能有效交流与合作。过去十年来,随着互联网和Web技术的兴起,数据中心的战略地位变得越来越重要,因为它不但能提高生产率,改善业务流程,还能加快变革的进程。总之,数据中心已经成为IT 部门保护、优化和发展业务的战略重点。
要实现这些目标,数据中心建设面临着很多挑战。过去几十年来,为适应经济的迅猛增长,多数企业数据中心都经历了一个快速发展期。数据中心运行的应用越来越多,但很多应用都相互独立,而且在使用率低下、相关隔绝的不同环境中运行。每个应用都追求性能的不断提高,一般情况下,数据中心必须支持多种操作系统、计算平台和存储系统。这种需要支持多个应用“孤岛”的分立式基础设施不仅难以变化和扩展,而且管理、集成、安全和备份成本很高。
传统的数据中心正变得过于复杂,成本高昂并且效率低下,逐步成为了企业业务进一步发展的最大的瓶颈。传统数据中心的体系架构已经有超过10年没有变化:部署了过多的交换节点,设计及实际运行中的大部分的是低性能、低密度的设备。而用户和应用的增长几乎一直都伴随着机柜和设备的增长。更为严重的是,这些升级在生产环境中引入了新的未经测试的操作系统,紧接着的是额外的投资开销、机架空间、电源消耗及管理费用,这些都直接导致了数据中心运维的整体复杂性以及成本的大量增加。
根据行业预测,70% 的IT 预算都花费在了现有应用环境的维护上。因此,IT 机构必须提高运行效率,优化数据中心资源的利用率,才能将节省出来的资金用于开展新的盈利
1
型IT 项目。另外,数据中心建设需要建立永续基础设施,才能保护各种应用和服务免受各种安全攻击和干扰的危害。
与此同时,数据中心领域也在不断涌现出大量的创新,包括服务器虚拟化、以太网存储、新的业务应用交付模式等。这些创新能够推进企业数据中心效益的进一步提升。
数据中心的融合和虚拟化趋势加速了资源的优化及成本的下降。融合、虚拟化及存储对网络性能和安全都提出了更高的要求。而服务器虚拟化不仅大幅提高了服务器资源的使用率,也大幅增加了网络内部的数据业务量。运行在虚拟服务器环境下的应用,要求更低的延迟、更高的吞吐量、更加强壮的服务质量 (服务质量 (QoS) 和极高的可靠性HA (HIGH AVAILABILITY)。传统的数据中心已经不能满足每端口增加的业务量及性能要求。更进一步,数据存储的高带宽和低延迟要求,以及更多的采用iSCSI和NAS,则更增加了对网络架构的要求。而随着未来FCoE (Fiber Channel over Ethernet——以太网光纤隧道) 的标准化,该技术必将对网络架构提出更高的带宽和性能要求。
此外,如SOA (Service Oriented Architecture——面向服务的架构) 和WOA(Web Oriented Architecture——面向Web的架构) 等新的应用架构,以及如云计算、桌面虚拟化和软件既服务 (SaaS-Software as a Service) 等新的业务,也对数据中心网络架构产生更高的性能和带宽要求。这些更高的需求要求数据中心部署全新的高性能的网络平台,以提高数据中心的生产率,同时降低了数据中心的新应用进入市场的时间和运维成本。
1.2 数据中心功能
专业主机托管:客户可将主机(如邮件、Web服务器)放入DC机房,由数据中心运营商统一管理维护。
虚拟主机租用:可提供专用或共享方式的主机租用。
网络接入服务:可提供骨干网级别的网络带宽,托管服务器可安全的接入互联网。 专业运维:数据中心运营商拥有高素质的技术服务团队,可提供专业运维服务。
2
1.3 业务特点
安全省心:无需在机房建设、系统运维方面投入任何精力,轻松拥有DC提供的高安全等级、高可靠性的应用计算能力和服务水平。
按需求配置资源:提供大量的主机、丰富的网络端口和带宽,按照客户需求随时增加主机、带宽或电路,快速满足企事业单位高速的业务增长。
1.4 IDC典型构成
3
2 项目需求
(按照实际项目情况填写) 4
3 IDC运维服务
3.1
IDC运维服务前言
增值、创新、服务是IDC高速发展永恒的真理,只有全面提高服务水准、大力创新、提升服务水平,为客户提供包括增值服务在内的全面整合服务才可能在激烈的竞争中突围。
IDC业务与IDC运维相辅相成,优秀的运维可以保证服务的水平,有利于增加用户对IDC的感知度,增加用户数;而用户数的增加,可吸引更多的ISP、大客户入驻IDC,形成IDC机房建设-运维-业务的良好循环。
高效率的数据中心运维需要多年的日积月累,运营商应该专注于IDC业务的规划和运营,选择一支成熟的运维队伍来提高公司内部人员的管理和运维水平,将对IDC的业务运营顺利开展产生重要影响。
数据中心的运维重点涉及到以下几点: ? ? ? ? ? ?
机房环境; 机房资源; 网络流量 客户管理 增值业务 局数据制作
另外,应该选择将运维业务做为公司的战略业务,已经建立成熟的运维流程和模型的公司作为IDC的合作伙伴,可以为IDC运维提供良好的借鉴和提供专业的服务。
5
3.2 IDC运维服务内容
3.2.1 数据中心机房环境运维
3.2.1.1
机房环境运行情况检查
检查机房运行环境、卫生情况、机柜是否安全锁好。
3.2.1.2 电源系统运行情况检查
检查电源柜显示面版上显示的电压、电流是否正常、是否有告警,有问题及时通知相关负责人。
3.2.1.3 机房主要机柜温度测量并记录
通过在IDC机房主要核心设备和重要客户机柜内放置温度计,定时查看读数并记录到IDC机房温度记录表。
3.2.1.4 闭路电视日常监控
使用监控中心的监控系统注意机房的厂家工作人员的工作情况,禁止非需要的动作影响机房其他用户的主机和网络的稳定。
影像化出入机房管理。
3.2.1.5 设备及机房卫生情况
查看设备及机房的卫生情况,并处理卫生死角。
3.2.2 数据中心资源与配置运维分析
3.2.2.1
核心设备预防性维护
维护服务小组的现场工程师将对于关键设备每天进行设备运行状态检查,主要包括系统运行日志,文件系统状态、主机Cluster状态(如果有的话)、网络的VRRP或者HSRP、周边设备状态等。现场工程师也将定期检查备份设备的运行状态。
6
对于非关键设备,提供自动检查工具,用来批量进行设备运行状态的基本情况检查,如果发现问题,现场工程师再进行进一步的检查和处理。
? 定期检查错误日志,并对错误日志进行分析,消除故障隐患。 ? 对硬件设备定期保养。
? 对各个设备控制微码定期进行版本检查。
3.2.2.2 网络设备面板状态检查
现场查看IDC自有网络设备的面版灯是否有异常。
3.2.2.3 主机设备状态检查
现场查看IDC所有托管主机的状态,主要包括系统运行日志,文件系统状态、Cluster状态(如果有的话)、周边设备状态等是否正常,如果发现异常,要联系相关厂家人处理。
对于非关键设备,提供自动检查工具,用来批量进行设备运行状态的基本情况检查,如果发现问题,现场工程师再进行进一步的检查和处理。
3.2.2.4 网络、主机监控
对IDC自有设备和托管设备进行dead/live测试,有异常情况要查找故障源或是联系相应厂家人员处理,现场查看IDC自有和客户托管的网络和主机设备的状态是否有异常,有异常情况要查找故障源或是联系相应厂家人员处理。
3.2.2.5 自有主机设备安全检查
3.2.2.5.1 检查内容:
? 根卷备份和应用备份 ? 备份系统日志文件 ? 预防性维护服务检查 ? 双机切换测试
7
? 收集系统信息 ? 收集性能数据 推荐的检查顺序:
(根据现场服务器型号的不同,具体操作可能有所不同): 在检查开始可以进行的预防性措施 1) 根卷备份和数据库备份,应用备份 2) 备份系统日志文件
业务不中断时可以进行的检查操作 3) 预防性维护服务检查 4) 双机切换测试
检查的最后操作——相关信息收集 5) 收集系统信息 6) 收集性能数据
3.2.2.5.2 检查的组织方式
在检查开始之前跟用户提前沟通检查的内容和可能的风险,确定各相关部分的联系人,请用户审核确认检查计划和以下具体内容:
? 检查设备清单; ? 检查内容; ? 各方联系人信息; ? 检查日程安排;
? 根据检查日期,做好各类停机准备,如申请停机、业务切换等等 检查的结果报告:
1) 完成每台主机检查服务报告,与用户进行沟通、汇报;《预防性维护服务记
录》、《系统性能分析记录》
2) 在检查项目实施成员间总结、分享项目经验成果;
8
3) 针对全系统的检查结果进行分析,并提供给用户完成检查分析报告;
3.2.2.6 入侵检测系统健康检查
检查入侵检测系统是否有新版本,并检查升级内容,如有必要则更新;每天通过检查入侵检测系统的日志,查看有无异常;检查入侵检测系统的内存、CPU利用率,硬盘可用空间等情况。
3.2.2.7 防火墙健康检查
每天检查防火墙的日志,查看有无异常;检查防火墙的内存、CPU利用率,硬盘可用空间等情况。
3.2.2.8 网络日志采集分析
对IDC自有网络设备,包括交换机、路由器、流量清洗、漏洞扫描、防火墙、负载均衡设备、虚拟主机的日志进行采集(昨天14时-当天14时),分析日志有无异常情况,并对异常情况做出解释及提出相应解决办法,并跟踪处理结果。以每设备一个文件单位的格式上报日志采集结果。
3.2.2.9 防火墙策略检查
检查防火墙策略有没有被改动过,策略有没有冲突,有没有过宽的策略使防火墙失去安全功能,检查主机连接表,查看是否有异常。
3.2.3 数据中心网络流量运维
3.2.3.1
网络流量统计
通过流量分析系统、统一监控平台软件,采集电路组流量报表中电路组的流量,并合计入方向和出方向流量,分析计算峰值和均值流量。
9
3.2.3.2
用户网络流量统计
对IDC排名前几位的用户的流量进行不定时的采集,以掌握用户流量大致情况,做到能及时预警流量、避免出口拥塞。
3.2.3.3 测速
每个小时对选定的国内外不同运营商的IP地址进行PING测,并记录平均延迟;每小时对选定的国内外不同运营商下载测试,记录下载的平均速度;每小时国内外不同运营商的网站测试打开速度,记录打开网站的平均速度。目前前两个测速使用测速软件,以计划任务的形式定时调用,并能生成测试结果,网页测速是使用软件测试,软件自动生成结果,每天上报一次,数据源为从昨天17:00-当天16:00的测试结果。
3.2.3.4 流量清洗检查
实时监控进出IDC流量的地域分布,应用组成分布、变化趋势,并生成相应的统计报表。
3.2.4 数据中心用户管理运维分析
3.2.4.1
用户入驻
在用户入驻时,配合用户上架服务器,为用户布接入线,开通资源,和用户一起调试,保障网络接入正常。并统计用户设备资源和客户联系方式等信息更新到相关表格中。客户填写设备入驻表。监管客户设备固定情况,网络绑扎是否美观等。
3.2.4.2 用户变更
在用户资源变更时,配合用户移架服务器,为用户布网线,开通资源,和用户一起调试,保障网络接入正常。并统计用户设备资源和客户联系方式等信息变更到相关表格中。客户填写设备变更表。
10
3.2.4.3
用户撤出
用户期满撤出后,要配置用户的服务器下架,撤出网线,关闭和回收相应的IDC资源,整理好机柜。客户填写客户设备移出表。
3.2.4.4 用户资源分配
在收到运营公司IDC相关负责人邮件后,根据邮件要求的带宽、机架数、IP数等信息为将要入驻的用户分配机柜、IP地址、VLAN、交换机端口等资源,把相关数据补充到IDC的资源表中。
3.2.4.5 配合用户调试
IDC数据中心的用户在托管主机或是需求服务时,主要有三种需求方式: 1) 2)
用户只需要IDC机房内的基础资源,设备上架、配置调试等都是自己操作。 用户需要IDC机房内的基础资源,设备上架、加电、配置调试需要维护人员协助操作。 3)
用户需要IDC机房内的基础资源,用户只提供设备,其余的操作全部由维护人员完成。
针对第二类客户,维护人员需要配合用户用户移架服务器,为用户布网线,开通资源,和用户一起调试,保障网络接入正常。针对第三类客户,维护人员要满足客户应用开通前的一切条件,满足后客户只需远程安装应用程序即可。
3.2.5 数据中心其他运维分析
3.2.5.1
端口扫描
通过端口扫描软件找到IDC托管主机中需要扫描的相关端口服务器的IP地址,例如扫描80端口,查找到开通80端口的主机后,通过网上的反向查找网站解析出这些
11
IP地址对应的域名,然后通过域名方式访问这些服务,并检查网站是否提供了很黄很暴力及反动的内容,并将检查结果附带上对应的服务器厂家的联系方试的表格上报
3.2.5.2 IDC周报
利用网管系统,采集电路组的周流量(以上周六到本周五为一周期),并和上周对比,将数据填到IDC周报对应表格中;
采集出口流量表排名报表,得到IDC出口流量到各大运营商的比例图; 采集客户流量报表,并将排名前6位的用户的总流量提取到周报当中去。 IDC资源总结:以IDC资源表格为依据,将机柜资源,IP地址资源,用户数等相关信息写入周报中
3.2.5.3 设备密码变更
对IDC所有的自有设备,每月变更一次设备密码。
3.2.5.4 入侵系统版本维护
检查入侵检测系统是否有新版本,并检查升级内容,如有必要则更新;保证每周一次的规则库升级,重大安全事件随时更新。
3.2.5.5 安全预警
通过相关网站收集安全预警信息,并检查IDC设备是否受影响。
3.2.5.6 网络质量分析月报
月初做上个月的网络质量分析报告(PPT格式),IDC资源使用相关情况总结。
3.2.5.7 重点用户月报
根据流量统计上月流量前N名客户,通过安全扫描客户相关安全信息并制作成重点客户月报。
12
3.2.5.8
月末总结
统计相关IDC资源变更(包括客户入驻,撤出、变更)情况,本月IDC工作总结及下月工作计划
3.2.5.9 月维护作业计划
制定本月维护作业计划表。
3.2.5.10 安全维护/评估作业计划
制定本月安全维护/评估作业计划表。
3.2.5.11 防火墙倒换和核心设备应急演练
每季度末对主备防火墙进行主备切换演练,将倒换过程及产生的影响做成报告上报;针对核心交换机和路由器进行应急演练,检验核心网络设备故障时应急措施的完善情况,
13
提高发生突发事件时的应急操作能力,针对核心网络设备编制应急预案,通过演练提高演练人员和维护人员的各项操作技能来增强发生应急情况的实战能力。
3.2.5.12 局数据制作
根据分配的资源进行局数据制作。
14
4 技术服务
4.1
技术服务概述
以其技术系统集成实力,向用户提供硬件系统、网络系统及各类软件的集成服务。向用户提供的不仅是计算机相关的产品,而是一整套包括服务在内的、使用户能够充分发挥其计算机系统功能的一揽子解决方案,以公司的经验和对各种应用知识的广泛了解,来满足用户的各种需求。
成功的技术服务在于其全面的系统计划性和具有一支出色的技术队伍,技术服务人员是经过专业强化培训,有多年实际工作经验的资深工程师,能够深入了解用户的运行环境,能够对用户的应用需求进行分析,以便提供最佳的解决方案;并逐步形成与用户良好的合作关系,协助用户真正地将系统实际地运行起来。
系统维护机构已有多年的历史,它致力于为中国运营商服务,为了使用户的计算机及网络系统在最佳状态下运行,充分发挥整个系统的效率,建立了一套完整、有效的技术服务程序化方法, 而且采取了一系列措施,以便在系统万一出现故障的情况下,能够作出快速响应,以最短的时间,排除故障,为用户减少停机时间,提高生产效率,降低运行费用。
技术服务主要体现在售前技术方案服务、系统集成方案的技术服务、技术培训、售后技术服务以及项目管理技术服务等。
4.2 专业技术服务
有一批专门从事专业服务(Professional Service)技术人员,不间断地跟踪、研究并掌握业界最先进的技术和产品,了解企业计算市场的业务模式和解决方案,其目标是\。他们根据用户的业务需求和发展目标,协助用户确定企业的业务模式和管理模式,为企业选择最佳的结构,包括企业应用结构(Enterprise Application)和企业计算支撑结构(Enterprise Computing Infrastructure)两个层面,
15
再在结构框架下选择最佳产品和技术构成解决方案。企业计算环境是一个庞杂的技术体系,基于结构设计的咨询和规划针对的是市场而不是产品,目标是增强企业对市场的应变能力以及企业信息系统的应用和管理水平。专业服务基于业界标准去分析问题和解决问题,提供咨询、规划、结构设计和集成解决方案。
4.3 售前技术服务
售前技术服务人员是在用户已经确定自己的业务模式和应用结构,甚至已经有了实现这种业务模式的应用系统,需要构建或改造企业信息系统的支撑平台的前提下,为用户提供技术咨询和方案设计。此时用户关心的是采用什么技术和产品并将它们集成起来的系统解决方案,售前系统集成服务根据用户的具体需求和实际环境,加以详细的分析量化和系统化,必要时搭建演示环境进行有关指标的测试,使整个系统方案,如网络系统、服务器系统、安全性以及相应的应用系统做到无缝连结。同时还为用户提供新建系统与用户原有系统的整合方案,保护用户已有的投资,使用户能够快速建设自己的系统。必要时售前技术服务需要和售后技术服务人员一道为用户提供全面的系统集成实施计划和方案。
4.4 技术培训
可以为用户提供相关产品的技术培训,培训内容可以由网络、服务器系统等各方面。
4.5 售后技术服务
具有自己的售后服务队伍,这支队伍包括网络工程师、服务器系统工程师、应用工程师,他们为所提供的设备提供全方面的售后服务。售后服务可以做到: ? 协助计划
在安装服务之前, 提供给用户计算机设备、网络及外设对环境的要求,并根据用户请求,在合同规定范围之内协助用户安排机房的设备。 ? 设备的安装服务
16
对于用户购买的硬件和软件 应该在设备到达安装现场之后, 技术人员负责安装、调试。用户根据服务器、工作站、网络设备及外设的技术标准逐项进行验收。 ? 现场技术服务
对由于硬件质量问题造成的硬件损坏,如在保修期内或与兼有相关的技术服务合同的,应提供现场服务,维修更换此硬件。对有效合同内的软件故障,用户应将故障现象及出错信息通过电报、信件或传真等通知, 应在24小时之内给予解答。不能解决时,将在不超过2个工作日内派技术人员到达现场。 ? 热线技术支持
全天热线技术支持是通过电子邮件、电话、传真等方式向用户提供全天技术支持服务(每周 7 天、每天 24 小时)。全天热线技术支持体系使用户可以以他们方便的方式得到技术咨询、技术资源和技术服务。 ? 备件服务
备品备件对高质量的服务也极为重要。
4.6 项目管理技术服务
? 项目管理的工作目标
充分认识到一个网络工程实施成功的标志是:按时、保质地完成一个统一的数据通信系统,而有效的项目管理是整个项目实施取得成功的关键。具备一套行之有效的项目管理程序,可以让用户的工程按时、保质地完成。
将向用户提供有效的工程实施质量控制程序,确保用户的项目的工程质量和品质。该程序包括设计细化认证、人力资源管理、产品和材料管理、工程和技术档案管理、以及成本控制。 ? 项目管理内容
17
将向用户提供一个行之有效的项目管理方案和详细的工程实施计划。在该程序之中,最重要的是项目进程的管理。
将同设备和软件提供商一道为用户的项目组建一个工程实施支持小组,其中包括项目经理、高级工程咨询人员、以及技术工程师。
将对设备安装质量和工程进程负全面的责任,将和设备和软件提供商的技术工程师一起完成所有与设备现场安装有关的技术工作,诸如:技术资料准备、网络模拟测试、现场安装和验收测试。
为了实现项目管理的目标,具有良好的技术背景和工程经验的工程专家将被任命为项目经理,在整个工程实施期间,项目经理将全面负责计划和督导整个工程的实施,负责理解和协调在工程实施中各方面的工作。
18