**政务大数据交换共享平台建设方案
来源路径信息
其他信息(会话标识、Cookie标识、时间信息等) 汇总
单个 Session所要储存的信息(1个 Session大约产生 4PV) 访问路径信息 来源路径信息
客户端信息(IP、浏览器等)
其他信息(会话标识、Cookie标识、时间信息等) 汇总
单个 Cookie所要储存的信息(1个 Cookie大约产生 1.25Session) 访问路径信息
其他信息(Cookie标识、时间信息等) 汇总
1120 256 2976 512 1120 128 256 2016
512 256 768
例如:
按照其他同类项目的数据估算,PV和 Session数量比为 4:1, Session和 Cookie的数量比为 1.25:1。则 500万的 PV会产生 125 万 的 Session 以 及 产 生 100 万 的 Cookie, 总 占 据 空 间 为 5000000*2976+1250000*2016+1000000*768=18G,包括索引以及其他 表占用的空间之后,约为 20G。原始日志存储到 SQL Server中会采 用压缩技术,大小将降为 5G。
结论:对于接收数据库,采用了压缩和优化技术后,每 500 万 PV 至少需要 25G 的储存空间。 ? 结构化数据的测算依据及结论
**系统政府网站群监测分析调度系统的结构化数据库和原始数 据库存储的数据一致,但是经过对原始数据库的数据去冗余以及结 构化,用外键压缩了原来直接存储在各表里的信息,大小会变为原 始数据的一半,也就是 2.5G。
-16-
**政务大数据交换共享平台建设方案
结论:对于结构化数据库,采用了压缩和优化技术后,每 500 万 PV至少需要 2.5GB的储存空间。 ? 分析数据的测算依据及结论
**系统政府网站群监测分析调度系统的分析数据库内容基本是 结构化数据库的拷贝,大小与结构化数据库基本一致,也为 2.5G。
结论:对于“决策支持系统”的分析数据库,采用了压缩和优 化技术后,每 500万 PV至少需要 2.5GB的储存空间。
综上所述,在不做任何备份的情况下,每 500万的 PV,需要文 件存储空间为:25GB + 2.5GB + 2.5GB=30G。
到 2015年底的存储量为 10.5T,到 2019年底的存储量为 52.5T, 具体测算如下表所示:
单月数据量(G) 保留周期(月) 一年内需要存储 五年内需要存储
接收日志 25*30=750
60 9000 45000
明细 汇总数据 2.5*30=62.5 2.5*30=62.5
60 60 750 750 3750 3750
合计
875G 60 10.5T 52.5T
2、在线内容数据存储量
? 国内外互联网重点渠道和信息源
按照本项目需要面向国内外互联网重点渠道和信息源进行在线 内容采集爬取,按照覆盖包括主流媒体在内的 200个信息源,每个 信息源爬取 3级计算,平均每天可以爬取更新的总的页面数约为 30 万 个 , 每 个 页 面 按 照 100KB 计 算 , 共 需 要 占 用 的 空 间 为 30W*1000KB=30G。
-17-
**政务大数据交换共享平台建设方案
到 2015年底的存储量为 10.8T,到 2019年底的存储量为 54T, 具体测算如下表所示:
单月数据量(G) 一年内需要存储 五年内需要存储
国内外互联网重点渠道和信息源
30万*30=900G
10.8T 54T
? **级以上政府网站群
**级以上政府网站群网站内容更新数据主要包括以下三部分: 网站更新页面、网站更新的入口,网站更新的白名单。
按照本项目需要涵盖**系统网站群及**各级政府网站群的 6500个网站,平均每个网站每天更新 10个页面,就是 6.5万个。
如果每天爬取 10次,就是 10×6500=6.5 万个入口,每个网站 算 10个白名单,那就是 10×6500×10=65 万个白名单。
总共是 6.5万+6.5万+65万=78万,共需要占用的空间为 78万 页*100KB/页=78G。
到 2015 年底的存储量为 28.08T,到 2019 年底的存储量为 140.4T,具体测算如下表所示:
单月数据量(G) 一年内需要存储 五年内需要存储
更新页面数据 6.5*30=195 2.34T 11.7T
网站入口数据 6.5*30=195 2.34T 11.7T
白名单数据 合计 65*30=1950 2340G 23.4T 28.08T 117T 140.4T
综上所述,系统的数据存储总量如下表所示:
表 3-2 数据量估算表
序号
1 2 3 合计
数据名称 在线行为数据
互联网重点渠道和信息源 **团以上政府网站群
初始量 10.5T 10.8T 28.08T 49.38T
5年内的增量
52.5T 54T 140.4T 246.9T
-18-
**政务大数据交换共享平台建设方案
1.5.2 处理量分析
(1)网站群用户访问行为数据处理量分析
以每天 725万个客户端访问(包括 500万 PV、100万 Session、 125万 Cookie)并发计算,结合在线行为数据的接收主要集中在工 作时间,7250000/8小时/60分钟/60秒=251个/秒,日志接收服务 器接受每秒钟接收日志请求 251个,远远低于系统的每秒接收到的 正常数(该值通常为 7000-9000)。
根据日志接收每秒钟的并发量为 251,因此系统的数据接收只 需要再用两台服务器做负载均衡即可。但是为了防止数据接收网站 的域名出现单点故障,因此系统的数据接收采用双域名备份,即每 个域名对应两台数据接收服务器,一共四台。
根据系统需要满足**政府网站智能分析系统诊断的需要,目前 系统的单台服务器的数据处理能力为 400家左右,因此需要 4台数 据库服务器,另外需要两台相同配置的数据库服务器作为备份。
(2)其他在线内容数据处理量分析
一是系统需要支持对不少于 108万个数据采集点每天至少一次 轮询抓取,同时对抓取回的数据进行数据预处理和清洗入库工作, 二是需要实现对存量数据和增量数据的指标自动抽取和更新工作, 三是需要支持前台交互系统的交互分析挖掘需求。
结合以上几部分需求,预计所需的内容数据处理服务器约 50 台。其中较高性能处理服务器(单机 20 核服务器 CPU:2660*2 MEM:144G DISK:SSD 480G*2+SAS 4T*6,万兆网卡,远程管理,双电
-19-
**政务大数据交换共享平台建设方案
源)10 台,中等性能处理服务器(单机 12 核服务器,CPU:2620*2 MEM:32G DISK:4T*10,万兆网卡,远程管理,双电源)10台。较低 性能服务器(单机 12 核服务器,CPU:2620*2 MEM:72G DISK:SSD 480G*2+SAS 600G*4,万兆网卡,远程管理,双电源)30台。
1.5.3 网络流量分析
按每天处理 725万在线行为数据,每条数据为 10KB大小,108 万条在线内容数据,每条 100KB计算,需要的平均带宽为 17Mbps, 高峰时期按 3倍带宽需求计算为:51Mbps,GE链路接入可以满足需 求,出于冗余考虑,建议使用双 GE链路(主备)进行接入。
1.6 系统功能和性能需求分析 1.6.1 系统功能指标
1.6.1.1 数据存储功能
政府数据量很大,海量数据的处理与传统架构完全不同,原有 小型机加商业数据库的方式已不能完全胜任,部分领域数据需要引 入新架构。大数据存储于处理架构包括分布式存储、分布式资源管 理及分布式文件架构。 1.6.1.2 数据汇聚功能
数据汇聚功能要求实现将各部门相关的信息资源统一采集交换 到数据中心前置库中,满足多种采集方式,能够满足不同的网络环 境、不同的数据类型等情况下进行数据的采集,并对采集的数据进
-20-