第14章 大数据管理
大数据是当今科技界和工业界甚至世界各国政府关注的热点。国际著名的学术期刊 《Nature》和《Science》等相继出版专刊来专门探讨大数据带来的挑战和机遇,著名管理咨询公司麦肯锡声称,数据已经渗透到每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和科技发展浪潮的到来。
科技界和工业界正在研究大数据理论和技术、开发大数据系统,企业、政府、科研院 所等各行各业都在努力应用大数据。大数据正在孕育新的学科——数据科学。大数据正在创造价值、正在形成新的产业,正在给我们展现无穷的、变化的、灿烂的前景。
本章介绍什么是大数据,大数据的特征,大数据的应用以及大数据管理系统,着重从数据管理和数据处理的角度来讨论这些问题和技术。大数据热,说明大数据的理论、技术、系统和应用都远远没有成熟,介绍的内容必将随着时间的推移不断更新发展。
14.1大数据概述
14.1.1什么是大数据
什么是大数据?大数据和数据库领域的超大规模数据(very large data)、海量数据 (massive data)有什么不同?
“超大规模数据库”(Very Large Database, VLDB)这个词是20世纪70年代中期出现的,在数据库领域一直享有盛誉的VLDB国际会议就是从1975年开始,到2014年已经 40届了。当年数据库中管理的数据集有数百万条记录就是超大规模了。“海量数据”则是 21世纪初出现的词,用来描述更大的数据集以及更加丰富的数据类型。2008年9月,《Science》发表了一篇文章 “Big Data: Science in the Petabyte Era”,“大数据”这个词开始被广泛传播。这些词都表示需要管理的数据规模很大,相对于当时的计算机存储和处理技术水平而言,遇到了技术挑战,需要计算机界研究和发展更加先进的技术,才能有效地 存储、管理和处理它们。
回顾一下面对“超大规模”数据,人们研究了数据库管理系统的高效实现技术。包括系统的三级模式体系架构,数据与应用分离即数据独立性的思想(增加了数据库管理系统的适应性和应用系统的稳定性),关系数据库的描述性语言SQL,基于代价的优化技术,事务管理与故障恢复技术,等等。创建了一套关系数据理论,奠定了关系数据库坚实的理论基础。同时,数据库技术在商业上也取得了巨大成功,引领了数十亿美元的产业,有力地促进了以OLTP和OLAP为标志的商务管理与商务智能应用的发展。这些技术精华和成功经验为今天大数据管理和分析奠定了基础。为了应对“海量数据”的挑战,研究了半结构化数据和各种非结构化数据的数据模型及对它们的有效管理、多数据源的集成问题等。 因此,大数据并不是当前时代所独有的特征,而是伴随着人类社会的发展以及人类科技平的提高而不断发展演化的。
当前,人们从不同的角度在诠释大数据的内涵。关于大数据的一个定义是,一般意义上,大数据是指无法在可容忍的时间内用现有IT技术和软硬件工具对其进行感知、获取、 管理、处理和服务的数据集合。
还有专家给出的定义是,大数据通常被认为是PB (103 TB)或EB (1 EB= 106 TB) 或更高数量级的数据,包括结构化的、半结构化的和非结构化的数据。其规模或复杂程度 超出了传统数据库和软件技术所能管理和处理的数据集范围[10]。
有专家按大数据的应用类型将大数据分为海量交易数据(企业OLTP应用)、海量交互数据(社交网、
传感器、全球定位系统、Web信息)和海量处理数据(企业OLAP应用)[10] 。
海量交易数据的应用特点是数据海量、读写操作比较简单、访问和更新频繁、一次交易的数据量不大,但要求支持事务ACID特性。对数据的完整性及安全性要求高,必须保证强一致性。
海量交互数据的应用特点是实时交互性强,但不要求支持事务特性。其数据的典型特点是类型多样异构、不完备、噪音大、数据增长快,不要求具有强一致性。
海量处理数据的应用特点是面向海量数据分析,计算复杂,往往涉及多次迭代完成,追求数据分析的高效率,但不要求支持事务特性。典型的应用是采用并行与分布处理框架实现。其数据的特点是同构性(如关系数据或文本数据或列模式数据)和较好的稳定性(不存在频繁的更新操作)。
当然,可以从不同的角度对大数据进行分类,目的是有针对性地进行研究与利用。例如,有些专家将网络空间(cyberspace)中各类应用引发的大数据称为网络大数据,并按数据类型分为自媒体数据、日志数据和富媒体数据三类[14]。
14.1.2大数据的特征
大数据不仅仅是量“大”,它具有许多重要的特征。专家们归纳为若干个V,即巨量(Volume)、多样(Variety)、快变(Velocity)、价值(Value)大数据的这些特征给我们带来了巨大的挑战。
1.巨量
大数据的首要特征是数据量巨大,而且在持续、急剧地膨胀。据国际著名的咨询公司IDC的研究报告称,到2024年全球数据总量将达到40 ZB,人均5.2 TB。
大规模数据的几个主要来源如下:
(1)科学研究(天文学、生物学、高能物理等)、计算机仿真领域。例如,大型强子对撞机每年积累的新数据量为15 PB左右。
(2)互联网应用、电子商务领域。例如,沃尔玛公司(Wal-Mart)每天通过数千商店向全球客户销售数亿件商品,为了对这些数据进行分析,沃尔玛公司数据仓库系统的数据规模达到4PB,并且在不断扩大。
(3)传感器数据(sensor data)。分布在不同地理位置上的传感器对所处环境进行感知,不断生成数据。即便对这些数据进行过滤,仅保留部分有效部分,长时间累积的数据量也是惊人的。
(4)网站点击流数据(click stream data)。为了进行有效的市场营销和推广,用户在网上的每个点击及其时间都被记录下来,利用这些数据,服务提供商可以对用户存取模式进行仔细的分析,从而提供更加具有针对性的个性化服务。
(5)移动设备数据(mobile device data)。通过移动电子设备,包括移动电话和PDA、 导航设备等,可以获得设备和人员的位置、移动轨迹、用户行为等信息,对这些信息进行及时分析有助于决策者进行有效的决策,如交通监控和疏导。
(6)无线射频识别数据(RFID Data)。RFID可以嵌入到产品中,实现物体的跟踪。RFID的广泛应用将产生大量数据。
(7)传统的数据库和数据仓库所管理的结构化数据也在急速增大。
总之,无论是科学研究还是商业应用,无论是企业部门还是个人,处处时时都在产生着数据。几十年来,管理大规模且迅速增长的数据一直是一个极具挑战性的问题。目前数据增长的速度已经超过了计算资源增长的速度。这就需要设计新的计算机硬件以及新的系统架构,设计新硬件下的存储子系统。而存储子系统的改变将影响数据管理和数据处理的各个方面,包括数据分布、数据复制、负载平衡、查询算法、查询调度、一致性控制、并发控制和恢复方法,等等。
2.多样
数据的多样性通常是指异构的数据类型、不同的数据表示和语义解释。现在,越来越多的应用所产生的数据类型不再是纯粹的关系数据,更多的是非结构化、半结构化的数据, 如文本、图形、图像、音频、视频、网页、推特和博客(blogs)等。现代互联网应用呈现出非结构化数据大幅增长的特点,至2012年末非结构化数据占有比例达到整个数据量的75%以上。
对异构海量数据的组织、分析、检索、管理和建模是基础性的挑战。例如,图像和视频数据虽具有存储和播放结构,但这种结构不适合进行上下文语义分析和搜索。对非结构化数据的分析在许多应用中成为一个显著的瓶颈。传统的数据分析算法在处理同构数据方面比较成熟,是否将各种类型的数据内容转化为同构的格式以供日后分析?此外,考虑到当今大多数数据是直接以数字格式生成的,是否可以干预数据的产生过程以方便日后的数据分析?在数据分析之前还要对数据进行清洗和纠错,还必须对缺失和错误数据进行处理等。因此,针对半结构化、非结构化数据的高效表达、存取和分析技术,需要大量的基础研究。
3.快变
大数据的快变性也称为实时性,一方面指数据到达的速度很快,另一方面指能够进行处理的时间很短,或者要求响应速度很快,即实时响应。
许多大数据往往以数据流的形式动态、快速地产生和演变,具有很强的时效性。流数据来得快,对流数据的采集、过滤、存储和利用需要充分考虑和掌控它们的快变性。加上要处理的数据集大,数据分析和处理的时间将很长。而在实际应用需求中常常要求立即得到分析结果。例如,在进行信用卡交易时,如果怀疑该信用卡涉嫌欺诈,应该在交易完成之前做出判断,以防止非法交易的产生。这就要求系统具有极强的处理能力和妥当的处理策略,例如,事先对历史交易数据进行分析和预计算,再结合新数据进行少量的增量计算便可迅速做出判断。对于大数据上的实时分析处理,大数据查询和分析中的优化技术具有极大的挑战性,需要借鉴传统数据库中非常成功的查询优化技术以及索引技术等。
4.价值
大数据的价值是潜在的、巨大的。大数据不仅具有经济价值和产业价值,还具有科学价值。这是大数据最重要的特点,也是大数据的魅力所在。
现在,人们认识到数据就是资源,数据就是财富,认识到数据为王的时代已经到来,因此对大数据的热情和重视也与日俱增。例如,2012年3月,美国奥巴马政府启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。2012年5月,英国政府注资建立了世界上第一个大数据研究所。同年,日本也出台计划重点关注大数据领域的研究。2012年10月,中国计算机学会成立了CCF大数据专家委员会,科技部也于2013年启动了 “973”、“863”大数据研究项目。
一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家与国家、企业与企业间新的争夺焦点。
大数据价值的潜在性,是指数据蕴含的巨大价值只有通过对大数据以及数据之间蕴含的联系进行复杂的分析、反复深入的挖掘才能获得。而大数据规模巨大、异构多样、快变 复杂,隐私等自身的问题,以及数据孤岛、信息私有、缺乏共享的客观现实都阻碍了数据价值的创造。其巨大潜力和目标实现之间还存在着巨大的鸿沟。
大数据的经济价值和产业价值已经初步显现出来。一些掌握大数据的互联网公司基于数据交易、数据分析和数据挖掘,帮助企业为客户提供更优良的个性化服务,降低营销成本,提高生产效率,增加利润;帮助企业优化管理,调整内部机构,提高服务质量。大数据是未来产业竞争的核心支撑。大数据价值的实现需要通过数据共享、交叉复用才能获得。 因此,未来大数据将会如基础设施一样,有数据提供方、使用方、管理者、监管者等,从而使得大数据成为一个大产业。
大数据研究的科学价值还没有引起足够的重视,本章文献[7]提出要把数据本身作为研究目标,关注数据科学的研究,研究大数据的科学共性问题。数据科学是以大数据为研究对象, 横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科。
对于大数据的研究方式,2007年1月11日,已故的著名数据库专家,图灵奖得主James Gray在加州山景城召开的NRC-CSTB上的演讲提出了科学研究的第四范式。他指出人类从几千年前的实验科学(第一范式),到以模型和归纳为特征的理论科学(第二范式),到几十年来以模拟仿真为特征的计算科学(第三范式),现在要从计算科学中把数据密集型科学区分出来,即大数据研究的第四范式(the fourth paradigm):数据密集型科学发现(data intensive scientific discovery),James Gray认为,对于大数据研究,