好文档 - 专业文书写作范文服务资料分享网站

OLAP数据分析原理及应用

天下 分享 时间: 加入收藏 我要投稿 点赞

联机分析处理

1 OLAP概念

1.1 OLAP定义

? OLAP理事会给出的定义

联机分析处理是一种软件技术,使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。 ? OLAP简单定义

联机分析处理是共享多维信息的快速分析(fast analysis of shared multidimensional information),它体现4个特征:

1) 快速性:用户对OLAP的快速反应能力有很高的要求。系统应在5秒内对用户的

大部分分析要求做出反应。

2) 可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统

需要一些事先的编程,但并不意味着系统事先已对所有的应用都定义好了。

3) 多维性:OLAP的关键属性,系统必须提供对数据分析的多维视图和分析,包括对

层次维和多重层次维的完全支持。

4) 信息性:OLAP系统不论数据量有多大,也不管数据存储在何处,应能及时获得信

息,并且管理大容量的信息。

用于实现OLAP的技术主要包括网络环境C/S体系结构、时间序列分析、面向对象、并行处理、数据存储优化以及多线索技术等。

1.2 OLAP准则

1993年,E.F. Codd在《Providing OLAP to User Analysts》中提出了有关OLAP的十二条准则,用来评价分析处理工具,这也是他继关系数据库和分布式数据库提出的两个“十二条准则”后提出的第三个“十二条条准则”。

1) 多维概念视图

从用户分析员的角度来看,用户通常按多维角度来看待企业,企业决策 分析的目的不同,决定了分析和衡量企业的数据总是从不同的角度来进行,所以企业数据空间本身就是多维的。因此OLAP的概念模型也就是多维的。 2) 透明性

透明性原则包括两层含义:首先,OLAP在体系结构中的位置对用户是透明的。OLAP应处理一个真正开放系统结构中,可使分析工具嵌入用户所需的任何位置,而不会对分析工具的使用产生副作用。同时必须保证OLAP工具的嵌入不会引入和增加任何复杂性。其次,OLAP的数据源对用户也是透明的。用户只需使用熟悉的查询工具进行查询,而不必关心OLAP工具获取的数据是来自于同质还是异质的数据源。

3) 可访问性

OLAP系统不仅能进行开放的存取,而且还能提供高效的存取策略。 4) 一致稳定的报表性能

报表操作不应随维数增加而削弱,即当数据维数和数据的综合层次增加时,提供给最终分析员的报表能力和响应速度不应该有明显的降低。 5) 客户/服务器体系结构

OLAP是建立在客户/服务器体系结构上的,要求它的多维数据库服务器能够被不同的应用和工具所访问,服务器端智能地以最小的代价完成同多种服务器之间的挂接任务,智能化服务器必须具有在不同的逻辑的和物理的数据库间映射并组合数据的能力,还应构造通用的、概念的、逻辑的和物理的模式。从而保证透明性和建立统一的公共概念模式、逻辑模式和物理模式。客户端负责应用逻辑及用户界面。 6) 维的等同性

每一数据维在其结构和操作功能上必须等价。可能存在适用于所有维的逻辑结构,提供给某一维的任何功能也应提供给其他维。即系统可以将附加的操作能力授给所选维,但必须保证该操作能力可以授给任意的其他维,即要求“维”上的操作是公共的。 7) 动态的稀疏矩阵处理

OLAP服务器的物理结构应完全适用于特定的分析模型,创建和加载此种模式是为了提供优化的稀疏矩阵处理。当存在稀疏矩阵时,OLAP服务器应能推知数据是如何分析的,以及怎样存储才更有效。 8) 多用户支持能力

当多个用户在同一分析模式上并行工作,或是在同一企业数据上建立不同的分析模型时,OLAP工具应提供并发访问、数据完整性及安全性等功能。 9) 非限定的“跨维”操作

在多维数据分析中,所有维的生成和处理都是平等的。OLAP工具应能处理维间相关计算。如果计算时需要按语言定义各种规则,此种语言应允许吉“数据的计算和数据的操作”跨越任意数目的数据维,而不必限制数据单元间的任何关系,也不必考虑每一单元包含的通用数据属性数目。 10) 直观的数据操作

OLAP操作要求直观易懂。如果要重定向联系路径,惑乱在维或行间进行细剖操作,都应该通过直观的操作分析模型来完成,而不需要使用菜单,也不需要跨越用户界面进行多次操作。

11) 灵活的报表生成

用户可以用OLAP服务器及其工具,可以按任何想要的方式来操作、分析、综合和查看数据,这些方式包括将行、列和单元按需要依次排序。报表必须能从各种可能的方面显示出从数据模型中综合出的数据和信息,充分反映数据分析模型的多维特征,并可按用户需要的方式来显示它。 12) 不受限制的维和聚集层次

OLAP服务器应能在通用分析模型中协调至少15个维。每一通用“维”应能允许有任意多个用户定义的聚集,而且用户分析员可以在任意给定的综合路径上建立任意多个聚集层次。

1.3 OLAP基本概念

? 变量:数据的实际意义,描述数据“是什么”。如数据100,可以把它定义为“人数”,

? ?

? ?

?

一般情况下,变量是一个数值量指标。

维:人们观察数据的特定角度。时间维,地理维,产品习以为常,顾客维等。 维的层次:某个特定角度还可以存在细节程序不同的多个描述方面,称这多个描述方面为维的层次。一个“维”往往具有多个层次,如时间维,可以从日期、月份、季度、年等不同层次来描述。 维成员:维的一个取值称为该“维”的一个维成员。如果一个维是多层次的,那么该“维”的“维成员”由各个不同维层次的取值组合而成。 多维数组:一个多维数组可表示为:(维1,维2,…,维n,变量)。如,日用品销售数据是按时间、地点和销售渠道组织起来的三维立方体,加上变量“销售额”,就组成了一个多维数组(地区,时间,销售渠道,销售额)。 数据单元(单元格):多维数组的取值称为数据单元格。当多维数组的各个维都选中一个维成员,就确定了一个变量的值。

2 OLAP的数据模型

2.1 MOLAP数据模型

MOLAP是基于多维数据库的OLAP,多维数据库(multi dimensional database, MDDB)是以多维方式组织数据,即以“维”作为坐标系,采用类似于数组形式存储数据。

MDDB(二维)数据组织如下表 项目\\地区 衣服 鞋 帽子

带有综合数据的数据组织 项目\\地区 衣服 鞋 帽子 总和 多维数据库组织形式不同于关系数据库组织形式,关系数据库是以“属性-元组”形式记录数据。如图: 产品名 衣服 衣服 衣服 鞋 鞋 地区 北京 上海 广州 北京 上海 销售量 600 700 500 800 900 北京 600 800 100 1500 上海 700 900 200 1800 广州 500 700 80 1280 总合 1800 2400 380 4580 北京 600 800 100 上海 700 900 200 广州 500 700 80 鞋 帽子 帽子 帽子 产品名 衣服 衣服 衣服 衣服 鞋 鞋 鞋 鞋 帽子 帽子 帽子 帽子

广州 北京 上海 广州 地区 北京 上海 广州 总和 北京 上海 广州 总和 北京 上海 广州 总和 700 100 200 80 销售量 600 700 500 1800 800 900 700 2400 100 200 80 380 关系数据库带“综合项”的数据组织形式,如图: 2.2 ROLAP数据模型

ROLAP是基于关系数据库的OLAP,见上节的关系数据库的数据组织形式。它是一个平面结构,用关系数据库表示多维数据时,采用星型模型,即用两类表,一类是事实表,存储事实的实际值,如销售量;另一类是维表,对每一个维来说,至少有一个表来存储该“维”的描述信息,如产品的名称、分类等。由于关系数据库实现多维查询时,应进行查询优化技术(特别是表连接策略),利用各种索引技术来提高系统的性能。ROLAP常用星型模型或雪花模型来创建数据逻辑模型。

2.3 MOLAP与ROLAP的比较

? MOLAP与ROLAP的结构差别,如下图:

DB 生成 提取 多维数据库引擎 多维视图 DW MOLAP结构

DB ROLAP 数据组织 生成 存取 OLAP 引擎 ROLAP服务器 生成 多维 视图 提取 DW RDBMS服务器 ROLAP结构

? 两者对比如下表 特性 数据存取速度 数据存储的容量 多维计算的能力 维度变化的适应性 数据变化的适应性 软硬件平台的适应性 元数据管理 ROLAP 平面型式存储,慢 容量大(冗余多) 无法多行和“维”之间计算 较强 较强 较强 MOLAP 数据立方体,快 容量小(冗余少) 高性能计算,较强 较差,(多维结构特点) 很差,(大量重新计算) 较高(多维特殊性)

应用开发一部分,要定义处理 作为其内部数据 ? 两者在数据存储、技术和特性的比较: 项目 MOLAP 数据存储 详细数据用关系表存储在数据仓库中;各汇总数据保存在多维技术 由MOLAP引擎创建;预先建立数据立方体;多维视图存储特征 询问响应速度快;能轻松适应多维分析;有广泛的下钻和多层

OLAP数据分析原理及应用

联机分析处理1OLAP概念1.1OLAP定义?OLAP理事会给出的定义联机分析处理是一种软件技术,使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。?OLAP简单定义联机分析处理是共享多维信息的快速分
推荐度:
点击下载文档文档为doc格式
6yr5k2ae824g4gh0kzl91od1e2lms500xvx
领取福利

微信扫码领取福利

微信扫码分享