机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支 持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目 标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是\维\这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性 定义为多个维(DImension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(Roll Up和Drill Down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)、Drill Across、Drill Through等。
钻取是改变维的层次,变换分析的粒度。它包括向上钻取(Roll Up)和向下钻取(Drill Down)。Roll Up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill Down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。
旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。 OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。
ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和 维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星 型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。
MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP 中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。
HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。
还有其他的一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。
OLAP工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑 产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构 成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,……,维n,度量指标),如(地区、时间、产品、销售额)。多维分析是指对以多维形式 组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill Down和Roll Up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
根据综合性数据的组织方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。MOLAP是以多维的方式 组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具 还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。
基于数据挖掘的决策支持系统
在市场经济环境下,企业竞争越来越激烈,如何有效地提高企业管理水平和经济效益,挖掘市场潜力,是现代企业面对的一个重要课题。对此,企业信息化建设是提高企业管理水平的有效方法,而且企业信息化已经从最初的简单整合企业信息资源,发展到现在建立大型的企业信息数据库,并从数据库中发现知识,以提供给决策层应用,从而达到辅助企业管理及决策的目的。 1.基于数据挖掘的决策支持系统构建
决策支持系统(DSS)是利用大量信息数据结合众多模型,通过人机交互,辅助各级决策者实现科学决策的系统。该系统是一个融计算机技术、信息技术、人工智能、管理科学、决策科学等学科和技术于一体的技术继承系统。
在企业没有建立起决策支持系统前,各个部门基本上具备各自的数据信息和独立的信息处理系统,但是各个部门间信息不兼容,即使部门之间有交叉业务,但是由于信息不统一,也无法做到信息的一致性,不能有效地达到共享,造成所谓的信息孤岛。即使建立了大型的、集成的、信息统一的数据仓库,但怎样才能在大量的数据中发现有用知识呢?这就需要一个全面的解决方案,解决数据的一致性和集成性,并在这些经过处理的数据中发现知识,以协助企业进行有效的决策和管理。基于数据挖掘的决策支持系统就是把传统的决策支持系统和数据挖掘有机地结合在一起,通过数据挖掘技术来提高系统的智能性,在海量的数据中有效地提取有用数据,发现有用知识。
决策支持系统由两部分组成(见图1.1):数据仓库、分析系统(即数据挖掘方法)。
1.1 数据仓库
数据仓库的设计首先要满足决策支持系统的要求,决策支持系统数据库所要求的数据要具备三方面特点:概括性、抽象性、统一性。所以在图2.1中数据仓库和部门数据库之间还应有一个虚拟层,用来为数据仓库提取有用数据,这个层的功能实现由数据挖掘的数据清洗过程完成。 数据仓库设计的关键是数据库的结构设计,包括逻辑设计和物理设计。 (1) 数据库逻辑设计
逻辑设计前需要首先建立一个涉及企业各个方面的详细商业模型,即概念模型。概念模型是独立于任何一种数据模型的信息结构,逻辑设计的任务就是把商业模型转换为数据库系统所支持的数据模型相符合的逻辑结构。由于大多数的商用数据库系统是关系型数据库,所以逻辑设计的主要问题就是把概念模型中各个实体与实体属性的联系转换为关系模式。在企业中涉及很多实体,如部门实体:人力资源部、生产部、财务部、市场部等等。而各个部门中还涉及部门内部的多个实体,如市场部门中涉及的实体有:客户、客户经理、产品、订单、销售业绩,以及城市信息等等,这些实体都有自己的属性。
(2)数据库物理设计
数据库在物理设备上的存储结构与存取方法称为数据库的物理结构,优秀的物理结构设计能使数据库上运行的各种事务响应时间小、存储空间利用率高、事务吞吐率大。优秀的物理设计最重要的是有一个高效率的存取方法,常见的存取方法有索引存取方法、HASH存取方法等,存取方法本文不再详细叙述。
1.2 数据挖掘方法
数据挖掘从本质上说是一种新的商业信息处理技术。数据挖掘技术把人们对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上。它通过对这些数据进行微观、中观乃至宏观的统计分析、综合和推理,发现数据的关联性、未来趋势以及一般性的概括知识等。数据挖掘作为一门数据处理的新兴技术,它具有的特征是处理海量数据,并且即使这些数据是不完全的、冗余的、随机的、复杂数据结构的、维数大的,都可以通过数据清洗来选择有用数据,建立知识模型。数据挖掘是多学科交叉,涉及计算机科学、统计学、数学等学科的技术。 (1) 联机分析挖掘OLAM
OLAM(OnLine Analytical Mining)联机分析挖掘的概念是OLAP(Online Analytical Processing,联机分析处理)的发展。用户的决策分析需要对数据库中的数据进行大量的分析计算才能得到结果,而普通的数据处理系统对数据库的简单查询,已经不能满足决策者提出的需求,因此就出现了多维数据库和多维分析的概念,即OLAP。OLAP是联机交互式数据分析一个良好的框架,但是它只能处理数值型数据,对决策支持系统来说是一个较大的局限性。
OLAM是在数据立方体上进行多层次的数据挖掘,OLAM分成若干个抽象层,每个抽象层都有各自的抽象任务。主要包括数据集层:它包括相关的数据库和数据仓库等,同时也是OLAM的数据源,通过数据清洗和集成,生成结构化的便于分析的数据环境。
数据立方层:形成支持OLAP和OLDM的多维数据集,它是相关数据的综合和多维化处理,主要由数据立方和元数据集组成。
OLAP和OLDM应用层:这一层接受数据请求,通过访问多维数据集和元数据,完成数据挖掘和分析。
用户接口层:承担用户请求的理解以及挖掘结果的解释和表达等。 (2) 数据挖掘过程
数据库中发现知识是一个有明确学习目标的需要多次反复的过程,因此数据挖掘是一个目标和数据不断优化的过程。 a.问题定义和数据抽取
对于多异构的数据源,需要根据源数据的结构特点进行相应的数据抽取工作。不同类型的源数据,在结构上差异很大。这就需要以问题定义为基础来界定数据抽取的原则和规则。 b.数据预处理
数据预处理是对数据再加工的过程。经过处理后,数据具有某种标准格式,可以提供给后续的数据挖掘。数据预处理的任务主要有数据清洗和数据选择等。对于备选数据先噪声清洗,然后根据模式要求确定数据选择的原则和策略。选择出满足模式要求的数据,必要时进行数据格式的转换。 c.数据挖掘和知识库
数据挖掘是在规格化的目标数据集中根据特定的模型和算法进行数据抽象,生成知识。它应该能反复利用获得的知识和用户互动,这就需要知识库的支持,达到满足用户要求的知识模式。决策支持系统是一个多策略的挖掘系统,所以数据挖掘包含诸如描述、关联、分类、聚类、时间序列分析以及进化和偏差分析等功能在内的数据挖掘工具。挖掘出来的中间或者最终知识存储在知识库中。这些知识具有不同的抽象层次、适合不同的决策层次的数据分析和决策。 2.数据挖掘决策支持系统在企业中的构建
数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。用于决策支持,则是提高企业在面对不断变换的市场条件下的应变能力,以及挖掘自身潜力,增强自身竞争力的有效手段。 2.1 数据准备
完备的信息来源是决策支持系统的基础,在企业中商业决策需要多样化的信息,如实时信息、历史信息、社会信息、企业内部信息、行业信息等等。因此在整理信息的时候,需要做到全面、准确、及时。
按企业信息的业务属性,信息可以分为以下几类: