BI三大核心技术
1. DW(数据仓库)
必要性: 实施BI首先要从企业内部和企业外部不同的数据源,如客户关系管理(CRM)、供应链管理(SCM)、企业资源规划(ERP)系统以及其他应用系统等搜集有用的数据,进行转换和合并,因此需要数据仓库和数据集市技术的支持。
概念:数据仓库(Data Warehouse)是一种语义上一致的数据存储,是指从多个数据源收集的信息,以一种一致的存储方式保存所得到的数据集合。面向不同的需求,对数据进行清洗以保证数据的正确性,然后对数据进行抽取,转换成数据仓库所需形式,并实现加载到数据仓库。
数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。数据仓库技术就是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具。数据仓库技术也是一种达成“数据整合、知识管理”的有效手段。
特点:数据仓库是面向主题的、集成的、与时间相关的、不可修改的数据集合。这是数据仓库技术特征的定位。
数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。
2. OLAP(联机分析处理)
联机分析处理(OLAP) 又称多维分析,它对数据仓库中的数据进行多维分析和展现,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的一类软件技术。它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
进行OLAP分析的前提是已有建好的数据仓库,之后即可利用OLAP 复杂的查询能力、数据对比、数据抽取和报表来进行探测式数据分析了。称其为探测式数据分析,是因为用户在选择相关数据后,通过切片(按二维选择数据)、切块(按三维选择数据)、上钻(选择更高一级的数据详细信息以及数据视图)、下钻(展开同一级数据的详细信息)、旋转(获得不同视图的数据) 等操作,可以在不同的粒度上对数据进行分析尝试,得到不同形式的知识和结果。联机分析处理研究主要集中在ROLAP(基于关系数据库的OLAP) 的查询优化技术和MOLAP(基于多维数据组织的OLAP) 中减少存储空间和提高系统性能的方法等。
OLAP操作语言:通过扩展数据库的操作语言SQL,得到MSQL(Multiple SQL)。
3. DM(数据挖掘)
数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。 与OLAP 的探测式数据分析不同,数据挖掘是按照预定的规则对数据库和数据仓库中已有的数据进行信息开采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,为决策者提供决
策依据。数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分为两大类:预测型( Predictive)模式和描述型(Descriptive)模式。
预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。在实际应用中,根据模式的实际作用,可细分为分类模式、回归模式、时间序列模式、聚类模式、关联模式和序列模式6 种。其中包含的具体算法有货篮分析(Market Analysis)、聚类检测(Clustering Detection)、神经网络(Neural Networks)、决策树方法(Decision Trees)、遗传算法(Genetic Analysis)、连接分析(Link Analysis)、基于范例的推理(Case Based Reasoning)和粗集(RoughSet)以及各种统计模型。
4. 三大核心技术之间关系
DW是前提和基础。负责统一数据规则的处理和存储。 OLAP是操作,侧重显性知识处理和分析。 DM是发现,侧重于隐士知识发掘和利用 。
OLAP 与数据挖掘的区别和联系是:OLAP 侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息,尽管允许用户指导这一过程。OLAP 的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展OLAP 分析的深度,可以发现OLAP 所不能发现的更为复杂、细致的信息。数据挖掘的研究重点则偏向数据挖掘算法以及数据挖掘技术在新的数据类型、应用环境中使用时所出现新问题的解决上, 如对各种非结构化数据的挖掘、数据挖掘语言的标准化以及可视化数据挖掘等。