第一章
1、数据挖掘的概念及其特点
数据挖掘
概念 :在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)
数据挖掘 ( 从数据中发现知识 ) 特点:从大量的数据中挖掘哪些令人感兴趣的、有用的、 隐含的、 先前未知的和可能有用的 模式或知识
挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)
2、数据挖掘的核心( KDD )是什么? 知识挖掘( KDD) 数据挖掘与知识发现 从 KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识 数据清理 : ( 这个可能要占全过程 60%的工作量 ) 1、数据集成 2、数据选择 3、数据变换
4、数据挖掘(选择适当的算法来找到感兴趣的模式) 5、模式评估 6、知识表示
3、数据挖掘的体制结构。
4、数据挖掘的主要方法(能够区分)常用模式
5、 6、 7、
分类预测的说明:比如:按气候将国家分类,按汽油消耗定额将汽车分类 导出模型的表示 : 判定树、分类规则、神经网络 可以用来预报某些未知的或丢失的数字值 聚类分析的说明:例:对
WEB日志的数据进行聚类,以发现相同的用户访问模式 孤立点分析的说明 (应用)信用卡欺诈检测 /移动电话欺诈检测 /客户划分 /医疗分析(异常)
第二章
1、数据仓库的概念(特点就在概念里) 数据仓库是一个 (1) 面向主题的、 (2) 集成的、 (3) 随时间而变化的、 (4) 不容易丢失的数据集 合,支持管理部门的决策过程 . 2、 OLAP(联机分析处理)和 OLTP(联机事务处理)的区别
1、 用户和系统的面向性: 面向顾客(事务) VS. 面向市场(分析)
2、 数据内容: 当前的、详细的数据 (事务) VS. 历史的、汇总的数据(分析) 3、数据库设计: 实体-联系模型 (ER)和面向应用的数据库设计(事务) VS. 星型 /雪花模
型和面向主题的数据库设计(分析)
4、 数据视图: 当前的、企业内部的数据 (事务) VS. 经过演化的、集成的数据(分析) 5、 访问模式: 事务操作 (事务) VS. 只读查询(但很多是复杂的查询) (分析) 6、任务单位:简短的事务 VS. 复杂的查询 7、访问数据量:数十个 VS. 数百万个 8、用户数:数千个 VS. 数百个
9、数据库规模: 100M-数 GB VS. 100GB- 数 TB
10、设计优先性:高性能、高可用性 VS. 高灵活性、端点用户自治 11、度量:事务吞吐量 VS. 查询吞吐量、响应时间
3、多维数据模型 在多维数据模型中,数据以 数据立方体 (data cube) 的形式存在 数据立
方体允许以多维数据建模和观察。它由维和事实定义 维是关于一个组织想要记录的视角或观点。 每个维都有一个表与之相关联,称为 维表 。
多维数据模型围绕中心主题组织,该主题用事实表表示 事实表 包括事实的名称或度量以及每个相关维表的关键字 事实 指的是一些数字度量
一个 n 维的数据的立方体叫做 基本方体 。给定一个维的集合,我们可以构造一个 方体的格 , 每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为 数据立方体 。0 维方体存 放最高层的汇总,称作 顶点方体 ;而存放最底层汇总的方体则称为 基本方体 。
3、几种常见的概念模型
星型模式( Star schema) : 事实表在中心,周围围绕地连接着维表(每维一个) ,事实表
含 有大量数据,没有冗余。
雪花模式( Snowflake schema ) : 是星型模式的变种,其中某些维表是规范化的,因而把 数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。
事实星座( Fact constellations ): 多个事实表共享维表 , 这种模式可以看作星型模式集, 因此称为星系模式( galaxy schema ),或者事实星座( fact constellation )
4、一种数据挖掘查询语言 DMQL 一种是立方体定义,一种是维定义 立方体定义 (事实表 ) define cube
维数据模型 (数据立方体) 使得从不同的角度对数据进行观察成为可能, 而概念分层则提 供了从不同层次对数据进行观察的能力; 结合这两者的特征, 我们可以在多维数据模型上定 义各种
OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性:
6、多维数据模型上的 OLAP 操作 上卷 (roll-up): 汇总数据 通过一个维的概念分层向上攀
升或者通过维规约 当用维归约进行上卷时,一个或多个维由给定的数据立方体删除 下钻
(drill-down) :上卷的逆操作
由不太详细的数据到更详细的数据, 可以通过沿维的概念分层向下或引入新的维来实现 ( 为 给定数据添加更多细节 )
7、数据仓库设计的三种方法 (自顶向下法、自底向上法或者两者的混合方法) 自顶向下法 :由
总体设计和规划开始 在技术成熟、商业理解透彻的情况下使用 自底向上法 :以实验和原型开始 常用在模型和技术开发的初期,可以有效的对使用的技术和模型进行评估,降低风险 混合方法 :上述两者的结合
8、元数据的概念,可以分为哪几类? 元数据就是定义数据仓库对象的数据
1、数据仓库结构的描述 仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位
置和内容
2、操作元数据
包括数据血统 (data lineage) 、数据类别 (currency of data) ,以及监视信息 3、汇总用的算法
4、由操作环境到数据仓库的映射 5、关于系统性能的数据
索引, profiles ,数据刷新、更新或复制事件的调度和定时 6、商务元数据 商务术语和定义、数据拥有者信息、收费政策等
(技术元数据、业务元数据) 第三章
1、什么是数据预处理?为什么进行?预处理的主要方法和内容。
概念: 数据预处理是知识发现过程的重要步骤。检测数据异常、尽早地调整数据, 并归约待 分析的数据,将在决策过程中得到高回报。
进行的原因: 现实世界的数据是“肮脏的”——数据多了,什么问题都会出现 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据 含噪声的:包含错误或者“孤立点”
不一致的:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据
数据仓库需要对高质量的数据进行一致地集成 主要方法和内容:
数据清理 : 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性 数据集成 : 集成多个数据库、数据立方体或文件 数据变换 : 规范化和聚集