第一章
一.填空
1.数据挖掘和知识发现的三大主要技术为:数据库、统计学、机器学习
2.数据挖掘获得知识的表现形式主要有6种:规则、决策树、知识基网络权值、公式、案例
3.规则是由前提条件、结论两部分组成 4.基于案例推理CBR的基础是案例库
5.知识发现的基本步骤:数据选择、处理、转换、数据挖掘、解释与评价。数据挖掘是知识发现的关键步骤
6.数据挖掘的核心技术是:人工智能、机器学、统计学
7.目前数据挖掘在医学领域的应用集中在疾病辅助诊断、药物开发、医院信息系统、遗传学等方面 二.名解
1.数据挖掘DM:在数据中正规的发现有效的、新颖的、潜在有用的、并且最终可以被读懂的模式的过程
2.案例推理CBR:当要解决一个新问题时,CBR利用相似性检索技术到案例库中搜索与新问题相似的案例,再经过对就案例的修改来解决新问题 三.简答
1.数据挖掘的特点
a挖掘对象是超大型的DB,b发现隐含的知识,c可以用于增进人类认知的知识,d不是手工完成的
2.案例是解决新问题的一种知识,案例知识表示为三元组
a问题描述:对求解的问题及周围环境的所有特征的描述,b解描述:对问题求解方案的描述,c效果描述:描述解决方案后的结果情况,是失败还是成功 3.医学数据挖掘存在的关键问题
a数据预处理,b信息融合技术,c快速的鲁棒的书库挖掘算法,d提供知识的准确性和安全性
4.数据挖掘在遗传学方面的应用
遗传学的研究表明,遗传疾病的发生是由基因决定的,基因数据库搜索技术在基因研究上做出了很多重大发现,其工作主要包括:a从各种生物体的大量DNA序列中定位出具有某种功能的基因,b在基因DB中搜索与某种具有高阶结构或功能的蛋白质相似的高阶结构序列
第二章
一.填空
1.DM的对象分为:关系型DB、数据仓库、文本DB、复杂类型DB
2.从用户角度来看,数据仓库的基本组成包括:数据源、数据存储、应用工具、可视化用户界面
3.数据仓库是最流行的数据模型是多维数据模型,多维数据模型将数据看作是数据立方体的形式,数据立方体是由维和事实来定义
4.常用的多维数据模式包括:星型模式、雪花模式、事实星座模式。星型模式是由事实表
1 / 5
和维表构成
5.WEB DM分为:WEB内容挖掘、WEB结构挖掘、WEB使用挖掘 二.名解
1.数据仓库:一个面向主题的、集成的、时变的、非易失的数据集合,用以支持管理活动的决策过程
2.数据立方体:指以两维或多维来描述或者分类数据。这里的维类似于关系数据结构中的属性或者字段
3.WEB数据挖掘:指同万维网相关数据的挖掘 三.简答
1.人们使用文本DB的三个主要目的
a用户需要便利的获得全文文本,即文献检索,b用户应用此类数据库确定需要阅读的相关资料,c用户希望从文本数据库中获得信息的特异性片段,即从相关资料的特异性部分获得某个特意问题的答案
2.WEB数据库中的数据可以分为五个类别
a网页的内容,b网页间的结构,c网页内的结构,d描述用户如何使用网页的数据,e用户的人口统计学和注册信息
第三章
一.填空题
1.确定商业目标,认清数据挖掘的目的是DM的第一步
2.影响DM结果质量的两个因素是:所采用DM技术的有效性(模型的选择),用于挖掘的数据的质量和数量
3.数据质量的含义包含四个方面:数据的正确性,数据的一致性,数据的完整性,数据的可靠性 4.数据清洗的技术:空值处理,噪音数据,不一致数据等处理技术
5.数据挖掘模型按功能可分为:预测模型,描述模型.其中前者包括:分类模型,回归模型,时间序列模型;后者包括:聚类模型,关联模型,序列模型
6.模型准确性的测试分为三类:简单验证,交叉验证,自举法 二.名词解释
1.静态数据:开展业务活动所需要的基本数据(动态数据的基础,保持数据的唯一性) 动态数据:指每笔业务发生时产生的事务处理信息
2.数据归纳:其目的是建立用于挖掘的合适的数据集合,缩小处理范围,是在数据选择的基础上对挖掘数据的进一步约简,又叫数据缩减或数据收缩 三:简答
1.CRISP-DM模型的六个阶段
理解问题,理解数据,准备数据,建立模型,方案评估,方案实施 2.数据准备包含的方面
a从多个数据源中整合数据挖掘所需要的数据,保证数据的综合性,易用性,数据的质量和数据的时效性;b如何从现有数据中衍生出所需要的指标
3.在数据生成,处理和管理的许多阶段都会引入错误,主要包括
a数据输入和获得过程的错误;b数据集成所表现出来的错误(a度量纲问题b命名冲突问题c数据精度问题d汇总问题);c数据传输过程所引入的错误
4.通过历史数据预测未来,它的的有效性的前提条件隐藏着三个假设为
2 / 5
a过去是将来的好的预测器;b数据是可利用的;c数据包含我们想要的预测 5.预测模型和描述模型的区别
数据挖掘模型按照功能分为预测模型和描述模型.在预测模型中,用来预测的称为独立变量,要预测的称为相关变量或目标变量.预测模型包括分类模型,回归模型和时间序列模型;描述模型包括聚类模型,关联模型和序列模型.前者有时又称为有监督学习,可直接用来检测模型的准确性,一般在建立这些模型时,使用一部分数据作为样本,用另一部分数据来检验,校正模型;后者又称为无监督学习,因为在模型建立前结果是未知的,模型的产生不受任何监督
第四章 一.填空
1.关联分析就是用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的联系可以利用关联规则或者频繁项集的形式表示
2.关联规则算法通常采用的策略是把关联规则挖掘任务分解为两步:找出所有频繁的项集;由频繁项集产生强关联规则
3.Apriori算法的两大缺点:可能产生大量的候选集,可能需要重复扫描数据库
4.Apriori算法优化的四种思路:减少DB描述的次数,对挖掘的数据集中进行扫描,利用修剪技术来减少候选集Ck的大小,并行数据挖掘
5.同层关联规则可以采用的两种支持策略:统一的最小支持度,递减的最小支持度
第五章 聚类分析
一,填空.1.大多数聚类算法采用的两种具有代表性的数据结构:数据矩阵,相异度矩阵. 2.基于划分的聚类分析方法有,K-平均算法,K-中心点算法,CLAYANS算法.
3.孤立点挖掘的方法主要有:基于统计的方法,基于距离的方法,基于偏离的方法. 4.两种基于偏离的孤立点的检测技术是:序列异常技术,olap数据立方体技术. 二,名词解释
1.聚类分析,是一个将数据集划分为若干组成类的过程.并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据是不相似的. 2.相异度矩阵,是一个对象-对象结构,它存放所有n个对象两两之间所形成的差异性(相似性) 3.孤立点,与其他数据有显著区别的数据对象的集合。 4,孤立点挖掘, 三,简答
1.K-平均算法的操作流程:
给定K后,1,从数据对象中任意选择K个对象作为初始聚类中心。2,计算每个聚类的平均值,用该平均值代表相应的聚类中心。3,计算每个对象与这个中心的距离,并根据最小距离重新对相应对象进行划分,将它分配到与它最近的聚类中。4,循环。5,直到每个聚类不在发生变化为止。
2.孤立点产生的原因:1,度量或执行错误导致。2.固有的数据变异的结果。 3.孤立点挖掘问题可以看成是2个问题;
1,定义在数据集中的什么是不一致的数据。
2,找到一个能够挖掘出所定义的孤立点的有效方法。
第六章 决策树
1.决策树的基本组成部分:决策节点 分枝 叶子 2.在决策树中最上面的节点称为 根节点
3 / 5