好文档 - 专业文书写作范文服务资料分享网站

医学数据挖掘

天下 分享 时间: 加入收藏 我要投稿 点赞

第一章

.填空

1.数据挖掘和知识发现的三大主要技术为:数据库、统计学、 机器学习 2.数据挖掘获得知识的表现形式主要有

知识基网络权值、公式、案例

6 种:规则、决策树、

3.规则是由前提条件、结论两部分组成 4.基于案例推理的基础是案例库

5.知识发现的基本步骤:数据选择、处理、转换、数据挖掘、 解释与评

价。数据挖掘是知识发现的关键步骤

6.数据挖掘的核心技术是:人工智能、机器学、统计学

7. 目前数据挖掘在医学领域的应用集中在疾病辅助诊断、 药物开 发、医

院信息系统、遗传学等方面 二.名解

1.数据挖掘:在数据中正规的发现有效的、新颖的、潜在有用 的、并且

最终可以被读懂的模式的过程

2.案例推理:当要解决一个新问题时,利用相似性检索技术到 案例库中

搜索与新问题相似的案例, 再经过对就案例的修改来 解决新问题 三.简答

1.数据挖掘的特点

a 挖掘对象是超大型的, b 发现隐含的知识, c 可以用于增进 人类认

知的知识, d 不是手工完成的

2.案例是解决新问题的一种知识,案例知识表示为三元组

a 问题描述:对求解的问题及周围环境的所有特征的描述, b 解描述:

1 / 12

对问题求解方案的描述, c 效果描述:描述解决方案 后的结果情况,是失败还是成功

3.医学数据挖掘存在的关键问题

a 数据预处理, b 信息融合技术, c 快速的鲁棒的书库挖掘算 法,d

提供知识的准确性和安全性

4.数据挖掘在遗传学方面的应用

遗传学的研究表明,遗传疾病的发生是由基因决定的,基因 数据库搜索技术在基因研究上做出了很多重大发现, 其工作主 要包括: a 从各种生物体的大量序列中定位出具有某种功能的 基因, b 在基因中搜索与某种具有高阶结构或功能的蛋白质相 似的高阶结构序列

第二章

一.填空

1.的对象分为:关系型、数据仓库、文本、复杂类型 2.从用户角度来

看,数据仓库的基本组成包括:数据源、数据 存储、应用工具、可视化用户界面

3.数据仓库是最流行的数据模型是多维数据模型,多维数据模 型将数据

看作是数据立方体的形式, 数据立方体是由维和事实 来定义

4.常用的多维数据模式包括:星型模式、雪花模式、事实星座 模式。星型模式是由事实表和维表构成 5.

DM分为:WEB内容挖掘、WEB结构挖掘、WEB使用

挖掘 二.名解

1. 数据仓库:一个面向主题的、集成的、时变的、非易失的数

2 / 12

据集合,用以支持管理活动的决策过程

2 .数据立方体:指以两维或多维来描述或者分类数据。这里的

维类似于关系数据结构中的属性或者字段

3. WEB数据挖掘:指同万维网相关数据的挖掘

三.简答

1. 人们使用文本的三个主要目的

a 用户需要便利的获得全文文本,即文献检索, b 用户应用 此类数据

库确定需要阅读的相关资料, c 用户希望从文本数据 库中获得信息的特异性片段, 即从相关资料的特异性部分获得 某个特意问题的答案

2. 数据库中的数据可以分为五个类别

a 网页的内容, b 网页间的结构, c 网页内的结构, d 描述用

户如何使用网页的数据, e 用户的人口统计学和注册信息 第三章 一. 填空题

1. 确定商业目标 , 认清数据挖掘的目的是的第一步

2. 影响结果质量的两个因素是 : 所采用技术的有效性 ( 模型的选

择 ), 用于挖掘的数据的质量和数量

3. 数据质量的含义包含四个方面 : 数据的正确性 , 数据的一致性 , 数据的

完整性 , 数据的可靠性

4. 数据清洗的技术 : 空值处理 , 噪音数据 , 不一致数据等处理技术 5. 数据挖掘模型按功能可分为 : 预测模型 , 描述模型 . 其中前者包 括:

分类模型 , 回归模型 , 时间序列模型 ; 后者包括 : 聚类模型 , 关联模型 , 序列模型

3 / 12

6. 模型准确性的测试分为三类 :简单验证 , 交叉验证 , 自举法

二. 名词解释

1. 静态数据 :开展业务活动所需要的基本数据 (动态数据的基础 , 保持

数据的唯一性 )

动态数据 : 指每笔业务发生时产生的事务处理信息

2. 数据归纳 : 其目的是建立用于挖掘的合适的数据集合 , 缩小处 理范

围 , 是在数据选择的基础上对挖掘数据的进一步约简 叫数据缩减或数据收缩 三: 简答

, 又

1模型的六个阶段

理解问题 ,理解数据 , 准备数据 , 建立模型 , 方案评估 , 方案实施

2. 数据准备包含的方面

a 从多个数据源中整合数据挖掘所需要的数据

, 保证数据的综

合性 , 易用性 , 数据的质量和数据的时效性如何从现有数据中 衍生出所需要的指标

3. 在数据生成 , 处理和管理的许多阶段都会引入错误 , 主要包括 a 数据

输入和获得过程的错误数据集成所表现出来的错误 (a 度量纲问题 b 命名冲突问题 c 数据精度问题 d 汇总问题 ) 数据 传输过程所引入的错误

4. 通过历史数据预测未来 , 它的的有效性的前提条件隐藏着三个 假设为 a 过去是将来的好的预测器数据是可利用的数据包含我们想要 的预测 5. 预测模型和描述模型的区别 数据挖掘模型按照功能分为预测模型和描

4 / 12

述模型 . 在预测模型 中, 用来预测的称为独立变量 , 要预测的称为相关变量或目标 变量 . 预测模型包括分类模型 , 回归模型和时间序列模型 ; 描述 模型包括聚类模型 , 关联模型和序列模型 . 前者有时又称为有 监督学习 , 可直接用来检测模型的准确性 , 一般在建立这些模 型时 , 使用一部分数据作为样本 , 用另一部分数据来检验 , 校正 模型 ; 后者又称为无监督学习 , 因为在模型建立前结果是未知 的, 模型的产生不受任何监督

第四章

一 . 填空 1.关联分析就是用于发现隐藏在大型数据集中的令人感兴趣的 联系 , 所发现的联系可以利用关联规则或者频繁项集的形式表 示

2. 关联规则算法通常采用的策略是把关联规则挖掘任务分解为

两步 : 找出所有频繁的项集 ; 由频繁项集产生强关联规则

3算法的两大缺点 : 可能产生大量的候选集 , 可能需要重复扫描数 据库 4 算法优化的四种思路 : 减少描述的次数 , 对挖掘的数据集中进行 扫描 ,

利用修剪技术来减少候选集的大小 , 并行数据挖掘

5. 同层关联规则可以采用的两种支持策略 : 统一的最小支持度 , 递减的最

小支持度

第五章 聚类分析

一, 填空.1. 大多数聚类算法采用的两种具有代表性的数据结构 数据矩阵 , 相异度矩阵 .

:

2. 基于划分的聚类分析方法有平均算法中心点算法算法 .

3. 孤立点挖掘的方法主要有 : 基于统计的方法 , 基于距离的方法 , 基于

偏离的方法 .

5 / 12

医学数据挖掘

第一章.填空1.数据挖掘和知识发现的三大主要技术为:数据库、统计学、机器学习2.数据挖掘获得知识的表现形式主要有知识基网络权值、公式、案例6种:规则、决策树、3.规则是由前提条件、结论两部分组成4.基于案例推理的基础是案例库5.知识发现的基本步骤:数据选择、处理、转换、数据挖掘、解释与评
推荐度:
点击下载文档文档为doc格式
0yor85y4ui7b8vd538ce5nrap1rg8p00xft
领取福利

微信扫码领取福利

微信扫码分享