浙江大学远程教育学院《数据挖掘》课程作业答案
第一章引言
一、填空题
(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示
(2)算法的效率、可扩展性和并行处理
(3)统计学、数据库技术和机器学习
(4)一些与数据的一般行为或模型不一致的孤立数据
二、简答题
(1)什么是数据挖掘
答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
(2)一个典型的数据挖掘系统应该包括哪些组成部分
答:一个典型的数据挖掘系统应该包括以下部分:
数据库、数据仓库或其他信息库
数据库或数据仓库服务器
知识库
数据挖掘引擎
模式评估模块
图形用户界面
(3)Web挖掘一般包括以下步骤:
数据清理: (这个可能要占全过程60%的工作量)
数据集成
将数据存入数据仓库
建立数据立方体
选择用来进行数据挖掘的数据
数据挖掘(选择适当的算法来找到感兴趣的模式)
展现挖掘结果
将模式或者知识应用或者存入知识库
(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)
答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。
第二章认识数据
一、填空题
(1)5/13
(2)极差、分位数、四分位数、百分位数、四分位数极差和标准差
(3)出落在至少高于第三个四分位数或低于第一个四分位数×IQR处的值
二、单选题
(1)C;(2)C;
三、简答题
(1)什么是基于像素的可视化技术它有什么缺点
答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。
(2)对称的和不对称的二元属性有什么区别
答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,变量的两个状态的重要性是不同的。
对称的二元属性可以使用简单匹配系数评估它们的相异度;不对称的二元属性使用Jaccard系数评估它们的相异度。
第三章数据预处理
一、填空题
(1)数据清理、数据集成、数据变换、数据规约
(2)沿概念分层向上概化
(3)有损压缩,无损压缩
(4)线性回归方法,多元回归,对数线性模型
二、简答题
(1)常用的数值属性概念分层的方法有哪些
数据挖掘课程作业答案
![](/skin/haowen/images/icon_star.png)
![](/skin/haowen/images/icon_star.png)
![](/skin/haowen/images/icon_star.png)
![](/skin/haowen/images/icon_star.png)