判别与树形分析小组结题报告
小组成员:
小组分工:
目录
第一部分 数据初始处理.............................................................................................. 2
1.1 概述 .............................................................................................................. 2 1.2 在spss上的具体实现 ................................................................................. 2
1.2.1 数据检查............................................................................................ 2 1.2.2 基本统计特征描述............................................................................ 4
第二部分 基于注册时间的聚类与判别分析.............................................................. 6
2.1 聚类分析 ........................................................................................................ 6
2.1.1 聚类分析概述 ..................................................................................... 6 2.1.2 数据的进一步处理 ............................................................................. 6 2.1.3 数据的统计以及初始类别的构建 ..................................................... 9 2.2 判别分析 ...................................................................................................... 12
2.2.1 判别分析概述 ................................................................................... 12 2.2.2 样本数据处理 ................................................................................... 13 2.3 聚类分析结果的试探性分析 ...................................................................... 16 第三部分 基于行政区域的聚类与判别分析............................................................ 17
3.1 概述 .............................................................................................................. 17 3.2 实现过程 ...................................................................................................... 17
第一部分 数据初始处理
1.1 概述
数据预处理部分需要完成的工作的主要包括:数据的导入、数据的定义、数据的检查、数据基本统计特征描述。具体内容如下所示:
? ?数据导入 ? ??变量定义 ???数据检查?缺失值处理 数据预处理? ??极端值处理? ? ??单变量统计特征?数据基本统计特征描述?
??多变量统计特征?
1.2 在spss上的具体实现
1.2.1 数据检查
在导入数据后,首先要做的是对每个变量进行定义,主要包括对数据的类型、宽度、标签、值、缺失值、度量标准等作出明确的定义。如下所示:
图1.1.1 变量的定义
对变量定义完成之后,需要对变量进行检查,包括对缺失值、极端值的处理,必要时对一些不合理的个案进行剔除等操作。具体如下:
图1.1.2 缺失值的处理
图1.1.3 极端值的处理(根据方差大小)
图1.1.4 对不合理定义的数据的剔除
1.2.2 基本统计特征描述
利用spss软件本身的统计功能,可以描述个案的分布特征以及描述变量与变量之间的相关性。基本统计特征的描述将作为对数据进一步处理的指导跟依据。以下是对数据统计处理后的部分结果的展示:
图1.2.1 数据的分布特征
图1.2.2 变量之间统计特征