如何利用SPSS 19.0剔除数据中的异常值 (Outliers)
一般数组应遵循正态分布,但一列数组中有可能会出现异常值,从而影响数据的方差和统计结果,因此挡在SPSS中输入数据后,首先要检查数据中是否存在异常值。方法如下:
1. 选择想要观察的数据,此处我们选择normal 列中的数据进行查看
2. 进入菜单栏中“分析”→“描述统计”→“探索”
3. 将“normal”数组放入因变量列表中
4. 点击“探索”窗口中的“统计量”,点掉“描述性”,选择“界外值”和“百分位数”
5. 点击“探索”窗口中“绘制”,选择“直方图”,去掉“茎叶图”
6. 选择结束后点击“探索”窗口“确定”查看结果:
(1) 百分位数图:
百分位数 加权平均(定义 1) normal Tukey 的枢纽 normal 百分位数 5 16.8172 10 16.8172 25 17.8396 18.2784 50 19.3810 19.3810 75 26.0281 23.8990 90 29.3039 95 29.3039
(2) 以50%左右两个百分位数(即四分位数25和75下方的加权平均值)的加权平
均值计算最高和最低临界值,使用计算公式如下: Upper=Q3+(2.2*(Q3-Q1)) Lower=Q1-(2.2*(Q3-Q1)) 此处Q3=26.0281, Q1=17.8396
计算后,Upper=44.0428,Lower=-0.1751
(3) 查看“极值”表格:
极值
normal
最高
1 2 3 4 5
最低
1 2 3 4 5
案例号
20 22 24 46 47 81 78 75 57 54 值 29.30 29.30 29.30 29.30 29.30 16.82 16.82 16.82 16.82 16.82 ba
a. 上限值表中仅显示一部分具有值 29.30 的案例。 b. 下限值表中仅显示一部分具有值 16.82 的案例。
如果有最高值查过Upper,或最低值小于Lower值,则被视为Outliers, 即异常值。由图中看,此列数组并无异常值