多元线性回归分析案例
SPSS19.0实战之多元线性回归分析 (2011-12-09 12:19:11) 转载▼
标签: 分类: 软件介绍 文化
线性回归数据(全国各地区能源消耗量与产量)来源,可点击协会博客数据挖掘栏:国泰安数据服务中心的经济研究数据库。 1.1 数据预处理
数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化等。本次实习主要涉及的数据预处理只包括数据清理和描述性数据汇总。一般意义的数据预处理包括缺失值填写和噪声数据的处理。于此我们只对数据做缺失值填充,但是依然将其统称数据清理。 1.1.1 数据导入与定义
单击“打开数据文档 ”,将xls格式的全国各地区能源消耗量与产量的数据导入SPSS中,如图1-1所示。
图1-1 导入数据
导入过程中,各个字段的值都被转化为字符串型(String),我们需要手动将相应的字段转回数值型。单击菜单栏的“ ”-->“ ”将所选的变量改为数值型。如图1-2所示:
1 / 14
多元线性回归分析案例
图1-2 定义变量数据类型 1.1.2 数据清理
数据清理包括缺失值的填写和还需要使用SPSS分析工具来检查各个变量的数据完整性。单击“ ”-->“ ”,将检查所输入的数据的缺失值个数以及百分比等。如图1-3所示:
图1-3缺失值分析
能源数据缺失值分析结果如表1-1所示: 单变量统计 N 均值 标准差 2 / 14
缺失 极值数目a 多元线性回归分析案例
计数 能源消费总量 30 煤炭消费量 焦炭消费量 原油消费量 汽油消费量 煤油消费量 柴油消费量 30 30 28 30 28 30 9638.50 9728.99 874.61 1177.51 230.05 45.40 392.34 141.00 19.56 949.64 9125.97 1026.49 1026.48 90.72 215.18 48.44 448.29 29.28 954.74 6175.924 7472.259 1053.008 1282.744 170.270 66.189 300.979 313.467 22.044 711.664 12180.689 1727.735 1231.724 134.150 210.090 62.130 420.675 49.391 675.230 0 0 0 2 0 2 0 0 0 0 4 1 12 5 4 10 4 10 0 百分比 .0 .0 .0 6.7 .0 6.7 .0 .0 .0 .0 13.3 3.3 40.0 16.7 13.3 33.3 13.3 33.3 .0 低 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 高 1 2 2 1 1 4 2 3 2 3 2 2 0 3 2 0 1 3 0 燃料油消费量 30 天然气消费量 30 电力消费量 原煤产量 焦炭产量 原油产量 燃料油产量 汽油产量 煤油产量 柴油产量 天然气产量 电力产量 30 26 29 18 25 26 20 26 20 30 表2-1 能源消耗量与产量数据缺失值分析 表1-1 能源消耗量与产量数据缺失值分析
SPSS提供了填充缺失值的工具,点击菜单栏“ ”-->“ ”,即可以使用软件提供的几种填充缺失值工具,包括序列均值,临近点中值,临近点中位数等。结合本次实习数据的具体情况,我们不使用SPSS软件提供的替换缺失值工具,主要是手动将缺失值用零值来代替。
1.1.3 描述性数据汇总
描述性数据汇总技术用来获得数据的典型性质,我们关心数据的中心趋势和离中趋势,根据这些统计值,可以初步得到数据的噪声和离群点。中心趋势的量度值包括:均值(mean),中位数(median),众数(mode)等。离中趋势量度包括四分位数(quartiles),方差(variance)等。
SPSS提供了详尽的数据描述工具,单击菜单栏的“ ”-->“ ”-->“ ”,将弹出如图2-4所示的对话框,我们将所有变量都选取到,然后在选项中勾选上所希望描述的数据特征,包括均值,标准差,方差,最大最小值等。由于本次数据的单位不尽相同,我们需要将数据标准化,同时勾选上“将标准化得分另存为变量”。
3 / 14