当变量名相同时,IBM SPSS Statistics 会自动匹配模型中用到的预测输入变量和当前数据集中已有的变量,如图 16,如果需要改变数据集中的字段可以在这里进行设置,通常一个模型是适用于特定数据集的,因此最好使用数据集中相同的字段作为模型应用的变量。单击下一步,进入评分函数选择页面。
图 16 评分向导模型字段匹配到数据集页面
因为线性模型只有预测值函数可以选择,因此这里只有一个选项如图 17,对于其他模型,如最近邻元素分类模型,神经网络模型等会有多个函数可供选择,单击完成。
图 17 评分向导函数选择页面
如图 18,在结果数据集中会产生一个新的变量 PredictedValue,这个变量的值就是应用之前产生的线性模型在已有数据集后产生的预测当前薪金的结果变量,该公司今后可以根据该模型和方法来进行人员成本估计和控制,以及新员工薪资定位等问题。
图 18 模型预测应用结果数据集
小结
本文从 IBM SPSS Statistics 的基本概念开始入手,通过实例应用分析,结合自动线性建模的应用,将 IBM SPSS Statistics 用于数据预测统计分析的基本流程做了简单介绍,实际当中每个步骤可能不会全部使用,也可能会有各个阶段交叉进行,比如在第一次得到模型后,根据模型信息,可以重新进行数据准备,调整参数后建模,或者选择其他模型,从而选择到最适合用户应用场景的模型。本文所展示的只是 IBM SPSS Statistics 很基础的一部分使用。随着用户使用的加深,将会了解到 IBM SPSS Statistics 更为强大的功能,如 ADP(自动数据准备),GLMM(广义线性混合模型),神经网络模型等等。