数据分析方法及软件应用
(作业)
题 目:4、8、13、16题 指导教师:
学 院:交通运输学院 姓 名: 学 号:
4、在某化工生产中为了提高收率,选了三种不同浓度,四种不同温度做试验。在同一浓度与温度组合下各做两次试验,其收率数据如下面计算表所列。试在α=0.05显著性水平下分析
(1)给出SPSS数据集的格式(列举前3个样本即可); (2)分析浓度对收率有无显著影响;
(3)分析浓度、温度以及它们间的交互作用对收率有无显著影响。 解答:(1)分别定义分组变量浓度、温度、收率,在变量视图与数据视图中输入表格数据,具体如下图。
(2)思路:本问是研究一个控制变量即浓度的不同水平是否对观测变量收率产生了显著影响,因而应用单因素方差分析。假设:浓度对收率无显著影响。
步骤:【分析-比较均值-单因素】,将收率选入到因变量列表中,将浓度选入到因子框中,确定。
输出:
變異數分析 收率 群組之間 在群組內 總計 平方和 39.083 80.875 119.958 df 2 21 23 平均值平方 19.542 3.851 F 5.074 顯著性 .016 显著性水平α为0.05,由于概率p值小于显著性水平α,则应拒绝原假设,认为浓度对收率有显著影响。
(3)思路:本问首先是研究两个控制变量浓度及温度的不同水平对观测变量收率的独立影响,然后分析两个这控制变量的交互作用能否对收率产生显著影响,因而应该采用多因素方差分析。假设,H01:浓度对收率无显著影响;H02:温度对收率无显著影响;H03:浓度与温度的交互作用对收率无显著影响。
步骤:【分析-一般线性模型-单变量】,把收率制定到因变量中,把浓度与温度制定到固定因子框中,确定。
输出:
主旨間效果檢定 因變數: 收率 第 III 類平方來源 修正的模型 截距 浓度 温度 浓度 * 温度 錯誤 總計 校正後總數 和 70.458 2667.042 39.083 13.792 17.583 49.500 2787.000 119.958 adf 11 1 2 3 6 12 24 23 平均值平方 6.405 2667.042 19.542 4.597 2.931 4.125 F 1.553 646.556 4.737 1.114 .710 顯著性 .230 .000 .030 .382 .648 a. R 平方 = .587(調整的 R 平方 = .209) 第一列是对观测变量总变差分解的说明;第二列是观测变量变差分解的结果;第三列是自由度;第四列是均方;第五列是F检验统计量的观测值;第六列是检验统计量的概率p值。可以看到观测变量收率的总变差为119.958,由浓度不同引起的变差是39.083,由温度不同引起的变差为13.792,由浓度和温度的交互作用引起的变差为17.583,由随机因素引起的变差为49.500。浓度,温度和浓度*温度的概率p值分别为0.030,0.382和0.648。
浓度:显著性<0.05说明拒绝原假设(浓度对收率无显著影响),证明浓度对收率有显著影响;温度:显著性>0.05说明不拒绝原假设(温度对收率无显著影响),证明温度对收率无显著影响;浓度与温度: 显著性>0.05说明不拒绝原假设(浓度与温度的交互作用对收率无显著影响),证明温浓度与温度的交互作用对收率无显著影响。
8、以高校科研研究数据为例:以课题总数X5为被解释变量,解释变量为投入人年数X2、投入科研事业费X4、专著数X6、获奖数X8;建立多元线性回归模型,
分析它们之间的关系。解释变量采用逐步筛选策略,并做多重共线性、方差齐性和残差的自相关性检验。
解答:
思路:根据要求采用逐步筛选的解释变量筛选策略,利用回归分析方法建立多元线性回归模型,分析它们之间的关系,并且要求做多重共线性、方差齐性和残差的自相关性检验。
(1)步骤:【分析-回归-线性】,X5选入因变量,X2、X4、X6、X8选入自变量,方法选择【逐步】。【统计量】勾选【估计】、【模型拟合度】、【共线性诊断】与【Durbin-Waston(U)】。【绘制(T)按钮】,将*ZRESID添加到Y(Y)框中,将*ZPRED添加到X2(X)框中,勾选【正态概率图】,【保存(S)】按钮。在预测值与残差中勾选【标准化】选项。选择菜单【分析→相关→双变量】将标准化预测值和标准化残差选入【变量】框,在相关系数中选择Spearman,各项完成后点击【确定】。
输出:
變數已輸入/已移除 模型 1 變數已輸入 變數已移除 方法 逐步(準則:F-to-enter 的投入人年数 . 機率 <= .050,F-to-remove 的機率 >= .100)。 a. 應變數: 课题总数 a
模型摘要 模型 1 R .959 abR 平方 .919 調整後 R 平方 標準偏斜度錯誤 Durbin-Watson .917 241.9582 1.747 a. 預測值:(常數),投入人年数 b. 應變數: 课题总数 表中变量为投入人年数,参考调整的判定系数,由于调整的判定系数(0.917)较接近于1,因此认为拟合优度较高,被解释变量可以被模型解释的部分较多,未能被解释的部分较少。方程DW检验值为1.747,残差存在一定的正自相关。
變異數分析 模型 1 迴歸 殘差 平方和 19379040.047 1697769.953 df 1 29 平均值平方 19379040.047 58543.791 F 331.018 顯著性 .000 ba 總計 21076810.000 30 a. 應變數: 课题总数 b. 預測值:(常數),投入人年数 被解释变量的总离差平方和为21076810.00,回归平方和及均方分别为19379040.047 和19379040.047,剩余平方和及均方分别为1697769.953和58543.791,??检验统计量的观测值为331.018,对应的概率??值近似为0。依据该表可进行回归方程的显著性检验。如果显著性水平??为0.05,由于概率??值小于显著性水平?? ,应拒绝回归方程显著性检验的零假设,认为回归系数不为0,被解释变量与解释变量的线性关系是显著的,可建立线性模型。 係數 非標準化係數 模型 1 (常數) 投入人年数 a. 應變數\\: 课题总数 B -94.524 .492 標準錯誤 72.442 .027 .959 標準化係數 Beta T -1.305 18.194 顯著性 .202 .000 共線性統計資料 允差 VIF a 1.000 1.000 依据该表可以进行回归系数显著性检验,写出回归方程和检测多重共线性。可以看到,如果显著性水平??为0.05,投入人年数变量的回归系数显著性t检验的概率p值小于显著性水平??,因此拒绝零假设,认为其偏回归系数与0有显著差异,与被解释变量与解释变量的线性关系是显著的,应保留在方程中。同时从容忍度和方差膨胀因子看,解释变量与投入人年数多重共线性很弱,可以建立模型。最终回归方程为,课题总数= -94.524+0.492投入人年数。 排除的變數 共線性統計資料 允差下模型 1 投入科研事业费(百元) 专著数 获奖数 a. 應變數: 课题总数 b. 模型中的預測值:(常數),投入人年数 Beta 入 .152 .023 .030 bbbaT 1.528 .182 .411 顯著性 .138 .857 .684 偏相關 .278 .034 .077 允差 .267 .188 .542 VIF 3.748 5.308 1.846 限 .267 .188 .542 该表展示回归方程的剔除变量,可以看到,如果显著性水平??为0.05,表中三个变量的回归系数显著性t检验的概率p值大于显著性水平??,因此不拒绝零假设,认为其偏回归系数与0无显著差异,与被解释变量与解释变量的线性关系是不显著的,不应保留在方程中。同时从容忍度和方差膨胀因子看,解释变量与三个解释变量多重共线性严重,在建立模型的时候应当被剔除。 共線性診斷 模型 維度 特徵值 條件指數 變異數比例 a