多元统计分析概述
目 录
一、引言………………………………………………………… 3
二、多元统计分析方法的研究对象和主要内容……………3
1.多元统计分析方法的研究对象………………………… 3 2.多元统计分析方法的主要内容………………………… 3 三、各种多元统计分析方法 ………………………………… 3
1.回归分析………………………………………………… 3
2.判别分析 ……………………………………………… 6 3.聚类分析 ……………………………………………… 8
4.主成分分析……………………………………………… 10
5.因子分析 ……………………………………………… 10
6. 对应分析方法 ………………………………………… 11 7. 典型相关分析 ………………………………………… 11 四、多元统计分析方法的一般步骤…………………………… 12 五、多元统计分析方法在各个自然领域中的应用…………… 12 六、总结………………………………………………………… 13 参考文献………………………………………………………… 14 谢辞……………………………………………………………… 15
一、引言
统计分布是用来刻画随机变量特征及规律的重要手段,是进行统计分布的基础和提高。多元统计分析方法则是建立在多元统计分布基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。在本文中,我们将对多元统计分析方法做一个大体的描述,并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。
二、 多元统计分析方法的研究对象和主要内容 (一)多元统计分析方法的研究对象
由于大量实际问题都涉及到多个变量,这些变量又是随机变量,所以要讨论多个随机变量的统计规律性。多元统计分析就是讨论多个随机变量理论和统计方法的总称。其内容包括一元统计学中某些方法的直接推广,也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。
现实生活中,受多个随机变量共同作用和影响的现象大量存在。统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。 但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太多,分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研究结论。另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随机变量之间的相互关系。所以,多元统计分析是研究多个随机变量之间相互依赖关系及内在统计规律的一门统计学科。
(二)多元统计分析方法的主要内容 近年来,随着统计理论研究的不断深入,多元统计分析方法的内容一直在丰富。其中,主要内容包括多元正态总体参数估计、假设检验和常用的多元统计方法。多元正态总体参数估计、假设检验是多元统计推断的核心和基础,而常用的多元统计分析方法则是具体应用。从形式上,常用多元统计分析方法可划分为两类:
一类属于单变量常用的统计方法在多元随机变量情况下的推广和应用,如多元回归分析,典型相关分析等;
另一类是对多元变量本身进行研究所形成的一些特殊方法。如主成分分析,因子分析,聚类分析,判别分析,对应分析等。
三、各种多元统计分析方法
具体来说,常用的多元统计分析方法主要包括:多元回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析等。下面我们对各种多元统计分析方法就行分别描述, (一) 回归分析
回归分析是最灵活最常用的统计分析方法之一,它用于分析一个因变量与一个或多个自变量之间的关系。特别是用于:(1)定量的描述和解释相互关系;(2)估测或预测因变量的值。
回归分析方法是在众多的相关变量中,根据实际问题考察其中一个或多个变
量与其余变量的依赖关系。如果只要考察一个变量与其余多个变量之间的相互依赖关系,我们称为多元回归问题。若要同时考察多个因变量与多个自变量之间的相互依赖关系,我们称为多因变量的多元回归问题。
···xm的相关关系 ,多元回归分析是研究因变量Y与m个自变量x1,x2,,而且···xm为一般变量。 总是假设因变量Y为随机变量,而x1,x2,,下面我们来看一下多元线性回归模型的建立。
···xm线性相关。收集到的n组数据假定因变量Y与x1,x2,,(yt,xt1,xt2,L,xtm)(t=1,2,···n)满足以下回归模型:
?E(?t)?0,Var(?t)??2,Cov(?i,?j)?0(i?j)或?t~N(0,?2),相互独立(t=1,2,Ln).yt??0??1xt1?···+?mxtm??t(t?1,2,L,n) 记
?1x11K?C=?MO?1xLn1?x1m??M??(1nMX), xnm???0?11???y??y2?1?2?Y??M?,???M?,???M?
?yn???n???m?则所建回归模型的矩阵形式为
?或
Y?C???,E(?)?0n,D(?)??2In,
?Y?C???,?~Nn(0,?2In),
并称它们为经典多元回归模型,其中Y是可观测的随机向量,?是不可观测的随机向量,C是已知矩阵,?,?2是未知参数,并设n>m,且rank(C)=m+1。 在经典回归分析中,我们讨论模型中参数??(?0,?1,L,?m)?和?2的估计和检验问题。近代回归分析中讨论变量筛选、估计的改进,以及对模型中的一些假设进行诊断等问题。
我国国内生产总值与基本建设投资额的大小有密切关系,研究发现两变量之间存在线性关系。根据甘肃省1990-2003年的国内生产总值与基本建设投资额数
据,研究它们的数量规律性,探讨甘肃省基本建设投资额与国内生产总值的数量关系,原始数据见下表。 年份 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
回归 残差 离差
平方和
GDP(亿元) 自由度 1 12 13
基本建设投资(亿元) 方 差
F 检验值
利用excel进行分析,具体输出以下数据,
复 相 关 系 数 R =.98 剩 余 标 准 差 SY = 回归方差与剩余方差之比 F = 各个自变量的 t 检验值
17.
F 检验的自由度
t 检验的自由度 N-P-1 =12 第一自由度=1,第二自由度=12
各个自变量的偏回归平方和
各个自变量的偏相关系数
由输出结果,得以下结论: 回归方程为 y=+x1
其中,负相关系数为R2=,说明回归方程拟合优度较高。而回归系数的t=,
查t分布表t0.025(12)?2.1788,小于t值,因此回归系数显着。查F分布表,
F0.05(1,12)?,由下表知,F=>,因此回归方程也显着。
回归 残差 离差 平方和 自由度 1 12 13 方 差 F 检验值 (二)判别分析 判别分析是多元统计分析中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成与若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别方法处理问题时,通常通常要给出用来衡量新样品与各已知组别的接近程度的指数,即判别函数,同时也指定一种判别准则,借以判别新样品的归属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。常用的有,距离准则、Fisher准则、贝叶斯准则等。距离判别的基本思想是:样品和那个总体距离最近,就判断它属于哪个总体。距离判别也称直观判别。
已知有两个类G1和G2,比如G1是设备A生产的产品,G2是设备B生产的同类产品。设备A的产品质量高(如考察指标为耐磨度X),其平均耐磨度?(1)=80,反映设备精度的方差?12=;设备B的产品质量稍差,其平均耐磨度?2=75,反映
2设备精度的方差?2=4。今有一产品X0,测得耐磨度x0=78,试判断该产品是哪
一台设备生产的?
下面考虑一种相对于分散性的距离。记X0与G1或G2的相对平均距离为
d(x0)或d(x0),则有:d(x0)=
212221(x0??(1))2?12(x0??(2))22?2(78?80)2=16, ?0.25(78?75)2=。 ?4.00d(x0)=
22因为d2(x0)=<4=d1(x0),按这种距离准则应判X0为设备B生产的。
2),一般的,我们假设总体G1的分布为N(?(1),?12),总体G2的分布为N(?(2),?2则利用相对距离的定义,可以找出分界点??和??(不妨设?(2)(1),?12),令
(x??(1))2?21?(x??(2))22?2?(1)?2??(2)?1def??(1)?2??(2)?1def ?x???,和x=???。
?1??2?2??1