多元统计分析重点宿舍版
第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用
选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 因果模型(因变量数):多元回归,判别分析 ⑤横贯数据:{
相依模型(变量测度):因子分析,聚类分析多元统计分析方法
选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量
3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型
第二讲:计算均值、协差阵、相关阵;相互独立性
第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤
主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。
主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序
主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P个变量,就可以转换出P个主成分(3)在实际应用中,为了简化问题,通常找能够反映原来P个变量的绝大部分
方差的q(q
主成分性质:1)性质1:主成分的协方差矩阵是对角阵:(2)性质2:主成分的总方差等于原始变量的总方差(3)性质3:主成分Yk与原始变量Xi的相关系数为:ρ
√
(YK,Xi)=
?k√σiitki,并称之为因子负荷量(或因子载荷量)。
主成分分析的具体步骤:①将原始数据标准化;②建立变量的相关系数阵;③求的
****特征根为?1*?L??p?0,相应的特征向量为T1,T2,L,Tp;④由累积方差贡献率确
定主成分的个数(m ),并写出主成分为Yi?(Ti*)?X*,i?1,2,L,m
第四讲:因子分析定义,因子载荷统计意义,因子分析模型及假设,因子旋转
因子分析定义:因子分析就是通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子的多元统计方法。
因子载荷统计意义: 1.因子载荷
aij的统计意义
对于因子模型
Xi?ai1F1?ai2F2?L?aijFj?L?aimFm??i我们可以得到,
i?1,2,L,p
Xi与
Fjm的协方差为:
Cov(Xi,Fj)?Cov(?aikFk??i,Fj)k?1
==
Cov(?aikFk,Fj)?Cov(?i,Fj)k?1m
aij
如果对
Xi作了标准化处理,
Xi的标准差为1,且
Fj的标准差为1,因此
rXi,Fj?
Cov(Xi,Fj)D(Xi)D(Fj)?Cov(Xi,Fj)?aij (7.6)
那么,从上面的分析,我们知道对于标准化后的一方面表示变量
Xi,
aij是
Xi与
Fj的相关系数,它
Xi对
Fj的依赖程度,绝对值越大,密切程度越高;另一方面也反映了
Xi对公共因子
Fj的相对重要性。了解这一点对我们理解抽象的因子含义有非
常重要的作用。 2.变量共同度
hi2的统计意义
设因子载荷矩阵为A,称第i行元素的平方和,即
2h??aij2ij?1mi?1,2,L,p (7.7)
为变量
Xi的共同度。
由因子模型,知
22D(Xi)?ai21D(F1)?ai2D(F2)?L?aimD(Fm)?D(?i)22?ai21?ai2?L?aim?D(?i)
?hi2??i2 (7.8)
这里应该注意,(7.8)式说明变量它描述了全部公共因子对变量
Xi的方差由两部分组成:第一部分为共同度
hi2,
Xi的总方差所作的贡献,反映了公共因子对变量
Xi的影响程度。第二部分为特殊因子如果对
?i对变量Xi的方差的贡献,通常称为个性方差。
Xi作了标准化处理,有
(7.9) 的方差贡献
1?hi2??i23、公因子
Fjg2j的统计意义
设因子载荷矩阵为A,称第j列元素的平方和,即
2g??aij2ji?1pj?1,2,L,m
为公共因子
Fj对X的贡献,即
g2j表示同一公共因子
Fj对各变量所提供的方差贡献
之总和,它是衡量每一个公共因子相对重要性的一个尺度。
因子分析模型及假设
数学模型:每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:Xi=ai1*F1+a12*F2+…+aim*Fm+εi (i=1,2,…,p)式中的F1,F2,…Fm称为公共因子,εi称为Xi的特殊因子。该模型可用矩阵表示为:X=AF+ε,
且满足:(1)m≤p(2)Cov(F,?)=0,即公共因子与特殊因子是不相关的;(3)DF=D(F)=
?2,0,0...0??1???1,0,0...0?2?0,,0...0??0,1,0...0??2?????....??....??2????0,0,0...?p??,?0,0,0...1?=Im,即各个公共因子不相关且方差为1;(4)D?=D(?)=?即各个特殊因子不相关,方差不要求相等。
因子旋转
因子旋转的目的:初始因子的综合性太强,难以找出因子的实际意义,因此需要通过坐标旋转,使因子负荷两极分化, 要么接近于0,要么接近于?1,从而降低因子的综合性,使其实际意义凸现出来,以便于解释因子。
因子旋转的基本方法:一类是正交旋转(保持因子间的正交性,3种,常用最大方差旋转),一类是斜交旋转(因子间不一定正交)
公共因子提取个数:(1)选特征值大于等于1的因子(主成分)作为初始因子,通过求响应的标准化正交特征向量来计算因子载荷(2)碎石图:删去特征值变平缓的那些因子(3)累计方差贡献率大于85%
第五讲:聚类类型,系统聚类、K-均值聚类思想及步骤,系统聚类方法,相似性测度方法
聚类类型:根据分类的对象可将聚类分析分为:系统Q型与R型(即样品聚类与变
量聚类)
系统聚类、K-均值聚类思想及步骤:①系统聚类的基本思想:距离相近的样本(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
②聚类过程及步骤:假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n-1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n-2类;…,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。最后可以画谱系图分析。
③快速聚类的基本思想,步骤:(也称为K-均值法,逐步聚类,迭代聚类),基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法步骤如下:(1)将所有的样品分成K个初始类;(2)通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算重心坐标。(3)重复步骤2,直到所有的样品都不能再分配时为止。
系统聚类方法:最短距离法(单连接),最长距离法(完全连接),中间距离法,类平均法(组间平均连接法),可变类平均法,重心法,可变法,离差平方和法
相似性测度方法:不同样本相似性度量:距离测度里包括:明氏,马氏,和兰式 不同变量相似度的度量:包括:夹角余弦,相关系数。
第六讲:判别分析及各判别方法思想,判别分析假设条件,距离判别与贝叶斯判别关系
判别分析定义:一种进行统计判别和分组的技术手段。它可以就一定数量案例的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间的数量关系,建立判别函数(discriminant Function )。然后便可以利用这一数量关系对其他已知多元变量信息、但未知分组类型所属的案例进行判别分组。