好文档 - 专业文书写作范文服务资料分享网站

多元统计分析方法

天下 分享 时间: 加入收藏 我要投稿 点赞

(5)图论聚类法:利用图论中最小支撑树的理论来处理分类问题,创造了独具风格的方法。

(6)聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可以用来做预报的方法很多,如回归分析和判别分析。但对一些异常数据,如气象中的灾害性天气的预报,使用回归分析或判别分析处理的效果都不好,而聚类预报弥补了这一不足,只是一个值得重视的方法。

聚类分析根据对象的不同又分为R型和Q型两大类,R型是对变量(指标)进行分类,Q型是对样品进行分类。

R型聚类分析的目的有以下几方面:

(1)可以了解变量间及变量组合间的亲疏关系; (2)对变量进行分类;

(3)根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分析或Q型聚类分析等。

Q型聚类分析的目的主要是对样品进行分类。分类的结果是直观的,且比传统的分类方法更细致、全面、合理。当然使用不同的分类方法通常有不同的分类结果。对任何观测数据都没有唯一“正确”的分类方法。实际应用中,常采用不同的分类方法,对数据进行分析计算,一边对分类提供具体意见,并由实际工作者决定所需要的分类数及分类情况。

下面是聚类分析的一个简单例子。有五个样品,每个只测量了一个指标,分别为1,2,6,8,11,我们用最短距离法将它们分类。

(1)计算五个样品两两间的距离,得初始类间的距离矩阵D(0),

10

G1 G2 G3 G4 G5 G1 G2 G3 G4 G5 0 1 5 7 10 0 4 6 9 0 2 5 0 3 0

(2)由D(0)知类间最小距离为1,于是将G1和G2合并成G6,并计算G6和其他类之间的距离,的新的距离阵D(1) G6 G3 G4 G5 G6 G3 G4 G5 0 4 6 9 0 2 5 0 3 0 (3)由D(1)知,类间最小距离为2,合并G3和G4 为G7,计算G7与其他类间的距离得矩阵D(2), G6 G7 G5 G6 G7 G5 0 4 9 0 3 0 (4)由D(2)知,类间的最小距离为3,将G5和G7合并为G8,得新的距离矩阵D(3),

G6 11

G8 G6 G8

0 4

0

(5)最后将G6和G8合并为G9,这时五个样品聚为一类。 (四) 主成分分析

主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,是这些综合变量尽可能的代表原来变量的信息,而且彼此之间互不相关。这种把多个变化量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为F1,自然希望它尽可能多的反映原来变量信息,这里信息用方差来测量,即希望Var(F1)越大,表示F1包含信息越多。因此在所有线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个变量的信息,再考虑选取F2即第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,称F2为第二主成分,以此类推可以构造出第三、四……第p个主成分。 (五)因子分析

因子分析是主成分分析的推广和发展,它是由研究原始数据相关矩阵的内部依赖关系出发,把一些具有错综复杂关系多个变量(或样品)综合为少数几个因子,并给出原始变量与综合因子之间相关关系的一种多元统计分析方法。它也属

12

于多元分析中数据降维的一种统计方法。

因子分析是通过变量(或样品)的相关系数矩阵内部结构的研究,找出存在于所有变量(或样品)中具有共性的因素,并综合为少数几个新变量,把原始变量表示成少数几个综合变量的线性组合,以再现原始变量与综合变量之间的相关关系。其中,这里的少数几个综合变量一般是不可观测指标,通常称为公公因子。

因子分析常用的两种类型:一种是R型因子分析,即对变量进行因子分析:另一种叫做Q型因子分析,即对样品进行的因子分析。 (六)对应分析方法

对应分析又称为相应分析,是一种目的在于揭示和样品之间或者定性量资料中变量与其类别之间的相互关系的多元统计分析方法。

对应分析的关键是利用一种数据变换,使含有p个变量n个样品的原始数据矩阵,变换成为一个过渡矩阵Z,并通过矩阵Z将R型因子分析和Q型因子分析有机的结合起来。具体地说,首先给出进行R型因子分析时变量点的协差阵A=Z?Z和进行Q型因子分析时样品点的协差阵B=ZZ?,由于Z?Z和ZZ?有相同的非零特征根,记为

?1??2?L??m,0?m?min(p,n)

依据证明,如果A的特征根?i对应的特征向量为Ui,则B的特征根?i对应的特征向量就是ZUi@Vi,根据这个结论就可以很方便的借助R型因子分析而得到Q型因子分析的结果。因为求出A的特征根和特征向量后很容易地写出变量点协差阵对应的因子载荷矩阵,记为F。则

13

??u11?1?F=?u21?1?M?u??p11u12?2Lu22?2LMup2?2L?u1m?1??u2m?1? M?upm?m?? 这样,利用关系式ZUi@Vi也很容易地写出样品点协差阵B对应的因子载荷阵,记为G。则

??v11?1?G=?v21?1?M?v??n11v12?2Lv22?2LMvn2?2L?v1m?1??v2m?1? M?vnm?m?? 从结果的展示上,由于A和B具有相同的非零特征根,而这些特征根正是公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便显示出变量点和样品点之间的相互关系,并且可以一并考虑进行分类分析。 (七) 典型相关分析

在经济问题中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关系。典型相关分析就是研究两组变量之间相关程度的一种多元统计分析方法。

典型相关分析是研究两组变量之间相关关系的一种统计分析方法。为了研究两组变量X1,X2,LXp和Y1,Y2,LYq之间的相关关系,采用类似于主成分分析的方法,在两组变量中,分别选取若干有代表性的变量组成有代表性的综合指数,通过研究这两组变量之间的相关关系,来代替这两组变量之间的相关关系,这些综合指数称为典型变量。

此外,多元统计分析方法还有方差分析、偏最小二乘回归分析、逻辑分析、联合分析等,我们就不做一一介绍了。

14

多元统计分析方法

(5)图论聚类法:利用图论中最小支撑树的理论来处理分类问题,创造了独具风格的方法。(6)聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可以用来做预报的方法很多,如回归分析和判别分析。但对一些异常数据,如气象中的灾害性天气的预报,使用回归分析或判别分析处理的效果都不好,而聚类预报弥补了这一不足,只是一个值得重视的方法。聚类分析根据对象的不同又分为R型和
推荐度:
点击下载文档文档为doc格式
69jnd64j0n207lq1bbd16zh7s4eqd201d0w
领取福利

微信扫码领取福利

微信扫码分享