多元统计分析复习

由天下分享时间：2025/3/10 5:40:10 加入收藏我要投稿点赞

聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理，R型聚类是对变量进行分类处理。

系统聚类法基本思想：假设n个样品它们各自为一类，并将样品间的距离和类与类之间的距离做出规定。首先计算样品间的距离，将距离最小的类并为一类，即将那些最相似的对象首先分组，计算并类后的新类与其他类之间的距离，即将距离最小的两类并为一类，这样每次减少一类，最后随着相似性的不断下降（类间的距离不断加大），所有的组渐渐融合为一个聚类，由于类与类之间的距离定义方法不同，因而产生不同的系统聚类方法，如最短距离法，最长距离法，中间距离法，类平均法离差平方和法。系统聚类的基本步骤

1. 构造n个类，每个类包含且只包含一个样品。

2. 计算n个样品两两间的距离，构成距离矩阵，记作D0。 3. 合并距离最近的两类为一新类。

4. 计算新类与当前各类的距离。若类的个数等于1，转到步骤(5)，否则回到步骤(3)。 5. 画聚类图。

6. 决定类的个数，及各类包含的样品数，并对类作出解释。最短距离法

Dpq?mindij

i?Dp,j?Dq?3????G7?G1?G2D(1)?52 ?? ??G8?G5?G6?742???G9?G3?G4?G8D(2)?d79?3

????递推公式：Drk?mindij?min?mindij,mindij??min{Dpk,Dqk}

i?Gri?Gpi?Gq??j?Gkj?Gj?Gk?k?最长距离法

Dpq?maxdij

Gr?Gp?Gq 递推公式；Drk?max?Dpk,Dqk?

i?Dp,j?Dq?G7?G1?G2 ? G9?G3?G4 ?G8?G5?G6G10?G8?G9D(3)?D710?9

中间距离法

121212Dpk?Dqk?Dpq 224?1????169?G?GUG?12? ?7 D2(0)??36254???G8?G5UG6?6449164??81642591??? G9?G4UG3

2 若Gr?Gp?Gq，则Drk? 重心法

设Gp含np个样品，重心为xp，Gq含nq个样品，重心为xq

2 Dpq?(xp?xq)'(xp?xq)

则 Gr?Gp?Gq的重心xr?2Drk?(xr?xk)'(xr?xk)1(npxp?nqxq) np?nq??1??1???(npxp?nqxq)?xk??(npxp?nqxq)?xk??nr??nr?nn''?p(xpxp?2xpxk?xk'xk)?q(xq'xq?2xqxk?xkxk) nrnr??rpnr2pknpnqn2r'(xpxp?2xpxq?xqxq)D?nqnrD?2qknpnqn2r2Dpq类平均法

2? Dpq12??dijnpnqj?Gpj?GpGr?Gp?Gq

2Drk?

12??dijnrnki?Grj?Gkn2nq212?(???)?dij?pDpk?Dqk;i?Gi?Gj?Gnrnknrnrpqk

可变类平均法——对类平均法的修正

D?2rknpnr(1??)D?2pknqnr2(1??)Dqk??D2pq0???1

可变法——对中间法的修正

(1??)22(Dpk?Dqk)??D2pq 2 离差平方和(ward)

基本思想来源于方差分析。

它认为，如果分类正确，则同类间的离差平方和应当较小，而类与类间的离差平方和应当较大。具体做法是，先将n个样品各自成一类，然后每次缩小一类，每缩小一类离差平方和要增大，选择使离差平方和增加最小的两类合并,直到所有的样品归为一类。

2 Drk?2Dpq?Sp?q?Sp?Sq

2Drk?nk?npnr?nk2Dpk?nk?nqnr?nk2Dqk?nk2Dpq nr?nk类G1、G2合并为新类G3的类内离差平方和分别为

S1??(xi?x1)'(xi?x1) i?G1

S2??(xi?x2)'(xi?x2) i?G2 S?(xi?x3)'(xi?x3)?3 i?G1G2它们反映了各自类内样品的分散程度，如果G1和G2两类相距较近，则合并后所增加的离差平方和S3- S1- S2 应较小，否则，应较大。于是定义G1与G2之间的距离 2D12?S3?S1?S2 nn ?12(x1?x2)'(x1?x2) nn?n1?n2

对系统聚类法有如下结论:

类平均法(或中间距离法)比最短距离法扩张,比最长距离法浓缩.类平均法比重心法扩张,比离差平方和法浓缩.太浓缩的方法不够灵敏,太扩张的方法当样品容量大时容易失真.类平均法比较适中,而且具有单调性,因而是一种应用广泛、聚类效果好的方法。类平均法与中间距离法相比没有统一结论。

(1)单调性:令Di是系统聚类分析中第i次并类时的距离,若一种系统聚类法能满足D1≤D2 ≤ D3 ≤ …,则称它具有单调性.这种单调性符合系统聚类法的基本

思想,先合并较相似的类,后合并较疏远的类.可证最短距离法、最长距离法、可变法、类平均法和离差平方和都具有单调性，但中间距离法和重心法不具有单调性。（2）空间的浓缩与扩张：设有两个同阶矩阵D(A)和D(B),如果D(A)的每个元素都不小于D(B)相对应的元素,则称D(A)≥D(B).若有两个系统聚类法A和B,在第k步距离阵记为D(Ak)和D(Bk),若D(Ak) ≥D(Bk),则称A比B使空间扩张或B比A使空间浓缩.

判别分析(discriminant analysis)就是根据判别对象若干个指标的观测结果，判定其应属于哪一类的统计学方法。判别组数：两组判别和多组判别数学模型：线性判别和非线性判别所处理变量：逐步判别和序贯判别

判别准则：马氏距离准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等

不同方法：距离判别法、Fisher判别法、Bayes判别法、逐步判别法等

距离判别基本思想：首先根据已知分类的数据，分别计算各类的重心，即分组的举止判别准则是对任给的一次观测，若它与第i类的重心距离最近就认为它来自第i类。

聚类分析和判别分析之间的区别和联系

判别分析与聚类分析都是研究分类问题的多元统计分析方法，但前者是在已知分为若干个类的前提下，判定观察对象的归属，而后者是在不知道应分多少类合适的情况下，试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。

聚类分析可以对样本进行分类，也可以对指标进行分类；而判别分析只能对样本进行分类；聚类分析事先不知道事物的类别，也不知道应分几类；而判别分析必须事先知道事物的类别，也知道应分几类；聚类分析不需要分类的历史资料，能直接对样本进行分类；而判别分析需要分类历史资料去建立判别函数，然后才能对样本进行分类。

[ 联系]先采用聚类分析获得各个个体的类别（classification ）；然后采用判别分析建立判别函数，对新个体进行类型识别（(identification ）它是进行统计判别和分组的一种手段.

距离判别

马氏（Mahalanobis）距离

d(V2?12x,V2?12y)?(x?y)'V?1(x?y)

证明注意到D(x,y)具有非奇异线性变换不变性：对任何P,P?0,u?Px,v?Py,D(Px)?PVP'

D2(u,v)?[P(x?y)]'[PVP']?1(P(x?y)]?(x?y)'P'P??1V?1P?1P(x?y) ?D2(x,y)取P?V?12，即有

1212x,Vy)?D2(u,v)?(u?v)'I(u?v)?d2(u,v)

?d(x,y)满足公理 ?D(x,y)亦然两个总体的判别设总体G1(????V1 )，G2(????V2 )，x为待判样品判别规则： D(x,G1)?D(x,G2)时?x?G1 否则?x?G2

D(V若V1 = V2，

2??D2(x,G2)?D2(x,G1)?(x?μ2)?V?1(x?μ2)?(x?μ1)'V?1(x?μ1)

?1?x?V?1x?2x'V?1μ2?μ?2Vμ2

?V?1μ1) ?(x'V?1x?2x'V?1μ1?μ1 ?2x'V(μ1?μ2)?(μ1?μ2)'V(μ1?μ2) ?2(x??1?1μ1?μ2?1)V(μ1?μ2) 2??2(x?μ)'a??2W(x) ——线性判别函数

定理5.2 两总体G1(????V )，G2(????V )的距离判别法为

W(x)?0?x?G1W(x)?0?x?G2(1)(1)x1(1),x2,?,xn1;

注5 当?i, Vi(i=1,2)未知时，可先从总体G1, G2中取出样本：

(2)(2)x1(2),x2,?,xn2

来估计?i, Vi(i=1,2)：

1?i?μni若V1= V2=V，则

?xj?1ni(i)j,niS1i??V?(x(ji)?x(i))(x(ji)?x(i))' ?ini?1ni?1j?1??V1(S1?S2)

n1?n2?2多总体的判别

定理5.3 对于k个总体Gi(μi,Vi),i?1,2,?k的判别方案为：

x?Di?x?Gi，i?1,2,?,k，否则待判

其中Di{x:D2(x,μi)?D(x,μj),j?i},i?1,2?,k。

推论当Vi=V (i=1,2,…,k)时，k个总体的判别方案为：

Wij(x)?0,j?i?x?Gi，否则待判其中Wij(x)?(x?μij)'V(μi?μj),?11μij?(μi?μj)。

2判别分析步骤：计算两样本均值和协差阵，求线性判别函数，对已知类别的样品判别分类，对判别效果做检验，写出待判样品归类结果误判概率可以通过前瞻性或回顾性两种方式估计。回顾性误判概率估计是指用建立判别函数的样本回代判别。回顾性误判概率估计往往低估误判概率，从而夸大判别效果。一般，建立判别函数前将样本随机分成两部分，分别占总样本含量的85%和15%。前者用于建立判别函数，称为训练样本；后者用于考核判别函数的判别效果。称为验证样本。用验证样本计算误判概率作为前瞻性误判概率的估计，比较客观。另外一种值得推荐的误判概率的估计方法刀切法或称交叉核实法。具体步骤为：1、顺序剔除一个样品，用余下的N-1个样品建立判别函数2、用判别函数判别这个剔除样品3、重复上两步N次，计算误判概率。这种估计的优点是充分利用了样本的信息建立和验证判别函数，比较客观。

多元统计分析复习

聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理，R型聚类是对变量进行分类处理。系统聚类法基本思想：假设n个样品它们各自为一类，并将样品间的距离和类与类之间的距离做出规定。首先计算样品间的距离，将距离最小的类并为一类，即将那些最相似的对象首先分组，计算并类后的新类与其他类之间的距离，即将距

推荐度：

点击下载文档文档为doc格式

多元统计分析复习

多元统计分析复习

相关推荐文档

精选图文

热门排序

推荐文章

热门标签

相关文章列表