好文档 - 专业文书写作范文服务资料分享网站

主成分分析在数学建模中的应用

天下 分享 时间: 加入收藏 我要投稿 点赞

第一讲 主成分分析在数学建模中的应用

1.学习目的

1.理解主成分分析的基本思想;

2.会用SAS软件编写相关程序,对相关数据进行主成分分析; 3.会用SAS软件编程结合主成分分析方法解决实际问题。

2.学习要求

1.理解主成分分析的基本原理,掌握主成分分析的基本步骤; 2.会用SAS软件编写相关程序,对相关数据进行分析处理和假设检验; 3.撰写不少于3000字的小论文; 4. 精读一篇优秀论文。

3. 理论基础 3. 1基本思想

在实际问题的研究中,往往会涉及众多的变量。但是,变量太多不但会增加

计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般来说,虽然每个变量提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数较少的互不相关的新变量来反映原来变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析就是在这种降维的思想下产生的处理高维数据的方法。

3.2 基本原理

(1).总体的主成分

''定义1.设X?(X1,X2,…,Xp)为P维随机向量,称Zi?aiX为X的第i主成分

(i=1,2,…P),如果:

' (1) aiai?1(i?1,2,…,p);

(2) 当i>1时,ai (3) Var(Zi)?

'?aj?0(j?1,2,…i-1);

'maxVar(aX) a'a?1,a'?aj?0(j?1,…i-1)'定理1.设X?(X1,X2,…,Xp)是P维随机向量,且D(X)??,?的特征值为

?1??2?…??p?0,a1,a2,…,ap为相应的单位正交特征向量,则X的第i主成分为

Zi?ai'X (i?1,2,…,p).

定义2.我们称?k/??i?1pi为主成分Zk的贡献率;又称

??/??kk?1i?1mpi为主成分

Z1,…,Zm(m?p)的累计贡献率。记??(?ij),??diag(?1?2,…?p),其中

?1??2?…??p为?的特征值,a1,a2,…,ap是相应的单位正交特征向量,记正交矩阵

A?(a1,a2,…,ap).主成分Z?(Z1,…Zp)',其中Zi?ai'(i?1,2,…,p).则总体主成分有如

下的性质:

性质1. D(Z)??,即P个主成分的方差为:Var(Zi)??i(i?1,2,…,p),且它们是互不相关的。

性质2.

??i?1pii???i,通常称??ii为原总体X的总方差(或称总惯量)。

i?1i?1pp性质3.主成分Zk与原始变量Xi的相关系数?(Zk,Xi)为

?(Zk,Xi)??kaik/?ii (k,i?1,2,…p)

并把主成分Zk与原始变量Xi的相关系数称为因子负荷量。

2?kaik性质4. ??(Zk,Xi)???1(i?1,2,…,p)。

?k?1k?1iip2pp性质5. 令

??i?1ii?2(Zk,Xi)??k(k?1,2,…,p). 若记E(Xi)??i,Var(Xi)??i2,即

Xi*?Xi?E(Xi)Var(Xi)?Xi??i?i (i?1,2,…,p)

****'*这时标准化后的随机向量X?(X1,X2,…Xp)的协方差阵?就是原随机向量X的相

关阵R。从相关阵R出发求主成分,记主成分向量为Z?(Z1,…,Zp),则Z有与总体主成分相应的性质:

性质1. D(Z)???diag(?1,?2,…,?p),其中?1??2?…?p为相关矩阵R的特征值。

***********'*

性质2.

??i?1p*i?p.

*性质3.主成分Zk与标准化变量Xi的相关系数?(Zk,Xk)为

***?(Zk,Xk)??k*aik (k,i?1,2,…p),

******'?其中ak?(a1,…,akpk)是R对应于k的单位正交特征向量。

*性质4.

??k?1pp2*2(Z,X)???k*(aik)?1 (i?1,2,…,p) *k*kk?1pp性质5.

??k?12*2(Z,X)???k*(aik)??k* (k?1,2,…,p)。 *k*kk?12.样本的主成分

定义1.设变量X1,X2,…,Xp的n次观测数据阵X已标准化,这时样本的协方差阵就是样本相关阵R,且

R?1X'X?(rij)p?p n?1R的特征值为?1??2?…??p?0,其相应标准化特征向量为a1,a2,…,ap,样本主成分为

Zj?a'jX (j?1,2,…,p)

类似总体主成分,样本主成分也具有如下的性质:

1nzp)'?0(因为X=0)性质1. Z??Z(t)?(z1,…,,而

nt?1?0,LLL当i?j,Zi'Zj??

?(n?1)?iL当i=j.上式说明当i?j时,第i个主成分得分向量Zi与第j个主成分得分向量Zj是相互正交的。

性质2.

??i?p。称

i?1p?k??…+?m为样本主成分Zk的贡献率;又称1为样本主成分ppZ1,…,Zm(m?p)的累计贡献率。

性质3.样本主成分具有是残差平方和最小的优良性。

3.3 基本步骤

?⑴ 数据标准化xij?xij?xjSjj,(i?1,2,?,n;j?1,2?p)其中,S为第j列的方

差;

⑵ 计算协方差矩阵R;

⑶ 计算协方差矩阵的特征值与特征向量;利用特征方程?I?R?0求出按大小排列特征值?j以及相应的特征向量ej;

⑷ 选择前几个特征向量,确定主成分;

3.4 基本命令

使用proc princomp过程进行主成分分析,其主要语句格式如下:

Proc princomp <选项列表>; Var 变量列表; Run;

其中:(1)Proc princomp语句用来规定输入、输出和一些运行选项,其选项及功能如下:

①data=数据集名1:指明所要分析的数据集,若省略则表示分析最新生成的数据集。

②out=数据集名2:命名一个输出SAS数据集,其中包含原始数据以及各主成分得分(即各主成分的观测值)。

③outstat=数据集名3:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的SAS数据集。

④covariance(cov):要求从协方差矩阵出发作主成分分析,若省略此选项,则从相关矩阵出发进行分析;除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜使用此选项,应从相关矩阵出发作主成分分析。

⑤N=n:指定要计算的主成分的个数,其默认值为参与分析的变量的个数。 ⑥prefix=name:规定各主成分名称的前缀。省略此句则SAS系统自动赋予各主成分名称分别为prin1,prin2,……;若“name=A”,则各主成分名称分别为A1,A2,……,前缀的字符个数加上后面数字位数应不超过8个字符。

(2)VAR variables;

此句中的“variables”部分列出数据集中参与主成分分析的变量名称。若省略此句,则被分析数据集中所有数值变量均参与分析。

4.举例

【例1】 (中学生身体四项指标的主成分分析) 在某中学随机抽取某年级30名学生,测量其身高(X1)、体重(X2)、胸围(X3)和坐高(X4),(数据见教材P277的表7.4)。试对这30名学生体四项指标数据做主成分分析。

data d721;

input number x1-x4 ; cards;

1 148 41 72 78 2 139 34 71 76 3 160 49 77 86 4 149 36 67 79 5 159 45 80 86 6 142 31 66 76 7 153 43 76 83 8 150 43 77 79 9 151 42 77 80 10 139 31 68 74 11 140 29 64 74 12 161 47 78 84 13 158 49 78 83 14 140 33 67 77 15 137 31 66 73 16 152 35 73 79 17 149 47 82 79 18 145 35 70 77 19 160 47 74 87 20 156 44 78 85 21 151 42 73 82 22 147 38 73 78 23 157 39 68 80 24 147 30 65 75 25 157 48 80 88 26 151 36 74 80 27 144 36 68 76 28 141 30 67 76 29 139 32 68 73 30 148 38 70 78 ;

proc princomp data=d721 prefix=z out=o721 ; var x1-x4; run;

options ps=32 ls=85; proc plot data=o721;

plot z2*z1 $ number='*'/href=-1 href=2 vref=0; run;

proc sort data=o721; by z1; run;

proc print data=o721; var number z1 z2 x1-x4; run; quit;

由PRINCOMP过程由相关阵出发进行主成分分析。由下面的相关阵来看, 指标之间存在着严重的共线关系,就要用主成分的方法进行降维(也就是说用较少的指标就能很好衡量学生的身体基本情况。从相关阵的特征直来看,第一主成

主成分分析在数学建模中的应用

第一讲主成分分析在数学建模中的应用1.学习目的1.理解主成分分析的基本思想;2.会用SAS软件编写相关程序,对相关数据进行主成分分析;3.会用SAS软件编程结合主成分分析方法解决实际问题。2.学习要求1.理解主成分分析的基本原理,掌握主成分分析的基本步骤;2.会用SAS软件编写相关程序,对相关数据进行分析处
推荐度:
点击下载文档文档为doc格式
098802ee2v3gyk618jsm0fvam2gysn007d9
领取福利

微信扫码领取福利

微信扫码分享