初始因子应用与教学中的重要性1
-纪念张尧庭、方开泰教授《多元统计分析引论》26周年
林海明\
(i.r东商学院经济贸易与统汁学院2.广东省电子商务市场应用技术重点实验室
广东广州510320)
【摘要】为了说明初始因子的重要性,这里将一些国内外知爼多元统计学者对初始因子 的观点进行分类,查岀了适宜用初始因子解决问题的多元数据及其比重,应用因子分析模型 L及其解、初始因子结构简化规则等说明了:初始因子正在以不低的频率而对我们,它在应 用与教学中是重要的:如果初始因子结构简化,直接用初始因子解决问题:因子分析的优势 表现在其有初始因子、旋转后因子的多解性匕不是侧重表现在旋转后因子上;给岀了一些 建议。
关键词初始因子;应用:重要;建议 中图文分类号0212
文献标识码A
一、问题的提出
我国普通高校统计学专业,普遍开设了多元统讣分析课,相当数量的学生选 择其中的因子分析做论文。笔者近两年指导学生因子分析论文中,有近40%的多 元数据适合用初始因子解决问题,但这些学生儿乎都用旋转后因子做,表现出决 策相关性不高的状况,这引起了笔者的注意。因为专著教材对使用者和学生影响 面大,故笔者查阅了 20本国内外多元统讣分析的专著教材(参考文献列示中省略 了 12本)和一些近期论文,其中有7本是国内外知名多元统计专家的专著教材, 得到了初始因子的如下三类观点。
第一类:以 Johnson RA 和 Wichern D W 教授(1998)为代表的文[1] (1982-
2006)认为“通常,不用初始因子载荷阵而是用旋转后因子载荷阵来汁算因子得 分。”
这类多元统计分析专著教材(参考文献列示中省略了 4本)比重为9/20 = 45%o因为主成分法是常用的,其求出的旋转后因子载荷阵来讣算的因子得分是 旋转后因子,其求出的初始因子载荷阵来汁算因子得分是初始因子,故初始因子 解决实际问题的作用在这些文献中“通常”被否定了。
这便提出了问题:初始因子应用与教学中不重要吗?
笔者注意到第一类文献中出现了适宜用初始因子解决问题的4个实例,具体 是:文[1]练习9. 30的奥运会男子径赛多元数据(本文的附中作了该数据适宜用 初始因子的说明);何晓群教授文[4] (2004)例6.1中银行雇员多元数据有“旋转 后公共因子解释原始数据的能力没有提高,”;余锦华教授等《多元统计分析与应 用》(中山大学出版社,2005)例9. 2.1企业经济效益多元数据(其作了较好的初
1该文是中国商业统il?学会市场调査与教学研究分会第十九屈(2008)年会征文中选出的大会特邀报告。 感谢
杜子芳、朱顺泉教授等同仁的有益讨论和帮助。
始因子解释),其与文[4]都给出了初始因子公式;卢纹岱等文[5] (2006)在其 12.1.5的顾客偏好多元数据;其中文[5112.1.5中误将初始因子Z,》当作主成分 分析,有效地解决了新产品开发的问题,而无初始因子之名;刘玉玫等文[6]
(2003) 经济全球化多元数据的方法与结论同[5]12. 1. 5。
即该类文献的上述4个实例与“通常”不用初始因子解决问题的结论,是不 协调的,同时留下了,问题①:初始因子与主成分有何异同。
第二类:以方开泰教授(1989)为代表的文[7] (1989)认为“当我们获得的公 共因子/及其载荷阵/难以和实际问题相对应时,可以通过某个正交阵r,使rv 和AV有鲜明的实际意义(容易解释)。”这类专著教材(参考文献列示中省略了 7 本)比重为8/20=40%,观点是:旋转是有条件的,但侧重了旋转后因子的应用。 笔者注意到,这类文献有4本出现了:适宜用初始因子解决问题的4个实例,具 体是于秀林教授等《多元统计分析》(中国统计出版社,1999) §9.3例1人均消 费支出多元数据;薛薇(《SPSS统计分析方法及应用》,电子工业岀版社,2004) 例10.3.2中的人均收入多元数据;王斌会教授《经济管理模型的多变量元统讣 方法及分析系统Qstat》仲国统计出版社,2005)例10. 5中的城镇居民消费多元 数据;朱顺泉教授《管理科学研究方法一统计与运筹优化应用》(清华大学出版 社,2006)例4. 7中的社会经济发展多元数据,给出了初始因子的公式。后3个 文献对其实例全部使用了旋转后因子。该类文献留下了,问题②:初始因子何时 容易解释(结构简化规则);问题③:初始因子与旋转后因子有何异同。
第三类:王学民文[8] (2003)有“如果因子载荷阵的所有元素都接近0或±
1, 则模型的公共因子就容易解释(有鲜明的实际意义)。”''初始因子解释与主成分
的解释完全相同。” Tasy RS教授文[9] (2006)认为“在实际应用中,使用因子旋 转来帮助解释公共因子,这在一些应用中可能有益,但在其它应用中未必有用。” 文[8]例8. 3. 1中用文[1]练习9. 30的奥运会男子径赛多元数据,文[9]例&9中 的美国债券多元时间系列数据,适宜用初始因子解决问题,都作了较好的初始因 子解释,但无进一步分析和解决实际问题的过程和结论,这类多元统讣分析教材 有3本(参考文献列示中省略了 1本),比重为3/20=10%。该类文献留下了,问 题④:如何应用初始因子有效解决实际问题。
以上专著教材出现(不重复)多元数据适合应用初始因子的比?: 11/20=55%; 有初始因子公式的专著教材比重:7/20二35%。
即初始因子正在以不低的频率面对我们,它在应用与教学中应该受到关注。 因此有必要:①系统地认识初始因子的理论和方法,②尽力改变初始因子解决实 际问题效果不佳的现状。
因为估计因子载荷阵的常用方法有主成分法、最大似然法、主因子法;估计 因子
常用的有Thompson(1939)因子得分、Bartlett(1937)因子得分。因此有,问 题⑤:主成分法、最大似然法、主因子法那个更好;问题⑥:Thompson因子得 分、Bartlett因子得分那个更好(统计的70年问题)。
初始因子或旋转后因子的方差贡献和达到最大化,误差项是使用中经常被舍 弄的,且因子在先、误差项在后的次序能降维。次序是统计的重要概念,这就有, 问题⑦:因子分析原模型公因子在先、特殊因子在后的次序⑴能降维吗(统计的 100年问题)?
二、解决问题的理论方法
张尧庭(Z)、方开泰(F)教授文[2] (1982)用前加个标准化主成分及其
载荷阵 表示近似标准化原始变量-ZF法(因子载荷阵结果同主成分法),建立了前〃7个 标准化主成分(或旋转后)及其载荷阵表示近似标准化原始变量的关系,系统
给出 了前小个标准化主成分(或旋转后)及其载荷阵的性质。方积乾(F)教授文⑶(第 一版为1995)用前加个标准化主成分(或旋转后)及其载荷阵,一次性给出了初始 (或旋转后)因子及其载荷阵的估计。使用过ZF法的专著教材还有如下5本:
Mardia K.V, Kent J. Tand Bibby J.M《Multivariate Analysis》(Academic Press, New York. 1979.p275),何晓群教授文[4],余锦华教授等《多元统计分析与应用》仲 山大
学出版社,2005),张润楚教授《多元统计分析》(科学出版社,2006),朱 顺泉教授《管理科学研究方法一统汁与运筹优化应用》(清华大学出版社,2006) o
文[111 (2007,第十一次全国中青年统计?科学研讨会大会特邀报告,2007年
12月人大复印资料《统讣与精算》全文转载)深入ZF法,用标准化主成分及其 载荷阵等式表示标准化原始变量的方法-ZFL法(该方法简单、具有全面优势, 能一次
性给出因子、因子载荷阵、误差项的精确解及其因子分析模型L),给出 了完善的因子分析新理论-因子分析模型L及其精确解,为因子分析正确模型、 理论和方法的使用,为因子分析法的发展建立了理论基础。
设X =(州,…为正向化、标准化随机向量(p>2), /?为变量X的相关系 数矩阵,厂=秩(R) < p ,因子=(?,…,z,”)'、〃?「?、误差因子Z,
z)、
因子载荷阵血)加、误差因子载荷阵乞=叽)吋呦、因子勺的方差贡献 号=殆好,丿=1,…“。
因子分析模型严】求乙=(Z:,Z\使
为爲叫达到最大(降维的自然要求),m 其中加的选取以因子盒对X有代表性为前提,乞乙称为误差项[氏乙不是特殊因 子,因为Var(B,乙对角阵]。