3、小样本、正态总体、二总体方差已知,二总体均值差检验:Z检验
4、小样本、正态总体,二总体方差未知,但相等,二总体均值差检验:t检验。注意,在未知二总体方差相等时,要检验二总体方差是否相等?
5、小样本、正态总体、二总体方差比检验:F检验
二、配对样本的比较:t检验,重点。
第十章 列联表(定类变量vs.定类变量) 一、 列联表的定义:
二、 列联表中的分布情况:(分频次,概率分布两种情况) 1、 联合分布:
2、 边缘分布:2个,自变量和因变量各一个。 3、 条件分布:r+c个,通常只求因变量的条件分布,控制自变量。
三、 列联表中变量的独立性:条件概率分布等于边缘概率分布,那么自变量和因变量相互独立。 四、 对于列联表的检验: 1、 原假设:H0: pij=pi*p*j
2、 选择统计量:卡方变量,注意公式,自由度。 3、 计算样本统计值。
4、 比较统计值和临界值的大小,决定原假设的
11
取舍(即统计决策)。
五、 关于列联表统计量的几点补充讨论说明: 1、 对于2×2的列联表,由于格数的限制,需要为减少作为离散观测值与作为连续型变量x值之间的偏差,需要对其进行连续性修正。 2、 卡方检验适用于单变量二项总体或多总体的检验(重点,06考) 3、 列联表格值的取值范围。
4、 列联表就其检验的内容来看是双边检验,就其形式而言是右侧单边检验。
5、 列联表的检验只能通过频次来检验而不能通过频率(相对频次)来检验。当相对频次不变时,样本容量增加K倍时,卡方X值也增加K倍。(也即相对频次的统计表必须注明调查总数的原因)
六、 列联强度的含义:表示变量间相关程度,程度越高,说明社会现象与社会现象间的关系越密切。 七、 2×2表的列联强度计算:
1、 Φ系数:(费系数),公式,取值范围[-1,+1],当bc=0,且bc相等时Φ=1,二变量完全相关;ad=0,且ad相等时,Φ=-1,二变量完全相关;ad=bc时,Φ=0,二变量相互独立。说明:二定类变量的相关没有方向之分。
12
2
2、 尤拉Q系数:公式,取值范围,注意Q=1时候的情况。
3、 如何选择Φ系数和Q系数?取决于研究对象,当自变量的不同取值都会影响因变量时,则用Φ系数。
八、r×c列联表的列联强度计算:
1、以卡方值X为基础的相关性测量:Φ,C,V系数等,注意公式,取值范围的临界值,相互比较其优缺点。
2、以减少误差比例为基础的相关性测量: (1)何为减少误差比例?PRE (2)PRE的取值范围:[0,1] (3)PRE的优点及意义。 3、λ系数
(1)根据PRE原理得出E1和E2的值,得出λ的公式。可与李沛良书对照。
(2)λ的取值范围:[0,1],跟PRE的取值范围
一致。注意取极端值时候列联表的情况。(06年考)
(3)λ的非对称性讨论。默认情况下,用自变量预测因变量。
4、τ系数(由Goodman和Kruksal所创) (1)根据PRE原理得出E1和E2的值,得出τ的公
13
2
22
式。可与李沛良书对照。
(2)τ值的取值范围,[0,1],跟PRE的取值范
围一致。注意取极端值时候列联表的情况。(06年考)
(3)τ系数也是非对称性系数。
(4)比较τ系数与λ系数:τ充分考虑了定类
变量的信息,较λ值更准确,更佳,但是λ较τ更容易计算。二者都具有PRE性质。
九、在计算列联表强度时,必须先对列联表进行卡方
检验,有显著性差异才有计算列联强度的必要。 第十一章 等级相关(定序变量vs.定序变量) 一、斯皮尔曼等级相关系数:rs 1、含义及公式。
2、取值范围及意义。rs=+1和-1的列联表情况。 3、rs 是积距相关系数r的特例,其平方rs2 具有PRE性质。
4、斯皮尔曼等级相关对总体分布没有特别要求。 5、适用范围及前提。
6、等级相关系数rs 的检验。两种情况 二、Gamma等级相关:G系数
1、同序对:两个变量在xy上的变化方向一致。 2、异序对:两个变量在xy上的变化方向相反。 3、同分对:包括x方向,y方向和xy方向上的同
14
分对,两个变量在xy上的一个或二个等级相同。 4、根据列联表重的频次计算同序对、异序对和同分对的个数。
5、Gamma系数的公式,取值范围,及其PRE性质。
6、在什么情况下,G系数和2×2列联表的Q系数相同?
7、G系数的检验。从样本推论到总体。 三、其它的等级相关系数 1、Kendall’s Tau系数
(1)tau-a系数的公式,取值范围以及去+1和-1时的情况。
(2)tau-b系数的公式,取值范围,以及是如何对tau-a修正的?
(3)tau-c系数的公式。
2、Somer’s d系数,萨默斯d系数
(1)包括x方向和y方向两个系数,通常默认为y方向的dy系数。 (2)计算公式。
四、s因子检验法:原假设,研究假设,统计量和计算方法。
五、比较rs系数、G系数,τ系数和d系数。 1、对各系数的解释。
15