独立性检验的基本思想及其初步应用
预习课本P10~15,思考并完成以下问题 1.分类变量与列联表分别是如何定义的?
2.独立性检验的基本思想是怎样的?
3.独立性检验的常用方法有哪些?
[新知初探]
1.与列联表相关的概念
(1)分类变量:变量的不同“值”表示个体所属的不同类型,像这样的变量称为分类变量.
(2)列联表:
①列出的两个分类变量的频数表, 称为列联表.
②一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
x1 x2 总计
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0, 因此|ad-bc|越小, 关系越弱; |ad-bc|越大, 关系越强.
2.等高条形图
等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响, 常用
y1 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d 等高条形图展示列表数据的频率特征.
3.独立性检验的基本思想
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验. n?ad-bc?2
(2)公式:K=,其中n=a+b+c+d为样本容量.
?a+b??c+d??a+c??b+d?
2
[小试身手]
1.判断下列命题是否正确.(正确的打“√”,错误的打“×”) (1)分类变量中的变量与函数中的变量是同一概念.( )
(2)列联表频率分析法、等高条形图可初步分析两分类变量是否有关系, 而独立性检验中K2取值则可通过统计表从数据上说明两分类变量的相关性的大小.( )
(3)独立性检验的方法就是反证法.( ) 答案:(1)× (2)√ (3)×
2.与表格相比,能更直观地反映出相关数据总体状况的是( ) A.列联表 C.残差图 答案:D
3.如果有99%的把握认为“X与Y有关系”,那么具体算出的数据满足( ) 附表:
P(K2≥k0) k0
A.k>6.635 C.k>7.879 答案:A
4.下面是一个2×2列联表:
x1 x2 总计
则表中a,b的值分别为________. 答案:52, 54
y1 a 2 b y2 21 25 46 总计 73 27 100 B.k>5.024 D.k>3.841
0.05 0.025 0.010 0.005 0.001 B.散点图 D.等高条形图
3.841 5.024 6.635 7.879 10.828 等高条形图的应用 [典例] 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别 铅中毒病人 对照组 总计 阳性数 29 9 38 阴性数 7 28 35 总计 36 37 73 试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
[解] 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率. 由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例
a
,a+b
c
也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例.两个比例的值相差
c+d越大,X与Y有关系成立的可能性就越大.
[活学活用]
某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
解:作列联表如下:
考前心情紧张 考前心情不紧张 总计
性格内向 332 94 426 性格外向 213 381 594 总计 545 475 1 020 相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.
两个变量的独立性检验 [典例] 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?
[解] 根据题目所给的数据得到如下列联表:
有兴趣 无兴趣 总计
根据列联表中数据由公式计算得随机变量K2的观测值 361×?138×52-73×98?2-k=≈1.871×104.
211×150×236×125因为1.871×104<2.706,
-
理科 138 98 236 文科 73 52 125 总计 211 150 361 所以在犯错误的概率不超过0.1的前提下,不能认为“学生选报文、理科与对外语的兴趣有关”.
独立性检验的步骤
(1)确定分类变量,获取样本频数,得到列联表.
(2)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
n?ad-bc?2
(3)利用公式K=计算随机变量K2的观测值k0.
?a+b??c+d??a+c??b+d?
2
(4)作出判断.
如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为
在犯错误的概率不超过α的前提下不能推断“X与Y的关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
[活学活用]
在对人们的休闲方式的一次调查中, 共调查了124人, 其中女性70人, 男性54人.女性中有43人主要的休闲方式是看电视, 另外27人主要的休闲方式是运动; 男性中有21人主要的休闲方式是看电视, 另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2的列联表; 并估计, 以运动为主的休闲方式的人的比例;
(2)能否在犯错误的概率不超过0.025的前提下, 认为性别与休闲方式有关系? 附表: P(K2≥k0) k0 n(ad-bc)2K=.
(a+b)(c+d)(a+c)(b+d)
2
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 10.828 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 解:(1)由所给的数据得到列联表
休闲方式 性别 女 男 总计
所以以运动为主要的休闲方式的人的比例为15∶31. (2)根据列联表中的数据计算得随机变量K2的观测值, 124×?43×33-27×21?2k=≈6.201,
70×54×64×60因为k>5.024,
所以在犯错误的概率不超过0.025的前提下认为休闲方式与性别有关.
独立性检验的综合应用
[典例] 某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A,B两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了解教学效果,
看电视 43 21 64 运动 27 33 60 总计 70 54 124