第三章 统计案例
3.2 独立性检验的基本思想及其初步应用
A级 基础巩固
一、选择题
1.下面是2×2列联表:
变量 y1 a 2 y2 21 25 46 总计 73 27 100 x1 x2 总计 则表中a,b的值分别为( ) b A.94,96 B.52,50 C.52,54 D.54,52 解析:因为a+21=73,所以a=52,又a+2=b,所以b=54. 答案:C
2.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是( )
A.100个心脏病患者中至少有99人打鼾 B.1个人患心脏病,则这个人有99%的概率打鼾 C.100个心脏病患者中一定有打鼾的人 D.100个心脏病患者中可能一个打鼾的人都没有
解析:这是独立性检验,犯错误的概率在不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.
答案:D
3.某市政府调查市民收入与旅游欲望时,采用独立性检验法抽取2 019人,计算发现
K2的观测值k≈6.723,则根据这一数据,市政府断言“市民收入与旅游欲望有关系”犯错误
的概率不超过( )
A.0.005
B.0.05 C.0.025 D.0.01
解析:因为K的观测值k≈6.723>6.635,所以断言“市民收入与旅游欲望有关系”犯错误的概率不超过0.01.
答案:D
4.在一次独立性检验中,得出列联表如下:
分类 2
A 100 90 190 A 400 总计 500 90+a 590+a B B 总计 a 400+a 且最后发现,两个分类变量A和B没有任何关系,则a的可能值是( ) A.720
2
B.360 C.180 D.90
n(ad-bc)2
参考公式:K=
(a+b)(c+d)(a+c)(b+d)
解析:因为两个分类变量A和B没有任何关系,
(590+a)(100a-90×400)
所以k=<2.702,代入验证可知a=360满足.
190×(400+a)(90+a)×500答案:B
5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下表的列联表:
喜好程度 爱好 不爱好 总计 2
2
男 40 20 60 女 20 30 50 总计 60 50 110 n(ad-bc)2由K=算得,
(a+b)(c+b)(a+c)(b+d)
110×(40×30-20×20)k=≈7.8.
60×50×60×50附表:
2
P(K2≥k0) k0 0.050 3.841 0.010 6.635 0.001 10.828 参照附表,得到的正确结论是( ) A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
解析:由k≈7.8及P(K≥6.635)=0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”.
答案:C 二、填空题
6.下列关于K的说法中,正确的有________. ①K的值越大,两个分类变量的相关性越大;
②若求出K=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;
③独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则做出拒绝H0的推断.
解析:对于①,K的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故①错误;根据独立性检验的概念和临界值表知②③正确.
答案: ②③
7.某部门通过随机调查89名工作人员的休闲方式,了解读书和健身的人数,得到的数据如表:
分类 女 男 总计 读书 24 8 32 健身 31 26 57 总计 55 34 89 2
2
2
2
2
在犯错误的概率不超过________的前提下认为性别与休闲方式有关系.
n(ad-bc)2
参考公式:K=
(a+b)(c+d)(a+c)(b+d)
2
解析:由列联表中的数据,得K的观测值为 89×(24×26-31×8)k=≈3.689>2.706,
55×34×32×57
因此,在犯错误的概率不超过0.10的前提下认为性别与休闲方式有关系. 答案:0.10
8. 某卫生机构对366人进行健康体检,其中某项检测指标阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,有________的把握认为糖尿病患者与遗传有关系.
解析:先作出如下糖尿病患者与遗传列联表(单位:人):
2
2
家族 阳性家族史 阴性家族史 总计 2
糖尿病发病 16 17 33 糖尿病不发病 93 240 333 总计 109 257 366 2366×(16×240-17×93)根据列联表中的数据,得到K的观测值为k=≈6.067>
109×257×33×3335.024.故我们有97.5%的把握认为糖尿病患者与遗传有关系.
答案:97.5% 三、解答题
9.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
性别 是否需要志愿者 需要 不需要 男 40 160 女 30 270 (1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?
解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需70
要志愿者提供帮助的老年人的比例的估计值为=14%.
500
(2)由表中数据,得K的观测值为 500×(40×270-30×160)k=≈9.967.
70×430×200×300
因为9.967>6.635,所以可以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关.
10.某校推广新课改,在两个程度接近的班进行试验,一班为新课改班级,二班为非课改班级,经过一个学期的教学后对期末考试进行分析评价,规定:总分超过550(或等于550分)为优秀,550以下为非优秀,得到以下列联表:
分类 一班 优秀 35 非优秀 13 总计 2
2
二班 总计 (1)请完成列联表; 17 25 (2)根据列联表的数据,能否在犯错误的概率不超过0.005的前提下认为推广新课改与总成绩是否优秀有关系?
参考数据:
P(K2≥k0) k0 2
0.15 2.072 0.10 2.706 0.05 3.841 0.025 5.024 0.010 6.635 0.005 7.879 n(ad-bc)2K=
(a+b)(c+d)(a+c)(b+d)
解:(1)2×2的列联表如下:
分类 一班 二班 总计 优秀 35 17 52 2
非优秀 13 25 38 总计 48 42 90 2
90×(35×25-13×17)
(2)根据列联表中的数据,得到K的观测值k=≈9.66>7.879,
48×42×52×38则说明能在犯错误的概率不超过0.005的前提下认为推广新课改与总成绩是否优秀有关系.
B级 能力提升
1.有两个分类变量x,y,其2×2列联表如下表.其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.1的前提下认为“x与y之间有关系”,则a的取值应为( )
变量 y1 a 15-a B. 6或7 D.8或9
y2 20-a 30+a x1 x2 A.5或6 C.7 或8
解析:查表可知,要使在犯错误的概率不超过0.1的前提下,认为K之间有关系,则
2
K>2.706,而
2
2
65[a(30+a)-(20-a)(15-a)]13(65a-300)K===
20×45×15×5060×45×50
2
22
13(13a-60)2
,要使K>2.706得a>7.19或a<2.04.又因为a>5且15-a>5,a∈Z,所
60