1
1.1 独立性检验
[学习目标] 1.理解列联表的意义,会根据列联表中数据大致判断两个变量是否独立.2.理解统计量χ2的意义和独立性检验的基本思想.
[知识链接]
1.什么是列联表?怎样从列联表判断两个分类变量有无关系?
答 一般地,假设两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},列出两个变量的频数表,称为列联表(如下图):
x1 x2 合计 y1 a c a+c y2 b d b+d 合计 a+b c+d a+b+c+d |ad-bc|越小,说明两个分类变量x、y之间的关系越弱; |ad-bc|越大,说明两个分类变量x、y之间的关系越强. 2.统计量χ2有什么作用?
n?ad-bc?2
答 χ=,用χ2的大小可判断事件A、B是否有关联.
?a+b??c+d??a+c??b+d?
2
[预习导引] 1.2×2列联表:
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值类A和类B,Ⅱ也有两类取值类1和类2,得到如下列联表所示的抽样数据:
类1 Ⅰ 合计 上述表格称为2×2列联表. 2
Ⅱ 类2 b d b+d 合计 a+b c+d a+b+c+d 类A 类B a c a+c 1
2.统计量χ2
n?ad-bc?2
χ=. ?a+b??c+d??a+c??b+d?
2
3.独立性检验
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行: (1)提出假设H0:Ⅰ与Ⅱ没有关系; (2)根据2×2列联表计算χ2]的值; (3)查对临界值,作出判断.
要点一 2×2列联表和χ2统计量 例1 根据下表计算:
男 女 χ2≈________.(结果保留3位小数) 答案 4.514
2
300×?37×143-85×35?
解析 χ2=≈4.514.
122×178×72×228
不看电视 37 35 看电视 85 143 规律方法 利用χ=
2
,准确代数与计算,求出χ2的值.
?a+b??c+d??a+c??b+d?
n?ad-bc?2
跟踪演练1 已知列联表:药物效果与动物试验列联表
服用药 未服药 合计 则χ2≈________.(结果保留3位小数) 答案 6.109
2
105×?10×30-20×45?
解析 χ2=≈6.109.
30×75×55×50
患病 10 20 30 未患病 45 30 75 合计 55 50 105 要点二 独立性检验
例2 为了研究人的性别与患色盲是否有关系,某研究所进行了随机调查,发现在调查的480名男性中有39名患有色盲,520名女性中有6名患有色盲,能在犯错误的概率不超过0.001
2
1
的前提下认为人的性别与患色盲有关系吗? 解 由题意列出2×2列联表:
男性 女性 总计 由公式得χ2的观测值
1000×?39×514-441×6?2x0=≈28.225.
480×520×45×955因为P(χ2≥10.828)≈0.001,且28.225>10.828,
所以在犯错误的概率不超过0.001的前提下认为患色盲与人的性别有关系,男性患色盲的概率要比女性大得多.
规律方法 独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断. 跟踪演练2 调查在2~3级风的海上航行中男女乘客的晕船情况,结果如下表所示:
男人 女人 合计 晕船 12 10 22 不晕船 25 24 49 合计 37 34 71 患色盲 39 6 45 未患色盲 441 514 955 总计 480 520 1000 根据此资料,你是否认为在2~3级风的海上航行中男人比女人更容易晕船?
2
71×?12×24-25×10?
解 假设H0:海上航行和性别没有关系,χ2=≈0.08.
22×49×37×34
因为χ2<2.706,所以我们没有理由认为男人比女人更容易晕船. 要点三 独立性检验的应用
例3 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表: 甲厂 分组 频数 乙厂 2
[29.86, 29.90) 12 [29.90, 29.94) 63 [29.94, 29.98) 86 [29.98, 30.02) 182 [30.02, 30.06) 92 [30.06, 30.10) 61 [30.10, 30.14) 4 1
分组 频数 [29.86, 29.90) 29 [29.90, 29.94) 71 [29.94, 29.98) 85 [29.98, 30.02) 159 [30.02, 30.06) 76 [30.06, 30.10) 62 [30.10, 30.14) 18 (1)试分别估计两个分厂生产的零件的优质品率; (2)由以上统计数据填下面2×2列联表,并计算是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
优质品 非优质品 合计 甲厂 乙厂 合计 360
=500
解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为72%;
320
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%.
500(2)
优质品 非优质品 合计 2
甲厂 360 140 500 乙厂 320 180 500 合计 680 320 1000 1000×?360×180-320×140?2χ=≈7.353>6.635,
500×500×680×320
所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
规律方法 (1)解答此类题目的关键在于正确利用χ=计算χ2的值,
?a+b??c+d??a+c??b+d?
2
n?ad-bc?2
再用它与临界值的大小作比较来判断假设检验是否成立,从而使问题得到解决.
(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.
跟踪演练3 下表是某地区的一种传染病与饮用水的调查表:
干净水 得病 52 不得病 466 合计 518 2
1
不干净水 合计 94 146 218 684 312 830 (1)这种传染病是否与饮用水的卫生程度有关,请说明理由; (2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.
解 (1)假设H0:传染病与饮用水无关.把表中数据代入公式得:χ2=830×?52×218-466×94?2
≈54.21,
146×684×518×312∵54.21>10.828,所以假设H0不成立.
因此我们有99.9%的把握认为该地区这种传染病与饮用水的卫生程度有关. (2)依题意得2×2列联表:
干净水 不干净水 合计 286×?5×22-50×9?
此时,χ2=≈5.785.
14×72×55×31
得病 5 9 14 不得病 50 22 72 合计 55 31 86 由于5.785>5.024所以我们有97.5%的把握认为该种疾病与饮用水的卫生程度有关. 两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定结论的正确性
.
1.下面是一个2×2列联表:
x1 x2 合计 则表中a=________.b=________. y1 a 8 b y2 21 25 46 合计 73 33 2