普通高中课程标准实验教科书一数学选修2?3[苏教版]
§ 3.1独立性检验(1)
教学目标
(1) 通过对典型案例的探究,了解独立性检验(只要求2x2列联表)的基本思想、方法 及
初步应用;
(2) 经历由实际问题建立数学模型的过程,体会其基木方法.
教学重点、难点:独立性检验的基本方法是重点.基本思想的领会及方法应用是难点.
教学过程 一.问题情境
5月31 H是世界无烟FI。有关医学研究表明,许多疾病,例如:心脏病、癌症、脑 血管病、慢性阻塞性肺病等都与吸烟有关,吸朋已成为继高血压之后的第二号全球杀手。 这些疾病与吸烟冇关的结论是怎样得出的呢?我们看一下问题:
1. 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调杳,共调ST 515 个成
年人,?其中吸焰者220人,不吸烟者295人?调查结果是:吸烟的220人中有37 人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295 人屮有21人患病,274人未患病.
问题:根据这些数据能否断定“患呼吸道疾病与吸烟冇关” ? 学生活动
为了研究这个问题,(1)引导学生将上述数据用下表来表示: 患病 吸烟 不吸烟 合计
未患病 合计 37 21 58 183 274 457 220 295 515 (2)佔计吸烟者与不吸烟者患病的可能性差异:
37 21
在吸烟的人中,有—?16.82%的人患病,在不吸烟的人中,有—— \的人患 220 295
病.
问题:山上述结论能否得出患病与吸烟有关?把握有多大? 三. 建构数学 1. 独立性检验:
(1)假设H():患病与吸烟没有关系.
若将表中“观测值”用字母表示,则得下表:
吸烟 患病 a 未患病 ■ 合计 h a + b 不吸烟 合计 c a + c d h + d c + d a + b + c + d (近似的判断方法:设xa + b + c + d ,如果成立,则在吸烟的人中患病的比例与
不吸烟的人?!'患病的比例应差不多,由此可得丄,即 a+b c+d
a(c + J) ? c(a + /?)=> ad - /?c ? 0,因此,越小,患病打吸烟Zl'可的关系越 弱,否则,关
系越强?)
设 72 = d + b + C + 〃,
在假设成立的条件下,可以通过求“吸烟且患病”、“吸烟但未患病”、“不吸烟
但患病”、“不吸烟且未患病”的概率(观测频率),将各种人群的估计人数用a,b,c,d,n 表示出來.
例如:“吸烟且患病”的估计人数为〃xP(AB) = ^x出x出;
n n “吸烟但未患病”的估计人数为/?X P(AB)^nx出X色巴;
n n
— “不吸烟但患病”的估计人数为nxP(AB)^ c + d a + c
匕上; n n
n n
“不吸烟且未患病”的估计人数为n x P(AB) a nx^-x^-.
如呆实际观测值与假设求得的估计值相差不人,就可以认为所给数据(观测值)不能
否定假设丹0?否则,应认为假设丹0不能接受,即可作出与假设丹。相反的结论.
(2)卡方统计量:
为了消除样本对上式的影响,通常用卡方统计量观测值-预期值丁)来进 预期值
行估计.
卡方才统计量公式:
、2 a+b a+c
a-nx ------- x ----- I n n nx ----- x
, ci+b b+d \\2 b-nx ------- x ------
n n 丿
a+b h+d nx ----- x
c+d o+cY c_nx ------- x
n n ) c+d a+c nx --- x
, c+d h+d} a-nx —
—x I n n )
( --------- x ------
c+d b+d nx叭ad - bc『
(d + b)(c + 〃) (a+ )(/? + 〃)
(其中 n = a + b + c + d )
由此若成立,即患病与吸烟没有关系,则才的值应该很小.把
a = 37上= 183,c = 21,d = 274代入计算得%2= 11.8634,统计学中有明确的结论,在H。
成立的情况下,随机事件“ z2 > 6.635 ”
发生的概率约为O.O1,即P(/2> 6.635) ? 0.01,也就是说,在仏成立的情况下,对 统计量才进行多次观测,观测值超过6.635的频率约为0.01.曲此,我们有99%的把握 认为H
()不成立,即冇99%的把握认为“患病与吸烟冇关系”.
象以上这种用z2统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检 验. 说明:
(1)估计吸烟者与不吸烟者患病的可能性差界是用频率估计概率,利用才进行独立性 检
验,町以对推断的正确性的概率作出佔计,观测数据a,b,c,d取值越大,效果越好.在 实际应用中,当a,b,c,d均不小于5,近似的效果才可接受.
(2) 这里所说的“呼吸道疾病与吸烟有关系”是一种统计关系,这种关系是指“抽烟
的人患呼吸道疾病的可能性(风险)更大”,而不是说“抽烟的人一定患呼吸道疾病”?
(3) 在假设丹。下统计量/应该很小,如果由观测数据计算得到力的观测值很大,则
在一定程度上说明假设不合理(即统计量/越人,“两个分类变量有关系”的可能性就 越大).
2. 独立性检验的一般步骤:
一般地,对于两个研究对象I和II, I有两类取值:类A和类B (如吸烟与不吸烟), II也有两
类取值:类1和类2 (如患呼吸道疾病与不患呼吸道疾病),得到如下表所示:
II