1.2 独立性检验的基本思想及其初步应用
学 习 目 标 1.理解独立性检验的基本思想及其实施步骤.(重点) 2.能利用条形图、列联表探讨两个分类变量的关系.(易混点) 3.了解K2的含义及其应用.(重点) 4.通过对数据的处理,来提高解决实际问题的能力.(难点) 1.通过学习独立性检验的基本思想,提升逻辑推理的素养. 2.借助K2公式培养数学运算的素养. 3.借助条形图培养直观想象的素养. 核 心 素 养
1.分类变量及2×2列联表 (1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表
①定义:列出的两个分类变量的频数表,称为列联表.
②2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
x1 x2 总计 2.等高条形图 (1)等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
y1 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d 1
(2)观察等高条形图发现关系.
3.独立性检验
ac和相差很大,就判断两个分类变量之间有a+bc+d
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
n?ad-bc?2
(2)K=,其中n=a+b+c+d.
?a+b??c+d??a+c??b+d?
2
(3)独立性检验的具体做法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
②利用公式计算随机变量K2的观测值k.
③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
思考:有人说:“我们有99%的把握认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?
[提示] 观点不正确.99%的把握说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.
1.下列变量中不属于分类变量的是( ) A.性别 C.宗教信仰
B.吸烟 D.国籍
B [“吸烟”不是分类变量,“是否吸烟”才是分类变量.故选B.] 2.下面是一个2×2列联表:
x1 x2 总计 y1 a 8 b y2 21 25 46 总计 73 33 则表中a,b处的值分别为________. 2
52,60 [∵a+21=73,∴a=52. b=a+8=52+8=60.] 3.根据下表计算:
男 女 不看电视 37 35 看电视 85 143 K2的观测值k≈________(保留3位小数). 300×?37×143-85×35?2
4.514 [k=≈4.514.]
122×178×72×228
用2×2列联表分析两变量间的关系
【例1】 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用c与判断二者是否有关系. c+d
[解] 2×2列联表如下:
饮食以蔬菜为主 饮食以肉类为主 总计 将表中数据代入公式得 a43
==0.671 875. a+b64c27
=60=0.45. c+d
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与
3
a
a+b
年龄在六十岁以上 43 27 70 年龄在六十岁以下 21 33 54 总计 64 60 124 年龄有关系.
1.作2×2列联表时,关键是对涉及的变量分清类别.注意应该是4行4列,计算时要准确无误.
2.利用2×2列联表分析两变量间的关系时,首先要根据题中数据获得2×2bd?ac?
与?或?的值相比,直观地列联表,然后根据频率特征,即将与
a+bc+d?a+bc+d?反映出两个分类变量间是否相互影响,但方法较粗劣.
1.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
x1 x2 y1 10 m y2 18 26 则当m取下面何值时,X与Y的关系最弱( ) A.8 C.14
B.9 D.19
C [由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.] 用等高条形图分析两变量间的关系
【例2】 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别 铅中毒病人 对照组 总计 阳性数 29 9 38 阴性数 7 28 35 总计 36 37 73 试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
[解] 等高条形图如图所示:
4
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
利用等高条形图判断两个分类变量是否相关的步骤
2.如图所示的是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )
A.性别与喜欢理科无关
B.女生中喜欢理科的比例约为80% C.男生比女生喜欢理科的可能性大些 D.男生中不喜欢理科的比例约为60%
C [由题图可知女生中喜欢理科的比例约为20%,男生中喜欢理科的比例约为60%,因此男生比女生喜欢理科的可能性大些.故选C.]
用K2进行独立性检验
[探究问题]
5
19-20 第1章 1.2 独立性检验的基本思想及其初步应用



