好文档 - 专业文书写作范文服务资料分享网站

备战2024年高考文数一轮复习第二节 变量的相关性与统计案例

天下 分享 时间: 加入收藏 我要投稿 点赞

[基本知识]

1.分类变量

变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. 2.列联表

列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为

x1 x2 总计 2

y1 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d n?ad-bc?2K=(其中n=a+b+c+d为样本容量),可利用独立性检验判断表来判断“X与Y的

?a+b??c+d??a+c??b+d?关系”.

[基本能力]

一、判断题(对的打“√”,错的打“×”)

(1)事件X,Y关系越密切,则由观测数据计算得到的K2的值越大.( )

(2)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ) 答案:(1)√ (2)× 二、填空题

1.下面是2×2列联表:

x1 x2 总计 则表中a,b的值分别为________.

解析:∵a+21=73,∴a=52,又a+22=b,∴b=74. 答案:52,74

2.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:

男 女 已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025. 理科 13 7 文科 10 20 y1 a 22 b y2 21 25 46 总计 73 47 120 6

50×?13×20-10×7?2根据表中数据,得到K的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能

23×27×20×30

2

性为________. 答案:5%

3.(2024·阜阳质检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:

喜欢玩电脑游戏 不喜欢玩电脑游戏 总计 认为作业多 12 2 14 认为作业不多 8 8 16 总计 20 10 30 该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过________. 答案:0.05

[典例] (2024·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:

(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.

(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:

第一种生产方式 第二种生产方式 超过m 不超过m (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? n?ad-bc?2附:K=,

?a+b??c+d??a+c??b+d?

2

[解] (1)第二种生产方式的效率更高. 理由如下:

(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.

7

(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.

(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.

(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高. (以上给出了4种理由,答出其中任意一种或其他合理理由均可得分) 79+81(2)由茎叶图知m==80.

2列联表如下:

第一种生产方式 第二种生产方式 2

超过m 15 5 不超过m 5 15 40?15×15-5×5?2

(3)因为K==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.

20×20×20×20[方法技巧]

(1)独立性检验的关键是正确列出2×2列联表,并计算出K2的值.

(2)独立性检验是对两个变量有关系的可信程度的判断,而不是对它们是否有关系的判断. [针对训练]

1.(2024·安徽黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( ) A.若K2的观测值为k=6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌

B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌

C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误

D.以上三种说法都不正确

解析:选C 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.故选C.

2.(2024·池州模拟)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图所示.规定80分以上者晋级成功,否则晋级失败(满分为100分).

8

(1)求图中a的值;

(2)估计该次考试的平均分x(同一组中的数据用该组的区间中点值代表);

(3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.

男 女 总计 2晋级成功 16 晋级失败 总计 50 n?ad-bc??参考公式:K2=?,其中n=a+b+c+d? ??a+b??c+d??a+c??b+d???

P(K2≥k) k 0.40 0.708 0.25 1.323 0.15 2.072 0.10 2.706 0.05 3.841 0.025 5.024 解:(1)由频率分布直方图中各小长方形面积总和为1,得(2a+0.020+0.030+0.040)×10=1,解得a=0.005. (2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95, 对应的频率分别为0.05,0.30,0.40,0.20,0.05,

则估计该次考试的平均分为x=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分).

(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,故晋级成功的人数为100×0.25=25,填写2×2列联表如下:

男 女 总计 2

晋级成功 16 9 25 晋级失败 34 41 75 总计 50 50 100 100×?16×41-34×9?2

K=≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.

25×75×50×50

[课时跟踪检测]

1.(2024·广雅中学期中)为研究变量x和y的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到--

回归直线l1和l2两人计算知x相同,y也相同,下列正确的是( ) A.l1与l2重合 --

C.l1与l2相交于点(x,y)

B.l1与l2一定平行

D.无法判断l1和l2是否相交

9

----

解析:选C 由于线性回归直线一定经过样本点的中心(x,y),所以l1与l2相交于点(x,y),故选C. 2.(2024·邵阳二模)假设有两个分类变量X和Y的2×2列联表如下:

Y X x1 x2 总计 y1 a c 60 y2 10 30 40 总计 a+10 c+30 100 对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( ) A.a=45,c=15 C.a=35,c=25

B.a=40,c=20 D.a=30,c=30

ac解析:选A 根据2×2列联表与独立性检验可知,当与相差越大时,X与Y有关系的可能性越大,

a+10c+30ac

即a,c相差越大,与相差越大,故选A.

a+10c+30

3.(2024·太原一模)已知某产品的广告费用x(单位:万元)与销售额y(单位:万元)具有线性相关关系,其统计数据如下表:

x y 3 25 4 30 5 40 6 45 ^^^

由上表可得线性回归方程y=bx+a,据此模型预测广告费用为8万元时的销售额是( ) A.59.5万元 C.56万元

B.52.5万元 D.63.5万元

--^^^

解析:选A 由表可知x=4.5,y=35,所以计算得b=7,a=3.5,所以线性回归方程为y=7x+3.5,所以广告费用为8万元时销售额的预测值为59.5万元,故选A.

4.(2024·商丘第一中学一模)某医疗所为了检查新开发的流感疫苗对甲型H1N1流感的预防作用,把1 000名注射疫苗的人与另外1 000名未注射疫苗的人半年的感冒记录作比较,提出假设H0:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算得P(K2≥6.635)≈0.01,则下列说法正确的是( ) A.这种疫苗能起到预防甲型H1N1流感的有效率为1%

B.若某人未使用疫苗则他在半年中有99%的可能性得甲型H1N1流感 C.有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用” D.有1%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”

解析:选C 因为P(K2≥6.635)≈0.01,这说明假设不合理的程度为99%,即这种疫苗不能起到预防甲型H1N1流感的作用不合理的程度约为99%,所以有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”,故选C.

5.(2024·柳州高中一模)根据如下样本数据

x y 3 4.0 4 2.5 5 -0.5 6 0.5 7 -2.0 8 -3.0 10

备战2024年高考文数一轮复习第二节 变量的相关性与统计案例

[基本知识]1.分类变量变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.2.列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为x1x2总计2y1a
推荐度:
点击下载文档文档为doc格式
1iyep8hxtl1xu1x81dzc4m0xd0pwbf00nlr
领取福利

微信扫码领取福利

微信扫码分享