天幕数学
第4讲 随机抽样和样本估计总体
[玩前必备]
1.简单随机抽样
(1)定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样方法有两种——抽签法和随机数法. (3)应用范围:总体个体数较少. 2.系统抽样的步骤
一般地,假设要从容量为N的总体中抽取容量为n的样本. (1)先将总体的N个个体编号;
NN
(2)确定分段间隔k,对编号进行分段.当(n是样本容量)是整数时,取k=;
nn(3)在第1段用简单随机抽样确定第一个个体编号l (l≤k);
(4)按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本. 3.分层抽样
(1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围:
当总体是由差异明显的几个部分组成时,往往选用分层抽样的方法. 4.频率分布表
(1)含义:把反映总体频率分布的表格称为频率分布表. (2)频率分布表的画法步骤:
极差
第一步:求极差,决定组数和组距,组距=;
组数
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. 5. 频率分布直方图
利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图. (1)作频率分布直方图的方法
第 1 页 共 15 页
天幕数学
天幕数学
①先制作频率分布表,然后作直角坐标系.
②把横轴分成若干段,每一线段对应一个组的组距,然后以此线段为底作一矩形,它的高等频率
于该组的,这样得出一系列的矩形.
组距
③每个矩形的面积恰好是该组的频率,这些矩形就构成了频率分布直方图. (2)频率分布直方图的特征
①直方图中各小长方形的面积之和为1.
频率频率
②直方图中纵轴表示,故每组样本的频率为组距×,即矩形的面积.
组距组距③直方图中每组样本的频数为频率×总体数. 6.茎叶图
茎相同者共用一个茎(如两位数中的十位数),茎按从小到大的顺序从上向下列出,共茎的叶(如两位数中的个位数),一般按从小到大(或从大到小)的顺序同行列出.这样将样本数据有条理地列出来的图形叫做茎叶图.其优点是当样本数据较少时,茎叶图可以保留样本数据的所有信息,直观反映出数据的水平状况、稳定程度,且便于记录和表示;缺点是对差异不大的两组数据不易分析,且样本数据很多时效果不好. 茎叶图的画法步骤
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列; 第三步:将各个数据的叶依次写在其茎的两侧.
7.样本的数字特征:众数、中位数、平均数、方差、标准差
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据叫做这组数据的中位数.
在频率分布直方图中,中位数左边和右边的直方图的面积应该相等. 1
(3)平均数:样本数据的算术平均数,即x=(x1+x2+…+xn).
n
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为x,则这组数据的标准差和方差分别是 s=
1[(x1?x)2?(x2?x)2?L?(xn?x)2], n第 2 页 共 15 页
天幕数学
天幕数学
1
s2=[(x1-x)2+(x2-x)2+…+(xn-x)2]
n
标准差是反映总体波动大小的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差. (5)标准差和方差的一些结论
若取值x1,x2,…,xn的频率分别为p1,p2,…,pn,则其平均值为x1p1+x2p2+…+xnpn;若x1,x2,…,xn的平均数为x,方差为s2,则ax1+b,ax2+b,…,axn+b的平均数为ax+b,方差为a2s2.
[玩转典例]
题型一 随机抽样
例1 (高考江西卷)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )
7816 6572 0802 6314 0702 4369 9728 0198 3204 9234 4935 8200 3623 4869 6938 7481 A. 08 B.07 C.02 D.01
例2 为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用系统抽样方法确定所选取的5袋奶粉的编号可能是________.(填序号)
① 5,10,15,20,25;② 2,4,8,16,32;③ 1,2,3,4,5;④ 7,17,27,37,
47.
例3 某高级中学共有学生3 000名,各年级男、女生人数如下表:
女生 男生 高一年级 523 487 高二年级 x 490 高三年级 y z 已知在全校学生中随机抽取1名,抽到高二年级女生的概率是0.17.若现需对各年级用分层抽样的方法在全校抽取300名学生,则应在高三年级抽取的学生人数为________. [玩转跟踪]
1.(广东,6)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本 ,则分段的间隔为( )
第 3 页 共 15 页
天幕数学
天幕数学
A.50 B.40 C.25 D.20
2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( ) A. 5,10,15,20,25 B. 3,13,23,33,43 C. 1,2,3,4,5 D. 2,4,6,16,32
3.(2017·江苏)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
4.(四川)某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )
A.抽签法 B.系统抽样法 C.分层抽样法 D.随机数法 题型二 频率分布直方图
例4 (山东,8)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.6 B.8 C.12 D.18
例5 在如图所示的茎叶图中,甲、乙两组数据的中位数分别是________,________.
第 4 页 共 15 页
天幕数学
天幕数学
例6 (2017·全国Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( ) A.月接待游客量逐月增加 B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳 [玩转跟踪]
1.(山东)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为
[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
第 5 页 共 15 页
天幕数学