第二章 统计
2.2 用样本估计总体
1.用样本的频率分布估计总体分布 (1)频率分布直方图
频率分布是指一个样本数据在各个小范围内所占比例的大小.一般用频率分布直方图反映样本的频率分布,频率分布直方图的绘制步骤如下:
①求极差(即一组数据中_________与_________的差).
②决定组距与组数.组距与组数的确定没有固定标准,需要一个尝试与选择的过程.组数与样本容量有关,一般样本容量越大,所分组数越多.当样本容量不超过100时,按照数据的多少,常分成5~12组. 为方便起见,组距的选择应力求“取整”.组数=极差. 组距③将数据分组.通常对组内数值所在区间取左闭右开区间,最后一组取闭区间.
④列频率分布表.落在各小组内的数据的个数叫做频数,每小组的频数与数据总数的比值叫做这一小组的频率.计算各小组的频率,作出频率分布表.
⑤画频率分布直方图:依据频率分布表画频率分布直方图,其中纵坐标(小长方形的高)表示频率与组距的比值,其相应组距上的频率等于该组上的小长方形的面积,即
每个小长方形的面积??????????????????.这样,频率分布直方图就以面积的形式反映了数据
落在各个小组的频率的大小,各个小长方形面积的总和等于__________. (2)总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的__________,就得到频率分布折线图. ②总体密度曲线:随着样本容量的增加,作频率分布直方图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.总体密度曲线反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息. (3)茎叶图
①概念:统计中有一种被用来表示数据的图叫做茎叶图.茎是指基本不变或变化不大的位,叶就是从茎
的旁边生长出来的数.
②绘制步骤:(a)将数据分为“茎”、“叶”两部分;(b)将最大茎与最小茎之间的数字按大小顺序排成一列,茎相同者共用一个茎,再画上竖线作为分界线;(c)将各个数据的“叶”按大小顺序在分界线的一侧对应茎处同行列出.
③优缺点:在样本数据较少时,用茎叶图表示数据的效果较好.它不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.但当样本数据较多或数据位数较多时,茎叶图就显得不太方便,因为每一个数据都要在图中占据一定的空间,如果数据很多,枝叶就会很长.
注意:绘制茎叶图时,重复出现的数据要重复记录,不能遗漏,特别是“叶”位置的数据.同一数据出现几次,就要在图中体现几次. 2.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数
①众数:在一组数据中出现次数__________的数据叫做这组数据的众数.在频率分布直方图中,它是最高的小长方形的__________.
②中位数:将一组数据按__________顺序依次排列,把处在最__________位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等. ③平均数:n个样本数据x1,x2,???,xn的平均数为x?x1?x2?????xn.由于样本平均数与每一个样本数
n据有关,所以,任何一个样本数据的改变都会引起平均数的改变.但特殊情况下,平均数可能受极端值的影响而偏离一般情况.
在频率分布直方图中,平均数的估计值等于__________. (2)标准差和方差
①标准差:标准差是样本数据到平均数的一种平均距离,一般用s表示.假设样本数据是x1,x2,???,xn,
x表示这组数据的平均数,则标准差s?_____________.
②方差:方差就是标准差的平方,即s?____________.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.但在解决实际问题时,一般多采用标准差.
③标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度__________;标准差、方差越小,数据的离散程度__________.反之亦可由离散程度的大小推算标准差、方差的大小.
2
K知识参考答案:
1.(1)①最大值 最小值 ⑤组距?频率 频率 1 (2)①中点 组距2.(1)①最多 中点 ②大小 中间 ③每个小矩形的面积乘以小矩形底边中点的横坐标之和 (2)①11[(x1?x)2?(x2?x)2?????(xn?x)2] ②[(x1?x)2?(x2?x)2?????(xn?x)2] ③越大 越小 nn
K—重点 K—难点 K—易错 频率分布直方图、茎叶图的绘制及读图,平均数和方差的简单计算 能通过样本的频率分布估计总体的分布 容易忽略频率分布直方图中纵轴的意义,从而造成频率分布直方图画错 1.频率分布直方图
在绘制频率分布直方图时,要注意:
(1)所有的数据都必须在所分的组内,可适当将区间两端点的数据调整以便于分组; (2)落在各小组内的频数必须计算正确.
在根据频率分布直方图进行相关计算时,需掌握下列关系式:
频率?频率; 组距频数(2)=频率,
样本容量(1)组距?及其变形:
频数=样本容量,样本容量?频率=频数. 频率【例1】某厂对一批产品进行抽样检测,如图是抽检产品净重(单位:克)的频率分布直方图,样本数据分组为
[76,78),[78,80),???,[84,86].若这批产品有120个,估计其中净重大于或等于78克且小于84克的产品的个
数是
A.12 C.25 【答案】D
【解析】净重大于或等于78克且小于84克的频率为(0.100?0.150?0.125)?2?0.75,所以在该范围内的产品个数为120?0.75?90.
【例2】从某校参加高一年级基础知识数学测试的450名同学中,随机抽取若干名同学,将他们的成绩制成如下频率分布表.
(1)根据表中已知数据,填写在①、②、③处的数值分别为______ , ______ , ______ ; (2)补全在区间[90,160]上的频率分布直方图; (3)请你估计该校成绩不低于130分的同学人数.
B.18 D.90
分组 [90,100) [100,110) [110,120) [120,130) [130,140) [140,150) [150,160] 合计 频数 16 2 ③ 频率 0.08 ② 0.36 0.32 0.08 ① 0.02
【答案】答案详见解析.
(2)求出每组的
频率,即为矩形的高,补全在区间[90,160]上的频率分布直方图如图所示: 组距
(3)50?(0.08?0.04?0.02)?7,则在随机抽取的50名学生中有7名不低于130分.
450?7?63,则450名学生中不低于130分的大约有63名. 50【名师点睛】在频率分布直方图中,纵坐标表示的是频率与组距的比,不要误以为是频率,解题时要格外注意.在频率分布直方图中,各个小长方形的面积等于相应各组的频率,又各组的频率之和为1,所以所有