11
阳光家教网 www.ygjj.com 高三数学学习资料 §2 统计
? 基本定义:
(1)总体:在统计中,所有考查对象的全体叫做全体.
(2) 个体:在所有考查对象中的每一个考查对象都叫做个体. (3) 样本:从总体中抽取的一部分个体叫做总体的样本. (4) 样本容量:样本中个体的数目叫做样本容量.
? 抽样方法:
(1)简单随机抽样(simple random sampling):设一个总体的个数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时每个个体被抽到的概率相等,就称这样的抽样为简单的随机抽样,简单随机抽样常用的方法有抽签法和随机数表法. (关于制签和随机数表的制作,请参照课本第41页)
(2)系统抽样(systematic sampling):将总体平均分成几个部分,然后按照一定的规则,从每一部分抽取一个个体作为样本。先用随机的方法将总体进行编号,如果N不能被n整除就从中用随机数表法剔除几个个体,使得能整除,然后分组,一般是样本容量是多少,就分几组,间隔k?Nn,
然后从第一组中用简单实际抽样的方法抽取一个个体,假设编号为 l ,然后就可以将编号为
实际就是从每一组抽取与第一组相同编号l,l?k,l?2k?...?l??n?1?k 的个体抽出作为样本,
的个体。
(3)分层抽样(stratifed sampling):当已知总体是由有差异明显的几部分组成时,常将总体分成几部分,然后按各部分所占的比例进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫做层.
样本容量越大,估计越精确!
颜老师友情提醒:1. 把每一种抽样的具体步骤看清楚,要求会写过程 2. 个体数N的总体中抽取一个样本容量为n的样本,那么在整个抽样过程中每个个体被抽到的概率都相等,且等于
nN.其实三种抽样的每一个个体都是等几率的被抽到的
3. 三种抽样都是不放回的抽样 4. 在具体问题中对于样本,总体,个体应该时代单位的,如考察一个班级的学生的视力状况,从中抽取20个同学,则个体应该是20名同学的视力,而不是20名同学,样本容量则为20,同样的总体也是全班级同学的视力
? 两种抽样方法的区别与联系:
类别 简单随机抽样 分层 抽样 共同点 各自特点 从总体中逐个抽取 抽取过程中每个个体被抽取的概率相等 将总体分成几层进行抽取 将总体平均分成几部分,按事先确定的规则分别在各部分抽取 相互联系 适用范围 总体中个体数较少 各层抽样可采总体有差异明显的几用简单随机抽样部分组成 或系统抽样 在起始部分抽样时采用简单随总体中的个体较多 机抽样 系统抽样 水激石则鸣,励激志则宏!知识改变命运,勤奋成就未来! 共26 页第 11页4/18/2013
12
阳光家教网 www.ygjj.com 高三数学学习资料 ★ 典型例题剖析: 例1、一个总体含有6个个体,从中抽取一个样本容量为2的样本,说明为什么在整个抽样过程中每个个体被抽到的概率相等.
解:设任意一个个体为α,那么个体α被抽到分两种情况:
(1)第一次被抽到:根据等可能事件概率得P1=
5616,
(2)第二次被抽到:即是个体α第一次没被抽到、第二次被抽到这两件事都发生. 个体α第一次没被抽到的概率是
, 个体α第一次没被抽第二次被抽到的概率是.
5561根据相互独立事件同时发生的概率公式, 个体α第二次被抽到的概率是P2=
×
15=
16.(也
可这样分析:根据等可能事件的概率求得,一共取了两次,根据分步原理所有可能结果为6×5=30,个体α第一次没被抽到第二次被抽到这个随机事件所含的可能结果为5×1=5,所以个体α第二次被抽到的概率是P2=
530=
16)
161613个体α在第一次被抽到与在第二次被抽到是互斥事件,根据互斥事件的概率加法公式,在先后抽取2个个体的过程中,个体α被抽到的概率P= P1+ P2=
+
=
.
13由个体α的任意性,说明在抽样过程中每个个体被抽到的概率都相等(都等于)
点评:注意区分“任一个个体α每次抽取时被抽到的概率”与“任一个个体α在整个抽样过程中个体α被抽到的概率”的区别,一般地,如果用简单随机抽样从个体数为N的总体中抽取一个容量为n的样本,那么“任一个个体α每次抽取时被抽到的概率”都相等且等于样过程中被抽到的概率”为
nN1N,“任一个个体α在整个抽
.
例2、(1)在120个零件中,一级品24个,二级品36个,三级品60个,从中抽取一个容量为20的一个样本,
求 ① 每个个体被抽到的概率,
② 若有简单随机抽样方法抽取时,其中个体α第15次被抽到的的概率,
③ 若用分层抽抽样样方法抽取时其中一级品中的每个个体被抽到的概率.
解:① 因为总体个数为120,样本容量为20,则每个个体被抽到的概率P1= ② 因为总体个数为120,则体α第15次被抽到的的概率P2= ③ 用分层抽样方法:按比例36×
1620120112020120=
16
16=
16分别在一级品、二级品、三级品中抽取24×
424=4个,
=6个,60×
16=10,所以一级品中的每个个体被抽到的概率为P3=
=
16.
16注:其实用分层抽样方法抽取时二级品、三级品中每个体被抽到的概率也都为.
nN点评:本题说明两种抽样方法都能保证在抽样过程中,每个个体被抽到的概率都相等.且为.
例3、某地区有3000人参加今年的高考,现从中抽取一个样本对他们进行分析,每个考生被抽到的概率为
110,求这个样本容量.
水激石则鸣,励激志则宏!知识改变命运,勤奋成就未来! 共26 页第 12页4/18/2013
13
阳光家教网 www.ygjj.com 高三数学学习资料 解:设样本容量为n,则
n3000=
110,所以n=300.
nN点评:“在整个抽样过程中个体α被抽到的概率”为这一结论的逆用.
例4、下列抽取样本的方式是否属于简单随机抽样?说明理由. (1) 从无限多个个体中抽取50个个体作样本.
(2) 盒子里共有100个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.
解:(1) 不是简单随机抽样.由于被抽取样本的总体个数是无限的.
(2) 不是简单随机抽样.由于不符合“逐个抽取”的原则,且抽出的结果可能是只有一个零件重复出现.
点评:简单随机抽样的特点:
(1) 它要求被抽取样本的总体个数是有限的. (2) 它是从总体中逐个地进行抽取. (3) 它是一种不放回抽样. 例5、 某校有学生1200人,为了调查午休对学习成绩的影响情况,计划抽取一个样本容量为60的样本,问此样本若采用简单随机抽样将如何进行?
解:可用两种方法: 方法一:(抽签法)
(1)编号: 将1200名学生进行随机编号为1,2, ?,1200,(可按学生的学号或按学生的生日进行编号).
(2)制签:做1200个大小、形状相同的号签,分别写上这1200个数,放在个容器里,并进行均匀搅拌.
(3)逐个抽取:连续抽取60个号签,号签对应的同学即为样本. 方法二:(随机数表法)
(1)编号: 将1200名学生进行编号分别为0000,0001,?, 1199, (2)选数:在课本附表1随机数表中任选一个数作为开始.(如从第11行第7列的数9开始) (3) 读数:从选定的数开始向右(或向上、向下、向左)读下去,选取介于范围的号码,直到满60个号码为止.
(4) 抽取:抽取与读出的号码相对应的学生进行分析.
点评:抽签法和随机数表法是常见的两种简单随机抽样方法,本问题显然用随机数表法更方便一些,因为总体个数较多.另外随机数表法编号时,位数要一样,首数确定后,可向左、向右、向上、向下各个确定的方向进行抽取.
例6、某工厂中共有职工3000人,其中,中、青、老职工的比例为5∶3∶2,从所有职工中抽取一个样本容量为400的样本,应采取哪种抽样方法较合理?且中、青、老年职工应分别抽取多少人?
解:采用分层抽抽样样方法较为合理.由样本容量为400,中、青、老职工的比例为5∶3∶2,所以应抽取中年职工为400×应抽取青年职工为400×
210510=200人, 应抽取青年职工为400×
310=120人,
=80人.
例6. 见课本P43例1.
点评:因为总体由三类差异较明显的个体构成,所以应采用分层抽抽样样方法进行抽取.
?
总体分布的估计
ⅰ.频率分布表:见课本第51页: ★ 例1
1. 注意全距,组距的确定。一般是先查出最大值,最小值,其差值取适当的量作为全距,水激石则鸣,励激志则宏!知识改变命运,勤奋成就未来! 共26 页第 13页4/18/2013
14
阳光家教网 www.ygjj.com 高三数学学习资料 正常情况下分为十组左右,组距?全距组数,也就是合理分组
2. 分组的时候一般取左闭右开区间,最后一个区间取闭区间,然后填写分组、频数、频率、合计
3. 如果全距不利于分组(如不能被组数整除)就可适当的增大全距,即在左右两端增加相同的量
4.分组过少,总体的特征不明显;分组过多,总体特征不利于比较
ⅱ.频率分布直方图:1.横轴表示数据的内容,每一线段表示一个组的组距,注意横轴要有单位
2.纵轴表示的是:
频率组距 3.每个小矩形的面积都是该组所对应的频率
ⅲ.频率分布折线图: 1. 由频率分布直方图直接得到,取值区间的两端点分别向外延伸半个组
距并取此组距上再x轴上的点,然后顺次连接直方图中每一个小矩形上底边的中点,形成折线图 2.当样本容量足够大,分组的组距取得足够小时,折线图取与一条平滑的曲线,称这条曲线为总体分布的密度曲线,而且曲线与横轴围成的面积为1 3. 在总体密度曲线中,总体在区间(a,b)内取值的可能性就是直线x=a , x=b , y=0 和总体密度曲线围成的面积 4. 累计频率分布曲线上任意一点 P?a,b? 的纵坐标标b表示的连续型总体,取小于等于 a 的值的可能性
ⅳ. 三者的特点
频率分布表:数据翔实、具体、清晰明了,便于查阅 频率分布直方图:形象直观,对比效果强烈 频率分布折线图:能够反映变化趋势
ⅴ.茎叶图的特点: 优点——简单易行,杂乱的数据在用茎叶图表示后能直观地反映出数据的
水平状况、稳定程度;所有的数据都可以在茎叶图中找到. 缺点——分析只是粗略的,对差异不大的两组数据不易分析,另外,对位数较多的数据不易操作,数据较多时效果不是很好.
注意点: 1. 对重复出现的数据要重复记录,不能遗漏 2. 茎要从小到大自上而下的排列,中
间用一条竖线隔开 3. 叶也要按照从小到大的顺序排列,对于两组数据的可以用两条竖线把茎和叶隔开,左边的叶最好按照从大到小的顺序排列,右边的叶按照从小到大的顺序排列 4. 茎叶图一般在衡量一位或者两位运动员在比赛时的得分情况 ( 例题见课本 P58 )
? 总体特征数的估计
反映总体某种特征的量较总体特征数,比如平均数、中位数、方差、众数等
ⅰ.平均数(average) 或均值(mean): a?a1?a2?..?.ann?1nn?ai?1i
水激石则鸣,励激志则宏!知识改变命运,勤奋成就未来! 共26 页第 14页4/18/2013
15
阳光家教网 www.ygjj.com 高三数学学习资料 其原理:最小二乘法 ——设与实验数据近似的值为 x 则它与这n个实验数据的离差为
x?a1 , x?a2 , x?a3 , ...,x?an 由于上面的离差有正有负,故不易直接相加,就考虑离差
的平方和f?x???x?a1? ??x?a2??...??x?an?
222?nx?2?a1?a2?...?an?x?a1?a2?...?an
222 所以当x?a1?a2?...?ann?1nn?ai?1i时,离差的平方和的函数取得最小,误差也就最小,故
而用
a1?a2?...?ann 作为这组数据的理想近似值.
ⅱ.平均数的求法: 题目类型有离散型和连续型两种情况
① x?x1?x2?...?xnn?1nin?xni?1 ②加权平均数: x?x1p1?x2p2?...?xnpn??xi?1ipi
(其中p1 , p2 , ... , pi 为x1 , x2 , ... , xi 对应的频率),这里也是为我们今后将要学习的数学期望作铺垫
见课本 例2 P64?65 注:特别地,对于连续型的随机变量在分好组后,其x1 , x2 , ... , xi
应该取每一组的组中值近似的表示
1n1nⅲ.样本方差(variance): s2???xi?1ni?x?2
222=
[(x1?x)?(x2?x)?(x3?x)???(xn?x)]
2样本标准差(standard deviation):s?1n??xi?1ni?x?2
说明:1. 平均数、中位数、众数是描述数据集中趋势的统计量
2. 方差、标准差是反映一组数据波动大小或稳定程度或各个数据与平均数的离散程
度的统计量,记住它们的表达形式,在选择题中常出现关于它们的判断 3. 一个重要结论:s?21n2i?xni?1?x
24. 方差与越大,稳定性越差
5. 关于它们的运算,分连续型和离散型两种情况,见课本 P67?68 对于离散型的
随机变量也要注意选择组中值
例题:从两块玉米地里各抽取10株玉米苗,分别测得它们的株高如下(单位:cm ): 水激石则鸣,励激志则宏!知识改变命运,勤奋成就未来! 共26 页第 15页4/18/2013