在重复抽样或无限总体抽样的情况下,我们知道有、,由此能够知道样本均值落到总体均值的俩侧各为壹个抽样标准差范围内的概率0.6873;落在俩个抽样标准差范围内的概率为0.9545。而实际上,是已知的,而是未知的,也正是我们要估计的。由于和的距离是对称的,因此如果有95%的样本均值落在的俩个标准误差的范围内,则也就是说,约有95%的样本均值所构成的俩个标准误差的区间会包括。即若有 则有
通俗地说,如果我们抽取100个样本来估计总体的均值,有100个样本均值所构成的100个区间中,约有95个区间包含总体均值。 2、正态总体且方差已知,或非正态总体、方差未知、大样本
当总体服从正态总体且方差已知,或非正态总体、方差未知但大样本时,样本均值的抽样分布为正态分布,有、。即 对显著性水平,有,即有:
由此得到总体均值在置信水平下的置信区间为:
(4.3.1)
如果总体方差未知,在大样本条件下,则能够用样本方差代替总体方差,这时总体均值在置信水平下的置信区间为:
(4.3.2)
如果采取不重复抽样,而且插秧比很大时,,这时总体均值在置信水平下的置信区间为:
(4.3.3)
相应的如果总体方差未知,总体均值在置信水平下的置信区间可写为:
(4.3.4)
【例】某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平均长度为21.4mm。已知总体标准差=0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。
解:已知X~N(,0.152),=2.14,n=9,1-a=0.95,Za/2=1.96 根据式(4.3.1),总体均值的置信区间为:
我们能够以95%的概率保证该种零件的平均长度在21.302~21.498mm之间。
3、正态总体、方差未知、大样本
如果总体服从正态分布,则无论样本容量如何,样本均值的抽样分布都服从正态分布。可是,如果总体方差未知,而且是小样本的情况下,则需要用样本方差来代替,这时样本均值经过标准化以后的随机变量服从自由度为的分布,即 这时需要应用分布来建立总体均值的置信区间。
分布是类似正态分布的壹种对称分布,但它通常比后者平坦和分散。 根据分布建立的总体均值在置信水平(1-)下的置信区间为:
(4.3.5)
(4.3.5)式中是自由度为时,分布中右侧面积为时的值。
【例】从壹个正态总体中抽取壹个随机样本,n=25,其均值=50,标准差=8。建立总体均值的95%的置信区间。
解:已知X~N(,),=50,s=8,n=25,1-a=0.95,ta/2=2.0639。 由式(4.3.5),可得:
我们能够95%的概率保证总体均值在46.69~53.30之间
小结:表:4.3.1不同情况下总体均值的区间估计 总体分布 正态分布 非正态分布
样本容量() 已知 未知 备注 大样本() 小样本() 如果采取不重复抽样,而且抽样比很大时, 大样本() 4.3.2总体比例的区间估计 1、 大样本重复抽样时的估计方法
当样本容量很大时,样本比例的抽样分布服从正态分布近似。即 如果且,
则,其中为总体的比例。
样本比例经过标准化后的随机变量服从标准正态分布,即 则总体比例在置信水平下的置信区间为:
用上式计算总体比例的置信区间时,的值应该是已知的,但实际上却不然,的值恰恰是我们要估计的,所以我们用样本的比例来代替,此时计算总体比例的置信区间可表示为:
(4.3.6)
式中为标准正态分布右侧面积为时的值,是估计总体比例时的边际误差。 总体比例的置信区间有俩部分组成:总体比例的点估计值和描述估计量精确度的值,这个值称为边际误差。
2、 大样本不重复抽样时的估计方法 在不重复抽样条件下,样本比例的方差为: 此时总体比例在置信水平下的置信区间为: (4.3.7)
【例】某企业在壹项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成壹个样本。在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的真正比例构造95%的置信区间。
解:已知n=200,=0.7,n*=140>5,n*(1-)=60>5,a=0.95,Za/2=1.96
根据式(4.3.6),得
所以我们能够以95%的概率保证该企业职工由于同管理人员不能融洽相处而离开的比例在63.6%~76.4%之间 4.3.3总体方差的区间估计
设来自正态总体的容量为的样本,参数未知。为了估计,可根据样本方差来确定其在置信水平下的置信区间。 从分布表中查得和(;), 使得下式成立:
即:
因此,总体参数在置信水平下的置信区间为: (4.3.8)
【例】假定A品牌25公斤袋装大米的重量服从正态分布。现随机抽取13袋,测得它们的重量分别是:24.0、24.2、24.4、24.6、24.7、24.8、25.0、25.1、
25.1、25.2、25.3、25.4、25.6公斤,试以95%的置信水平估计该品牌袋装大米重量的标准差。
解:因为,=12,查分布表,得:
和=23.337
所以,置信水平为95%的总体方差的置信区间是:
由原始数据可计算得到=0.23,代入上式得: 所以
所求信区间是:(0.34,0.79)
第四节样本容量的确定
1、确定样本容量的理论依据
样本容量对估计精度有较大的影响,从理论上说,样本容量越大,对总体特征的估计误差越小;但从实践角度见,抽样数目过大,则会增大调查及相关的工作量。因此,样本容量的确定是至关重要的。
壹般说来,抽样数目以满足在壹定的概率保证下抽样误差不超过给定的允许范围的最小样本容量为界。因此,可根据抽样极限误差和抽样数目的关系来确定抽样数。
说明:确定样本容量时壹般要考虑抽样方法的影响,即重复抽样和不重复抽样。2、总体均值参数估计中抽样数目的确定
为了简单,可直接考虑大样本的情况,这时样本均值服从正态分布即 于是在1-a的置信度下,存在临界值Za/2,使得
或根据抽样极限误差的定义,若用样本均值估计总体均值的极限误差(边际误差)为,则: