参数估计parameter estimation总体、个体和样本\总体(population):调查研究的事物或现象的全体\个体(individual):组成总体的每个元素\样本(sample):从总体中所抽取的部分个体\样本量(sample size):样本中所含个体的数量抽样误差抽样误差(sampling error):由于个体差异的存在,导致抽样时样本统计量与总体参数间的差别;或同一总体的相同统计量之间的差别。属于随机误差:无倾向性,不可避免。统计学统计描述统计推断参数估计假设检验统计推断的过程参数总体总体均值、例、方差比统计推断抽样样样本均数、本率、标准差统计量抽样实验假定正常成年男子的红细胞计数服从正态分布N(5.00, 0.502),从该总体中随机抽样,样本量n=10,计算其均数与标准差;重复抽取100次,获得100份样本;计算100份样本的均数与标准差,并对100份样本的均数作直方图。按上述方法再做样本量n=5、n=30的抽样试验;比较计算结果。思考题1 各样本均数与总体均数相等吗?2 各样本均数之间相等吗?3 样本均数分布有何规律?4 样本均数的变异较之原个体观察值的变异范围有何变化?5 比较n=5、10、30“样本均数的标准差”。450400n=10350300数250频20015010050012234455677897913579135791.............3344444555556均数X=∑NXii=15.03+4.71+\+4.90N=5.04+100≈5.00=μS(X?X)2X=∑N?1=0.1586100份样本抽样计算结果总体总体样本均样本均数的标准差均数标准差σ数的均数Snσnn=55.000.504.9870.23000.2236n=105.000.505.0110.15860.1581n=305.000.505.0000.09200.0913已知总体标准差σ:σX=σ/n未知总体而知样本标准差S:SX=S/n表7-1 正常男子红细胞计数抽样实验结果(μ=5.00, σ2=0.502 ,n=10)样本号 红细胞计数 (X) (1012/L) X S 1 5.59 5.11 4.26 … 5.55 5.04 0.44 2 4.65 4.65 5.59 … 5.32 5.03 0.52 3 4.56 4.87 5.21 … 4.23 4.71 0.33 … … … … … … … … 100 5.16 4.49 5.26 … 4.56 4.90 0.29 3个抽样实验结果图示450400n=5;S350X=0.2300300数250频20015010050012234455677897913579135791.............3344444555556均数450400n=10;S450350X=0.1586400350n=30;SX=0.0920300300数250数250频200频2001501501001005050001223445567789122344556778979135791357917913579135791..........................33444445555563344444555556均数均数抽样实验小结正态总体N(μ,σ2)→样本均数X~N(μ,σ2/n)样本均数的均数围绕总体均数上下波动。样本均数的标准差σX与总体标准差σ相差一个常数倍数,即σX=σ/n。注意:总体标准差是说明个体差异的统计指标;样本均数的标准差是说明样本均数抽样误差的统计指标.第七章参数估计第一节样本均数的标准误第三节两均数之差的可信区间例7-3 2003年某地20岁应征男青年中随机抽取85人,平均身高为171.2cm,标准差为5.3cm,计算当地20岁应征男青年身高的标准误。SX=S/n=5.3/85=0.57(cm)即本次调查身高均数171.2cm抽样误差的估计值为0.57cm。样本均数的分布(抽样分布)1. 来自于同一正态总体的样本均数的分布总体X~N(μ,σ2)→样本均数X~N(μ,σ2/n)σ=10n=4n=16σX=5σX=2.5μ=50XμX=50X总体分布抽样分布样本均数的标准误1.标准误(Standard Error, SE):统计量的标准差2.样本均数的标准误:样本均数的标准差,度量样本均数抽样误差大小的指标,即样本均数的离散程度。3.理论值:σσX=nS估计值:SX=n→SE4.小于总体标准差5.影响抽样误差大小的主要因素是样本量标准差VS 标准误内容 标准差 标准误 性质 表示个体变异大小 统计量的标准差,表示抽样误差大小 控制 个体变异或自然变异,方法 不可通过统计方法来控制。 增大样本含量可减少 2算式 S=∑X?(∑X)2/nnn?1 SX=S/ 用途 求参考值范围 求可信区间 2. 来自于同一偏态总体的样本均数的分布中心极限定理(central limit theorem):样本均数X渐近地服从正态分布N(μ,σ2/n)σσx=n任一分布的总体当n足够大,样本均数逐渐趋于正态分布μx=μX?μX~N(μ,σ2)???→u=Xσu变换N(0,1)u=X?μX~N(μ,σ2σXX)???→N(0,1)(用σX的估计值SX)t=X?μX~N(μ,σ2X)??S=X?μ?X变换?S/?nt→t(υ)Student t-分布自由度ν=n-1随着n增大,t分布逼近N(0,1);n?∞时,t分布演变成N(0,1)。t(df=∞)即N(0,1)t(df=9)t(df=1)t0不同自由度的t分布t分布曲线下面积规律:1. 同一ν下,t值增加,P值减小2. 同一P值下,ν增加,t值减小双侧t0.05/2,∞=1.96 =单侧t0.025,∞-1.9601.9601.64N(0,1)t(ν)Xt分布与正态分布的比较0t分布:形状与N(0,1)相似,但t分布中间较小,两侧较大。注:t分布对样本量的大小没有要求.P 282附表2 t界值表 概率 P 自由度单0.250.200.050.025 0.0010.0005υ …… 双0.500.400.100.05 0.0020.0011 1.0001.3766.31412.706 …… 318.309636.6192 0.8161.0612.9204.303 …… 22.32731.59910 0.7000.8791.8122.228 …… 4.1444.587…… …… …… …… …… …… …… …… 60 0.6790.8481.6712.000 …… 3.2323.460…… …… …… …… …… …… …… …… ∞ 0.67450.84161.64491.9600 …… 3.09023.2905参数估计(estimation of parameter):--用样本统计量估计总体参数。参数估计点估计区间估计利用样本信息计算一个区间,并μ、σ、π给出重复试验时该区间包含总体参数的概率可信区间(confidence interval, CI)可可信信区区间间均均数数率率方方差差σσ22未知未知σσ2 2 已知已知 置信水平/可信度1.可信度:重复试验时该区间包含总体均数的概率,又叫置信水平2.表示为1?α或100(1?α)%常用的有99%, 95%, 90%相应的α 为0.01,0.05,0.10例7-4 由例7-1的第二个样本X=5.03,S=0.52,n=10,求总体均数的95%可信区间。解:由n=10,ν=10?1=9,α=0.05(双侧),得t0.05/2,9=2.262,∴5.03?2.262×0.520.5210<μ<5.03+2.262×10即:4.66<μ<5.40总体均数的95%的可信区间为4.66~5.40(1012/L)。总体均数的估计点估计:point estimation区间估计:interval estimation 样本统计量(点估计)可信/置信区间(区间估计)μ?=X置信下限置信上限1.σ未知:1?α=P??X?μ??t
好文档 - 专业文书写作范文服务资料分享网站