在不重复抽样条件下,样本均值的方差则需要用修正系数去修正重复抽样时样本均值的方差,即 22
?22?X?X?N?n???n?N?1?不重复抽样的样本均值的方差小于重复抽样时的样本均值的方差
对于无限总体进行不重复抽样时,可以按照重复抽样来处理,对于有限总体,当 N很大,而抽样比n/N很小时,其修正系数趋于1,这时样本均值的方差也可以按照重复抽样的样本均值的方差公式来计算
五、2分布的性质和特点
(1)分布的变量值始终为正
(2)分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 (3)期望为:E(
2
)=n,方差为:D(
2
)=2n(n为自由度)
2
(4)可加性:若U和V为两个独立的2分布随机变量,U~U+V这一随机变量服从自由度为n1+n2的2分布
第七章 参数估计
(n1), V~
2
(n2),则
一、评价估计量的标准
实际上,用于估计的的估计量有很多,如我们可以用样本均值作为总体均值的估计量,也可以用样本中位数作为总体均值的估计量,什么样的估计量才算是一个好的估计量呢这需要一定的评价标准:
1、无偏性:估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为,被选择的估计量为,如果E()=,称为的无偏估计量。
2、有效性:对同一总体参数的两个无偏估计量,方差较小的是更有效的估计量。
3、一致性:随着样本容量的增大,点估计量的值越来越接近被估的总体的参数。换言之,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数
二、怎样理解置信区间
置信区间:由样本统计量所构造的总体参数的估计区间,其中区间的最小值称为置信下限,区间最大值称为置信上限。是一个随机区间,
间意味着,置信区间包含未知参数的概率为不同而不同。但100次运用这个区间,约有100(就是说大约还有100 a个区间不包含总体参数
的置信区
,这个区间会随着样本观察值的
)个区间能包含参数,也
判断置信区间优势的标准(好的置信区间的特性):置信度越高越好;置信区间宽度越小越好。
三、影响区间宽度的因素
1. 总体数据的离散程度,用 s 来测度
2. 样本容量:当置信水平固定时,置信区间的宽度随着样本容量的增大而减小,
换言之,较大的样本所提供的有关总体的信息要比小样本多。 3. 置信水平 (1 - a),影响 z 的大小 :置信水平越大,z越大
四、简述样本容量与置信水平、总体方差、估计误差的关系
(1)样本量与置信水平呈正比,在其他条件不变的情况下,置信水平越大,所需的样本容量也就越大
(2)样本量与总体方差呈正比,总体的差异越大,所需的样本容量就越大 (3)样本量与边际误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量就越小
五、的含义是什么
是估计总体均值时的边际误差,
是标准正态分布上侧面积为时的z值。也称为估计误差或误差范围
六、对两个总体均值之差的小样本估计中,对两个总体和样本都有哪些假定
(1)两个总体都服从正态分布
(2)两个随机样本独立地分别抽自两个总体
七、解释95%的置信区间
抽取100个样本,根据每个样本构造一个置信区间,这样由100个样本构造的总体参数的100个置信区间中,95%的区间包含了总体参数的真值,而5%没包含 八、对于总体比例的估计,确定样本容量是否“足够大“的一般经验规则是:区间
中不包含0或1.或要求np5和n(1-p)5
八、独立样本和匹配样本
如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立,则称为独立样本。匹配样本是指一个样本中的数据与另一个样本中的数据相对应
九、估计量和估计值
(1)估计量:用于估计总体参数的随机变量
如样本均值,样本比例、样本方差等 例如: 样本均值就是总体均值m 的一个估计量 参数用 表示,估计量用 表示
(2)估计值:估计参数时计算出来的统计量的具体值
如果样本均值 x =80,则80就是m的估计值
第八章 假设检验
一、参数估计和假设检验的区别和联系
(1)主要联系:
a.都是根据样本信息推断总体参数;
b.都以抽样分布为理论依据,建立在概率论基础之上的推断,推断结果都有风险;
c.对同一问题的参数进行推断,使用同一样本,同一统计量,同一分布,二者可相互转换 (2)主要区别:
a.参数估计是以样本信息估计总体参数的可能范围,假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立;
b.区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验;
c.区间估计立足于大概率,通常以较大的可信度(1-a)去估计总体参数的置信区间。假设检验立足于小概率。通常是给定很小的显著性水平a去检验总体参数的先验假设是否正确
二、什么是假设检验中的显著性水平统计显著是什么意思
(1)显著性水平是当原假设正确时却被拒绝的概率或风险,即假设检验中犯弃真错误的概率,通常用表示,它是人们根据经验的要求确定的,通常取
。显著性水平是人们事先指定的犯第概率的最大允许
值,确定了显著性水平,就等于控制了第的概率。但犯类错误 的概率却是不确定的
(2)统计显著值在原假设为真的条件下,用于检验的样本统计量的值落在了拒绝域内,作出了拒绝原假设的决定
三、什么是假设检验的两类错误及其数理关系怎样
(1)假设检验中所犯的错误有两种:一类错误是原假设为真却别拒绝了,犯这类错误的概率用表示,也称第。另一类错误是原假设为假却没有拒绝,犯这种错误的概率用类错误 (2)当增加样本容量
,要使和同时减小的唯一办法是
四、假设检验的步骤
(1)陈述原假设
和备择假设
。
(2)从所研究的总体中抽出一个随机样本
(3)确定一个适当的检验统计量,并利用样本数据算出其具体数值 (4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域 (5)将统计量的值与临界值进行比较,作出决策。统计量的值落在拒绝域,拒绝,否则不拒绝,或者也可以直接利用P值作出决策
五、建立原假设和备择假设的原则(建立假设的几点认识)
(1)原假设和备择假设是一个完备事件组,且相互独立
(2)在建立假设时,通常是先确定备择假设,然后再确定原假设
(3)在假设检验中,等号“=”总是放在原假设上。这是因为我们想涵盖备择假设不出现的所有情况
(4)这样的假设本质上带有一定的主观色彩,在面对某一实际问题,由于不同研究者有不同的研究目的,即使对同一问题也可能提出截然相反的原假设和备择假设,这并不违背假设的最初定义,只要符合研究的最终目的就是合理的
六、单双侧检验的区别
备择假设具有特定的方向性,并含有“<”或“>”的假设检验,称为单侧检验或单尾检验。
备择假设没有特定的方向性,并含有符号“或双尾检验
”的假设检验,称为双侧检验
在单侧检验中,由于研究者感兴趣的方向不同,又可分为左侧检验和右侧检验
七、检验统计量的特征和用途
检验统计量是指根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某个样本统计量。
检验统计量实际上是总体参数的点估计量,只有将其标准化后,才能用以度量它与原假设的参数值之间的差异程度。而对点估计量标准化的依据则是:a、原假设为真;b、点估计量的抽样分布。实际上,假设检验中所用的检验统计量都是标准化检验统计量,它反映了点估计量与假设的总体参数相比相差多少个标准差。
八、拒绝域面积与大小的关系
当样本容量固定时,拒绝域的面积随着的减小而减小。小,拒绝原假设所需要的检验统计量的临界值与原假设的参数值就越远。拒绝域的位置取决于检验是单侧检验还是双侧检验,双侧检验的拒绝域在抽样分布的两侧,而单侧检验中,如果备择假设具有符号“<”,拒绝域位于抽样分布的左侧,故称为左侧检验。如果备择假设具有符号“>”,拒绝域位于抽样分布的右侧,故称为右侧检验。
九、显著性水平的局限性
显著性水平实在检验之前确定的,这也就意味这我们事先确定了拒绝域。这样,不论检验统计量的值是大还是小,只要他的值落入拒绝域就拒绝原假设,否则不拒绝原假。这种固定的显著性水平对检验结果的可靠性起一种度量作用。但不足的是,是犯第的上限控制值,它只能提供检验结论可靠性的一个大致范围,而对于一个特定的假设检验问题,却无法给出观测数据与原假设之间不一致程度的精确度量,也就是说,仅从显著性水平比较,若选择的值相同,所有的检验结果的可靠性都一样。
十、P值较小时为什么要拒绝原假设
P值是指在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率。
P值是反映实际观测到的数据与原假设之间不一致程度的一个概率值。P值越小,说明实际观测到的数据与之间不一致的程度就越大,检验的结果也就越显著
十一、显著性水平与P值得区别