第六章 数理统计的基本概念
前面五章我们讲述了概率论的基本内容,随后的五章将讲述数理统计.数理统计是以概率论为理论基础的一个数学分支.它是从实际观测的数据出发研究随机现象的规律性.在科学研究中,数理统计占据一个十分重要的位置,是多种试验数据处理的理论基础.
数理统计的内容很丰富,本书只介绍参数估计、假设检验、方差分析及回归分析的部分内容.
本章中首先讨论总体、随机样本及统计量等基本概念,然后着重介绍几个常用的统计量及抽样分布.
第一节 随机样本
假如我们要研究某厂所生产的一批电视机显像管的平均寿命.由于测试显像管寿命具有破坏性,所以我们只能从这批产品中抽取一部分进行寿命测试,并且根据这部分产品的寿命数据对整批产品的平均寿命作一统计推断.
在数理统计中,我们将研究对象的某项数量指标值的全体称为总体(Population),总体中的每个元素称为个体(Individual).例如上述的一批显像管寿命值的全体就组成一个总体,其中每一只显像管的寿命就是一个个体.要将一个总体的性质了解得十分清楚,初看起来,最理想的办法是对每个个体逐个进行观察,但实际上这样做往往是不现实的.例如,要研究显像管的寿命,由于寿命试验是破坏性的,一旦我们获得实验的所有结果,这批显像管也全烧毁了,我们只能从整批显像管中抽取一部份显像管做寿命试验,并记录其结果,然后根据这部份数据来推断整批显像管的寿命情况.由于显像管的寿命在随机抽样中是随机变量,为了便于数学上处理,我们将总体定义为随机变量.随机变量的分布称为总体分布.
一般地,我们都是从总体中抽取一部分个体进行观察,然后根据所得的数据来推断总体的性质.被抽出的部分个体,叫做总体的一个样本.
所谓从总体抽取一个个体,就是对总体X进行一次观察(即进行一次试验),并记录其结果.我们在相同的条件下对总体X进行n次重复的、独立的观察,将n次观察结果按试验的次序记为X1,X2,…,Xn.由于X1,X2,…,Xn是对随机变量X观察的结果,且各次观察是在相同的条件下独立进行的,于是我们引出以下的样本定义.
定义6.1 设总体X是具有分布函数F的随机变量,若X1,X2,…,Xn是与X具有同一分布F(x),且相互独立的随机变量,则称X1,X2,…,Xn为从总体X得到的容量为n的简单随机样本(Random sample),简称为样本.
当n次观察一经完成,我们就得到一组实数x1,x2,…,xn.它们依次是随机变量X1,X2,…,Xn的观察值,称为样本值.
对于有限总体,采用放回抽样就能得到简单样本,当总体中个体的总数N比要得到的样本的容量n大得多时(一般当
N≥10时),在实际中可将不放回抽样近似地当作放回抽n样来处理.
若X1,X2,…,Xn为总体X的一个样本,X的分布函数为F(x),则X1,X2,…,Xn
的联合分布函数为
第 1 页
F*(x1,x2,…,xn)=
?F(x).
ii?1n又若X具有概率密度f,则X1,X2,…,Xn的联合概率密度为
f*(x1,x2,…,xn)=
?f(x).
ii?1n我们在搜集资料时,如果未经组织和整理,通常是没有什么价值的,为了把这些有差异的资料组织成有用的形式,我们应该编制频数表(即频数分布表).
例6.1 某工厂的劳资部门为了研究该厂工人的收入情况,首先收集了工人的工资资料,表6-1记录了该厂30名工人未经整理的工资数值:
表6-1 工人序号 1 2 3 4 5 6 7 8 9 10 工资(元) 530 420 550 455 545 455 550 535 495 470 工人序号 11 12 13 14 15 16 17 18 19 20 工资(元) 595 435 490 485 515 530 425 530 505 525 工人序号 21 22 23 24 25 26 27 28 29 30 工资(元) 480 525 535 605 525 475 530 640 555 505 以下,我们以例6.1为例介绍频数分布表的制作方法.表6-1是30个工人月工资的原始资料,这些数据可以记为x1,x2,…,x30,对于这些观测数据,
第一步 确定最大值xmax和最小值xmin,根据表6-1,有
xmax=640,xmin=420.
第二步 分组,即确定每一收入组的界限和组数,在实际工作中,第一组下限一般取一个小于xmin的数,例如,我们取400,最后一组上限取一个大于xmax的数,例如取650,然后从400元到650元分成相等的若干段,比如分成5段,每一段就对应于一个收入组.表6-1资料的频数分布表如表6-2所示.
表6-2 组限 400~450 450~500 500~550 550~600 600~650 频数 3 8 13 4 2 累积频数 3 11 24 28 30 图6-1
为了研究频数分布,我们可用图示法表示.
直方图直方图是垂直条形图,条与条之间无间隔,用横轴上的点表示组限,纵轴上的单位数表示频数.与一个组对应的频数,用以组距为底的矩形(长条)的高度表示,表6-2资料的直方图如图6-1所示.
上述方法我们对抽取数据加以整理,编制频数分布表,作直方图,画出频率分布曲线,
第 2 页
这就可以直观地看到数据分布的情况,在什么范围,较大较小的各有多少,在哪些地方分布得比较集中,以及分布图形是否对称等等,所以,样本的频率分布是总体概率分布的近似. 样本是总体的反映,但是样本所含的信息不能直接用于解决我们所要研究的问题,而需要把样本所含的信息进行数学上的加工使其浓缩起来,从而解决我们的问题.针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断.
定义6.2 设X1,X2,…,Xn是来自总体X的一个样本,g(X1,X2,…,Xn)是X1,X2…,Xn的函数,若g中不含任何未知参数,则称g(X1,X2,…,Xn)是一个统计量(Statistic). 设x1,x2,…,xn是相应于样本X1,X2,…,Xn的样本值,则称g(x1,x2,…,xn)是g(X1,X2,…,Xn)的观察值.
下面我们定义一些常用的统计量.设X1,X2,…,Xn是来自总体X的一个样本,x1,x2,…,xn是这一样本的观察值.定义
样本平均值 样本方差
S2=
样本标准差
2?1n1?n22(Xi?X)?Xi?nX?; ???n?1i?1n?1?i?1?1nS=S?(Xi?X)2; ?n?1i?12样本k阶(原点)矩
1nkAk=?Xi,k=1,2,…;
ni?1样本k阶中心矩
1nkBk=?(Xi?X),k=1,2,….
ni?1它们的观察值分别为
s2=
2?1n1?n22 (x?x)?x?nx??ii??n?1i?1n?1?i?1?1ns=(xi?x)2; ?n?1i?11nkak=?xi, k=1,2,…;
ni?11nkbk=?(xi?x), k=1,2,….
ni?1这些观察值仍分别称为样本均值、样本方差、样本标准差、样本k阶矩、样本k阶中心矩.
第 3 页
第二节 抽样分布
统计量是样本的函数,它是一个随机变量.统计量的分布称为抽样分布.在使用统计量进行统计推断时常需知道它的分布.当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般来说是困难的.本节介绍来自正态总体的几个常用的统计量的分布.
1.χ2分布
设X1,X2,…,Xn是来自总体N(0,1)的样本,则统计量
?2=X12+X22+…+Xn2
所服从的分布称为自由度为n的?分布(??distribution),记为?~?(n).
2222?2(n)分布的概率密度函数为
n?1?y1?22?n2nye,y?0,f(y)=?2Γ()
2?0,其他.?f(y)的图形如图6?2所示.
图6?2
?2分布具有以下性质:
2(1) 如果?1~?(n1),?2~?(n2),且它们相互独立,则有
22
2这一性质称为?分布的可加性. (2) 如果?~?(n),则有
E(?)=n,D(?)=2n.
证 只证(2)因为Xi~N(0,1)故
E(Xi2)=D(Xi)=1,
D(Xi2)=E(Xi4)??E(Xi2)]2=3?1=2,i=1,2,…,n. 于是E(?)?E(222222?Xi?1n2i)??E(Xi)?n,
2i?1n图6?3
对于给定的正数α,0<α<1,称满足条件
的点??(n)为?(n)分布的上α分位点(Percentile of α),如图6?3所示,对于不同的α,n,上α分位点的值已制成表格,可以查用(见附表),例如对于α=0.05,n=16,查附表得
22?0.052(16)=26.296.但该表只详列到n=45为止.
第 4 页
当n>45时,近似地有??(n)≈点.例如
21(z??2n?1)2,其中zα是标准正态分布的上α分位212?0.052(50)≈(1.645+99)2=67.221.
2.t分布
设X~N(0,1),Y~?(n),并且X,Y独立,则称随机变量
t=
2XY
n服从自由度为n的t分布(t?distribution),记为t~t(n).
t(n)分布的概率密度函数为
Γ?(n?1)/2??t2??1??h(t)=?n?n?Γ(n/2)???(n?1)/2, ?∞<t<∞.
(证略).
图6?4中画出了当n=1,10时h(t)的图形.h(t)的图形关于t=0对称,当n充分大时其图形类似于标准正态变量概率密度的图形.但对于较小的n,t分布与N(0,1)分布相差很大(见附表).
图6?4 图6?5
对于给定的α,0<α<1,称满足条件
P(t>tα(n))=
??t?(n)h(t)dt =α
的点tα(n)为t(n)分布的上α分位点(见图6?5).
由t分布的上α分位点的定义及h(t)图形的对称性知
t1?α(n)=?tα(n).
t分布的上α分位点可从附表查得.在n>45时,就用正态分布近似:
tα(n)≈zα.
3.F分布
2设U~?(n1),V~?(n2),且U,V独立,则称随机变量
2F=
U/n1 V/n2服从自由度为(n1,n2)的F分布(F?distribution),记F~F(n1,n2). F(n1,n2)分布的概率密度为
(证略).
?(y)的图形如图6?6所示.
图6?6 图6?7
F分布经常被用来对两个样本方差进行比较.它是方差分析的一个基本分布,也被用于回归分析中的显著性检验.
对于给定的α,0<α<1,称满足条件
第 5 页