经典统计学与贝叶斯统计学的区别于分析
院 (系) 统计学院 专 业 统计学 班 级 08级统计班 学 号 2008121138 姓 名 张静 指导教师 张贝贝
经典统计学与贝叶斯统计学的区别于分析
摘要:在现代经济高速发展的时代,商业和经济管理中在很多方面需要进行数据数理和分析,在此过程中,贝叶斯统计方法在实际的经济问题处理中的应用也越来越广泛。本文以贝叶斯统计方法的介绍为主,同时分析经典统计学和贝叶斯统计的的区别。 关键词:贝叶斯统计 经典统计 假设检验 先验分布
一、 引言
经典统计学派与贝叶斯学派有不同的处理思想。目前,经典统计方法占据着统计学的主导地位,但是,贝叶斯方法正在国外迅速发展并得到日益广泛的应用,我们有必要给以足够的重视。所以,本文分析经典统计学和贝叶斯统计的区别。
二、 经典统计与贝叶斯统计的区别:
1. 贝叶斯统计:
贝叶斯统计的两个基本概念是先验分布和后验分布。先验分布:总体分布参数?的一个概率分布。贝叶斯学派的根本观点,是认为在关于总体分布参数?的任何统计推断问题中,除了使用样本所提供的信息外,还必须规定一个先验分布,它是在进行统计推断时不可缺少的一个要素。他们认为先验分布不必有客观的依据,可以部分的或完全的基于主观信念。后验分布:根据样本分布和未知参数的先验分布,用概率论中求条件概率分布的方法,求出的在样本已知下,未知参数的条件分布。因为这个分布是在抽样后才得到的,故称为后验分布。贝叶斯推断方法的关键是任何推断都必须只根据后验分布,而不能再设计样本分布。
贝叶斯统计(Bayesian statistics),推断统计理论的一种。英国学者贝叶斯在1763年发表的论文《有关机遇问题求解的短论》中提出。依据获得样本 (Xl,X2,…,Xn)之后θ的后验分布π(θ|X1,X2,…,Xn)对总体参数θ作出估计和推断。它不是由样本分布作出推断。其理论基础是先验概率和后验分布,即在事件概率时,除样本提供的后验信息外,还会凭借自己主观已有的先验信息来估计事件的概率。而以R.A.费希尔为首的经典统计理论对事件概率的解释是频率解释,即通过抽取样本,由样本计算出事件的频率,而样本提供的信息完全是客观的,一切推断的结论或决策不允许加入任何主观的先验的信息。以对神童出现的概率P的估计为例。按经典统计的做法,完全由样本提供的信息(即后验信息)来估计,认为参数p是一个“值”。贝叶斯统计的做法是,除样本提供的后验信息外,人类的经验对p有了
一个了解,如p可能取pl与户p2,且取p1的机会很大,取p2机会很小。先验信息关于参数p的信息是一个“分布”,如P(p=p1)=0.9,P(p=p2)=0.1,即在抽样之前已知道(先验的)p取p1的可能性为0.9。若不去抽样便要作出推断,自然会取p=p1。但若抽样后,除非后验信息(即样本提供的信息)包含十分有利于“p—=p2”的支持论据,否则采纳先验的看法“p=p1”。20世纪 50年代后贝叶斯统计得到真正发展,但在发展过程中始终存在着与经典统计之间的争论。
2. 经典统计与贝叶斯统计的区别:
(1)经典学派很注重利用已经出现的样本观察值,没观察到的样本不予考虑。贝叶斯学派很注重先验信息的收集、挖掘和加工,使他们数量化成先验分布,参加到统计推断中,以此提高统计推断的质量。任一个未知量,都可看做一个随机变量。例如:每天测量得到的产品的不合格率 会有一些变化,故看做r.v.也是合适的,用一个概率分布去描述它也是很恰当的。
(2)统计推断利用的信息不同:
经典统计学的统计推断时给予总体信息和样本信息。总体信息即总体分布或总体所属分布族中包含的信息,包括总体认识、参数范围、变量的方式和特征等;样本信息是从总体中抽取的样本所包含的信息,而贝叶斯统计方法在此基础上还利用课先验信息,先验信息主要来源于经验和历史资料。贝叶斯派认为忽视先验信息的应用会造成利用的浪费,应把先验信息的收集、加工和处理数量化,来提高统计推断的质量。
(3)贝叶斯把未知常量看做随机变量,所以用概率分布来描述是合适的:
设?X1,X2,...,Xn?为来自正态总体N??,??的一个样本,?是未知参数,样本均值和
21n1n2样本方差分别为:X??XiS?(Xi?X)2,由于总体服从正态分布可得?ni?1n?1i?1U?X???/n~N(0,1),对于给定的置信度1??,查分位点u?/2,使得
???X???P??u?/2??1??????/n?P?U?u?/2??1??,得到,从而
????P?X?u?/2???X?u?/2??1??,这样就得到置信度为1??的?的置信区
nn??间为u???X?u?/2???n,X?u?/2????,由于在经典统计的理论体系中参数?是一个固定
n?的常数,并不具有随机性,因而P?X????nu?/2???X???u?/2??1??也就不能理n?解为u???X?u?/2???n,X?u?/2????的概率等于1??,根据经典学派的基本观点,区间
n??????X?u,X?u??/2?/2??表示多次抽样得到的这样的置信区间能盖住参数?的概率
nn??是1??。然而很多试验室不可大量重复或多次观测的,导致这样的解释没有意义,况且人们最关心的恰好是参数?在该范围内的概率有多大,因此在经典统计理论中区间估计问题的提法及其解答并不令人满意。而贝叶斯方法恰好不存在上述问题,因为在贝叶斯理论体系中,可以从贝叶斯假设直接导出与P?X????nu?/2???X???u?/2??1??式完全相n?同的等式,不过此时?是随机变量,而样本均值是常数,因此,根据贝叶斯学派的观点,上式就是u???X?u?/2???n,X?u?/2??“明??这一事发生的概率是1??。类似的说法,
n?天降水的概率是0.85”,“某学生考上大学的概率是0.95”,“甲队胜的概率为0.6左右”??这样的概率陈述能够为大多数人所理解、接受和采用。 (4)来自经典统计学派的主要批评:
认为概率必须通过大量重复试验来确定,才是“客观的”,认为贝叶斯是主观的。对此,贝叶斯学派的反驳:a.认为引入主观概率能扩展概率统计的研究范畴,扩展到不能大量重复的实验; b.主观概率确定不是随意的,而是要求当事人对所考察的事件有比较透彻的了解和丰富的经验,甚至是这一行的专家,在此基础上确定主观概率才能符合实际;c. 揭露经典学派的“客观性”:总体分布的选择对于答案所产生的影响远远超过先验分布所产生的影响重大。
(5)经典统计与贝叶斯统计在估计上的区别:
传统估计方法的优良性,在大样本情况下有其理论上的保障,比如一致性,指随着样本容量的增大,点估计量的值应该越来越接近被估总体的参数。但很多情况下,我们无法重复
大量的实验,只能得到少量的样本。在小样本的情况下,传统方法是否优良,是没有保障的。因而,人们一直在寻找小样本情况下的优良估计方法。例,X1,X2,X3?,Xn是样本,当N很大时,用传统方法估计,估计很准确,但N很小的时候,特别是N=1或N=2时,传统估计不是很可靠。用过去的经验,用人们过去对参数的了解,给出较可靠、较切合实际的估计。过去的看法、记忆或经验,常常支配着我们对事物的判断(估计、评判)。在区间估计上:可信区间与置信区间的区别,一个是解释不同,另一个是经典统计中有时候求置信区间是困难的,而可信区间只需知道后验分布即可。 (6)假设检验问题:
在经典统计中处理假设检验问题,用的是反证的思想进行推断,即:在认定一次实验中小概率事件不会出现的前提下,若观察到的事件是 H0为真时的小概率事件,则拒绝H0 。具体的步骤是:1.建立原假设H0??1,备择假设H1??2 ;2.选择检验统计量 T =T(x) ,使其在原假设H0为真时概率分布是已知的,这在经典方法中是最困难的一步。 3.对给定的显著水平α ,确定拒绝域,使犯第一类错误的概率不超过α 。4.当样本观测值落入拒绝域 W 时,就拒绝原假。 而在Bayes统计中,处理假设检验问题是直截了当的,依据后验概率的大小进行推断。在获得后验分布 ???x? 后,即可计算两个假设H0和H1的后验概率?0和?1,然后比较两者的大小,当后验概率比(或称后验机会比)?0/?1?1 时接受
H0 ;当?0/?1?1时,接受H1 ;当?0/?1?1时,不宜做判断,还需进一步抽样或者进
一步搜集先验信息。很明显,它选择了后验概率较大的假设。
由上叙述,我们可以看到两种思想的联系与分歧:在经典统计学中,参数被看作未知常数,不存在H0和H1的概率,给出的是P(x/H0真,其中x代表样本信息。在贝叶斯方法中,参数被看成随机变量,在参数空间内直接讨论样本x下H0和H1的后验概率,给出的是PH0真/x和PH0不真/x。
????(7)多重检验问题:
贝叶斯统计在检验问题中的一个优势在于多重检验问题。而经典统计不能处理多重检验问题。