南丁格尔曾说过 若想了解上帝在想什么,我们就必须学统计,因为统计学就是在 量测他的旨意。”
这里的上帝就是客观世界。
理、工、农、医、文,今天很难找到不使用统计的学科了 ,它在解决现代科学的 那些最重要的和最多样化的课题中起着主导作用。现实生活中我科也离不开统计
,
每天晚上我们都要收听明天的天气预报,尤其注意明天下雨或下雪的概率;投资股票 时,你需要了解股票场价格的信息,了解每只股票的财务信息;黄金周时,你打算出门 旅行,一定要了解旅游的目的地的价格、服务以及旅游人数等。作为从事统计工作 的专业人士,更需要了解和掌握统计学的基本理论和统计方法。
一、 什么是统计
统计学就是用来处理数据的,它是关于数据的一门学问。根据大百科全书对统 计学的定义:统计学(statistics是用以收集数据,分析数据和由数据得出结论的一组概 念、原则和方法。统计分析数据的方法大体上可分为描述统计
statistics
(descriptive
和推断统计(inferential statistics两大类。
描述统计是研究数据收集、处理和描述的统计学方法。其内容包括如何取得研 究所需要的数据,如何用图表形式对数据进行处理的展示,如何通过对数据的综合、 概括与分析,得出所关心的数据特征。
推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括 参数估计和假设检验两大类。
二、 统计的应用
(一统计的应用领域
说出哪些领域应用统计,这很困难,因为几乎所有的领域都应用统计;说出哪些领 域不使用统计,同样也很困难,因为几乎找不到一个不用统计的领域。因此,统计是适
用于所有学科领域的通用数据分析方法,是一种通用的数据分析语言。这里我们不 想列举统计应用在一般领域如经济、管理、理工、农医的例子
,因为大家已经对这
些应用耳熟能详,熟视无睹了。我们只想举几个大家可能想不到的例子。
统计学应用一:从 女士品茶”中得到的统计实验设计①
这是在2003年统计出自版社出版的一本名为《女士品茶》中所讲述的故事
,事
情是这样的:二十世纪二十年代后期的一个夏日午后,一群风度翩翩的学者偕夫人及 漂亮的女友,正在英国剑桥的户外餐桌旁,悠闲地品茶论道。席间,一位美丽的女士惊 呼午茶的调制顺序对味道有很大的影响。把茶加进牛奶里和把牛奶加进茶里
,喝起
来风味完全不同。出于对女性的尊重,那些学者们面带绅士的微笑,内心却不以为然, 甚至是藐视,依据他们的科学头脑分析,茶和牛奶两种物质混合结果的化学成分不会 因为调制顺序不同而产生不同,怎么会喝起来不一样呢?文中暗表,这个命题的假设前 提是不论调制顺序如何,牛奶和茶的比例是固定的或是基本不变的。正当众学者对 美丽女士的说法嗤之以鼻时,有个身材瘦小,嘴上留着灰白胡子的绅士挺身而出,抓住 了这个问题。
此人便是在统计发展史上地位显赫、大名鼎鼎的费雪 (Ron aid Aylmer Fisher,
1890-1962伦敦人氏,英国统计学家。费雪当时显得非常兴奋,好像发现了新大陆。
让我们来检定这个命题。”说着,在众位学者的帮助下,他开始进行实验。他们设计 并调制也很多杯不同的茶,有些先放茶水再加牛奶,有些先放牛奶再加茶水,然后按照 既定的顺序一杯一杯拿给美丽女士品尝分辨,但她并不知道每杯茶的调法。费雪端 给她第一杯茶时她品尝了一口 ,然后说出这杯茶是先放茶水后加的牛奶,还是先放牛 奶后加的茶水。费雪记录上她
的说法,再送上第二杯,……费雪设计了各种可能的实验方法,来测试美丽女士能 否分辨出不同的茶。问题是,如果美丽女士只是哗众取宠而没有真本领难分辨出不 同的茶,她还是有猜出的可能;如果给她两杯调制方法不同的茶,她可能一次全部猜错 或全部猜对。如果美丽女士有真本事,确实能够分辨调制方法不同的茶,但她还是可 能弄错,或是茶水和牛奶没有混合好,或茶水温度不够影响了味道,或她喝了很多以后 感觉
已经不太灵敏。这就是费雪提出来的实验设计思想 ,1935年,费雪完成了在科学
,费雪就
实验理论和方法上具有划时代意义的一本书《实验设计》。在书的第二章
提到了剑桥午后的品茶和那位美丽的女士 ,在书里,费雪讨论了各种可能结果,描述了 该准备多少茶,依照什么顺序拿给她,然后她回答的正确与否,计算出各种结果的概 率。至于剑桥午后品茶的那位女士 ,据说她能分辨出每一杯茶,全部答对,看来,这位女 士不仅仅是美丽。
统计应用二:从《红楼梦》中给出作者的判断②
众所周知,《红楼梦》一书共120回,一般认为前80回是曹雪芹所著,后40回为 高鄂所续。长期以来红学界对这个问题一直有争议。 1986年复旦大学李贤平教授 带领他的学生用统计方法进行了研究,他们创造性的想法是将120回看成是120个 样本,然后确定与情节无关的虚词作为变量(所以要抛开情节,是因为在一般情况下, 同一情节大家描述的都差不多,但由于个人写作特点和习惯不同,所用的虚词是不会 一样的,让学生数出每一回里虚词出现的次数,作为数据,用统计分析中的聚类分析方 法进行分类。聚类结果将120回分成两类:即前80回为一类,后40回为一类,很形象 地证实了 120回的《红楼梦》不是出自同一人的手笔。之后又与曹雪芹的其他著作 进行类似分析,进一步证实前80回确实为曹雪芹所著,而后40回是否为高鄂写的呢? 论证结果推翻了后40回为高鄂一个人所写。这个论证在经学界轰动很大,他们用统 计分析方法支持了经学界的观点。使经学界在为赞叹。
统计应用三:从小概率发生”中做出有罪判决③
被告Wayne Williams被指控在佐治亚州的亚特兰大谋杀了两个黑人男性青 年。另外还发生了十起类似的案件的谋杀案。对
Williams的不利证据是,在尸体上
发现的大量纤维与从他周围取到的很相似,尤其是染英国橄榄色的不常见的三叶形 的威尔曼181-b型地毯纤维。原告的一名专家证明这种类型的纤维已经停止生产
,
根据保守推测,这种纤维制成的地毯在美国10个州的销售量仅够铺820间屋子。假 设其销售量在10个州中都相等,所有佐治亚州的地毯都卖给了亚特兰大,而且每家只 有一间屋子铺上了地毯,那么有81个亚特兰大人家的屋子铺上了含有这种纤维的地 毯。根