好文档 - 专业文书写作范文服务资料分享网站

关于红楼梦的统计学

天下 分享 时间: 加入收藏 我要投稿 点赞

百度文库 - 让每个人平等地提升自我

《红楼梦》前80回与后40回某些文风不同的统计分析

韦博成

一、引言

在统计学应用的诸多领域中,文学高作的统计分析是一个饶有兴趣的分支。美国斯坦福大学教授Efron()和他的学生曾经对莎士比亚的高作进行过相当深切的统计分析(见[1],[2]),并指出:1985年发觉的一篇“无名氏”诗稿(仅9节429字)确为莎士比亚所著。Efron是现今国际上最著名的顶级统计学家之一,他们的工作在那时引发专门大反应,另一名国际顶级统计学家Rao誉之为“一曲统计学的赞歌”(见[3])。

《红楼梦》是我国四大名著之首,而且有很多悬而未决的问题,把统计学的定量分析方式引入红学研究是很自然的。早在1980年,在美国威斯康星大学召开的“首届国际《红楼梦》研讨会”上,该校华裔学者陈炳藻教授第一次报告了他在这方面的研究工作(见[4],[5]),尔后还出版了专著(见[6])。陈教授将《红楼梦》120回分为三组,每组40回,并将《儿女英雄传》作为对照组进行比较研究。他从每组中任取8万字,挑出名词、动词、形容词、副词、虚词这5种词,然后运用统计学方式算出各组之间用词的相关程度,结果发觉: 《红楼梦》前80回与后40回所用辞汇的相关程度远远超过《红楼梦》与《儿女英雄传》所用辞汇的相关程度,并由此推断:前80回与后40回均为曹雪芹一人所作。

可是,我国华东师范大学陈大康教授得出了迥异的结论(1987,[7])。他也把《红楼梦》120回分成三组,每组40回,并统计了其中所含词、字、句等88个项目。他发觉,这些词在前两组出现的规律相同,而与后40回却不一致;关于用字特点和句式规律,前两组也是惊人的吻合,而后40回则迥异。由此推断:后40回非曹雪芹所作(但含有少量残稿)。

同时,复旦大学李贤平教授又提出“成书新说”(1987,[8])。李教授选择了47个虚字为识别特征,诸如:“之、其、或、亦、了、的、不、把、别、好”等等,利用各类统计方式(主成份分析、典型相关分析、聚类分析等),对它们在书中各回的出现频率进行统计分析,探索各回写作风格的接近程度,并用三个层次的聚类方式对各回进行分类。由此提出了成书进程新观点:《红楼梦》前80回是曹雪芹按照《石头记》增删而成;而后40回则是曹家亲友搜集整理原稿加工补写而成。

李贤平教授的观点也受到质疑,例如,陈大康教授(1988,[9])以为其“成书新说”难以成立。台湾成功大学王三庆教授也提出若干不同意见(1994,[10])。

1

百度文库 - 让每个人平等地提升自我

以上三位学者都是从《红楼梦》的词语结构动身进行统计分析,他们依照词语的必然规则进行量化,取得数据集,从而应用统计方式推断前80回与后40回之间的不同。这方面的研究已经比较充分,本文拟从另一种观点动身研究前80回与后40回之间的不同。其主要特点是分析《红楼梦》中着力描述的若干情景,通过量化取得数据集,然后应用统计方式推断前80回与后40回之间的不同。具体来讲,咱们选择了花卉、树木、饮食、医药与诗词这5个情景指标,统计出它们在前80回与后40回中出现的频数,并应用统计学中的“等价性查验”方式来查验二者的不同。由此得出结论:《红楼梦》前80回与后40回在饮食和花卉的描述上确实存在超级显著的不同,其可信概率不低于98%;同时在树木的描述上也存在明显不同,其可信概率不低于95%。如此,咱们就依据统计学原理提供了一个强有力的证据,说明《红楼梦》前80回与后40回在某些重要的情景描述上确实存在超级显著的不同。至于致使这些不同的原因,还涉及到人文和社会方面的诸多因素,仅用统计学方式可能是无法解释清楚的,因此本文未有讨论。

本文第一节列举了《红楼梦》中着力描述的5个情景指标,并通过量化取得相应的数据集;第二节对这5个数据集进行等价性查验,计算出相应的p-值,并指出《红楼梦》前80回与后40回在某些文风上所存在的显著性不同,从而取得本文的本要结果;第4节结束语对本文的研究作若干注记;附录简要说明了数据集的生成进程。

一、情景指标的数据集

据2007年10月10日南京“现代快报”报导(见[11]),南京林业大学汤庚国教授另辟蹊径,从海棠文化动身,分析《红楼梦》前80回与后40回的不同。汤教授主如果从人文花卉方面进行分析,可是他们也提供了一组数据,即《红楼梦》前80回有16回涉及海棠,而后40回仅有4回涉及海棠,以此说明前后差距明显。对于场教授提供的这组数据,统计学者仍是能够有所作为的。事实上,咱们能够对此做一个等价性假设查验:

原假设:“前80回与后40回对于海棠花的关注程度相同”;

对立假设:“前80回对于海棠花的关注程度大于后40回对于海棠花的关注程度”。 经渐近正态公式计算,有快要92%的“把握”以为“前80回对于海棠花的关注程度大于后40回对于海棠花的关注程度”。

受此启发,本文进一步推行和进展了这一数据分析方式。咱们对《红楼梦》中若干重要的情景描述进行量化,取得相应的数据集。有了数据集即可通过数理统计方式,比较前80回与后40回在文风上的不同。事实上,在《红楼梦》中,对于许多情景都有超级深切的刻画和描述,例如饮食菜肴,全书有40多回涉及到饮食文化的许多方面(其中最著名的是

2

百度文库 - 让每个人平等地提升自我

41回关于“茄鲞”的描述;75回还提到“风腌果子狸”)。咱们不考虑人文社会方面的问题,而致力于数据的搜集与分析,并以此为基础,应用数理统计方式来研究其前80回与后40回在文风上的不同。按照咱们的统计,《红楼梦》在前80回中有34回涉及饮食方面的描述;后40回仅有8回涉及饮食方面的描述(见表1)。按照这一数据,咱们可考虑以劣等价性假设查验问题(记为等价性查验(A)):

原假设:“前80回与后40回对于‘饮食描述’关注程度相同”;

对立假设:“前80回对于‘饮食描述’的关注程度大于后40回对于‘饮食描述’的关注程度”。

类似地,咱们亦可选择其他情景指标,设法取得相应的数据,并考虑类似的假设查验问题。本文选择了《红楼梦》中着力描述的5个情景指标,即花卉、树木、饮食、医药与诗词,统计出它们在前80回与后40回中出现的频数。如表1所示(数据集的具体搜集进程见附录)。对于上述每一个情景指标,咱们都能够考虑类似的等价性查验,以便比较前80回与后40回对它们在关注程度方面的不同。

二、统计分析——等价性查验

有了数据表1,《红楼梦》前80回与后40回在文风上的不同分析就可以够化为数理统计学的问题。今以等价性查验(A)(即关于饮食的描述)为例说明其统计模型及其求解方式。这一查验问题可化为两个彼此独立的二项整体的等价性查验,这时

否定原假设就意味着“前80回对于‘饮食描述’的关注程度大于后40回对于‘饮食描述’的关注程度”(以必然的查验水平)。对于那个假设查验问题,很多高作都有论述,例如可参见韦博成(2006,[12],。通常有两种查验方式,即Fisher精准条件查验(Lehmann,1986,[13],,或韦博成,2006,[12],)和渐近正态查验(韦博成,2006,[12],,或何书元,2006,[14],)。咱们用这两种方式都进行了计算,取得查验的p-值,即否定原假设而犯错误的概率。后者比较简单,其查验统计量为

表2给出了各个情景指标的查验结果。

表2 两种方式对于各个情景指标的查验结果(前80回与后40回的比较)

3

关于红楼梦的统计学

百度文库-让每个人平等地提升自我《红楼梦》前80回与后40回某些文风不同的统计分析韦博成一、引言在统计学应用的诸多领域中,文学高作的统计分析是一个饶有兴趣的分支。美国斯坦福大学教授Efron()和他的学生曾经对莎士比亚的高作进行过相当深切的统计分析(见[1],[2]),并指出:1985年发觉的一篇“无名氏”诗稿(仅
推荐度:
点击下载文档文档为doc格式
4xgx51snig4m0xd0pw4b4c2db011w500m8h
领取福利

微信扫码领取福利

微信扫码分享