好文档 - 专业文书写作范文服务资料分享网站

基于等价性检验和特征聚类的《红楼梦》作者分析 - 图文 

天下 分享 时间: 加入收藏 我要投稿 点赞

程东波 等

从图7来看,容易发现第21回到第80回分自然的分在了一个类别,而前20回却和后40回分在了一起,这说明:前20回合后40回有更好的相似性。这不符合预计结果,猜想可能原因是前80回内部存在相似性存在一定的差异。

为进一步分析上述结论的原因,现将特征向量应用到新的算法模型中,该算法模型训练3个簇,即3个类别。实验结果如下图8所示:

Figure 8. K-means clustering of three cate-gories

图8. K均值聚类三个类别的聚类情况

从图9的实验结果来看,我们很容易发现从第21回到80回内部存在一定的差异性,被分成了两个类别;而前20回和后40回仍被分在了一个类别。该实验结果只说明了:第21回到第80回内部存在差异性。

再次训练新的算法模型,该算法模型训练4个类别,实验结果如图9。

Figure 9. K-means clustering of four cate-gories

图9. K均值聚类四个类别的聚类情况

这个实验结果很明显看出,前80回合后40回内容存在差异,不是同一个人所著。但同时,前80回同样存在差异,因此我们可以以这个结果进一步进行猜想,《红楼梦》不仅有两个作者,可能存在两个以上的编撰者。

凝聚聚类算法的处理方式与K均值聚类的方式相似,将图6的特征向量应用到凝聚聚类算法模型中。分别试验聚成两个类、三个类、四个类的算法模型,实验结果如图10。

Figure 10. Clustering of clustering into 2, 3 and 4 categories

图10. 凝聚聚类分别聚成2,3,4个类别的聚类情况

从图10很容易发现:在采用凝聚聚类聚成3个类别的时候,能够很显然的体现出前80回和后40回作者不一,而在前80回中,前20回和其他60回作者存在差异。

4. 总结与展望

综合上述模型求解结果,等价性检验模型虽然作为数理统计中优秀的模型,但依旧有着不小的局限性,在处理多个样本的情况下,K均值聚类和凝聚聚类反而得到了优秀的结果。从最终的实验结果可以观察出,根据分析《红楼梦》前80回和后40回的部分词量和词频,可以表明《红楼梦》前80回和后

DOI: 10.12677/pm.2020.105067

554

理论数学

程东波 等

40回并不是同一作者所著。除此之外,我们还发现,在前80回内的文章也存在着不小的差异。因此可以一定程度上表明,《红楼梦》不止一个作者所著。

基金项目

闽江学院校长基金(103952018230)。

参考文献

[1] 胡适.《红楼梦考证》(改定稿) [M]. 北京: 北京出版社, 2015.

[2] Karlgren, B. (1952) New Excursions in Chinese Grammar. The Bulletin of the Museum of Far Eastern Antiquities, 24,

79. [3] Koppel, M., Schler, J. and Argamon, S. (2009) Computational Methods in Authorship Attribution. Journal of the

American Society for Information Science and Technology, 60, 9-26. https://doi.org/10.1002/asi.20961 [4] 李国强, 李瑞芳. 基于计算机的词频统计研究——考证《红楼梦》作者是否唯一[J]. 沈阳化工学院学报, 2006,

20(4): 305-307. [5] 施建军. 基于支持向量机技术的《红楼梦》作者研究[J]. 红楼梦学刊, 2011(5): 35-52.

[6] 施建军. 关于以《红楼梦》120回为样本进行其作者聚类分析的可信度问题研究[J]. 红楼梦学刊, 2010(5):

318-335. [7] 叶雷. 基于计量文体特征聚类的《红楼梦》作者分析[J]. 红楼梦学刊, 2016(5): 312-324.

DOI: 10.12677/pm.2020.105067

555

理论数学

基于等价性检验和特征聚类的《红楼梦》作者分析 - 图文 

程东波等从图7来看,容易发现第21回到第80回分自然的分在了一个类别,而前20回却和后40回分在了一起,这说明:前20回合后40回有更好的相似性。这不符合预计结果,猜想可能原因是前80回内部存在相似性存在一定的差异。为进一步分析上述结论的原因,现将特征向量应用到新的算法模型中,该算法模型训练3个簇,即3个类别。实验结果如下图8所示:
推荐度:
点击下载文档文档为doc格式
8p0oz078b71emx02sb8q8qp2012ift011ea
领取福利

微信扫码领取福利

微信扫码分享