基于等价性检验和特征聚类的《红楼梦》作者分析 - 图文

由天下分享时间：2025/3/15 10:26:13 加入收藏我要投稿点赞

程东波等

从图7来看，容易发现第21回到第80回分自然的分在了一个类别，而前20回却和后40回分在了一起，这说明：前20回合后40回有更好的相似性。这不符合预计结果，猜想可能原因是前80回内部存在相似性存在一定的差异。

为进一步分析上述结论的原因，现将特征向量应用到新的算法模型中，该算法模型训练3个簇，即3个类别。实验结果如下图8所示：

Figure 8. K-means clustering of three cate-gories

图8. K均值聚类三个类别的聚类情况

从图9的实验结果来看，我们很容易发现从第21回到80回内部存在一定的差异性，被分成了两个类别；而前20回和后40回仍被分在了一个类别。该实验结果只说明了：第21回到第80回内部存在差异性。

再次训练新的算法模型，该算法模型训练4个类别，实验结果如图9。

Figure 9. K-means clustering of four cate-gories

图9. K均值聚类四个类别的聚类情况

这个实验结果很明显看出，前80回合后40回内容存在差异，不是同一个人所著。但同时，前80回同样存在差异，因此我们可以以这个结果进一步进行猜想，《红楼梦》不仅有两个作者，可能存在两个以上的编撰者。

凝聚聚类算法的处理方式与K均值聚类的方式相似，将图6的特征向量应用到凝聚聚类算法模型中。分别试验聚成两个类、三个类、四个类的算法模型，实验结果如图10。

Figure 10. Clustering of clustering into 2, 3 and 4 categories

图10. 凝聚聚类分别聚成2，3，4个类别的聚类情况

从图10很容易发现：在采用凝聚聚类聚成3个类别的时候，能够很显然的体现出前80回和后40回作者不一，而在前80回中，前20回和其他60回作者存在差异。

4. 总结与展望

综合上述模型求解结果，等价性检验模型虽然作为数理统计中优秀的模型，但依旧有着不小的局限性，在处理多个样本的情况下，K均值聚类和凝聚聚类反而得到了优秀的结果。从最终的实验结果可以观察出，根据分析《红楼梦》前80回和后40回的部分词量和词频，可以表明《红楼梦》前80回和后

DOI: 10.12677/pm.2020.105067

554

理论数学

程东波等

40回并不是同一作者所著。除此之外，我们还发现，在前80回内的文章也存在着不小的差异。因此可以一定程度上表明，《红楼梦》不止一个作者所著。

基金项目

闽江学院校长基金(103952018230)。

参考文献

[1] 胡适.《红楼梦考证》(改定稿) [M]. 北京: 北京出版社, 2015.

[2] Karlgren, B. (1952) New Excursions in Chinese Grammar. The Bulletin of the Museum of Far Eastern Antiquities, 24,

79. [3] Koppel, M., Schler, J. and Argamon, S. (2009) Computational Methods in Authorship Attribution. Journal of the

American Society for Information Science and Technology, 60, 9-26. https://doi.org/10.1002/asi.20961 [4] 李国强, 李瑞芳. 基于计算机的词频统计研究——考证《红楼梦》作者是否唯一[J]. 沈阳化工学院学报, 2006,

20(4): 305-307. [5] 施建军. 基于支持向量机技术的《红楼梦》作者研究[J]. 红楼梦学刊, 2011(5): 35-52.

[6] 施建军. 关于以《红楼梦》120回为样本进行其作者聚类分析的可信度问题研究[J]. 红楼梦学刊, 2010(5):

318-335. [7] 叶雷. 基于计量文体特征聚类的《红楼梦》作者分析[J]. 红楼梦学刊, 2016(5): 312-324.

DOI: 10.12677/pm.2020.105067

555

理论数学

基于等价性检验和特征聚类的《红楼梦》作者分析 - 图文

程东波等从图7来看，容易发现第21回到第80回分自然的分在了一个类别，而前20回却和后40回分在了一起，这说明：前20回合后40回有更好的相似性。这不符合预计结果，猜想可能原因是前80回内部存在相似性存在一定的差异。为进一步分析上述结论的原因，现将特征向量应用到新的算法模型中，该算法模型训练3个簇，即3个类别。实验结果如下图8所示：

推荐度：

点击下载文档文档为doc格式

基于等价性检验和特征聚类的《红楼梦》作者分析 - 图文

基于等价性检验和特征聚类的《红楼梦》作者分析 - 图文

相关推荐文档

精选图文

热门排序

推荐文章

热门标签

相关文章列表