《红楼梦》前后章节标点差异分析与作者探究

需积分: 45 26 下载量 46 浏览量 更新于2024-08-08 收藏 832KB PDF 举报
该资源探讨了使用统计分析和聚类技术来探究《红楼梦》前80回与后40回作者是否为同一人的问题。通过分析人物频率、虚词频率、词语相关性以及标点符号使用,结合MATLAB、SPSS和Python等工具进行建模与求解。 在模型一的建立与求解中,研究者将文本分为每40回一组,对10种不同的标点符号进行了统计,并导入SPSS软件进行卡方检验。结果显示,不同章节间标点符号的使用存在显著差异,这为区分前后两部分的作者提供了依据。同时,进行了系统聚类分析,得到了与卡方检验一致的结论,即《红楼梦》前80回与后40回在标点使用上有明显区别。 在问题一中,通过对27个主要人物在不同组别中出现频率的分析,发现人物名称的出现并不能有效揭示作者差异,因为聚类和T检验结果并未显示明显的区分。 在问题二中,选取了47个虚词,分析其在不同组内的频率,通过系统聚类和T检验,发现虚词的使用频率在前80回与后40回间存在显著差异,进一步支持了两部分可能由不同作者创作的观点。 问题三关注词语的相关性。选择了七类具有相似意义的词语,计算它们在各组中的分布,通过卡方检验,确定后四十章与前八十章在文本相关性上存在差异。 最后,在问题四中,使用两种方法:一是统计每40回的10种标点符号数量,通过SPSS的卡方检验,揭示了不同样本间的显著差异;二是分析平均词长,将文本分割为每10回一组,计算词组分割后的平均词长,以此来反映作者的写作习惯,结果也表明前后80回和40回之间存在差异。 通过统计分析和聚类方法,结合MATLAB、SPSS和Python等工具,研究者得出了《红楼梦》前80回与后40回在语言特征上有显著差异的结论,从而在一定程度上质疑了前后期作者同一性的传统观点。