红楼梦作者身份：统计分析揭示前后差异

需积分: 45 125 浏览量更新于2024-07-17 6 收藏 832KB PDF 举报

本文以《红楼梦》的作者解析为核心，运用统计分析方法探讨了该作品前八十回与后四十回的作者归属问题。首先，作者针对问题一，将小说分为每二十回和每四十回的两个阶段，通过MATLAB、SPSS或Python等工具分析人物名称的频率变化。通过对27个主要人物的出现次数进行计算和聚类分析，并借助配对样本\( T \)检验，结果显示人物名称的使用频率并不能揭示出作者的差异。针对问题二，虚词的使用情况被选为研究对象，选取47个具有代表性的虚词，如“偷懒”、“躲懒”和“托懒”的变体。同样采用频率分析和聚类方法，以及\( T \)检验，发现虚词频率的变化支持了前八十回和后四十回作者不同的观点。问题三，作者进一步考察了词语之间的语义相关性，选择七类同义词组进行数量和词频分析，通过卡方检验来衡量各组之间的文本相似度。结果显示，第一组和第二组的文本相关性较高，而与第三组（后四十回）的对比则显示出显著差异，从而支持了两部分作者不同的论断。最后，文章提出两种补充分析方法。方法一是通过标点符号的频率统计，利用SPSS软件进行卡方分析，以识别不同章节样本的差异；方法二是平均词长分析，通过ICTCLAS汉语词法分析系统，观察不同章节的词汇构成和纯文本字符比例，以此作为判断作者风格的依据。本文通过严谨的统计分析，结合多维度的数据处理和统计测试，有力地论证了《红楼梦》前八十回和后四十回的作者并非同一人。这种方法不仅揭示了文本内部结构的细微差别，也为我们理解文学作品的创作历程提供了新的视角。

展开