红楼梦作者辨析:人物、虚词与语义关联的证据

需积分: 45 26 下载量 130 浏览量 更新于2024-08-08 收藏 832KB PDF 举报
在本文中,作者深入探讨了如何利用编程技术,特别是Python,MATLAB,SPSS等工具,对《红楼梦》这部经典文学作品进行文本分析,以解决关于其前八十回和后四十回作者归属的问题。问题四聚焦于作者识别的多维度方法探索: 1. 人物名称频率分析:首先,通过将《红楼梦》分为每二十回和每四十回的部分,选择27个主要人物,计算他们在各章节中的出现频率。然而,结果显示人物名称的频率并不能明显区分出作者的差异,配对样本T检验验证了这一结论。 2. 虚词频率分析:选取47个具有代表性的虚词,同样按照四十回一组的方式进行分析,发现虚词的频率变化揭示了前八十回和后四十回在语言风格上的显著差异,支持了非同一作者的观点。 3. 词语相关性分析:通过对七类具有相似含义但用词不同的词语(如“偷懒”、“躲懒”和“托懒”)的词频和相关性进行卡方检验,发现后四十回与前八十回在语义表达上存在显著区别,进一步印证了不同作者的存在。 4. 标点符号和平均词长分析:采用额外的方法,如统计每四十章的标点符号使用情况以及平均词长,通过SPSS软件的卡方分析和ICTCLAS汉语词法分析系统的词组分割,进一步确认了不同章节文本的差异性,这是基于语言习惯的另一维度证据。 通过以上分析,作者得出了《红楼梦》前八十回与后四十回并非同一作者创作的结论,展示了数据驱动的文学研究方法在揭示文学作品作者身份上的应用价值。这些方法不仅适用于《红楼梦》,也适用于其他文学作品的作者鉴别工作,为文学研究提供了新的视角和工具。