红楼梦作者身份:统计分析揭示前后差异

需积分: 45 36 下载量 120 浏览量 更新于2024-07-18 5 收藏 832KB PDF 举报
本文以《红楼梦》的作者解析为核心,运用统计分析方法探讨了该作品前八十回与后四十回的作者归属问题。首先,作者针对问题一,将小说分为每二十回和每四十回的两个阶段,通过MATLAB、SPSS或Python等工具分析人物名称的频率变化。通过对27个主要人物的出现次数进行计算和聚类分析,并借助配对样本\( T \)检验,结果显示人物名称的使用频率并不能揭示出作者的差异。 针对问题二,虚词的使用情况被选为研究对象,选取47个具有代表性的虚词,如“偷懒”、“躲懒”和“托懒”的变体。同样采用频率分析和聚类方法,以及\( T \)检验,发现虚词频率的变化支持了前八十回和后四十回作者不同的观点。 问题三,作者进一步考察了词语之间的语义相关性,选择七类同义词组进行数量和词频分析,通过卡方检验来衡量各组之间的文本相似度。结果显示,第一组和第二组的文本相关性较高,而与第三组(后四十回)的对比则显示出显著差异,从而支持了两部分作者不同的论断。 最后,文章提出两种补充分析方法。方法一是通过标点符号的频率统计,利用SPSS软件进行卡方分析,以识别不同章节样本的差异;方法二是平均词长分析,通过ICTCLAS汉语词法分析系统,观察不同章节的词汇构成和纯文本字符比例,以此作为判断作者风格的依据。 本文通过严谨的统计分析,结合多维度的数据处理和统计测试,有力地论证了《红楼梦》前八十回和后四十回的作者并非同一人。这种方法不仅揭示了文本内部结构的细微差别,也为我们理解文学作品的创作历程提供了新的视角。
2018-06-07 上传
本文通过对文本人物关系、文本结构分层、作者行文风格的分析来分析中文文本。 针对问题一,我们运用聚类分析和层次分析建立模型从物理结构与逻辑结构两方面来分析文本,我们提取文本中和文本标题中的人名作为特征项,用matlab编程分别统计每个人名在各个段落中的频数。通过运用主成分分析法对文本进行的分析我们得出自变量与常数项几乎不相关,因此不需要采取主成分回归分析。通过系统聚类分析,我们得到了聚类图,从中得出了主演人物之间的关系。通过层次划分,我们将样本一划分为两层,样本二划分为两层,样本三划分为两层。最后通过matlab编程统计样本中虚词的频数,并且分别对样本中虚词总体和各个虚词进行统计,运用计算风格学理论,我们得出前八十回与后四十回作者的行文风格存在差异。 针对问题二,我们对聚类分析、层次划分、行文风格进行了检验。对于聚类分析的结果,我们与从对文本概述的文学概括分析得到的人物关系进行比较检验,验证了聚类分析结果是可靠性。对于层次分析,我们通过用Excel对数据做出折线图,对图形进行分析,得出与用层次分析算法得出的相同的人物关系结论。 针对问题三,我们计算了各个样本中主要人物的比重,做出了折线图,从图中我们得出了文本结构一致性的结论,体现了三个样本的相同性。通过计算同一个人物在不同样本中的频数(以黛玉为例),我们得出各个样本由于主题思想的不同主要人物也有差异。