红楼梦作者身份:统计分析揭示前后差异
需积分: 45 120 浏览量
更新于2024-07-18
5
收藏 832KB PDF 举报
本文以《红楼梦》的作者解析为核心,运用统计分析方法探讨了该作品前八十回与后四十回的作者归属问题。首先,作者针对问题一,将小说分为每二十回和每四十回的两个阶段,通过MATLAB、SPSS或Python等工具分析人物名称的频率变化。通过对27个主要人物的出现次数进行计算和聚类分析,并借助配对样本\( T \)检验,结果显示人物名称的使用频率并不能揭示出作者的差异。
针对问题二,虚词的使用情况被选为研究对象,选取47个具有代表性的虚词,如“偷懒”、“躲懒”和“托懒”的变体。同样采用频率分析和聚类方法,以及\( T \)检验,发现虚词频率的变化支持了前八十回和后四十回作者不同的观点。
问题三,作者进一步考察了词语之间的语义相关性,选择七类同义词组进行数量和词频分析,通过卡方检验来衡量各组之间的文本相似度。结果显示,第一组和第二组的文本相关性较高,而与第三组(后四十回)的对比则显示出显著差异,从而支持了两部分作者不同的论断。
最后,文章提出两种补充分析方法。方法一是通过标点符号的频率统计,利用SPSS软件进行卡方分析,以识别不同章节样本的差异;方法二是平均词长分析,通过ICTCLAS汉语词法分析系统,观察不同章节的词汇构成和纯文本字符比例,以此作为判断作者风格的依据。
本文通过严谨的统计分析,结合多维度的数据处理和统计测试,有力地论证了《红楼梦》前八十回和后四十回的作者并非同一人。这种方法不仅揭示了文本内部结构的细微差别,也为我们理解文学作品的创作历程提供了新的视角。
2018-06-07 上传
2023-12-02 上传
2024-11-03 上传
2024-11-03 上传
2023-03-02 上传
2024-11-03 上传
2023-06-12 上传
mytzs123
- 粉丝: 6637
- 资源: 36
最新资源
- C语言初级学习100例 pdf文件
- Linux内核完全注释(内核版本0.11)
- 银川技能大赛试题园区网
- display标签使用
- Apress Foundation Expression Blend 2 Building Applications in WPF and Silverlight 2008
- IC封装大全IC封装大全
- C#.net打包时自定义应用程序的快捷方式与卸载
- WinCC手册1.pdf
- 信息隐藏检测lsb matching
- CCNA笔记精简整理版
- Berkeley DB彻底了解(存取方式、各种API、例子)
- java实现的b/s权限管理系统----<下载不要分,回帖加1分,欢迎下载,童叟无欺>
- 悟透JavaScript
- 在Visual C#中使用XML指南之读取XML
- 解析.Net框架下的XML编程技术
- HTML超文本标记语言教程