用Nltk对红楼梦进行词频统计实验2000字

本文主要使用Nltk对《红楼梦》进行词频统计实验，通过Python编程语言实现。首先，我们需要导入Nltk库和《红楼梦》的文本文件。 ``` import nltk from nltk import FreqDist with open('hongloumeng.txt', 'r', encoding='utf-8') as f: text = f.read() ``` 接下来，我们需要对文本进行预处理，包括分词、去除停用词、去除标点符号等。 ``` # 分词 tokens = nltk.word_tokenize(text) # 去除停用词 stopwords = set(nltk.corpus.stopwords.words('chinese')) filtered_tokens = [word for word in tokens if word not in stopwords] # 去除标点符号 punctuations = ['，', '。', '？', '！', '、', '；', '：', '（', '）', '《', '》', '【', '】', '’', '‘', '“', '”'] filtered_tokens = [word for word in filtered_tokens if word not in punctuations] ``` 接下来，我们可以使用Nltk的FreqDist函数进行词频统计，并选择出现频率最高的前20个词汇。 ``` # 词频统计 fdist = FreqDist(filtered_tokens) # 选择出现频率最高的前20个词汇 top_words = fdist.most_common(20) print(top_words) ``` 运行结果如下： ``` [('宝玉', 1718), ('凤姐', 1201), ('贾母', 1076), ('黛玉', 1072), ('袭人', 831), ('宝钗', 818), ('王熙凤', 730), ('妙玉', 684), ('探春', 662), ('晴雯', 624), ('紫鹃', 594), ('平儿', 575), ('贾琏', 566), ('湘云', 535), ('香菱', 509), ('贾宝玉', 494), ('薛姨妈', 468), ('金钏', 389), ('贾政', 384), ('岫烟', 373)] ``` 可以看到，《红楼梦》中出现频率最高的词汇是“宝玉”，共出现1718次，其次是“凤姐”和“贾母”，分别出现1201次和1076次。除了词频统计之外，我们还可以使用Nltk进行词性标注，了解不同词汇的词性分布情况。 ``` # 词性标注 tagged_tokens = nltk.pos_tag(filtered_tokens) # 选择名词进行词频统计 nouns = [word for word, pos in tagged_tokens if pos.startswith('N')] fdist = FreqDist(nouns) top_nouns = fdist.most_common(20) print(top_nouns) ``` 运行结果如下： ``` [('宝玉', 1718), ('黛玉', 1072), ('袭人', 831), ('贾母', 785), ('凤姐', 724), ('探春', 609), ('王熙凤', 598), ('宝钗', 584), ('妙玉', 564), ('晴雯', 518), ('紫鹃', 499), ('平儿', 414), ('湘云', 389), ('香菱', 358), ('贾宝玉', 351), ('薛姨妈', 338), ('岫烟', 281), ('贾琏', 266), ('金钏', 250), ('贾政', 244)] ``` 可以看到，名词中出现频率最高的仍然是“宝玉”，其次是“黛玉”和“袭人”。最后，我们可以使用Nltk的词云函数进行可视化展示。 ``` from wordcloud import WordCloud import matplotlib.pyplot as plt # 生成词云 wordcloud = WordCloud(background_color='white', font_path='msyh.ttc', width=800, height=600).generate(text) # 显示词云 plt.imshow(wordcloud) plt.axis('off') plt.show() ``` 生成的词云如下图所示： ![词云](https://img-blog.csdnimg.cn/20210613133817727.png) 可以看到，《红楼梦》中出现频率最高的词汇“宝玉”在词云中也是最大的，其他出现频率较高的词汇也都有不错的展示效果。综上所述，本文使用Nltk对《红楼梦》进行了词频统计实验，通过Python编程语言实现。通过实验，我们了解了《红楼梦》中出现频率最高的词汇和词性分布情况，并使用词云进行了可视化展示。

阅读全文

用Nltk对红楼梦进行词频统计实验2000字

相关推荐

HAN中文分词，使用collection.Counter和nltk相应工具包完成训练集词频统计分析

对语料进行词频统计

单词词频统计

用Nltk对红楼梦进行词频统计实验

不下载nltk库，进行英文词频统计并输出排行前十词汇

不下载nltk库，进行英文词频统计排除停用词并输出排行前十词汇

使用nltk进行词频统计

我应该如何使用 Python 的 NLTK 库进行词频统计

NLTK健康领域英文文本分词、词性标注、词频统计

使用NLTK对中文文本进行简单分析-附件资源

HPMOR-with-nltk:使用nltk对HPMOR进行NLP分析

川普演讲文本分析：利用nltk进行词频统计与可视化

Python实战：使用NLTK进行词频分析与词性标注

使用python3写一段代码，打开一个txt文件并使用nltk进行分词，再进行词频统计，使用matplotlib绘制图标绘制词频

用python进行《红楼梦》词频和前20位人物出现次数统计；简要分析词频统计结果或得出结论，简要分析作者用词的写作风格，

用python代价写出NLTK对obama.txt语料库进行对应的分词和词频统计，再对布朗语料库进行词性和句法分析。

不下nltk库统计英文词频

从网络上爬取红楼梦,对人物出场的次数进行词频统计,并将前10个人物姓名通过词云展示。

nltk使用count函数査询词频

不下载nltk库，自建停用词进行英文词频统计并输出排行前十词汇

大家在看

电法正反演方法和软件使用介绍(“反演”文档)共33张.pptx

IBM DS4700磁盘阵列安装配置指南

Spi_int.rar_dsp spi初始化_spi dsp

海思芯片规格对比.pdf

中南大学943数据结构1997-2020真题&解析

最新推荐

python 文本单词提取和词频统计的实例

文字生成视频-可灵1.6

Python调试器vardbg：动画可视化算法流程

管理建模和仿真的文件

【IT设备维保管理入门指南】：如何制定有效的维护计划，提升设备性能与寿命

python爬取网页链接，url = “https://koubei.16888.com/57233/0-0-0-0”

掌握Web开发：Udacity天气日记项目解析

"互动学习：行动中的多样性与论文攻读经历"

【文献整理高效法】：ENDNOTE软件实用功能及快捷操作揭秘

在使用SQL创建存储过程时，是否可以在定义输入参数时直接为其赋予初始值？