对水浒传.txt文件进行分词并统计词频（统计时适当考虑相同的人物的不同叫法），根据统计的词频制作词云图（使用wordcloud, matplotlib第三方库库）。

好的，这里我会使用jieba第三方库进行分词和词频统计，并使用wordcloud和matplotlib库制作词云图。请确认您已经安装了这些库。首先，我们需要读取`水浒传.txt`文件并将其分词。 ```python import jieba # 读取文件 with open('水浒传.txt', 'r', encoding='utf-8') as f: text = f.read() # 分词 words = jieba.lcut(text) ``` 接下来，我们需要对分词结果进行词频统计。为了统计时适当考虑相同的人物的不同叫法，我们可以使用一个字典来存储每个人物的出现次数。 ```python # 人物名称列表 names = ['宋江', '卢俊义', '吴用', '公孙胜', '关胜', '林冲', '秦明', '呼延灼', '花荣', '柴进', '李应', '朱仝', '鲁智深', '武松', '董平', '张清', '杨志', '徐宁', '索超', '戴宗', '刘唐', '李逵', '史进', '穆弘', '雷横', '李俊', '阮小二', '张横', '阮小五', '张顺', '阮小七', '杨雄', '石秀', '解珍', '解宝', '燕青', '朱武', '黄信', '孙立', '宣赞', '郝思文', '韩滔', '彭玘', '单廷珪', '魏定国', '萧让', '裴宣', '欧鹏', '邓飞', '燕顺', '杨林', '凌振', '蒋敬', '吕方', '郭盛', '安道全', '皇甫端', '王英', '扈三娘', '鲍旭', '樊瑞', '孔明', '孔亮', '项充', '李衮', '金大坚', '马麟', '童威', '童猛', '孟康', '侯健', '陈达', '杨春', '郑天寿', '陶宗旺', '宋清', '乐和', '龚旺', '丁得孙', '穆春', '曹正', '宋万', '杜迁', '薛永', '施恩', '李忠', '周通', '汤隆', '杜兴', '邹渊', '邹润', '朱贵', '朱富', '施琅', '李立', '杨瑞', '赵云', '段景住'] # 词频统计 word_count = {} for word in words: if word in names: if word in word_count: word_count[word] += 1 else: word_count[word] = 1 ``` 最后，我们可以使用wordcloud和matplotlib库制作词云图。 ```python from wordcloud import WordCloud import matplotlib.pyplot as plt # 生成词云图 wc = WordCloud(background_color='white', font_path='msyh.ttc', width=800, height=600) wc.generate_from_frequencies(word_count) # 显示词云图 plt.imshow(wc, interpolation='bilinear') plt.axis('off') plt.show() ``` 完整代码如下： ```python import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt # 读取文件 with open('水浒传.txt', 'r', encoding='utf-8') as f: text = f.read() # 分词 words = jieba.lcut(text) # 人物名称列表 names = ['宋江', '卢俊义', '吴用', '公孙胜', '关胜', '林冲', '秦明', '呼延灼', '花荣', '柴进', '李应', '朱仝', '鲁智深', '武松', '董平', '张清', '杨志', '徐宁', '索超', '戴宗', '刘唐', '李逵', '史进', '穆弘', '雷横', '李俊', '阮小二', '张横', '阮小五', '张顺', '阮小七', '杨雄', '石秀', '解珍', '解宝', '燕青', '朱武', '黄信', '孙立', '宣赞', '郝思文', '韩滔', '彭玘', '单廷珪', '魏定国', '萧让', '裴宣', '欧鹏', '邓飞', '燕顺', '杨林', '凌振', '蒋敬', '吕方', '郭盛', '安道全', '皇甫端', '王英', '扈三娘', '鲍旭', '樊瑞', '孔明', '孔亮', '项充', '李衮', '金大坚', '马麟', '童威', '童猛', '孟康', '侯健', '陈达', '杨春', '郑天寿', '陶宗旺', '宋清', '乐和', '龚旺', '丁得孙', '穆春', '曹正', '宋万', '杜迁', '薛永', '施恩', '李忠', '周通', '汤隆', '杜兴', '邹渊', '邹润', '朱贵', '朱富', '施琅', '李立', '杨瑞', '赵云', '段景住'] # 词频统计 word_count = {} for word in words: if word in names: if word in word_count: word_count[word] += 1 else: word_count[word] = 1 # 生成词云图 wc = WordCloud(background_color='white', font_path='msyh.ttc', width=800, height=600) wc.generate_from_frequencies(word_count) # 显示词云图 plt.imshow(wc, interpolation='bilinear') plt.axis('off') plt.show() ``` 运行代码后，就可以得到词云图了。

阅读全文

对水浒传.txt文件进行分词并统计词频（统计时适当考虑相同的人物的不同叫法），根据统计的词频制作词云图（使用wordcloud, matplotlib第三方库库）。

相关推荐

分析三国演义和红楼梦，进行中文分词，统计人物出场频次，生成词云图

文本分类之词频统计（分词、词干提取、去停用词、计算词频，有界面）

对中国四大名著-红楼梦 使用jieba进行分词处理 排除去停词 统计完整词频并按降序排列 前20词绘制词云图

THULAC_lite_java_v1.zip_THULAC_java_v1.jar_THULAC分词_java词频统计_thu

python jieba分词并统计词频后输出结果到Excel和txt文档方法

词频统计pta中文分词、统计词频、比对文本相似度.zip

分词统计词频.exe

基于python的将pdf转为txt然后进行分词，并进行词频统计

英文分词统计词频

Q.rar_python统计词频_分词_基于机器学习_词频 _词频统计

execise two.zip_popularoqi_中文词频统计_文本分词及词频统计

中文分词用统计词频词典，一词一行

分词及词频统计.rar

中文分词 stopword.txt文件

豆瓣短评的爬虫程序，并经过数据预处理和JieBa分词，统计词频，最终生成次云.zip

基于Java的jieba分词统计词频

Python 合并多个TXT文件并统计词频的实现

Python对爬取微博的评论进行jieba分词和词频统计

文章分词并对词频用不同排序方法排序的系统项目全套技术资料.zip

大家在看

MSC.MARC python后处理库py_post（数据提取）

WebBrowser脚本错误的完美解决方案

RealityCapture中文教程

二维Hilbert-Huang变换及其在图像增强中的应用 (2009年)

matlab-基于互相关的亚像素图像配准算法的matlab仿真-源码

最新推荐

Python 合并多个TXT文件并统计词频的实现

基于hadoop的词频统计.docx

C语言实现英文文本词频统计

python 文本单词提取和词频统计的实例

大数据技术实践——Spark词频统计

RStudio中集成Connections包以优化数据库连接管理

管理建模和仿真的文件

Keil uVision5全面精通指南

flink提交给yarn19个全量同步MYsqlCDC的作业，flink的配置参数怎样设置

PHP博客旅游的探索之旅

对中国四大名著-红楼梦使用jieba进行分词处理排除去停词统计完整词频并按降序排列前20词绘制词云图