水浒传词频统计python

以下是使用Python进行《水浒传》词频统计的示例代码： ```python import jieba from collections import Counter # 读取文本文件 with open('input水浒传.txt', 'r', encoding='utf-8') as f: text = f.read() # 分词 words = jieba.cut(text) # 去除停用词 stopwords = ['的', '了', '和', '是', '在', '他', '她', '它'] # 停用词列表，可以根据实际情况进行修改 filtered_words = [word for word in words if word not in stopwords] # 统计词频 word_count = Counter(filtered_words) # 输出词频结果 for word, count in word_count.most_common(10): # 只输出频率最高的10个词语 print(word, count) ``` 这段代码首先使用jieba库对文本进行分词，然后去除停用词，最后使用Counter类统计词频。最后，我们输出频率最高的10个词语及其出现次数。

水浒传词频统计python123

```python import jieba from collections import Counter import matplotlib.pyplot as plt from wordcloud import WordCloud # 读取《水浒传》文本 with open('shuihuzhuan.txt', 'r', encoding='utf-8') as file: text = file.read() # 使用jieba分词 words = jieba.lcut(text) # 读取停用词库 with open('stopwords.txt', 'r', encoding='utf-8') as file: stopwords = file.read().splitlines() # 进行词频统计 word_count = Counter([word for word in words if word not in stopwords]) # 生成词云 wordcloud = WordCloud(font_path="simhei.ttf").generate_from_frequencies(word_count) # 可视化词云 plt.imshow(wordcloud, interpolation='bilinear') plt.axis("off") plt.show() ```

python水浒传词频统计

使用Python进行《水浒传》的词频统计是一种常见的文本分析方法。可以通过分词工具jieba对文本进行分词处理，然后统计每个词语出现的频率。在给定的代码中，使用了jieba库对《水浒传》文本进行了分词处理，然后使用字典counts记录词语出现的频率。在统计过程中，排除了一些无效词语，比如“两个”、“一个”、“只见”等，同时对于相同对象的不同称谓进行了同一化处理。最后，按照词语的频率进行排序，并输出前十个高频词汇。因此，使用Python进行《水浒传》词频统计的代码如下所示： ```python import jieba excludes = {"两个","一个","只见","如何","那里","哥哥","说道","军马","头领","众人","这里","兄弟","梁山泊","出来","小人","今日","这个","先锋","三个","因此","人马","问道","起来","便是","妇人","好汉","不是","不知","不曾","只是","如此","次日","我们","不得","如今","看时","不敢","来到","且说","一面","只得","山寨","原来","将军","却是"} txt = open("水浒传.txt","r",encoding='gb18030', errors='ignore').read() words = jieba.lcut(txt) counts = {} for word in words: if len(word) == 1: continue elif word == "宋江道" or word == "宋江": rword = "宋江" else: rword = word counts[rword = counts.get(rword, 0) + 1 for word in excludes: del(counts[word]) items = list(counts.items()) items.sort(key=lambda x:x<span class="em">1</span><span class="em">2</span>

阅读全文

水浒传词频统计python

水浒传词频统计python123

python水浒传词频统计

相关推荐

Python之词频统计

python文件词频统计

词频统计（基于hadoop集群，python实现）

python水浒传词频统计生成词云图

用python 水浒传-词频统计 描述 使用词频统计的方法，生成《水浒传》出场次数最多的10个人物的姓名。

水浒传文本分析python

请分析附件文件“水浒传.txt”中出现的单词情况，统计并输出出现最多的 20 个单词。同 时利用词云库实现对“水浒传.txt”的词频分析。python

用Python中的jieba对文章进行词频统计

Python-[jieba库应用]-统计水浒传中人物出现次数

Python利用jieba进行中文分词与词频统计

python利用jieba水浒传

对水浒传.txt文件进行分词并统计词频（统计时适当考虑相同的人物的不同叫法），根据统计的词频制作词云图（使用wordcloud, matplotlib第三方库库）。

python结合jieba库的分词功能编程创建自己特色（自己绘制的图形）的《水浒传》词云效果。（对程序优化生成人物统计词云效果，展示学号最后一位数+5个人物词云）

编写程序，完成水浒传前70回中前5个高频词统计

编写程序，完成《水浒传》前70回中前5个高频词统计。

pychaim用jieba库统计水浒传前五名人物及出场次数 按词的次数排序 代码加结果

了、编写程序，完成《水浒传》前70回中前5个高频词统计。

如何在Jupyter中利用jieba查询水浒传里的出现最多的前20个人物

大家在看

MariaDB Galera Cluster 集群配置（MariaDB5.5.63亲测可用）

初等数论及其应用-第五版-华章-Kenneth.H.Rosen

基于plc自动门控制的设计毕业论文正稿.doc

得利捷DLCode软件使用手册V1.3.pdf

AWS(亚马逊)云解决方案架构师面试三面作业全英文作业PPT

最新推荐

基于springboot的酒店管理系统源码（java毕业设计完整源码+LW）.zip

蓄电池与超级电容混合储能并网matlab simulink仿真模型 （1）混合储能采用低通滤波器进行功率分配，可有效抑制功率波动，并对超级电容的soc进行能量管理，soc较高时多放电，较低时少放电

017 - 搞笑一句话台词.docx

基于微信小程序的购物系统+php后端毕业源码案例设计全部资料+详细文档.zip

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

"互动学习：行动中的多样性与论文攻读经历"

用python 水浒传-词频统计描述使用词频统计的方法，生成《水浒传》出场次数最多的10个人物的姓名。

请分析附件文件“水浒传.txt”中出现的单词情况，统计并输出出现最多的 20 个单词。同时利用词云库实现对“水浒传.txt”的词频分析。python

pychaim用jieba库统计水浒传前五名人物及出场次数按词的次数排序代码加结果

蓄电池与超级电容混合储能并网matlab simulink仿真模型（1）混合储能采用低通滤波器进行功率分配，可有效抑制功率波动，并对超级电容的soc进行能量管理，soc较高时多放电，较低时少放电