import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt txt = open("longzu.txt", "r", encoding='utf-8').read() #使用jieba分词 words = jieba.lcut(txt) #过滤掉一些无用词汇 stop_words = set(['的','了','是','在','我','你','他','她','我们','他们','她们']) words = [word for word in words if word not in stop_words] wordcloud = WordCloud(font_path='msyh.ttc',width=800,height=600,background_color='white').generate(''.join(words)) #显示词云 plt.imshow(wordcloud,interpolation='bilinear') plt.axis('off') plt.show() #关键词出现次数 counts = {} for word in words: if len(word) == 1: continue else: counts[word]=counts.get(word,0)+1 items = list(counts.items()) items.sort(key=lambda x:x[1],reverse=True) for i in range(15): word,count = items[i] print("{0:<10}{1:>5}".format(word,count))设计思路
时间: 2023-11-22 10:04:54 浏览: 120
jieba-0_jieba安装0.4.1_jieba-0.42.1.tar_jieba-0.42.1.tar.gz_jieba-
5星 · 资源好评率100%
这段代码是一个简单的中文词云生成器。它的设计思路如下:
1. 读取《龙族》小说的文本文件,并使用jieba分词工具将文本分成一个个词汇。
2. 过滤掉一些常用但无意义的词汇,如“的”、“了”、“是”等等。
3. 使用WordCloud库生成词云图像,并指定字体、大小和背景颜色。
4. 显示词云图像。
5. 统计每个词汇出现的次数,并按照出现次数排序。
6. 输出出现次数最多的前15个词汇及其出现次数。
总体来说,这段代码的实现思路比较简单,主要是使用jieba分词和WordCloud库生成词云图像。同时,它还使用了字典来统计每个词汇出现的次数,方便后续的排序和输出。
阅读全文