python词频统计与词云图-琅琊榜
时间: 2024-12-17 11:04:36 浏览: 4
SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准.zip
在Python中,我们可以使用一些常用的文本处理库如jieba(分词工具)、collections(用于频率计数)以及wordcloud(生成词云图)来对琅琊榜这样的文本数据进行词频统计并制作词云。
首先,需要安装必要的库,例如:
```bash
pip install jieba wordcloud matplotlib
```
然后,可以按照以下步骤操作:
1. **文本预处理**:
使用`jieba.lcut()`函数对《琅琊榜》的文本进行分词,去除停用词等非关键信息:
```python
import jieba
from collections import Counter
text = "琅琊榜的剧情描述..."
words = jieba.lcut(text)
filtered_words = [word for word in words if not word in stop_words] # 假设stop_words是一个包含常用停用词的列表
```
2. **词频统计**:
使用`Counter`计算每个单词的出现次数:
```python
word_counts = Counter(filtered_words)
```
3. **生成词频字典**:
将词频转换成适合词云图的数据结构:
```python
sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)
```
4. **创建词云图**:
使用`wordcloud`库创建词云图:
```python
from wordcloud import WordCloud
import matplotlib.pyplot as plt
wordcloud = WordCloud(font_path='simhei.ttf', width=800, height=600).generate_from_frequencies(sorted_word_counts)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()
```
这将展示一个基于《琅琊榜》文本内容的重要词语分布的美观词云图。
阅读全文