《天龙八部》是金庸的重要武侠作品之一。这里给出一个《天龙八部》的网络版本,文件名为“天龙八部-网络版.txt”。请编写程序,对该文件中出现的中文词语进行统计,统计文件中前20位出场最多的人物。wordcloud是一款基于Pvthon的词云第二方库,支持对词语数量、背景蒙版、字体颜色等各种细节K设置,试结合leba的分词功能构建《天龙八部》人物出场次数最多的前20人人物姓名的词云,并输出到图片文件中,要求: (1)词云图片大小设置为: 1000700,背景色为白色 (2)字体为“微软雅黑”,最小字体设置为10,最大字体设置为180(3)利用五角星图片“fivestar.png”将词云生成为星形
时间: 2024-03-17 19:40:39 浏览: 168
为了能够实现该功能,需要安装以下库:
- jieba: 用于中文分词
- wordcloud: 用于生成词云
- matplotlib: 用于生成图片
可以通过以下命令安装:
```
!pip install jieba
!pip install wordcloud
!pip install matplotlib
```
安装完成后,可以按照以下步骤进行操作:
1. 读取《天龙八部》网络版文件,使用jieba进行中文分词,统计每个人物出现的次数。
```python
import jieba
# 读取文件
with open('天龙八部-网络版.txt', 'r', encoding='utf-8') as f:
data = f.read()
# 使用jieba进行中文分词
words = jieba.lcut(data)
# 统计人物出现次数
counts = {}
for word in words:
if len(word) == 1:
continue
counts[word] = counts.get(word, 0) + 1
```
2. 对出现次数进行排序,取前20位出场最多的人物。
```python
# 对出现次数进行排序
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
# 取前20位出场最多的人物
top20 = items[:20]
```
3. 生成词云并输出到图片文件中。
```python
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image
# 读取五角星图片
mask = np.array(Image.open('fivestar.png'))
# 生成词云
wc = WordCloud(
font_path='msyh.ttf',
background_color='white',
max_words=2000,
mask=mask,
max_font_size=180,
min_font_size=10,
mode='RGBA'
)
# 生成词云图像
wc.generate_from_frequencies(dict(top20))
# 提取颜色
image_colors = ImageColorGenerator(mask)
plt.imshow(wc.recolor(color_func=image_colors), interpolation="bilinear")
plt.axis("off")
# 保存图片
wc.to_file('output.png')
```
最后,程序会在当前目录下生成一个名为“output.png”的图片文件,即为生成的词云图片。
阅读全文