2、 文本分析及可视化 ① 统计出《三国演义》排名前十五的人物以及其出现的次数。使用词云展示出现的人物。 ② (选做)设置词云的形状。
时间: 2024-10-16 10:04:08 浏览: 46
在文本分析中,统计《三国演义》排名前十五的人物及其出现次数通常涉及到文本预处理(如分词),然后通过词频统计找出高频人物。你可以使用Python库,比如jieba进行中文分词,NLTK或spaCy进行更复杂的自然语言处理,collections模块的Counter函数来计算词频。
以下是简单的步骤:
1. **分词**:首先读取《三国演义》文本,使用jieba等工具将文本切分成词语列表。
2. **清洗数据**:去除无关字符,如标点符号,并统一转化为小写。
3. **词频统计**:遍历词语列表,使用Counter计算每个词汇出现的频率。
4. **排序和选择前十五**:从词频表中获取出现次数最多的前十五个人物及其频率。
至于词云的制作,可以使用诸如WordCloud库,它允许自定义词云的形状,如指定形状为圆形、心形或其他图案。设置词云形状的代码示例:
```python
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt
wc = WordCloud(font_path='simhei.ttf', background_color='white', mask=your_custom_shape_mask, width=600, height=400)
wc.generate_from_frequencies(your_frequency_dict)
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()
```
这里 `your_custom_shape_mask` 需要替换为你想要的定制形状,`your_frequency_dict` 是之前词频统计的结果。
阅读全文