长文本关键词提取后,进行可视化,Python完整代码示例,直接写代码
时间: 2023-06-12 12:05:48 浏览: 150
以下是一个长文本关键词提取并可视化的 Python 示例代码:
```python
# 导入库
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
# 读取文本文件
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 关键词提取
keywords = jieba.cut(text)
word_dict = {}
for keyword in keywords:
if len(keyword) > 1:
word_dict[keyword] = word_dict.get(keyword, 0) + 1
# 生成词云
wordcloud = WordCloud(background_color='white', font_path='msyh.ttc', width=800, height=600)
wordcloud.generate_from_frequencies(word_dict)
# 可视化
plt.imshow(wordcloud)
plt.axis('off')
plt.show()
```
说明:
1. 首先导入需要的库,包括 jieba(用于分词)、WordCloud(用于生成词云)和 matplotlib.pyplot(用于可视化)。
2. 使用 `open()` 函数读取文本文件。
3. 利用 jieba 分词,将文本进行分词,并将每个词作为字典的键,出现次数作为字典的值。
4. 利用 WordCloud 生成词云,设置背景色、字体路径、词云宽度和高度等参数,并使用 `generate_from_frequencies()` 方法根据统计出的词频生成词云。
5. 使用 matplotlib.pyplot 的 `imshow()` 方法显示词云,并使用 `axis()` 方法关闭坐标轴,最后使用 `show()` 方法显示词云可视化效果。
需要注意的是,代码中的 `text.txt` 是指文本文件的路径,需要根据实际情况进行修改。此外,也可以根据需要对词云的参数进行调整,如修改字体、背景色、词语数量等。
阅读全文