长文本关键词提取后,进行可视化,Python代码示例
时间: 2023-02-06 21:27:35 浏览: 148
下面是一个使用 Python 进行长文本关键词提取并可视化的代码示例。这里使用了 jieba 库进行中文分词,并使用 wordcloud 库进行可视化。
首先,需要安装 jieba 和 wordcloud 库:
```python
!pip install jieba
!pip install wordcloud
```
然后,导入所需的库:
```python
import jieba
import jieba.analyse
from wordcloud import WordCloud
```
接下来,使用 jieba 库进行分词,并使用 jieba.analyse.extract_tags 函数进行关键词提取。这里设置了参数 topK=20,表示提取出现频率最高的 20 个关键词:
```python
# 将文本进行分词
text = "这是一段长文本,用于演示长文本关键词提取的代码示例。"
words = jieba.cut(text)
# 提取关键词
keywords = jieba.analyse.extract_tags(text, topK=20)
print(keywords)
```
最后,使用 wordcloud 库进行可视化:
```python
# 生成词云
wc = WordCloud(font_path='simhei.ttf', background_color='white', max_words=20)
wc.generate_from_frequencies(keywords)
# 展示词云
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()
```
完整的代码如下:
```python
import jieba
import jieba.analyse
from wordcloud import WordCloud
# 将文本进行分词
text = "这是一段长文本,用于演示长文本关键词提取的代码示例。"
words = jieba.cut(text)
阅读全文