使用jieba分词,excel表格里某一列的数据要进行分词统计,制作词频前30位的词云图
时间: 2023-12-03 13:41:55 浏览: 40
首先需要安装`jieba`和`wordcloud`库,可以使用以下命令进行安装:
```
pip install jieba wordcloud
```
接着,读取Excel表格中的数据并进行分词统计:
```python
import jieba
import pandas as pd
# 读取Excel表格
df = pd.read_excel('data.xlsx')
# 合并所有文本
text = ''.join(df['内容'])
# 分词
words = jieba.lcut(text)
# 统计词频
word_counts = {}
for word in words:
if len(word) == 1: # 排除单个字符的分词结果
continue
word_counts[word] = word_counts.get(word, 0) + 1
# 排序,取前30个高频词
top30_words = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)[:30]
```
最后,使用`wordcloud`库制作词云图:
```python
import matplotlib.pyplot as plt
from wordcloud import WordCloud
# 生成词云图
wordcloud = WordCloud(font_path='simhei.ttf', background_color='white', max_words=30).\
generate_from_frequencies(dict(top30_words))
# 显示词云图
plt.imshow(wordcloud)
plt.axis('off')
plt.show()
```
其中,`font_path`参数指定中文字体文件路径,`max_words`参数指定最多显示的词数。
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)