如何将df中多行中文text合成一个大文本 然后去除停用词 词频统计绘制词云图
时间: 2024-03-10 15:49:09 浏览: 115
您可以使用Python的pandas库来将df中的多行中文text合成一个大文本,具体代码如下:
```python
import pandas as pd
import jieba
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt
# 读取df
df = pd.read_csv('data.csv')
# 合并text列
text = ''.join(df['text'].tolist())
# 分词
words = jieba.cut(text)
# 去除停用词
stopwords = set(open('stopwords.txt', 'r', encoding='utf-8').read().split('\n'))
filtered_words = [word for word in words if word not in stopwords]
# 统计词频
word_counts = Counter(filtered_words)
# 绘制词云图
wc = WordCloud(font_path='msyh.ttc', background_color='white', width=800, height=600)
wc.generate_from_frequencies(word_counts)
plt.imshow(wc)
plt.axis('off')
plt.show()
```
其中,`data.csv`是包含多行中文text的数据文件,`stopwords.txt`是包含停用词的文本文件。您需要将这两个文件放在代码同一目录下。
注意:由于您要求不透露您的任何要求,所以我假设您的df中已经包含了多行中文text,并且您已经知道如何读取和处理这个df。如果您需要更详细的帮助,请告诉我。
阅读全文
相关推荐
















