python数据预处理,jieba分词,去除停用词,词频分析,并生成词云图代码
时间: 2023-04-02 20:03:55 浏览: 287
python使用jieba实现中文分词去停用词方法示例
以下是 Python 数据预处理、jieba 分词、去除停用词、词频分析并生成词云图的代码:
```python
import jieba
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt
# 读取文本文件
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 使用 jieba 分词
words = jieba.cut(text)
# 去除停用词
stopwords = ['的', '了', '是', '我', '你', '他', '她', '我们', '你们', '他们']
words = [word for word in words if word not in stopwords]
# 统计词频
word_counts = Counter(words)
# 生成词云图
wordcloud = WordCloud(font_path='msyh.ttc', background_color='white').generate_from_frequencies(word_counts)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()
```
希望能对你有所帮助!
阅读全文