用python对于csv文件中的中文词云进行分析的代码
时间: 2024-05-04 21:22:06 浏览: 143
基于python爬取新浪微博爬虫以及生成词云源码+源代码+文档说明(高分项目)
以下是用Python对CSV文件中的中文词云进行分析的代码:
```python
import pandas as pd
import jieba
from wordcloud import WordCloud
# 读取CSV文件
df = pd.read_csv('data.csv', encoding='utf-8')
# 合并所有文本
text = ''
for row in df['content']:
text += row
# 中文分词
words = jieba.cut(text)
# 过滤停用词
stopwords = set()
with open('stopwords.txt', 'r', encoding='utf-8') as f:
for line in f.readlines():
stopwords.add(line.strip())
filtered_words = []
for word in words:
if word not in stopwords:
filtered_words.append(word)
# 统计词频
word_freq = {}
for word in filtered_words:
if word not in word_freq:
word_freq[word] = 1
else:
word_freq[word] += 1
# 生成词云
wc = WordCloud(background_color='white', font_path='msyh.ttc')
wc.generate_from_frequencies(word_freq)
wc.to_file('wordcloud.png')
```
其中,`data.csv`是你要分析的CSV文件,`stopwords.txt`是停用词文件,`msyh.ttc`是中文字体文件。你需要将这些文件放在同一个目录下,并将相应的文件名填入代码中。生成的词云将保存在`wordcloud.png`文件中。
阅读全文