from wordcloud import WordCloud import jieba import matplotlib.pyplot as plt 配置基础文件路径信息: filename = "../task/ershoufang_jinan_utf8_clean.csv" backpicture = "../task/rose.jpg" savepicture = "济南二手房数据词云.png" fontpath = "../task/simhei.ttf" stopwords = ["null","暂无","数据","上传","照片","房本"] 步骤二:分词 通过jieba完成分词,并剔除掉不需要的停用词。 参照下面的提示补全缺失的代码: # 参照下面的提示补全缺失的代码: # 读入数据文件 # 读取背景图片 # 调用jieba进行分词,将分词结果存放在ershoufang_words中 # 从ershoufang_words列表中筛选出不在stopwords列表中的单词,并将这些单词存储在一个新列表中
时间: 2023-07-22 17:09:19 浏览: 106
jieba-0_jieba安装0.4.1_jieba-0.42.1.tar_jieba-0.42.1.tar.gz_jieba-
5星 · 资源好评率100%
补全代码如下:
```python
# 读入数据文件
data = pd.read_csv(filename)
# 读取背景图片
background_image = plt.imread(backpicture)
# 调用jieba进行分词,将分词结果存放在ershoufang_words中
ershoufang_words = []
for text in data['text']:
words = jieba.lcut(text)
ershoufang_words.extend(words)
# 从ershoufang_words列表中筛选出不在stopwords列表中的单词,并将这些单词存储在一个新列表中
filtered_words = [word for word in ershoufang_words if word not in stopwords]
```
以上代码使用`pandas`库的`read_csv`函数读取数据文件,并使用`plt.imread`函数读取背景图片。然后,通过循环遍历数据中的文本,使用`jieba.lcut`方法进行分词,并将分词结果添加到`ershoufang_words`列表中。最后,使用列表推导式从`ershoufang_words`中筛选出不在`stopwords`列表中的单词,将这些单词存储在`filtered_words`列表中。
请确保已经正确导入所需的库(如`pandas`、`matplotlib.pyplot`、`jieba`)并正确设置了文件路径信息和停用词列表。
阅读全文