解释这个代码import openpyxl, jieba, wordcloud import matplotlib.pyplot as plt from PIL import Image import numpy as np wb = openpyxl.load_workbook('豆瓣短评爬虫_电影、图书_哆啦A梦伴我同行2.xlsx') ws = wb.active content = '' for row in range(2, ws.max_row+1): content += ws.cell(row, 7).value t_1 = jieba.lcut(content) t_2 = ''.join(t_1) f_1 = open('stopwords.txt', 'r', encoding='utf-8') s_list = [] for i in f_1.readlines(): s_list.append(i.strip()) for line in s_list: t_2 = t_2.replace(line, '') photo = np.array(Image.open('皮卡丘.jpg')) tu = wordcloud.WordCloud(font_path='STKAITI.TTF', colormap='cool', background_color='white', mask=photo) tu.generate(t_2) tu.to_file('tu2.jpg') plt.imshow(tu) plt.axis('off') plt.show()

时间: 2023-05-17 08:06:13 浏览: 205

python词云库wordCloud使用方法详解(解决中文乱码)

### Python词云库wordCloud使用方法详解（解决中文乱码） #### 一、解决中文乱码问题在使用Python的`wordCloud`库时，可能会遇到一个常见的问题——中文词云出现乱码的情况。这是因为`wordCloud`库默认使用的字体（DroidSansMono.ttf）并不支持中文字符。为了解决这个问题，我们需要替换掉默认的字体。 ##### 1. 替换默认字体要使`wordCloud`支持中文，最直接的方法是替换默认的字体文件。具体步骤如下： - **下载中文字体文件**：首先需要下载一个支持中文的字体文件，如“SimHei.ttf”（黑体）或其他支持中文的字体。 - **复制字体文件**：将下载好的字体文件复制到`wordCloud`库所在的目录中。通常这个目录位于Anaconda或Python的安装目录下，路径为`anaconda(python) --> lib --> site-packages --> wordcloud`。 - **修改配置文件**：接着需要修改`wordcloud.py`文件中的字体设置。打开该文件并找到字体设置的部分（大约在第29行），将默认的字体`DroidSansMono.ttf`更改为`SimHei.ttf`。 ##### 2. 设置matplotlib以显示中文除了替换字体之外，还需要确保`matplotlib`库能够正确显示中文。这可以通过以下代码实现： ```python # 用来正常显示中文 plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示负号 plt.rcParams['axes.unicode_minus'] = False ``` 这样，就可以避免在显示词云时出现乱码的问题了。 #### 二、wordCloud库的基本使用示例下面提供两个示例来演示如何使用`wordCloud`库创建词云。 ##### 1. 设计简单的圆形词云 ```python import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud from PIL import Image import os # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False def create_circular_wordcloud(): text = "第一第二第三第四" # 创建圆形掩模 x, y = np.ogrid[:300, :300] mask = (x - 150) ** 2 + (y - 150) ** 2 > 130 ** 2 mask = 255 * mask.astype(int) wc = WordCloud(background_color="white", font_path='SimHei.ttf', mask=mask) wc.generate(text) plt.axis("off") plt.imshow(wc, interpolation="bilinear") plt.show() create_circular_wordcloud() ``` ##### 2. 以图片形状作为背景设计词云本示例将展示如何根据特定图像的形状生成词云。这里假设有一个文本文件和一个图像文件，首先需要对文本进行分词处理，并移除停用词。 - **分词**：使用`jieba`库对文本进行分词，并在每个词之间插入空格以方便词云生成。 - **加载停用词**：从文件中加载停用词列表，以便在生成词云时排除这些词。 ```python def segment_words(text): words = jieba.cut(text, cut_all=False) return " ".join(words) def get_stopwords(file_path): stopwords = set() with open(file_path, 'r', encoding='utf-8') as f: for line in f: stopwords.add(line.strip()) return stopwords # 假设文本文件路径为 'input_text.txt' 和图片路径为 'mask_image.png' text_path = 'input_text.txt' image_path = 'mask_image.png' with open(text_path, 'r', encoding='utf-8') as f: text = f.read() stopwords = get_stopwords('stopwords.txt') text = segment_words(text) # 加载图像作为掩模 mask = np.array(Image.open(image_path)) wc = WordCloud(font_path='SimHei.ttf', background_color='white', mask=mask, stopwords=stopwords) wc.generate(text) plt.imshow(wc, interpolation='bilinear') plt.axis('off') plt.show() ``` 通过以上步骤，我们可以成功地使用`wordCloud`库生成中文词云，并解决中文乱码的问题。

这段代码是一个Python程序，它使用了openpyxl、jieba、wordcloud、matplotlib.pyplot和PIL等库。程序的功能是读取一个名为“豆瓣短评爬虫_电影、图书_哆啦A梦伴我同行2.xlsx”的Excel文件，提取其中第7列的内容，并使用jieba库进行分词处理。接着，程序读取一个名为“stopwords.txt”的文本文件，将其中的停用词去除。最后，程序使用wordcloud库生成一个名为“tu2.jpg”的词云图，并使用matplotlib.pyplot库将其显示出来。

阅读全文

相关推荐

Python 微信之获取好友昵称并制作wordcloud的实例

Python制作词云图代码实例

import wordcloud c = wordcloud.WordCloud() c.generate("Python Java Python JavaScript Python Go Python Ruby Python Lua") c.save_file("outfile.png")

numpy、pandas、scipy、matplotlib、jieba、 openpyxl、pillow导入这几个库的代码

利用jieba,wordcloud模块创建一个自己的词云, 需要用到掩模图像, 图像样式自定义

python利用jieba wordcloud词云图怎么做

只用jieba 和wordcloud库制作异型图

运用wordcloud词云工具包，使用python语言并使用蒙版(如下人物图片)，生成《红楼梦》出场人物统计(见：appearance.txt)词云，提交python代码与运行结果。

wordcloud库生成Python词云图代码

用Python和WordCloud绘制词云的实现方法(内附让字体清晰的秘笈)

3.1.1python词云扩展库

最新推荐

WorkerError(解决方案).md

2024-2025第一学期一上U1～3.pdf

Redis详解与常见问题解决方案中文最新版本

ASP+ACCESS航班在线定票系统设计(源代码+论文)（源代码+论文+说明文档）.zip

MATLAB实现小波阈值去噪：Visushrink硬软算法对比

管理建模和仿真的文件

【交互特征的影响】：分类问题中的深入探讨，如何正确应用交互特征

c语言从链式队列 中获取头部元素并返回其状态的函数怎么写

易语言实现画板图像缩放功能教程

"互动学习：行动中的多样性与论文攻读经历"

c语言从链式队列中获取头部元素并返回其状态的函数怎么写