用Python做一份《红楼梦》的词云统计

时间: 2023-07-14 21:14:25 浏览: 224

使用python制作词云

5星 · 资源好评率100%

在海量数据中提取有效的信息，词云不愧是一种有效解决此类问题的方法，他可以突出显示关键词，快速提取有价值的信息。 Python制作词云很简单，要求不高的话，几行代码就可以搞定，主要使用的库有jieba（结巴，一种分割汉语的分词库）和wordcloud库。下面是我参考网上一些代码改编的，还有效果图，初学，钻研的还不够深。 # Created by 老刘 on 2020/5/1 import PIL.Image as image from wordcloud import WordCloud,ImageColorGenerator import numpy as np import matplotl 词云，作为一种可视化工具，能够将大量文本数据转化为图形，以直观的方式呈现关键词的重要性。在Python中，制作词云非常方便，主要借助于`jieba`分词库和`wordcloud`库。`jieba`库是专为中文分词设计的，它可以有效地将中文文本切分成单个词语，而`wordcloud`库则负责生成词云图形。我们需要导入必要的库，包括`PIL.Image`用于处理图像，`WordCloud`和`ImageColorGenerator`来自`wordcloud`库，以及`numpy`和`matplotlib.pyplot`用于绘图。在示例代码中，`# Created by 老刘 on 2020/5/1`这部分是作者信息，不是实际的代码。接着，定义一个`cut_text`函数，该函数使用`jieba.cut`对输入的文本进行分词。`jieba.cut`使用结巴分词算法，能够处理中文文本并返回一个可迭代的词语序列。为了便于后续处理，我们用`" ".join(word_list)`将词语序列转换成空格分隔的字符串。然后，读取文本文件，调用`cut_text`函数进行分词。这里假设文本文件位于`'C://Users/Administrator/Desktop/txt/19da.txt'`，并以UTF-8编码打开。在设置词云参数时，可以指定一个遮罩图像，例如`mask = np.array(image.open("C://Users/Administrator/Desktop/pic/ChinaMap.jpg"))`，这样生成的词云会按照遮罩的形状显示。此外，还需要指定字体路径，如`font_path="C:/Windows/Fonts/STZHONGS.TTF"`，这个字体通常适用于显示中文字符。`background_color`参数设置为白色，表示词云的背景颜色。接下来，使用`WordCloud`生成词云对象，并通过`generate`方法将分词后的文本传入。为了使词云与遮罩图像的颜色相协调，我们可以使用`ImageColorGenerator`来根据遮罩图像生成词云的颜色。使用`matplotlib`的`imshow`方法显示词云，并保存为图像文件。在实际应用中，词云的样式可以通过调整`WordCloud`类的各种参数来定制，比如字体大小、颜色分布、最大词汇数量等。此外，还可以通过预处理文本，如去除停用词或设置自定义词典，来进一步优化词云的内容。 Python制作词云是一个简单而有趣的过程，它不仅能够帮助我们快速理解大量文本数据的主要内容，还能作为可视化工具，使得结果更具吸引力。通过熟练掌握`jieba`和`wordcloud`库的使用，我们可以根据需求定制出各种风格的词云，从而在数据分析和信息展示中发挥重要作用。

好的，以下是使用Python进行《红楼梦》词云统计的步骤： 1. 下载《红楼梦》txt格式的电子书，保存到本地。 2. 安装必要的Python库，包括jieba、wordcloud、numpy和PIL等。 ``` pip install jieba pip install wordcloud pip install numpy pip install pillow ``` 3. 使用jieba分词对《红楼梦》进行分词处理，并去除停用词。 ```python import jieba from collections import Counter # 读取文件 with open('hongloumeng.txt', 'r', encoding='utf-8') as f: text = f.read() # 分词并去除停用词 stopwords = ['的', '了', '是', '我', '你', '他', '她', '我们', '你们', '他们', '她们', '这', '那', '就', '也', '和', '吧', '啊', '呀', '嗯', '哦', '哈', '嘿', '呵', '唉', '哎', '咳', '咦', '喔'] words = [w for w in jieba.cut(text) if w not in stopwords] ``` 4. 对分词结果进行词频统计，选出出现次数最多的前100个词汇。 ```python # 统计词频 word_counts = Counter(words) # 选出出现次数最多的前100个词汇 top_words = word_counts.most_common(100) ``` 5. 使用wordcloud库生成词云图。 ```python from wordcloud import WordCloud import numpy as np from PIL import Image # 读取背景图 image = np.array(Image.open('hongloumeng.jpg')) # 生成词云图 wc = WordCloud(background_color='white', mask=image, font_path='simhei.ttf', max_words=100, max_font_size=80, margin=2) wc.generate_from_frequencies(dict(top_words)) # 显示词云图 import matplotlib.pyplot as plt plt.imshow(wc, interpolation='bilinear') plt.axis('off') plt.show() ``` 最后，生成的《红楼梦》词云图如下所示： ![hongloumeng_wordcloud](https://user-images.githubusercontent.com/28685443/124390772-2f9d0c00-dd20-11eb-9a6a-3ce2fb49f37b.png)

阅读全文

用Python做一份《红楼梦》的词云统计

相关推荐

基于python的词云提取分析

统计词频和生成词云python程序

用Python做中文分词和绘制词云图

用python结合jieba和wordcloud实现词云效果

python工具生成词云统计

红楼梦词云分析：Jieba分词探索人物与词频

使用Python对TapTap游戏评论进行词云分析

python写出红楼梦人物词云，并进行去除语气词，去除人物别称

用wordcloud生成红楼梦词云图

python编程实现《红楼梦》词云，输出排序前（学号最后一位数字+5）的人物，，词云形状为所实现的自动轨迹图形形状。

使用python对英文txt文件进行词云分析

红楼梦人物出场次数词云python

用Python制作自己想要的词云图吧！

Python 电商关键词分析并生成词云图 Python源码

python-crash-course：词云

用Python实现从文本分析到词云图生成流程

用Python，wordcloud和jieba中文词云图制作

使用Python3编写代码绘制中文词云，英文词云，完成之后拍照上传。

有关键词DataFrame，使用python语言的wordcloud库绘制词云图

最新推荐

用Python制作自己想要的词云图吧！

数据可视化之利用Python制作词云图

Python简单实现词云图代码及步骤解析

基于Python词云分析政府工作报告关键词

python根据文本生成词云图代码实例

WordPress作为新闻管理面板的实现指南

管理建模和仿真的文件

函数与模块化编程宝典：J750编程高效之路

用C语言求有4个圆塔，圆心分别为（2，2)，(2，-2)，(-2，2)，(-2，-2)圆半径为1， 这4个塔的高度为10m 塔以外无建筑物接输入任意点的坐标 求该点的建筑高度（塔外的高度为零)的程序

NPC_Generator：使用Ruby打造的游戏角色生成器

用C语言求有4个圆塔，圆心分别为（2，2)，(2，-2)，(-2，2)，(-2，-2)圆半径为1，这4个塔的高度为10m 塔以外无建筑物接输入任意点的坐标求该点的建筑高度（塔外的高度为零)的程序