首页python数据预处理，jieba分词，去除停用词，词频分析，并生成词云图代码

python数据预处理，jieba分词，去除停用词，词频分析，并生成词云图代码

时间: 2023-04-02 20:03:55 浏览: 287

python使用jieba实现中文分词去停用词方法示例

前言 jieba 基于Python的中文分词工具，安装使用非常方便，直接pip即可，2/3都可以，功能强悍，十分推荐。中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词模块jieba，它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8 支持三种分词模式 1 精确模式，试图将句子最精确地切开，适合文本分析； 2 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快

以下是 Python 数据预处理、jieba 分词、去除停用词、词频分析并生成词云图的代码： ```python import jieba from collections import Counter from wordcloud import WordCloud import matplotlib.pyplot as plt # 读取文本文件 with open('text.txt', 'r', encoding='utf-8') as f: text = f.read() # 使用 jieba 分词 words = jieba.cut(text) # 去除停用词 stopwords = ['的', '了', '是', '我', '你', '他', '她', '我们', '你们', '他们'] words = [word for word in words if word not in stopwords] # 统计词频 word_counts = Counter(words) # 生成词云图 wordcloud = WordCloud(font_path='msyh.ttc', background_color='white').generate_from_frequencies(word_counts) plt.imshow(wordcloud, interpolation='bilinear') plt.axis('off') plt.show() ``` 希望能对你有所帮助！

阅读全文