首页使用jieba,文档中有5篇文档，对文档进行分词，并建立分词表，统计词出现的概率，列出top100的高频词

使用jieba,文档中有5篇文档，对文档进行分词，并建立分词表，统计词出现的概率，列出top100的高频词

时间: 2024-09-08 07:01:33 浏览: 79

jieba是一个常用的Python中文分词库，可以将文本句子切分成单词或短语，非常适合中文文本的处理。以下是使用jieba进行分词并建立分词表，统计词频并列出前100个高频词的步骤： 1. 首先，需要安装jieba库，如果还未安装，可以通过pip命令安装： ``` pip install jieba ``` 2. 导入jieba库，并创建一个空的字典用于统计词频： ```python import jieba # 创建一个空的字典用于存储词频 word_freq = {} ``` 3. 准备你的文档数据，假设有5篇文档，可以是字符串列表： ```python documents = [ "这里是文档1的内容...", "这里是文档2的内容...", "这里是文档3的内容...", "这里是文档4的内容...", "这里是文档5的内容..." ] ``` 4. 遍历文档列表，对每篇文档使用jieba进行分词，并更新词频字典： ```python for doc in documents: # 使用jieba进行分词，返回一个分词列表 words = jieba.lcut(doc) # 遍历分词结果，更新词频字典 for word in words: if word not in word_freq: word_freq[word] = 1 else: word_freq[word] += 1 ``` 5. 对词频字典按频率进行排序，并获取前100个高频词： ```python # 对字典项按值（词频）进行降序排序 sorted_word_freq = sorted(word_freq.items(), key=lambda x: x[1], reverse=True) # 获取前100个高频词 top_100_words = sorted_word_freq[:100] ``` 6. 输出前100个高频词及其频率： ```python for word, freq in top_100_words: print(f"{word}: {freq}") ``` 以上就是使用jieba对多篇文档进行分词，建立分词表，统计词频并列出前100个高频词的基本流程。

阅读全文