使用jieba,文档中有5篇文档,对文档进行读取,分词,并建立分词表,统计词出现的概率,列出top100的高频词
时间: 2024-09-09 08:00:41 浏览: 55
python使用jieba实现中文分词去停用词方法示例
Jieba是一个用于中文文本处理的Python库,它包括分词功能,支持三种分词模式:精确模式、全模式和搜索引擎模式。以下是使用Jieba进行文档读取、分词、建立分词表和统计词频的基本步骤:
1. 首先需要安装Jieba库,如果未安装,可以使用pip进行安装:
```
pip install jieba
```
2. 准备文本文件,假设有5篇文档,文档内容可以是纯文本格式,例如txt文件。
3. 编写Python脚本,导入jieba库,并对每篇文档进行读取和分词。
4. 创建一个字典用于统计词频。遍历每篇文档,将分词结果放入字典中,同时更新词频。
5. 对字典中的词频进行排序,并选出频率最高的前100个词。
以下是一个简单的示例代码:
```python
import jieba
# 初始化词频统计字典
word_freq = {}
# 假设文档内容存储在一个列表中,每个元素是一篇文档的内容
documents = [
"这是第一篇文档的内容...",
"这是第二篇文档的内容...",
"这是第三篇文档的内容...",
"这是第四篇文档的内容...",
"这是第五篇文档的内容..."
]
# 对每篇文档进行分词并统计词频
for doc in documents:
# 使用jieba进行分词
words = jieba.cut(doc)
for word in words:
# 将词转化为小写,并去除标点符号等非汉字字符
word = word.strip(',。!?;:').lower()
if word: # 过滤掉空字符串
word_freq[word] = word_freq.get(word, 0) + 1
# 根据词频进行排序,并获取前100个高频词
top_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)[:100]
for word, freq in top_words:
print(word, freq)
```
注意:这里假设了文档内容是预先准备好的,实际使用时,需要根据实际情况从文件中读取文档内容。
阅读全文