使用jieba,文档中有5篇文档,对文档进行分词,并建立分词表,统计词出现的概率,列出top100的高频词
时间: 2024-09-08 10:01:33 浏览: 70
jieba是一个常用的Python中文分词库,可以将文本句子切分成单词或短语,非常适合中文文本的处理。以下是使用jieba进行分词并建立分词表,统计词频并列出前100个高频词的步骤:
1. 首先,需要安装jieba库,如果还未安装,可以通过pip命令安装:
```
pip install jieba
```
2. 导入jieba库,并创建一个空的字典用于统计词频:
```python
import jieba
# 创建一个空的字典用于存储词频
word_freq = {}
```
3. 准备你的文档数据,假设有5篇文档,可以是字符串列表:
```python
documents = [
"这里是文档1的内容...",
"这里是文档2的内容...",
"这里是文档3的内容...",
"这里是文档4的内容...",
"这里是文档5的内容..."
]
```
4. 遍历文档列表,对每篇文档使用jieba进行分词,并更新词频字典:
```python
for doc in documents:
# 使用jieba进行分词,返回一个分词列表
words = jieba.lcut(doc)
# 遍历分词结果,更新词频字典
for word in words:
if word not in word_freq:
word_freq[word] = 1
else:
word_freq[word] += 1
```
5. 对词频字典按频率进行排序,并获取前100个高频词:
```python
# 对字典项按值(词频)进行降序排序
sorted_word_freq = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)
# 获取前100个高频词
top_100_words = sorted_word_freq[:100]
```
6. 输出前100个高频词及其频率:
```python
for word, freq in top_100_words:
print(f"{word}: {freq}")
```
以上就是使用jieba对多篇文档进行分词,建立分词表,统计词频并列出前100个高频词的基本流程。
阅读全文