怎么统计txt文档里面分词结果的数量?python代码怎么写
时间: 2024-03-25 12:41:55 浏览: 51
要统计一个文本文件中分词结果的数量,你可以使用 Python 的标准库中的 `collections` 模块中的 `Counter` 类。下面是一个示例代码:
```python
import jieba
from collections import Counter
# 读取文本文件
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 分词
words = jieba.cut(text)
# 统计词频
word_counts = Counter(words)
# 输出结果
for word, count in word_counts.most_common():
print(word, count)
```
在上面的代码中,我们首先使用 `open` 函数读取文本文件,并将其内容存储在 `text` 变量中。然后,我们使用 jieba 库对文本进行分词,获取到一个包含所有分词结果的列表。接着,我们使用 `collections` 模块中的 `Counter` 类对分词结果进行词频统计,得到一个字典,其中键为分词结果,值为分词结果出现的次数。最后,我们使用 `most_common` 方法按照词频从高到低排序,并输出结果。
需要注意的是,在使用 `jieba.cut` 函数对文本进行分词时,我们可以根据实际需求选择不同的分词模式和配置参数。例如,可以使用 `jieba.cut(text, cut_all=True)` 来开启全模式分词,或者使用 `jieba.cut_for_search(text)` 来进行搜索引擎模式的分词。
阅读全文