读取文本,分词并进行统计词频
时间: 2023-07-11 22:19:42 浏览: 73
采用多种方式实现词频统计
这里提供一个Python实现的例子,使用了jieba分词和collections模块的Counter函数进行词频统计。
```python
import jieba
from collections import Counter
# 读取文本文件
with open("input.txt", "r", encoding="utf-8") as f:
text = f.read()
# 分词
seg_list = jieba.cut(text)
# 统计词频
word_counts = Counter(seg_list)
# 输出前10个出现频率最高的词和对应的词频
for word, count in word_counts.most_common(10):
print(word, count)
```
需要注意的是,使用之前需要确保已经安装了jieba和collections模块。可以使用`pip install jieba`和`pip install collections`命令进行安装。此外,需要将代码中的"input.txt"替换成要读取的文本文件的路径。
阅读全文