python【问题描述】统计中文文档中词频信息 【输入形式】 【输出形式】最多的前十位词汇和次数的信息
时间: 2023-12-03 21:05:50 浏览: 193
基于Python实现对Word文档的文本分词,词频统计输出,以及绘制词云图.zip
5星 · 资源好评率100%
以下是一个简单的 Python 程序,可以实现输入中文文档,统计词频信息,并输出最多的前十位词汇和次数的信息:
```python
import jieba
from collections import Counter
# 读取文档
with open('document.txt', 'r', encoding='utf-8') as f:
document = f.read()
# 分词,过滤停用词
words = [w for w in jieba.lcut(document) if w.strip() and w not in {',', '。', '!', '?', '\n'}]
# 统计词频
word_count = Counter(words)
# 输出最多的前十位词汇和次数的信息
most_common = word_count.most_common(10)
for word, count in most_common:
print(f'{word}\t{count}')
```
其中,需要注意以下几点:
1. 需要使用 `jieba` 库进行中文分词,需要先安装该库。
2. 可以根据实际情况自定义停用词列表,这里只是简单地过滤了一些常见的标点符号和换行符。
3. 输出格式可以根据实际需要进行调整,这里使用了 f-string 进行格式化输出。
希望这个程序能够帮助到你。
阅读全文