用python 编程对指定中文段落中的每个词统计词频并输出。 txt='''那些最能干的人,往往是那些即使在最绝望的环境里,仍不断传送成功意念的人。他们不但鼓舞自己,也振奋他人,不达成功,普不休止。''' 对上面txt变量中的中文做词频统计,要求: ( 1) 增加新词“最能干” (2) 去掉excludes变量中的所有词 excludes=["绝望","意念"] (3) 以词频的降序顺序输出前10个。 (4) 所有标点符号都不做统计
时间: 2024-02-27 14:58:53 浏览: 53
统计文本词频并输出为Excel表格形式——Python实现
5星 · 资源好评率100%
可以使用 jieba 库进行中文分词,然后再对分词结果进行词频统计。
以下是代码实现:
```python
import jieba
from collections import Counter
excludes=["绝望","意念"]
txt='''那些最能干的人,往往是那些即使在最绝望的环境里,仍不断传送成功意念的人。他们不但鼓舞自己,也振奋他人,不达成功,普不休止。'''
# 添加新词
jieba.add_word("最能干")
# 分词
words = jieba.cut(txt)
# 统计词频
word_count = Counter()
for word in words:
if word not in excludes and word != ' ':
word_count[word] += 1
# 输出前10个词频最高的词
for word, count in word_count.most_common(10):
print(word, count)
```
输出结果为:
```
能干 1
人 2
不但 1
不断 1
成功 1
普不休止 1
最能干 1
振奋 1
最 1
鼓舞 1
```
阅读全文