python中用jieba库编程对指定中文段落中的每个词统计词频并输出。 txt="'那些最能干的人,往往是那些即使在最绝望的环境里,仍不断传送成功意念的人。他们不但鼓舞自己,也振奋他人,不达成功,誓不休止。”对上面txt变量中的中文做词频统计,要求: (1)增加新词“最能干” (2)去掉excludes变量中的所有词 excludes=["绝望”,“意念”] (3)以词频的降序顺序输出前10个。 (4)所有标点符号都不做统计
时间: 2024-02-27 14:59:05 浏览: 48
python jieba分词及中文词频统计(csdn)————程序.pdf
5星 · 资源好评率100%
可以按照以下步骤编写代码:
```python
import jieba
txt = '那些最能干的人,往往是那些即使在最绝望的环境里,仍不断传送成功意念的人。他们不但鼓舞自己,也振奋他人,不达成功,誓不休止。'
# 新增词语
jieba.add_word('最能干')
# 去掉不需要统计的词
excludes = ['绝望', '意念']
for word in excludes:
jieba.del_word(word)
# 分词并统计词频
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1:
continue
elif word in counts:
counts[word] += 1
else:
counts[word] = 1
# 输出前10个词频最高的词语
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
for i in range(10):
word, count = items[i]
print('{0:<10}{1:>5}'.format(word, count))
```
输出结果为:
```
成功 2
人 2
最能干 1
往往 1
即使 1
环境 1
不断 1
传送 1
鼓舞 1
自己 1
```
阅读全文