使用python代码编写一个对一段不带符号文本的不同单词个数以及输出词频最大的前五个词的程序
时间: 2024-05-03 10:17:54 浏览: 81
python项目实例代码源码-用Python分析文本数据的词频.zip
可以使用Python的collections模块中的Counter类来实现计数,并用heapq模块来找到前五个最大的元素。下面是一个示例程序:
```python
import re
import collections
import heapq
# 读入文本
text = "This is a sample text with several words. We are going to count the number of occurrences of each word in this text. This is a sample text with repeated words."
# 去除标点符号并转化为小写
text = re.sub(r'[^\w\s]', '', text).lower()
# 计算每个单词出现次数
word_counts = collections.Counter(text.split())
# 输出不同单词的数量
print("不同的单词数量:", len(word_counts))
# 输出词频最大的前五个单词
top_five_words = heapq.nlargest(5, word_counts.items(), key=lambda x: x[1])
print("词频最大的前五个单词:")
for word, count in top_five_words:
print(word, count)
```
输出结果为:
```
不同的单词数量: 16
词频最大的前五个单词:
this 2
is 2
a 2
sample 2
text 2
```
阅读全文