python程序,使用mapreduce字典,实现统计文本中英文单词各个单词的出现次数
时间: 2024-11-29 19:37:23 浏览: 0
调用MapReduce对文件中各个单词出现次数进行统计-附件资源
Python中,MapReduce是一种处理大量数据的模型,通常用于分布式计算环境。然而,它并不是Python内置的数据结构,而是参考了Hadoop MapReduce的概念。在简单的文本处理场景下,我们可以使用列表推导式、字典以及一些循环来统计文本中英文单词的出现次数。这里是一个基本的例子:
```python
def count_words(text):
# 使用split()函数将文本分割成单词列表
words = text.split()
# 创建一个空字典来存储每个单词及其计数
word_count = {}
# 对于列表中的每一个单词
for word in words:
# 清洗英文单词,比如移除标点符号
cleaned_word = word.lower().strip('.,!?')
# 如果单词已经在字典中,增加计数;否则添加新键并设置计数为1
if cleaned_word in word_count:
word_count[cleaned_word] += 1
else:
word_count[cleaned_word] = 1
return word_count
# 示例文本
text = "Hello, world! This is a test. Hello again."
word_count = count_words(text)
print("Word counts:", word_count)
阅读全文