mapreduce词频统计并排序的代码

以下是一个简单的 MapReduce 代码，用于计算文本中每个单词的出现次数并按照出现次数进行排序。 Mapper: ```python import re def mapper(key, value): words = re.findall('\w+', value.lower()) for word in words: yield word, 1 ``` Reducer: ```python def reducer(key, values): yield sum(values), key ``` 排序: ```python def sort(count, word): yield None, (count, word) def top_n_reducer(key, values): for count, word in sorted(values, reverse=True)[:N]: yield count, word ``` 完整代码: ```python import re N = 10 def mapper(key, value): words = re.findall('\w+', value.lower()) for word in words: yield word, 1 def reducer(key, values): yield sum(values), key def sort(count, word): yield None, (count, word) def top_n_reducer(key, values): for count, word in sorted(values, reverse=True)[:N]: yield count, word if __name__ == '__main__': input_data = ['big data', 'data science', 'machine learning', 'deep learning', 'big data'] mapped_data = [mapper(None, d) for d in input_data] shuffled_data = sorted([item for sublist in mapped_data for item in sublist]) reduced_data = [reducer(key, group) for key, group in itertools.groupby(shuffled_data, lambda x: x[0])] sorted_data = [sort(count, word) for count, word in reduced_data] top_n_data = [top_n_reducer(key, group) for key, group in itertools.groupby(sorted_data, lambda x: x[0])] for count, word in itertools.chain(*top_n_data): print('%s: %i' % (word, count)) ``` 在这个例子中，我们定义了一个 `N` 变量，表示我们只想要统计前 `N` 个最常出现的单词。然后，我们定义了一个 `mapper` 函数，它将每个单词映射到一个 `(word, 1)` 键值对。接下来，我们定义了一个 `reducer` 函数，它将每个单词的出现次数相加。最后，我们定义了一个 `sort` 函数，它对 `(count, word)` 键值对进行排序，并定义了一个 `top_n_reducer` 函数，它只返回前 `N` 个最常出现的单词。在 `main` 函数中，我们首先定义了一些输入数据。然后，我们使用 `mapped_data` 变量将每个输入数据中的单词映射到键值对。接下来，我们使用 `shuffled_data` 变量将所有键值对按键进行排序。然后，我们使用 `reduced_data` 变量将所有具有相同键的键值对合并到一起。接下来，我们使用 `sorted_data` 变量对所有 `(count, word)` 键值对进行排序。最后，我们使用 `top_n_data` 变量返回前 `N` 个最常出现的单词，并将它们打印出来。

阅读全文

mapreduce词频统计并排序的代码

相关推荐

MapReduce实现词频统计与数据去重及TopN分析

MapReduce实现中文和英文TopN词频统计详细教程

MapReduce实战：Java实现词频统计与分布式计算

python mapreduce词频统计

解决数据倾斜：MapReduce词频统计案例全解析

MapReduce词频统计深度剖析：掌握Hadoop框架核心

深度解析MapReduce词频统计：打造高性能分布式计数器

性能监控的艺术：深入分析MapReduce词频统计作业

大规模文本分析指南：如何使用MapReduce词频统计

高级MapReduce词频统计技巧：精通Combiner应用与优势

MapReduce词频统计进阶课：大规模数据集处理秘诀

最佳实践：如何编写可扩展的MapReduce词频统计作业

分析数据处理策略：不同类型输入数据的MapReduce词频统计

MapReduce词频统计秘籍：从入门到精通的20个实用技巧

MapReduce词频统计调试与优化：提升作业效率的20条黄金法则

MapReduce高效词频统计指南：掌握性能优化的艺术

mapreduce词频排序

针对这个文件帮我写一份MapReduce词频统计源码

深入MapReduce Shuffle过程：优化词频统计的关键步骤

大家在看

基于双流融合网络的单兵伪装偏振成像检测.docx

ABAP代码性能指导

CMOS反相器的掩膜版图-集成电路版图设计

读写通达信股票软件二进制dat文件

FAST FACTORIZED_FFBP论文_FFBP_后向投影.zip

最新推荐

《COMSOL顺层钻孔瓦斯抽采实践案例分析与技术探讨》,COMSOL模拟技术在顺层钻孔瓦斯抽采案例中的应用研究与实践,comsol顺层钻孔瓦斯抽采案例 ,comsol;顺层钻孔;瓦斯抽采;案例,COM

MATLAB驱动的高尔夫模拟仿真系统：深度定制球杆与挥杆参数的互动体验,基于MATLAB的全方位高尔夫模拟仿真系统：精确设定球杆与天气因素，让用户享受个性化的挥杆力量与角度掌控体验,基于MATLAB的

双闭环控制策略在直流电机控制系统仿真中的应用研究,直流电机双闭环控制系统的仿真研究与性能优化分析,直流电机双闭环控制，有关直流电机控制系统仿真均 ,直流电机; 双闭环控制; 控制系统仿真,直流电机双闭

基于LCL滤波的光伏PV三相并网逆变器MATLAB仿真研究：集成MPPT控制、坐标变换与功率解耦控制技术实现高效同步输出,基于LCL滤波的光伏PV三相并网逆变器MATLAB仿真研究：MPPT控制与dq

校园健康管理系统（springboot + mysql）

PHP集成Autoprefixer让CSS自动添加供应商前缀

揭秘数字音频编码的奥秘：非均匀量化A律13折线的全面解析

arduino PAJ7620U2

网站啄木鸟：深入分析SQL注入工具的效率与限制

【GPStoolbox使用技巧大全】：20个实用技巧助你精通GPS数据处理