基于hadoop streaming进行mapreduce实践

基于Hadoop Streaming进行MapReduce实践需要遵循以下步骤： 1. 编写Mapper和Reducer代码，将其保存为可执行文件或脚本。Mapper和Reducer可以使用任何编程语言，只要它们可以在命令行上运行即可。 2. 在Hadoop集群上启动Hadoop Streaming作业，并指定Mapper和Reducer的可执行文件或脚本路径。 3. 将输入数据上传到HDFS中，并指定输入路径作为Hadoop Streaming作业的输入。 4. 指定输出路径作为Hadoop Streaming作业的输出。 5. 启动Hadoop Streaming作业，并等待作业完成。下面是一个简单的示例，展示如何使用Hadoop Streaming进行单词计数： 1. 编写Mapper代码，将其保存为Python脚本： ```python #!/usr/bin/env python import sys for line in sys.stdin: line = line.strip() words = line.split() for word in words: print(word + '\t' + '1') ``` 2. 编写Reducer代码，将其保存为Python脚本： ```python #!/usr/bin/env python import sys current_word = None current_count = 0 word = None for line in sys.stdin: line = line.strip() word, count = line.split('\t', 1) count = int(count) if current_word == word: current_count += count else: if current_word: print(current_word + '\t' + str(current_count)) current_count = count current_word = word if current_word == word: print(current_word + '\t' + str(current_count)) ``` 3. 将Mapper和Reducer保存为可执行文件，并上传到HDFS中。 4. 将输入数据上传到HDFS中，例如： ```bash $ hadoop fs -put input.txt /input ``` 5. 启动Hadoop Streaming作业： ```bash $ hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar \ -file mapper.py -mapper mapper.py \ -file reducer.py -reducer reducer.py \ -input /input -output /output ``` 在这个命令中，我们指定了Mapper和Reducer的Python脚本路径，以及输入和输出路径。Hadoop Streaming会自动将输入数据分割成小块，并将它们分配给Mapper进行处理。Mapper将每个单词映射到一个计数器，并将其发送到Reducer进行聚合。最终结果被写入到输出路径中。 6. 查看输出结果： ```bash $ hadoop fs -cat /output/* ``` 这将显示单词和它们的计数器，例如： ```text hello 2 world 1 ``` 这就是基于Hadoop Streaming进行MapReduce实践的基本步骤。你可以使用不同的编程语言和算法来解决不同的问题。

阅读全文

基于hadoop streaming进行mapreduce实践

相关推荐

hadoop mapreduce编程实战

hadoop-mapreduce

基于hadoop mapreduce云计算

efflux:Rust中的Easy Hadoop Streaming和MapReduce接口

hadoop-streaming-recipes:使用 hadoop-streaming 收集 MapReduce 的食谱

vessel:Elixir MapReduce与Hadoop Streaming集成接口

HadoopStreaming

Hadoop - Hadoop Streaming

Hadoop Core(MapReduce + YARN + HDFS)_

Hadoop-Streaming:Hadoop2.6 MapReduce2 Python3.5的一些经典入门程序：词频统计、好友推荐、PageRank

hadoop streaming 表

Hadoop Streaming 编程

Python_Hadoop_MapReduce_MarketBasketAnalysis:在Python中使用Hadoop MapReduce进行市场分析

基于Hadoop的大数据工程实践多层次教学设计.zip

Hadoop Streaming教程：实现MapReduce的灵活工具

Hadoop平台下MapReduce源码打包详解

Hadoop Streaming食谱集：多语言MapReduce程序实现

Hadoop Streaming：使用非Java语言进行MapReduce编程

最新推荐

在Hadoop的MapReduce任务中使用C程序的三种方法

Hadoop_MapReduce教程.doc

实验七：Spark初级编程实践

使用python实现mapreduce（wordcount）.doc

构建企业级数仓-Hadoop可行性分析报告.docx

Java毕业设计项目：校园二手交易网站开发指南

管理建模和仿真的文件

【MVC标准化：肌电信号处理的终极指南】：提升数据质量的10大关键步骤与工具

能否提供一个在R语言中执行Framingham数据集判别分析的详细和完整的代码示例？

Blaseball Plus插件开发与构建教程