没有合适的资源?快使用搜索试试~ 我知道了~
首页Hadoop中MapReduce基本案例及代码(五)
前四节提供了几个小案例 下面详细介绍MapReduce中Map任务Reduce任务以及MapReduce的执行流程。 Map任务: 读取输入文件内容,解析成key,value对。对输入文件的每一行,解析成key,value对。每一个键值对调用一次map函数。 写自己的逻辑,对输入的key,value处理,转换成新的key,value输出。 对输出的key,value进行分区。 对相同分区的数据,按照key进行排序(默认按照字典排序)、分组。相同key的value放在一个集合中。 (可选)分组后对数据进行归约。 注意:MapReduce中,Mapper可以单独存在,但是Reducer不能存在。
资源详情
资源评论
资源推荐

Hadoop中中MapReduce基本案例及代码(五)基本案例及代码(五)
前四节提供了几个小案例
下面详细介绍MapReduce中Map任务Reduce任务以及MapReduce的执行流程。
Map任务:任务:
读取输入文件内容,解析成key,value对。对输入文件的每一行,解析成key,value对。每一个键值对调用一次map函数。
写自己的逻辑,对输入的key,value处理,转换成新的key,value输出。
对输出的key,value进行分区。
对相同分区的数据,按照key进行排序(默认按照字典排序)、分组。相同key的value放在一个集合中。
(可选)分组后对数据进行归约。
注意:MapReduce中,Mapper可以单独存在,但是Reducer不能存在。
Reduce任务:任务:
对多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点。这个过程并不是map将数据发送给reduce,
而是reduce主动去获取数据。Reduce的个数>=分区的数量。
对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑,对输入的key、value处理,转换成新的key、value输出。
把reduce的输出保存到文件中。
MapReduce执行流程执行流程:
此图为hadoop1.0图 ,2.0多了个yarn。《hadoop权威指南》上有。
run job:客户端提交一个mr的jar包给JobClient(提交方式:hadoop jar …。
a. 做job环境信息的收集,比如各个组件类,输入输出的kv类型等,检测是否合法。
b. 检测输入输出的路径是否合法.
JobClient通过RPC和ResourceManager进行通信,返回一个存放jar包的地址(HDFS)和jobId。jobID是全局唯一的,用于标
识该job。
client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)
开始提交任务(任务的描述信息,不是jar, 包括jobid,jar存放的位置,配置信息等等)
JobTracker进行初始化任务
读取HDFS上的要处理的文件,开始计算输入切片,每一个切片对应一个 MapperTask。注意,切片是一个对象,存储的是这
个切片的数据描述信息;切块是文件块(数据块),里面存储的是真正的文件数据。
TaskTracker通过心跳机制领取任务(任务的描述信息)。切片一般和切块是一样的,即在实际开发中,切块和切片认为是相
同的。在领取到任务之后,要满足数据本地化策略。
下载所需的jar,配置文件等。体现的思想:移动的是运算/逻辑,而不是数据。
TaskTracker启动一个java child子进程,用来执行具体的任务(MapperTask 或ReducerTask)。



















weixin_38530202
- 粉丝: 2
- 资源: 876
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
最新资源
- Xilinx SRIO详解.pptx
- Informatica PowerCenter 10.2 for Centos7.6安装配置说明.pdf
- 现代无线系统射频电路实用设计卷II 英文版.pdf
- 电子产品可靠性设计 自己讲课用的PPT,包括设计方案的可靠性选择,元器件的选择与使用,降额设计,热设计,余度设计,参数优化设计 和 失效分析等
- MPC5744P-DEV-KIT-REVE-QSG.pdf
- 通信原理课程设计报告(ASK FSK PSK Matlab仿真--数字调制技术的仿真实现及性能研究)
- ORIGIN7.0使用说明
- 在VMware Player 3.1.3下安装Redhat Linux详尽步骤
- python学生信息管理系统实现代码
- 西门子MES手册 13 OpcenterEXCR_PortalStudio1_81RB1.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制

评论0