Hadoop MapReduce：修复获取最大值与最小值的问题

需积分: 1 146 浏览量更新于2024-09-12 收藏 31KB DOCX 举报

"Hadoop MapReduce学习笔记，专注于解决在实现类似SQL中的max和min功能时遇到的问题" 在Hadoop MapReduce框架中，处理类似SQL查询，如`SELECT MAX(NUMBER), MIN(NUMBER) FROM TABLE`这样的任务时，需要注意特定的编程细节。在传统的MapReduce实现中，如果直接沿用输出单个值的方法，可能会得到错误的结果。这是因为Hadoop MapReduce设计为可以输出多个键值对，而不是单一的值。在提供的Java代码片段中，可以看到一个名为`GetMaxAndMinValueMapReduceFixTest`的类，它是`MyMapReduceSIngleColumnTest`的子类。这个类的目的是修正之前可能存在的问题，以正确计算最大值和最小值。 1. **Mapper阶段**： - Mapper的主要任务是读取输入数据，通常是行数据，并将其拆分为键值对。在这个例子中，可能是将每行的数据视为一个Text对象，然后使用LongWritable作为值类型，表示数值。 - `StringTokenizer`用于解析每一行数据，将其分解成单词或字段。在这里，它可能被用来获取每行中的数字。 - Mapper会为每个数字生成一个键值对，其中键是固定的（例如，可以是空字符串或特定的标记），值是数字本身。这样做的目的是确保所有数字都会被Reducer处理。 2. **Reducer阶段**： - Reducer接收到Mapper输出的所有键值对，对于每个唯一的键（在这个例子中，只有一个键），它会收到一组值（即所有的数字）。 - 在Reducer内部，需要实现逻辑来找出这一组值中的最大值和最小值。这通常涉及到遍历整个值集合并维护当前的最大值和最小值变量。 - 最终，Reducer只需要输出一个键值对，其中键仍然是固定的，值是一个包含最大值和最小值的结构（例如，可以是一个自定义的类，包含两个Long字段）。 3. **Job配置和运行**： - `Configuration`对象用于设置作业的参数，例如输入和输出路径。 - `FileSystem`和`Path`类用于处理HDFS文件系统上的路径。 - `Job`对象用于初始化和提交MapReduce作业。`FileInputFormat`和`FileOutputFormat`分别指定输入和输出的数据格式。 - `MapReduce`作业的输入和输出类型需要与Mapper和Reducer中使用的键值对类型匹配。 4. **日志记录**： - 使用`SLF4J`库进行日志记录，便于调试和追踪作业执行过程中的问题。总结来说，解决Hadoop MapReduce实现SQL中的max和min操作的关键在于理解MapReduce的工作原理，即Mapper和Reducer如何协同工作来处理数据。在Reducer中正确地聚合和计算最大值和最小值是实现目标的关键步骤。通过这种方式，Hadoop MapReduce可以处理大规模数据集上的这类统计查询。

Hadoop MapReduce 学习笔记 ( 五 ) MapReduce

实现类似

SQL

的

max

和

min  写法得到的结果是错误的,因为基本延续了输出单个值的写法.而 hadoop 要

输出多个值写法是不一样的.具体还是查看代码吧.



Java 代码

1. packagecom.guoyun.hadoop.mapreduce.study;

2. 

3. importjava.io.IOException;

4. importjava.util.StringTokenizer;

5. 

6. importorg.apache.hadoop.conf.Configuration;

7. importorg.apache.hadoop.fs.FileSystem;

8. importorg.apache.hadoop.fs.Path;

9. importorg.apache.hadoop.io.LongWritable;

10. importorg.apache.hadoop.io.Text;

11. importorg.apache.hadoop.mapreduce.Job;

12. importorg.apache.hadoop.mapreduce.Mapper;

13. importorg.apache.hadoop.mapreduce.Reducer;

14. importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;

15. importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

16. importorg.slf4j.Logger;

17. importorg.slf4j.LoggerFactory;

18. 

19. /**

20. *或得最大和最小值，类似 SQL：SELECTMAX(NUMBER),MIN(NUMBER)FROMTABLE

21. *注意：这里只有一列数据，多列请查看 @GetMaxAndMinValueMultiMapReduceTest

22. */

23. publicclassGetMaxAndMinValueMapReduceFixTestextendsMyMapReduceSIng

leColumnTest{

24. 

25. publicstaticfinalLoggerlog=LoggerFactory.getLogger(GetMaxAndMinV

alueMapReduceFixTest.class);

26. 

27. 

28. publicGetMaxAndMinValueMapReduceFixTest(StringoutputPath){

29. super(outputPath);

30. //TODOAuto-generatedconstructorstub

31. }

32. 

下载后可阅读完整内容，剩余6页未读，立即下载

yulin010203

粉丝: 5
资源: 11

Hadoop MapReduce：修复获取最大值与最小值的问题

Hadoop学习笔记

Hadoop 学习笔记.md

最新Hadoop学习笔记

HADOOP学习笔记

【SCI2区】基于天鹰优化算法AO优化TCN锂电池健康寿命预测算法研究Matlab实现.rar

CPPC++_在许多编程语言中开始编写gilderose重构卡塔的代码.zip

untitled1.cpp

Apache Spark：Spark项目实战：机器学习模型部署.docx

我的解决方案，以Leetcode问题所有的解决方案提供.zip

WeChatæ¥é¾_1.3.3.apk

最新资源

WeChatæ¥é¾_1.3.3.apk