现在有多个输入文件，每个文件中的每行内容均为一个整数。用Java编写MapReduce程序读取所有文件中的整数，进行升序排序后，输出到一个新的文件中，输出的数据格式为每行两个整数，第一个数字为第二个整数的排序位次，第二个整数为原待排列的整数

好的，这个需求可以通过以下步骤实现： 1. 编写一个Mapper类，用于读取输入文件并将其中的每个整数作为key，value为1输出。 2. 编写一个Reducer类，将所有输入文件中的key-value对进行聚合，然后将key进行升序排序，并输出到新文件中。 3. 在main方法中，进行MapReduce作业的配置和提交。下面是代码示例： Mapper类： ```java import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; public class SortMapper extends Mapper<LongWritable, Text, IntWritable, IntWritable> { private IntWritable num = new IntWritable(); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 将每行的数字作为key，value为1输出 String line = value.toString(); num.set(Integer.parseInt(line)); context.write(num, new IntWritable(1)); } } ``` Reducer类： ```java import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.mapreduce.Reducer; import java.io.IOException; public class SortReducer extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable> { private IntWritable rank = new IntWritable(); private IntWritable number = new IntWritable(); @Override protected void reduce(IntWritable key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable value : values) { sum += value.get(); } // 根据排序结果计算每个数字的排名 rank.set(context.getCounter("org.apache.hadoop.mapred.Task$Counter", "REDUCE_OUTPUT_RECORDS").getValue() + 1); number.set(key.get()); context.write(rank, number); } } ``` main方法： ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; public class SortJob { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf); job.setJarByClass(SortJob.class); job.setMapperClass(SortMapper.class); job.setReducerClass(SortReducer.class); job.setMapOutputKeyClass(IntWritable.class); job.setMapOutputValueClass(IntWritable.class); job.setOutputKeyClass(IntWritable.class); job.setOutputValueClass(IntWritable.class); job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); // 添加多个输入文件 TextInputFormat.addInputPath(job, new Path(args[0])); TextInputFormat.addInputPath(job, new Path(args[1])); // ... TextOutputFormat.setOutputPath(job, new Path(args[2])); job.waitForCompletion(true); } } ``` 运行MapReduce作业： ```bash hadoop jar sort.jar SortJob input1 input2 output ``` 其中，input1、input2是输入文件路径，output是输出文件路径。

阅读全文

相关推荐

读取文件数字并排序最后输出另一个文件

输入若干个整数，统计出现次数最多的那个整数。如果出现最多的整数有两个以上，打印最早输入的那个整数。

从标准输入中输入两组整数(每行不超过20个整数，每组整数中元素不重复),合并两组整数，去掉在两组整数中都出现的整数，并按从大到小顺序排序输出（即两组整数集"异或

对于两个输入文件，即文件 A 和文件 B，请编写 MapReduce 程序，对两个文件进行合并， 并剔除其中重复的内容，得到一个新的输出文件 C

java操作hadoop之mapreduce计算整数的最大值和最小值实战源码

实验3-MapReduce编程初级实践.docx

深入浅出Hadoop MapReduce的两个案例分析

优化Hadoop MapReduce作业性能的实用技巧

如何设计高效Map任务：MapReduce大文件处理策略

案例分析与解决方案比较：MapReduce大文件处理指南

MapReduce编程宝典：编写高效Map和Reduce函数的实战技巧

批处理到实时计算：MapReduce在学生成绩分析中的演变

MapReduce数据流解析：WordCount案例中的高效数据处理流程

MapReduce Shuffle过程深度剖析：以学生成绩处理为例

MapReduce排序技术：在海量数据中寻找最优解的策略

大规模文本分析指南：如何使用MapReduce词频统计

分析大数据的利器：MapReduce原理与应用

Sqoop与MapReduce集成：数据导入与处理

WordCount性能提升秘法：精通MapReduce Combiner应用

SeJAVA对用SequenceFile随机数生成以（整数，字符串）为（key，Value）的文本文件读取各文件中的key（可以是从1到100000的随机整数），统计各文件中数据按位分布

大家在看

煤矿井下图像型早期火灾探测

PDK安装及cdl文件和gds文件的导入

SAP各模块字段与表的对应关系

蓝牙室内定位服务源码！

Cadence Allegro16.6高级进阶教程

最新推荐

java大数据作业_5Mapreduce、数据挖掘

第二章 分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

Educoder综合练习—C&C++选择结构

对于两个输入文件，即文件 A 和文件 B，请编写 MapReduce 程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新的输出文件 C

第二章分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集