通过编程HadoopMapReduce程序实现简单的数据统计，输入文件是一组文本文件，每个输入文件中都包含很多行，每行都是一个数字字符串，代表了一个特别大的数字。编写一个程序求包含在输入文件中的所有数字的和、最大值、最小值、平均值并输出

以下是一个使用Hadoop MapReduce框架的实现：首先，定义Mapper类和Reducer类。Mapper类的作用是将每个数字字符串转换为一个数字对，并将其发送到Reducer类。Reducer类的作用是计算输入数字的和、最大值、最小值和计数，并在最后输出结果。 ```java import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.*; import org.apache.hadoop.mapreduce.*; public class SimpleStatistics { public static class TokenizerMapper extends Mapper<Object, Text, NullWritable, IntWritable>{ private final static IntWritable one = new IntWritable(1); private IntWritable number = new IntWritable(); public void map(Object key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); String[] fields = line.split(","); for (String field : fields) { try { int num = Integer.parseInt(field.trim()); number.set(num); context.write(NullWritable.get(), number); } catch (NumberFormatException e) { // ignore invalid numbers } } } } public static class IntSumReducer extends Reducer<NullWritable,IntWritable,Text,IntWritable> { private IntWritable result = new IntWritable(); private Text type = new Text(); public void reduce(NullWritable key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; int count = 0; int max = Integer.MIN_VALUE; int min = Integer.MAX_VALUE; for (IntWritable val : values) { int num = val.get(); sum += num; count++; if (num > max) { max = num; } if (num < min) { min = num; } } if (count > 0) { result.set(sum); type.set("sum"); context.write(type, result); result.set(max); type.set("max"); context.write(type, result); result.set(min); type.set("min"); context.write(type, result); result.set(sum / count); type.set("avg"); context.write(type, result); } } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "simple statistics"); job.setJarByClass(SimpleStatistics.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); for (int i = 0; i < args.length - 1; i++) { Path inputPath = new Path(args[i]); job.addInputPath(inputPath); } Path outputPath = new Path(args[args.length - 1]); job.setOutputPath(outputPath); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 在上述代码中，Mapper类的map()函数将输入的数字字符串转换为IntWritable类型，并将其写入上下文。Reducer类的reduce()函数计算输入数字的和、最大值、最小值和计数，并将结果输出到上下文。在main()函数中，我们设置了Mapper类和Reducer类，指定输入和输出路径，并运行Job。运行程序时，使用以下命令： ```shell hadoop jar SimpleStatistics.jar input1,input2,..,inputN output ``` 其中，input1，input2，..，inputN是输入文件的路径，用逗号分隔。output是输出文件的路径。执行后，输出文件将包含以下统计数据： - sum：所有数字的总和 - max：最大值 - min：最小值 - avg：平均值希望这能帮到你！

阅读全文

相关推荐

HadoopMapReduce:输出在输入文本中出现至少 100 次的单词

HadoopMapReduce:奇怪的人hadoop MapReduce程序

HadoopMapReduce:数据集链接的Hadoop MapReduce实践问题

编写一个简单的HadoopMapReduce程序，实现对一组文本文件中的单词进行计数统计。

hadoopmapreduce词频统计程序运行时间

Hadoopmapreduce对按照地域对每个月的用电总量进行统计，并且统计各地域每个月的城市用电、农村和山区用电的比例。

hadoopMapReduce统计词频

hadoopmapreduce词频统计

hadoopmapreduce应用案例

hadoopmapreduce倒排索引

hadoopmapreduce和mapreduce的区别

基于hadoop的推荐系统设计与实现

《MapReduce数据密集型文本处理》.pdf

Hadoop-Analyzes-Weather-Data:包含了HadoopMapReduce代码、和SSM框架显示数据的代码

FrequentItemsetsMining:并行频繁项集挖掘算法的HadoopMapReduce实现

Spark：为大数据处理点亮一盏明灯

007_hadoop中MapReduce应用案例_1_数据去重

python基于Django的购物商城系统源码+数据库+运行文档+接口文档.zip文件

松下FP-X的模拟量控制，程序，用于空调冷冻泵的 用AFPX -TC2模拟量输入和AFPX-DA2模拟量输出控制 变频冷冻泵的转速 本程序可手动、自动控制，简便易懂，

串口调试源码，个人学习整理，仅供参考

大家在看

西软S酒店管理软件V3.0说明书

Qwen1.5大模型微调、基于PEFT框架LoRA微调，在数据集HC3-Chinese上实现文本分类。.zip

用单片机实现声级计智能

2_JFM7VX690T型SRAM型现场可编程门阵列技术手册.pdf

大型滑坡变形稳定性与降雨关系研究

最新推荐

python基于Django的购物商城系统源码+数据库+运行文档+接口文档.zip文件

松下FP-X的模拟量控制，程序，用于空调冷冻泵的 用AFPX -TC2模拟量输入和AFPX-DA2模拟量输出控制 变频冷冻泵的转速 本程序可手动、自动控制，简便易懂，

串口调试源码，个人学习整理，仅供参考

使用PDE模型探索静电问题解决方案的实时脚本-泊松方程PDE模型-matlab

【jupyter notebook】优达学城-机器学习-毕业项目-猫狗大战.zip

降低成本的oracle11g内网安装依赖-pdksh-5.2.14-1.i386.rpm下载

管理建模和仿真的文件

云计算术语全面掌握：从1+X样卷A卷中提炼精华

. 索读取⼀幅图像，让该图像拼接⾃身图像，分别⽤⽔ 平和垂直 2 种。要求运⾏结果弹窗以⾃⼰的名字全拼命名。

Java基础实验教程Lab1解析

松下FP-X的模拟量控制，程序，用于空调冷冻泵的用AFPX -TC2模拟量输入和AFPX-DA2模拟量输出控制变频冷冻泵的转速本程序可手动、自动控制，简便易懂，

松下FP-X的模拟量控制，程序，用于空调冷冻泵的用AFPX -TC2模拟量输入和AFPX-DA2模拟量输出控制变频冷冻泵的转速本程序可手动、自动控制，简便易懂，

. 索读取⼀幅图像，让该图像拼接⾃身图像，分别⽤⽔平和垂直 2 种。要求运⾏结果弹窗以⾃⼰的名字全拼命名。