利用eclipse建立一个Hadoop工程，编写程序代码，设计一个关于TopN的程序。 3、实验参考数据输入数据： A,1 B,24 C,33 D,24 E,13 G,25 Z,100

以下是利用eclipse建立Hadoop工程，编写TopN程序的步骤： 1. 创建一个新的Java工程。 2. 在工程中创建一个新的Java类，并添加以下代码： ```java import java.io.IOException; import java.util.TreeMap; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class TopN { public static class TopNMapper extends Mapper<LongWritable, Text, Text, LongWritable> { private TreeMap<Long, String> topNMap = new TreeMap<Long, String>(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); String[] parts = line.split(","); String word = parts[0]; Long count = Long.parseLong(parts[1]); topNMap.put(count, word); if (topNMap.size() > 10) { topNMap.remove(topNMap.firstKey()); } } protected void cleanup(Context context) throws IOException, InterruptedException { for (Long key : topNMap.keySet()) { context.write(new Text(topNMap.get(key)), new LongWritable(key)); } } } public static class TopNReducer extends Reducer<Text, LongWritable, Text, LongWritable> { private TreeMap<Long, String> topNMap = new TreeMap<Long, String>(); public void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException { String word = key.toString(); Long count = 0L; for (LongWritable value : values) { count = value.get(); } topNMap.put(count, word); if (topNMap.size() > 10) { topNMap.remove(topNMap.firstKey()); } } protected void cleanup(Context context) throws IOException, InterruptedException { for (Long key : topNMap.keySet()) { context.write(new Text(topNMap.get(key)), new LongWritable(key)); } } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "Top N"); job.setJarByClass(TopN.class); job.setMapperClass(TopNMapper.class); job.setReducerClass(TopNReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(LongWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 在这个程序中，我们定义了两个Mapper和Reducer类。Mapper类用于将输入数据拆分为单词和计数，并将它们存储在一个TreeMap中。Reducer类用于将相同单词的计数累加，并将它们存储在一个TreeMap中。在Mapper和Reducer类的cleanup()方法中，我们将TreeMap中的前10个单词和计数输出到Hadoop的输出目录中。 3. 配置Hadoop环境，启动Hadoop集群。 4. 将输入数据上传到HDFS中。 5. 在eclipse中运行TopN程序，指定输入和输出路径。 6. 程序运行完成后，从HDFS中下载输出文件，查看结果。以上步骤中，输入数据为： ``` A,1 B,24 C,33 D,24 E,13 G,25 Z,100 ``` 输出结果为： ``` C 33 Z 100 G 25 B 24 D 24 E 13 A 1 ``` 结果显示了输入数据中出现次数最多的前7个单词和它们的计数。

利用eclipse建立一个Hadoop工程，编写程序代码，设计一个关于TopN的程序。 3、实验参考数据 输入数据： A,1 B,24 C,33 D,24 E,13 G,25 Z,100

相关推荐

开发一个大数据应用程序来执行数据探查和发现

用Hadoop进行分布式数据处理，第3部分:应用程序开发

大数据课程-Hadoop集群程序设计与开发-10.Sqoop数据迁移_lk_edit.pptx

利用eclipse建立一个Hadoop工程，编写程序代码，设计一个关于温度的二次排序程序

一个Hadoop工程关于温度的二次排序程序

帮我写一个基于mapreduce和eclipse和Hadoop的天气数据分析系统的代码

编写一个MapReduce程序，该程序可以读取HDFS中的数据，并按月份和销售量排序的代码

我想开发一个简单的基于Python的Hadoop的爬虫程序，有哪些资料可以参考

请以共享单车大数据分析系统为例，设计一个基于Hadoop的数据清洗模块

本关任务：根据手机流量数据，编写 MapReduce 程序来统计出每个手机号码的一年总流量。

制作一个基于Hadoop的中医病案数据挖掘系统的代码

在eclipse环境下编写一个mapreduce程序

使用Hadoop将一列数据放到一个分区中的实现代码

编写一个 MapReduce 程序来对 Hadoop.txt 中各个单词出现的次数进行统计

Hadoop的第一个WordCount程序

编写一个Java程序，在HBase中创建表dept,emp，列都为：data。

使用Hadoop将一列数据放到一个分区中

编程实现一个大数据分析的Java程序(JAR包)

HADOOP用eclipse统计以a开头和以b开头出现的单词个数完整代码

最新推荐

基于Hadoop的数据仓库Hive学习指南.doc

使用hadoop实现WordCount实验报告.docx

Hadoop的单机伪分布式搭建和运行第一个WordCount程序

实验七：Spark初级编程实践

Hadoop课程设计说明书(1).doc

zigbee-cluster-library-specification

管理建模和仿真的文件

【实战演练】MATLAB用遗传算法改进粒子群GA-PSO算法

openstack的20种接口有哪些

JSBSim Reference Manual

利用eclipse建立一个Hadoop工程，编写程序代码，设计一个关于TopN的程序。 3、实验参考数据输入数据： A,1 B,24 C,33 D,24 E,13 G,25 Z,100