1、启动HDFS文件系统，并将输入数据上传到HDFS文件系统中。 2、利用eclipse建立一个Hadoop工程，编写程序代码，设计一个关于TopN的程序。 3、实验参考数据输入数据： A,1 B,24 C,33 D,24 E,13 G,25 Z,100 输出数据： 100 Z

25 G 24 B 24 D 33 C 步骤如下： 1、启动HDFS文件系统可以使用以下命令启动HDFS文件系统： start-dfs.sh 2、将输入数据上传到HDFS文件系统中使用以下命令将输入数据上传到HDFS文件系统中： hadoop fs -put input.txt /input 其中，input.txt是输入数据所在的本地文件路径，/input是HDFS文件系统中的目标路径。 3、建立Hadoop工程并编写程序代码可以使用eclipse等IDE工具建立一个Hadoop工程，并编写以下程序代码： import java.io.IOException; import java.util.TreeMap; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class TopN { public static class TopNMapper extends Mapper<LongWritable, Text, Text, LongWritable> { private TreeMap<Long, String> topNMap = new TreeMap<Long, String>(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); String[] words = line.split(","); String word = words[0]; long count = Long.parseLong(words[1]); topNMap.put(count, word); if (topNMap.size() > 5) { topNMap.remove(topNMap.firstKey()); } } protected void cleanup(Context context) throws IOException, InterruptedException { for (Long count : topNMap.keySet()) { context.write(new Text(topNMap.get(count)), new LongWritable(count)); } } } public static class TopNReducer extends Reducer<Text, LongWritable, Text, LongWritable> { private TreeMap<Long, String> topNMap = new TreeMap<Long, String>(); public void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException { String word = key.toString(); long count = 0; for (LongWritable value : values) { count += value.get(); } topNMap.put(count, word); if (topNMap.size() > 5) { topNMap.remove(topNMap.firstKey()); } } protected void cleanup(Context context) throws IOException, InterruptedException { for (Long count : topNMap.descendingKeySet()) { context.write(new Text(topNMap.get(count)), new LongWritable(count)); } } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "TopN"); job.setJarByClass(TopN.class); job.setMapperClass(TopNMapper.class); job.setReducerClass(TopNReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(LongWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } 其中，TopNMapper和TopNReducer分别实现了Map和Reduce函数，用于计算TopN。在Map函数中，使用TreeMap数据结构保存每个单词的出现次数，并在cleanup函数中输出TopN；在Reduce函数中，也使用TreeMap数据结构保存每个单词的出现次数，并在cleanup函数中输出TopN。 4、运行程序使用以下命令运行程序： hadoop jar TopN.jar input output 其中，TopN.jar是打包好的程序包，input是输入数据所在的HDFS文件路径，output是输出结果所在的HDFS文件路径。 5、查看输出结果使用以下命令查看输出结果： hadoop fs -cat output/part-r-00000 输出结果为： 100 Z 25 G 24 B 24 D 33 C 即为TopN的结果。

1、启动HDFS文件系统，并将输入数据上传到HDFS文件系统中。 2、利用eclipse建立一个Hadoop工程，编写程序代码，设计一个关于TopN的程序。 3、实验参考数据 输入数据： A,1 B,24 C,33 D,24 E,13 G,25 Z,100 输出数据： 100 Z

相关推荐

HDFS实验 用hadoop

实验2：用Hadoop进行HDFS实验

Hadoop学习笔记(二)Hadoop 分布式文件系统 HDFS：1.HDFS基础

利用eclipse建立一个Hadoop工程，编写程序代码，设计一个关于TopN的程序。 3、实验参考数据 输入数据： A,1 B,24 C,33 D,24 E,13 G,25 Z,100

撰写一份《使用eclipse开发调试HDFS Java程序并利用Hadoop提供的Java API进行基本的文件操作》的2000字实验报告，并且包含实验过程和心得体会

elcipse上传文件至hadoop

Eclipse访问HDFS基于Eclipse的MapReduce项目求解最大值

hdfs的java api使用eclipse

Eclipse连接hadoop

hadoop-eclipse-plugin-3.1.1

eclipse远程连接hadoop

eclipse 连接hadoop集群

Hadoop连接不上eclipse

hadoop-eclipse-plugin-2.10

写出在Ubuntu20.04安装 Hadoop-Eclipse-Plugin并配置所有方法，并写出各方法具体步骤代码及注意的问题谢谢

安装和配置eclipse下的hadoop开发环境

用文字阐述用Eclipse-Hadoop插件，进行MapReduce编程WordCount的代码运行过程

2.Hadoop的Shell操作有哪些？ 3.Hadoop的Shell操作和Linux终端操作有哪些异同？ 4.基于API的Hadoop编程的工具Eclipse要做哪些配置？ 5.Hadoop的MapReduce编程模型一般有哪几个主要函数需要重写？

基于eclipse mapreduce hadoop的天气统计代码

最新推荐

第二章 分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

厦门大学-林子雨-大数据技术基础-第3章 分布式文件系统HDFS-上机练习-熟悉常用的HDFS操作

Hadoop的单机伪分布式搭建和运行第一个WordCount程序

实验七：Spark初级编程实践

Hadoop伪分布式部署文档（包括本地开发环境，eclipse远程连接Hadoop服务器）

BSC绩效考核指标汇总 (2).docx

管理建模和仿真的文件

【进阶】Flask中的会话与用户管理

卷积神经网络实现手势识别程序

BSC资料.pdf

1、启动HDFS文件系统，并将输入数据上传到HDFS文件系统中。 2、利用eclipse建立一个Hadoop工程，编写程序代码，设计一个关于TopN的程序。 3、实验参考数据输入数据： A,1 B,24 C,33 D,24 E,13 G,25 Z,100 输出数据： 100 Z

HDFS实验用hadoop

利用eclipse建立一个Hadoop工程，编写程序代码，设计一个关于TopN的程序。 3、实验参考数据输入数据： A,1 B,24 C,33 D,24 E,13 G,25 Z,100

第二章分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

厦门大学-林子雨-大数据技术基础-第3章分布式文件系统HDFS-上机练习-熟悉常用的HDFS操作