hdfs单词统计java源码

下面是一个简单的Hadoop MapReduce程序，用于对HDFS中的文本文件进行单词计数： 1.创建一个Java类WordCountMapper，继承Mapper类，实现map方法。 2.创建一个Java类WordCountReducer，继承Reducer类，实现reduce方法。 3.创建一个Java类WordCount，其中包含main方法，用于运行MapReduce程序。 WordCountMapper.java： ``` import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); String[] words = line.split(" "); for (String w : words) { word.set(w); context.write(word, one); } } } ``` WordCountReducer.java： ``` import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> { public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } } ``` WordCount.java： ``` import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordCount { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(WordCountMapper.class); job.setCombinerClass(WordCountReducer.class); job.setReducerClass(WordCountReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 在这个例子中，Mapper将输入文件中的每一行分割成单词，并将每个单词作为键，将值设置为1。Reducer将相同的单词聚合在一起，并将它们的值相加，最终输出每个单词的总计数。

阅读全文

hdfs单词统计java源码

相关推荐

hdfs源码分析整理

HDFS源码解析

hfs 源代码

Hadoop-1.2.1 单词统计例子

word源码java-FBDP_hw5_wordCount:FBDP_hw5_wordCount

WordCount源码

hadoop.contrib/lucene源码

mapreduce 实现朴素贝叶斯算法-源码

Hadoop源码分析（client部分）

基于Windows eclipse maven Hadoop 的WordCount源码

Eclipse中编译运行Hadoop-0.20.1源码

MapReduce - WordCount案例 - 含各种部署方式源码

Java与Sqoop源码结合的Hadoop项目实践

实现Java MapReduce的高频词统计功能

京东商品评论词云统计系统：Hadoop与Electron源码及文档

Hadoop平台下MapReduce源码打包详解

Hadoop入门：从客户端提交job到源码解析

深入分析Hadoop 2.2中MapReduce源码打包与应用

Hadoop Client端提交job到RM: 源码解析与MapReduce入门

【HDFS深层原理揭秘】：数据存储机制与Hadoop最佳实践

大家在看

气动学远程火箭导弹弹道（速度与时间 高度与时间）【含Matlab源码 4709期】.zip

Anti-Conent参数算法（700位0aq）.zip

独家2006-2021共16年280+地级市绿色全要素生产率与分解项、原始数据，多种方法！

TISAX咨询认证全套.zip

摩托车ECU硬件设计，程序源代码需自己开发

最新推荐

使用Java Api操作HDFS过程详解

hadoop源码分析-HDFS部分

HDFS管理工具HDFS Explorer下载地址、使用方法.docx

HDFS FS API

Hadoop框架之HDFS的shell操作

PowerShell控制WVD录像机技术应用

管理建模和仿真的文件

Honeywell打印机驱动提升秘诀：从基础到高级配置的全方位解析

Python输入三个数 a,b,c。判断能否以它们为三个边长构成直角三角形。若能，输出 YES，否则 输出NO。

探索杂货店后端技术与JavaScript应用

气动学远程火箭导弹弹道（速度与时间高度与时间）【含Matlab源码 4709期】.zip

Python输入三个数 a,b,c。判断能否以它们为三个边长构成直角三角形。若能，输出 YES，否则输出NO。