HADOOP用eclipse统计以a开头和以b开头出现的单词个数完整代码

以下是使用Eclipse统计以a开头和以b开头出现的单词个数的完整代码： ```java import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordCount { public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(Object key, Text value, Context context ) throws IOException, InterruptedException { StringTokenizer itr = new StringTokenizer(value.toString()); while (itr.hasMoreTokens()) { String token = itr.nextToken(); if (token.startsWith("a")) { word.set("a"); context.write(word, one); } else if (token.startsWith("b")) { word.set("b"); context.write(word, one); } } } } public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> values, Context context ) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 在这个例子中，我们使用了Hadoop的MapReduce框架，将输入文件分成多个块，并在多个计算节点上并行处理这些块。在Mapper阶段中，我们使用了StringTokenizer将输入文件中的每一行拆分成多个单词，然后判断每个单词是否以字母"a"或"b"开头，如果是，则将该单词的计数器加1，并将结果输出为键值对。在Reducer阶段中，我们将所有以"a"开头的单词计数器加起来，或将所有以"b"开头的单词计数器加起来，并将结果输出为键值对。要运行这个代码，你需要安装Hadoop并将其设置为单机模式。在Eclipse中创建一个新的Java项目，将上述代码复制到一个名为WordCount.java的Java类中，并将其导出为一个可执行的JAR文件。然后，在命令行中运行以下命令： ``` hadoop jar WordCount.jar input.txt output ``` 其中，WordCount.jar是你导出的JAR文件的名称，input.txt是你要处理的输入文件的名称，output是你要输出结果的目录的名称。在运行完成后，你将在output目录中看到以"a"和"b"开头的单词的计数器。

阅读全文

HADOOP用eclipse统计以a开头和以b开头出现的单词个数完整代码

相关推荐

Hadoop中单词统计案例运行的代码

hadoop-eclipse-plugin-3.3.1.jar

hadoop-eclipse-plugin插件和hadoop.dll和winutile.exe.zip

HADOOP用eclipse统计以a开头和以b开头出现的单词个数

hadoop统计以a开头和以b开头出现的单词个数

hadoop统计以a和b字母开头的单词的个数代码

hadoop统计以a和b字母开头的单词的个数

HADOOP用eclipse统计共同好友完整代码

hadoop统计单词个数

HADOOP ECLIPSE 统计这些人的共同好友 完整代码

hadoop单词统计代码

基于eclipse mapreduce hadoop的天气统计代码

hadoop单词统计出现错误

基于eclipse map reduce hadoop的销售统计代码

hadoop 运行程序统计text单词出现的次数

使用mapreduce和eclipse和Hadoop的销售数据排序系统的代码

单机模式使用hadoop完成单词统计

编写一个 MapReduce 程序来对 Hadoop.txt 中各个单词出现的次数进行统计

应用hadoop自带的统计单词个数jar，统计原先input目录下有多少个of，回答所使用命令，并且截图显示of的个数。

hadoop安装eclipse

最新推荐

基于hadoop的词频统计.docx

hadoop动态增加和删除节点方法介绍

Hadoop大数据实训，求最高温度最低温度实验报告

使用hadoop实现WordCount实验报告.docx

Hadoop伪分布式部署文档（包括本地开发环境，eclipse远程连接Hadoop服务器）

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用

HADOOP ECLIPSE 统计这些人的共同好友完整代码