HADOOP用eclipse统计以a开头和以b开头出现的单词个数

要使用Eclipse统计Hadoop中以a开头和以b开头出现的单词个数，需要进行以下步骤： 1. 创建Hadoop项目并导入Eclipse。 2. 在Eclipse中创建新的Java类，并编写MapReduce程序。 3. 在Map阶段，使用Java正则表达式匹配单词是否以a或b开头，将匹配到的单词作为key输出，value为1。 4. 在Reduce阶段，将相同key的value累加，得到每个单词出现的总次数。 5. 运行程序，将Hadoop输出的结果保存到本地文件中。以下是代码示例： ```java public class WordCount { public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { String token = tokenizer.nextToken(); if(token.matches("(a|A|b|B)[a-zA-Z]*")) { word.set(token); context.write(word, one); } } } } public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> { public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "wordcount"); job.setJarByClass(WordCount.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); job.setMapperClass(Map.class); job.setReducerClass(Reduce.class); job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); job.waitForCompletion(true); } } ``` 在上述代码中，我们使用Java正则表达式 `(a|A|b|B)[a-zA-Z]*` 匹配以a或b开头的单词，其中 `[a-zA-Z]*` 表示单词的后缀可以由任意大小写字母组成。同时，我们在Map阶段将匹配到的单词作为key输出，value为1；在Reduce阶段将相同key的value累加，得到每个单词出现的总次数。

阅读全文

HADOOP用eclipse统计以a开头和以b开头出现的单词个数

相关推荐

配置Eclipse以使用Hadoop 2.8.5环境指南

自制Hadoop MapReduce Eclipse插件使用指南

如何在Eclipse中安装和使用Hadoop插件

HADOOP用eclipse统计以a开头和以b开头出现的单词个数完整代码

hadoop-eclipse2.5.2、hadoop-eclipse2.6.0、hadoop-eclipse2.6.5

hadoop-eclipse2.7.1、hadoop-eclipse2.7.2、hadoop-eclipse2.7.3

hadoop-eclipse-plugin 用于Eclipse和Hadoop关联

hadoop 2.6.0 eclipse

hadoop-eclipse

hadoop-eclipse资源 hadoop-eclipse-plugin-2.7.1 jar文件

hadoop-eclipse-plugin1.2.1 and hadoop-eclipse-plugin2.8.0

安装hadoop使用Eclipse的插件

hadoop 2.8.3 eclipse oxygen plugin hadoop-eclipse-plugin-2.8.3.jar

hadoop简单单词统计

hadoop-eclipse-plugin-2.6.0.jar 和 hadoop-eclipse-plugin-2.7.3.jar

hadoop_eclipse插件

hadoop 2.7.6 eclipse插件

hadoop2.5.1 eclipse插件

hadoop集成eclipse文档

hadoop1.1.2eclipse插件

大家在看

暗通道去雾算法_何凯明去雾_matlab_去雾_去雾算法_暗通道算法_

基于YOLOv10+DeepSort实现视频中目标跟踪算法Python源码+详细使用说明.zip

电信设备-一种血糖数据查询方法及移动终端.zip

FAST FACTORIZED_FFBP论文_FFBP_后向投影.zip

威布尔参数估计，可靠性与寿命预测方向，机械工程,威布尔分布寿命预测,matlab源码.rar

最新推荐

基于hadoop的词频统计.docx

hadoop搭建与eclipse开发环境设置

hadoop动态增加和删除节点方法介绍

Hadoop大数据实训，求最高温度最低温度实验报告

使用hadoop实现WordCount实验报告.docx

世界地图Shapefile文件解析与测试指南

Python环境监控高可用构建：可靠性增强的策略

需要在matlab当中批量导入表格数据的指令

Sqlcipher 3.4.0版本发布，优化SQLite兼容性

Python环境监控性能监控与调优：专家级技巧全集