首页单机模式使用hadoop完成单词统计

单机模式使用hadoop完成单词统计

时间: 2024-09-15 18:10:03 浏览: 48

单机模式下的Hadoop可以用来完成单词统计任务，通常通过Hadoop的MapReduce框架来实现。以下是简单的步骤： 1. **数据输入**：首先，你需要将文本文件作为Hadoop的数据源。这通常是通过`TextInputFormat`读入。 2. **Map阶段**：在Map函数中，每行数据会被分割成键值对，键一般是单词，值为1。例如，如果你有一个单词列表，Map会把每个单词映射到`(单词, 1)`这对。 ```java Mapper<String, LongWritable, Text, IntWritable> map = new Mapper<LongWritable, Text, Text, IntWritable>() { public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String[] words = value.toString().split("\\s+"); for (String word : words) { context.write(new Text(word), new IntWritable(1)); } } }; ``` 3. **Reduce阶段**：在Reduce函数中，相同单词的所有计数值会被汇总起来，生成最终的单词及其出现次数。 ```java Reducer<Text, IntWritable, Text, IntWritable> reduce = new Reducer<Text, IntWritable, Text, IntWritable>() { public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } }; ``` 4. **结果输出**：Reduce阶段完成后，你可以选择将结果直接输出到控制台或者持久化存储，如HDFS。 5. **运行Job**：将Mapper、Reducer类以及配置文件（如job.xml）提交给Hadoop的JobClient或者更现代的YARN环境，开始执行任务。注意：在单机模式下，由于缺少分布式处理的优势，对于大规模数据处理可能会显得效率不高，但如果数据量较小，这个过程就足够简单了。

阅读全文