单机模式使用hadoop完成单词统计
时间: 2024-09-15 12:10:03 浏览: 40
单机模式下的Hadoop可以用来完成单词统计任务,通常通过Hadoop的MapReduce框架来实现。以下是简单的步骤:
1. **数据输入**:首先,你需要将文本文件作为Hadoop的数据源。这通常是通过`TextInputFormat`读入。
2. **Map阶段**:在Map函数中,每行数据会被分割成键值对,键一般是单词,值为1。例如,如果你有一个单词列表,Map会把每个单词映射到`(单词, 1)`这对。
```java
Mapper<String, LongWritable, Text, IntWritable> map = new Mapper<LongWritable, Text, Text, IntWritable>() {
public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String[] words = value.toString().split("\\s+");
for (String word : words) {
context.write(new Text(word), new IntWritable(1));
}
}
};
```
3. **Reduce阶段**:在Reduce函数中,相同单词的所有计数值会被汇总起来,生成最终的单词及其出现次数。
```java
Reducer<Text, IntWritable, Text, IntWritable> reduce = new Reducer<Text, IntWritable, Text, IntWritable>() {
public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
context.write(key, new IntWritable(sum));
}
};
```
4. **结果输出**:Reduce阶段完成后,你可以选择将结果直接输出到控制台或者持久化存储,如HDFS。
5. **运行Job**:将Mapper、Reducer类以及配置文件(如job.xml)提交给Hadoop的JobClient或者更现代的YARN环境,开始执行任务。
注意:在单机模式下,由于缺少分布式处理的优势,对于大规模数据处理可能会显得效率不高,但如果数据量较小,这个过程就足够简单了。
阅读全文