使用Hadoop新API实现TopN：查找出现最频繁的20个词

4星 · 超过85%的资源 77 浏览量更新于2024-09-18 收藏 5KB TXT 举报

"这篇文章主要介绍了如何使用Hadoop的新API实现基于MapReduce的TopN功能，即找出数据集中出现频率最高的N个元素。作者通过多Job级联的方式，以找到文件中出现频率最高的20个词为例，展示了Hadoop处理大数据问题的一种方法。" 在Hadoop中，处理TopN问题通常需要多个MapReduce作业（Job）协同工作，因为单个Job往往无法直接得到全局的TopN结果。这里，我们首先介绍Hadoop MapReduce的基本流程，然后讲解如何实现多Job级联来找出出现频率最高的20个词。 1. Hadoop MapReduce基本流程： - **Map阶段**：Map函数接收输入数据，将大文件切分成小块，对每一块进行独立处理，生成键值对形式的中间结果。 - **Shuffle阶段**：根据键排序中间结果，将相同键的值聚合在一起。 - **Reduce阶段**：Reduce函数接收排序后的键值对，进行进一步处理，生成最终结果。 2. 多Job级联实现TopN： - **Job1：分词与计数**：首先，我们需要一个Job来读取输入文件，使用Mapper将文本分割成单词，并为每个单词生成一个键值对，键是单词，值是1。Reducer则汇总每个单词的出现次数。 - **Job2：排序与取TopN**：第二个Job接收Job1的输出，Map阶段不做任何操作，直接将接收到的键值对作为输出。Reducer负责计算当前单词的全局排名，这需要Reducer在整个分区内的所有单词计数上执行排序。最后，Reducer仅输出排名前20的单词及其计数。 3. 关键类和方法： - `TableMapReduceUtil`：用于HBase与Hadoop MapReduce之间的集成，可以方便地设置Mapper和Reducer。 - ` ControlledJob` 和 `JobControl`：这两个类用于管理多Job的级联，确保Job的执行顺序和依赖关系。 - `TableMapper`, `TableReducer`: 这些是HBase MapReduce特有的Mapper和Reducer，它们处理HBase表的数据。 - `FileInputFormat`, `KeyValueTextInputFormat`: 定义输入数据的格式，这里使用KeyValueTextInputFormat处理键值对输入。 - `IntWritable`, `Text`: 这是Hadoop内置的Writables，IntWritable用于表示计数，Text用于表示单词。 4. 实现细节： - 在Job1中，Mapper可能需要使用`org.apache.hadoop.io.LongWritable`和`org.apache.hadoop.io.Text`作为键值对的类型，将行号和单词作为输入，输出为单词和计数（1）。 - Job1的Reducer则将所有相同的单词键合并，累加其对应的计数。 - Job2的Mapper接收Job1的输出，保持不变，Reducer实现排序和选择TopN的逻辑。通过这样的多Job级联，我们可以有效地在Hadoop环境中找出出现频率最高的N个词，这种方法同样适用于其他TopN问题，只需调整Reducer的排序和选择逻辑即可。

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob;
import org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import util.WordAndCount;

剩余5页未读，继续阅读

书凡世界

粉丝: 1

使用Hadoop新API实现TopN：查找出现最频繁的20个词

词频统计（基于hadoop集群，python实现）

Hadoop词频统计（完整版）

如何设计并实现一个基于Hadoop的学生上网行为分析系统，并有效地利用MapReduce实现关键词排行榜功能？

基于Hadoop的MapReduce架构编写的KNN算法.zip

Hadoop mapreduce 实现NaiveBayes朴素贝叶斯

naive bayes在hadoop上的实现

Hadoop工程报告1

Hadoop hdfs文件操作，mr demo,topN demo

windows平台使用hadoop hdfs文件进行中文分词的示例代码

Hadoop MapReduce作业集合：大规模数据分析与处理指南

最新资源