Spark读取HbaseRDD详解：过程与源码分析

需积分: 1 109 浏览量更新于2024-08-04 收藏 136KB PDF 举报

"Spark通过创建HbaseRDD来与HBase进行交互，这一过程涉及多个步骤，包括构建HbaseRDD、创建NewHadoopRDD以及在getPartitions方法中的操作。" 在Spark中，读取HBase数据的核心是创建一个HbaseRDD，这可以通过`SparkContext`的`newAPIHadoopRDD`方法实现。该方法接收四个参数：配置对象`confHbase`，输入格式类`TableInputFormat`，以及键和值的数据类型`ImmutableBytesWritable`和`Result`。这一步骤创建了一个能够处理HBase数据的新HadoopRDD。接下来，`newAPIHadoopRDD`内部会调用`newNewHadoopRDD`，这是Spark对Hadoop输入格式的抽象。在这个阶段，RDD被初始化，同时设置了相关配置，以确保能正确读取HBase数据。在`getPartitions`方法中，Spark会进一步配置HBase的输入格式。首先，尝试实例化输入格式类，如果该类实现了`Configurable`接口，那么会将Spark的配置设置给它。这里主要涉及到`TableInputFormat`的`setConf`方法，通过此方法，Spark传递了HBase的相关配置信息，如表名等。 `TableInputFormat`会根据配置中的`INPUT_TABLE`获取表名，并尝试创建一个`HTable`实例，以便于访问HBase表。如果出现异常，将会记录错误日志。接着，`TableInputFormat`会初始化`Scan`对象，`Scan`是HBase中用于定义查询条件的对象。如果用户已经提供了扫描配置（通过`SCAN`属性），则会将其转换为`Scan`对象。否则，`Scan`将被默认初始化，可能还会根据其他配置（如`SCAN_ROW_START`）来设定扫描的起始行。这个过程展示了Spark如何利用Hadoop的输入格式和配置来与HBase进行通信，使得Spark可以高效地读取和处理存储在HBase中的大数据。理解这一过程对于优化Spark-HBase交互性能，以及调试相关问题具有重要意义。在实际应用中，用户可以根据需要自定义`Scan`对象以优化查询性能，或者调整Spark配置以适应不同的计算需求。

浪尖 qq 技术交流群 459898801 224209501

Spark 读取 HbaseRDD 的过程

1,构建 hbaseRDD

val hbaseRDD = sc.newAPIHadoopRDD(confHbase, classOf[TableInputFormat],

classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],

classOf[org.apache.hadoop.hbase.client.Result])

2,构建 NewHadoopRDD

new NewHadoopRDD(this, fClass, kClass, vClass, jconf)

3,getPartitions 方法

Table 的初始化

val inputFormat = inputFormatClass.newInstance

inputFormat match {

case configurable: Configurable =>

configurable.setConf(_conf)

case _ =>

}

TableInputFormat 的 setConf 方法，给 InputFormat 设置表

this.conf = configuration;

String tableName = conf.get(

INPUT_TABLE

);

try {

setHTable(new HTable(new Configuration(conf), tableName));

} catch (Exception e) {

LOG.error(StringUtils.

stringifyException

(e));

}

初始化 scan，会先会获取用户设置的 scan 方法，然后再跟进多种情况进行构建。

Scan scan = null;

if (conf.get(

SCAN

) != null) {

try {

scan = TableMapReduceUtil.

convertStringToScan

(conf.get(

SCAN

));

} catch (IOException e) {

LOG.error("An error occurred.", e);

}

} else {

try {

scan = new Scan();

if (conf.get(

SCAN_ROW_START

) != null) {

scan.setStartRow(Bytes.

toBytes

(conf.get(

SCAN_ROW_START

)));

}

if (conf.get(

SCAN_ROW_STOP

) != null) {

scan.setStopRow(Bytes.

toBytes

(conf.get(

SCAN_ROW_STOP

)));

}

下载后可阅读完整内容，剩余5页未读，立即下载

小萝卜算子

粉丝: 73
资源: 20

Spark读取HbaseRDD详解：过程与源码分析

Spark源码剖析

Spark-Sql源码解析

Spark Streaming运行流程及源码解析（一）

Spark-LiveListenerBus 消息总线 源码解析

spark新手上路之源码解析.pdf

Spark-内核源码解析.docx

基于Java和Spark的电影推荐系统源码解析

JavaScript+HTML+Spark构建电商推荐系统源码解析

Spark Streaming实现电影推荐系统源码解析

Spark核心技术与源码深度解析

最新资源

Spark-LiveListenerBus 消息总线源码解析