spark读取hbase使用TableInputFormat的方式读取列为info:date 值为2023/07/01 的数据

要使用Spark读取HBase中的数据，可以使用TableInputFormat的方式。下面是一个示例代码： ```scala import org.apache.hadoop.hbase.{HBaseConfiguration, HConstants} import org.apache.hadoop.hbase.client.{ConnectionFactory, Scan} import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.apache.spark.{SparkConf, SparkContext} object SparkReadHBase { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("SparkReadHBase").setMaster("local[*]") val sc = new SparkContext(sparkConf) val hbaseConf = HBaseConfiguration.create() hbaseConf.set(HConstants.ZOOKEEPER_QUORUM, "your-zookeeper-quorum") hbaseConf.set(HConstants.ZOOKEEPER_CLIENT_PORT, "your-zookeeper-port") hbaseConf.set(TableInputFormat.INPUT_TABLE, "your-hbase-table-name") val scan = new Scan() scan.addColumn("info".getBytes, "date".getBytes) scan.setCaching(500) hbaseConf.set(TableInputFormat.SCAN, convertScanToString(scan)) val hbaseRDD = sc.newAPIHadoopRDD(hbaseConf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[org.apache.hadoop.hbase.client.Result]) val filteredRDD = hbaseRDD.filter{ case (_, result) => val value = Bytes.toString(result.getValue("info".getBytes, "date".getBytes)) value == "2023/07/01" } filteredRDD.foreach{ case (_, result) => val value = Bytes.toString(result.getValue("info".getBytes, "date".getBytes)) println(value) } sc.stop() } def convertScanToString(scan: Scan): String = { val proto = ProtobufUtil.toScan(scan) Base64.encodeBytes(proto.toByteArray) } } ``` 请注意，你需要替换代码中的以下部分： 1. `your-zookeeper-quorum`：将其替换为你的Zookeeper的地址。 2. `your-zookeeper-port`：将其替换为你的Zookeeper的端口。 3. `your-hbase-table-name`：将其替换为你要读取的HBase表的名称。这段代码会读取HBase表中列族为 "info"，列名为 "date"，值为 "2023/07/01" 的数据，并打印出来。你可以根据自己的需求进行修改和调整。

spark读取hbase使用TableInputFormat的方式 读取列为info:date 值为2023/07/01 的数据

相关推荐

spark读取hbase数据，并使用spark sql保存到mysql

hbase-rdd：Spark RDD从HBase读取，写入和删除

spark使用java读取hbase数据做分布式计算.pdf

spark读取hbase info:date,2023-07-01 如何读取

spark读取hbase报错：java.lang.noclassdeffounderror: org/apache/hadoop/hbase/hbaseconfiguration

2023/07/14 11:24:37 - HBase output.0 - Problem getting mapping information: Unknown column type : "Timestamp" 2023/07/14 11:24:37 - HBase output.0 - Unknown column type : "Timestamp"

spark读取hbase数据写往mysql

spark 读取hbase数据清洗后放入mysql

/usr/local/hbase/bin/hbase: 行 687: /path/to/java/bin/java: 没有那个文件或目录

spark读取hbase中数据代码

spark sql读取hbase中数据的优化

/usr/local/hbase/bin/hbase: line 687: /usr/lib/jvm//bin/java: No such file or directory hadoop@ubu

/usr/local/hbase/bin/hbase: 行 664: /usr/lib/jvm/jdk1.8.0_162/bin/java: 没有那个文件或目录

spark 读取hive数据 写入hbase

/usr/local/hbase/bin/hbase:行695: /usr/java/jdk1.8.0_162/bin/java: 没有那个文件或目录

使用spark写一个酒店推荐系统，数据从Hbase中读取

[atguigu@node11 hbase]$ tail -f /hbase/logs/hbase-*.log tail: 无法打开"/hbase/logs/hbase-*.log" 读取数据: 没有那个文件或目录 tail: 没有剩余文件

apache hadoop部署（四）：hive/hbase/storm/spark/flink配置

最新推荐

详解hbase与hive数据同步

HBase入门：命名空间、建表、增删改查

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

用 Python 画一个可以动的爱心

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

实现实时监控告警系统：Kafka与Grafana整合

spark读取hbase使用TableInputFormat的方式读取列为info:date 值为2023/07/01 的数据

spark 读取hive数据写入hbase

[atguigu@node11 hbase]$ tail -f /hbase/logs/hbase-.log tail: 无法打开"/hbase/logs/hbase-.log" 读取数据: 没有那个文件或目录 tail: 没有剩余文件