利用部署好的HDFS、Spark及HBase集群，将课程资料中“实训”->“交通大数据”目录中的“卡口表.csv”先上传至HDFS文件系统中。使用Scala、Python或者Java任一一种语言编写程序，将csv文件中的数据写入到HBase的卡口表中。

Scala版本的代码如下： ```scala import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.Path import org.apache.hadoop.hbase.{HBaseConfiguration, TableName} import org.apache.hadoop.hbase.client.{ConnectionFactory, Put, Table} import org.apache.hadoop.hbase.util.Bytes import org.apache.spark.sql.SparkSession object CSVtoHBase { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .appName("CSVtoHBase") .master("local[*]") .getOrCreate() // Define HBase configuration val conf: Configuration = HBaseConfiguration.create() conf.addResource(new Path("/usr/local/hadoop-2.8.5/etc/hadoop/core-site.xml")) conf.addResource(new Path("/usr/local/hbase-2.2.4/conf/hbase-site.xml")) val connection = ConnectionFactory.createConnection(conf) val table: Table = connection.getTable(TableName.valueOf("traffic_data:station_vehicle")) // Read CSV file from HDFS val csvPath = "hdfs://localhost:9000/user/hadoop/实训/交通大数据/卡口表.csv" val csvDF = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load(csvPath) // Write data to HBase val putList = csvDF.rdd.map(row => { val put = new Put(Bytes.toBytes(row.getAs[String]("id"))) put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("station_id"), Bytes.toBytes(row.getAs[String]("站点编号"))) put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("direction"), Bytes.toBytes(row.getAs[String]("方向"))) put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("vehicle_type"), Bytes.toBytes(row.getAs[String]("车型"))) put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("vehicle_count"), Bytes.toBytes(row.getAs[String]("车辆数"))) put }).collect().toList table.put(putList) // Close connection table.close() connection.close() } } ``` 说明： 1. 首先需要创建一个SparkSession对象。 2. 然后定义HBase的配置信息。 3. 读取HDFS中的CSV文件为DataFrame。 4. 将DataFrame的每一行数据转换成Put对象，并收集到列表中。 5. 将Put列表批量写入HBase中。 6. 关闭表和连接。

阅读全文

利用部署好的HDFS、Spark及HBase集群，将课程资料中“实训”->“交通大数据”目录中的“卡口表.csv”先上传至HDFS文件系统中。使用Scala、Python或者Java任一一种语言编写程序，将csv文件中的数据写入到HBase的卡口表中。

相关推荐

JAVA将HDFS中的文件导入HBase

大数据Hadoop+HBase+Spark+Hive集群搭建教程(七月在线)1

大数据开发-大数据自动化部署-包括hadoop+hive+hbase+spark+storm等组件.zip

大数据综合实训案例.docx

大数据工程师部署.docx

实时计算框架：Spark集群搭建与入门案例.docx

大数据平台技术实施与运维规范-Hadoop 分册.docx

《大数据应用工程》培训计划.docx

高校大数据实验室建设解决方案.docx

[详细完整版]大数据运维.docx

小牛学堂大数据技术全解析：从基础到实战

【大数据集成与处理】：数据库课程设计的现代技能

大数据技术详解

大数据挑战应对

大数据架构设计与实践

HBase数据模型详解：一文揭秘NoSQL数据存储的奥秘

大数据架构案例实战：深度解读与设计技巧

HBase数据模型深度解析：行键、列族和时间戳的秘密

大规模数据处理：分布式系统与大数据技术的策略选择

【大数据新闻分析】：路透社语料的实时处理技术

大家在看

silvaco中文学习资料

AES128（CBC或者ECB）源码

EMC VNX 5300使用安装

华为MA5671光猫使用 华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

视频转换芯片 TP9950 iic 驱动代码

最新推荐

大数据实验Hbase安装部署和使用javaapi调用.pdf

大数据综合实验环境搭建（3个集群、Zookeeper、Hive、HBase）

Hadoop大数据实训，求最高温度最低温度实验报告

基于CentOS7的Hadoop2.7.7集群部署+Hive+Zookeeper+hbase1.x+kylin2.5.0.doc

Hbase完全分布式集群搭建(详细+，看完就会，).docx

掌握Android RecyclerView拖拽与滑动删除功能

【IBM HttpServer入门全攻略】：一步到位的安装与基础配置教程

[root@localhost~]#mount-tcifs-0username=administrator,password=hrb.123456//192.168.100.1/ygptData/home/win mount：/home/win：挂载点不存在

惠普8594E与IT8500系列电子负载使用教程

MATLAB与Python在SAR点目标仿真中的对决：哪种工具更胜一筹？

华为MA5671光猫使用华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载