Spark、Hive、HBase启动器的核心原理与RDD应用

需积分: 9 141 浏览量更新于2024-11-14 收藏 6.39MB ZIP 举报

资源摘要信息:"bigData-starter:spark-starter，hive-starter，hbase-starter" 在大数据领域，Spark、Hive和HBase是经常被提及的技术栈，它们各自扮演着不同的角色。Spark是处理大数据的分布式计算引擎，Hive是数据仓库工具，用于进行数据摘要、查询和分析，而HBase则是列式存储的非关系型数据库，用于存储大规模的数据集。本资源是关于这三种技术入门级的Starter包，它旨在帮助初学者快速上手并掌握这些技术的基本操作和原理。在Apache Spark中，一个核心的概念是RDD（Resilient Distributed Dataset），即弹性分布式数据集。RDD是分布式内存的一个抽象概念，提供了一个高度受限的共享内存模型。它由一个或多个分区组成，每个分区是一组固定大小的记录集合。用户可以通过并行操作这些数据分区来进行数据处理。 RDD的关键特性包括： 1. 不可变性：一旦创建，RDD的内容不可更改。 2. 分布式：RDD会被划分成多个分区，分布式在集群的多个节点上。 3. 弹性：当部分节点失效时，RDD可以自动恢复丢失的数据分区。 4. 惰性求值：RDD的操作是惰性的，只有在真正需要计算结果时才会进行计算。操作RDD主要分为两种： 1. 创建RDD：可以通过读取外部数据集（如文本文件、HDFS文件、HBase表等）或者在驱动程序中对集合（如list或set）调用`parallelize`方法来创建。 2. 转化操作：对已有RDD进行转换得到新的RDD。例如，`map`和`filter`操作。除了转化操作之外，RDD还支持行动操作，这些操作会触发计算并返回结果给驱动程序，如`count`、`collect`和`saveAsTextFile`等。 Hive是一个建立在Hadoop之上的数据仓库工具，用于简化Hadoop上的数据查询，它可以使用类SQL语句进行数据查询和管理。Hive使得熟悉SQL的开发者能够使用Hadoop进行大数据分析。 HBase是构建在Hadoop文件系统之上的一个开源、非关系型、分布式数据库，是Apache Software Foundation的Hadoop项目的一部分。HBase采用了列式存储，可以提供快速的随机访问超大数据集，适用于存储大量稀疏数据集。HBase中的数据存储在表中，每个表由多个列族组成，每个列族可以存储大量列，每列可以存储大量版本的数据。本资源文件夹名为"bigData-starter-master"，表明这是一个为大数据处理入门者准备的主包，包含Spark、Hive和HBase的入门级Starter包，有助于学习者对这三种大数据处理和存储技术有一个初步的了解和实践操作的机会。对于Java程序员来说，这个Starter包是特别有用的，因为它可能包含了Java语言的API和示例代码，方便Java开发者入门和实践。

收起资源包目录

bigData-starter:spark-starter，hive-starter，hbase-starter （80个子文件）

kv1.txt 6KB

EsSparkTest.java 5KB

students.txt 86B

users.avro 77KB

employees.json 85KB

UseJava.scala 495B

SparkHbaseRdd.java 3KB

LearnALS.scala 918B

hot_movies.csv 5KB

app_log.txt 56KB

TokenizerExample.java 2KB

SparkStarter.java 1KB

SparkTFIDF.java 2KB

HBaseConn.java 2KB

log4j.properties 268B

pom.xml 4KB

AppLogSparkApplication.java 6KB

people.txt 31B

DoubanRecommendMovie.scala 11KB

.gitignore 2KB

SparkMapJava.java 3KB

PhoenixDataSourceConfig.java 2KB

TestPhoenixJDBC.java 2KB

CollectionTest.scala 2KB

README.md 132B

SparkHbasePhoenix.java 1KB

BasisTest.scala 1KB

SparkFlatMapJava.java 2KB

SparkSessionStarter.java 9KB

hbase-site.xml 1KB

HBaseUtilTest.java 2KB

HBaseFilterTest.java 4KB

PhoenixTest.java 743B

AccessLogInfo.java 376B

BreakTest.scala 575B

hive-site.xml 145B

users.parquet 615B

MockData.java 1KB

MatrixExample.scala 593B

full_user.avsc 82KB

UserInfoMapper.xml 381B

user.avsc 85KB

student_infos.txt 38B

TestVoMain.scala 1KB

Word2VecExample.java 2KB

PhoenixUtilTest.java 5KB

scala数据结构和常用函数.md 10KB

application.properties 334B

user_movies.csv 19.3MB

BangSheng.scala 306B

sample_movielens_ratings.txt 27KB

BaseTest.java 2KB

people.json 86KB

UserInfoMapper.java 853B

RedCrossEsSpark.java 12KB

AdvanceFunc.scala 796B

ColumnInfoVO.java 295B

SparkHiveOldVersion.java 3KB

HBaseConnTest.java 685B

ClickHouseTest.java 1KB

HBaseUtil.java 6KB

TripBean.java 668B

README.md 8KB

pom.xml 9KB

pom.xml 909B

UserInfo.java 328B

pom.xml 1KB

HikariDataSourceFactory.java 337B

StatisticsExample.scala 870B

VectorsExample.scala 485B

AccessLogSortKey.java 4KB

mybatis-config.xml 1KB

SparkPi.scala 1KB

HiveJdbcTest.java 2KB

北京降雨量.txt 413B

DBHelper.java 907B

student_scores.txt 39B

SparkHiveNewVersion.java 3KB

log4j.properties 2KB

FuncTest.scala 1KB

共 80 条

阿礅

粉丝: 33
资源: 4656

Spark、Hive、HBase启动器的核心原理与RDD应用

Could not resolve dependencies for project org.apache.hive:hive-exec:jar:2.3.0:

hive-hbase-handler-1.2.1.jar

（Hive输出）pentaho-big-data-kettle-plugins-hive-6.1.0.1-196

sqoop import --connect jdbc:mysql://localhost:3306/test1 --username hive --password hive --table user --hive-import --hive-table user

Could not find artifact org.springframework.boot:spring-boot-starter:pom:2.0.0.M4 in nexus-aliyun

sqoop import --connect jdbc:mysql://zhaosai:3306/mydb --username root --password jqe6b6 --table news --target-dir /user/news --fields-terminated-by “;” --hive-import --hive-table news -m 1

基于docker容器，快速搭建hadoop+spark+hive+hbase集群的详细过程记录

cannot resolve org.apache.hive:hive-exec:2.3.7

最新资源