Hive3引擎升级指南：从传统引擎迁移到Spark

112 浏览量更新于2024-11-01 收藏 338.06MB GZ 举报

资源摘要信息:"Hive3第六章：更换引擎" 知识点一：Hive引擎概述 Apache Hive是一个构建在Hadoop之上的数据仓库工具，它提供了一系列机制来查询存储在Hadoop文件系统中的大数据。Hive使得熟悉SQL的用户能够查询Hadoop中的数据，并允许他们在Hadoop集群上执行MapReduce任务。Hive的查询语言是HiveQL，它类似于SQL。知识点二：Hive的存储引擎 Hive最初使用MapReduce作为其唯一的执行引擎来处理查询。随着时间的发展，Hive逐步引入了其他执行引擎，以优化性能和扩展性。Hive支持多种执行引擎，包括Tez和Spark等。这些执行引擎针对特定类型的查询工作负载进行了优化。知识点三：为什么要更换引擎用户可能会根据特定的查询需求、性能目标或资源优化等原因选择更换Hive的执行引擎。例如，某些类型的查询在Spark引擎上可能运行得更快，因为它利用了内存计算的优势，减少了磁盘I/O操作，相比MapReduce，Spark更适合执行迭代计算和交互式查询。知识点四：Spark引擎的优势 Apache Spark是一种快速、通用的计算引擎，它为大规模数据处理提供了内存计算的优势。Spark引擎在Hive中的使用可以提高复杂查询的处理速度，因为它能够在内存中处理数据，减少对磁盘的依赖。这对于需要快速迭代处理的分析型应用特别有利。知识点五：如何更换Hive的引擎更换Hive的执行引擎通常需要修改Hive的配置文件，通常是hive-site.xml。在这个文件中，你可以指定执行引擎的配置参数，如设置spark作为执行引擎。例如，你可以设置参数`hive.execution.engine`为`spark`来指定Hive使用Spark作为执行引擎。知识点六：更换引擎的步骤 1. 首先，需要确保Hive环境已经安装了想要更换到的执行引擎。在本例中，需要安装Spark。 2. 接着，编辑Hive的配置文件hive-site.xml，设置`hive.execution.engine`参数为`spark`。 3. 如果使用的是Cloudera或Hortonworks等发行版的Hive，可能还需要在相应的服务管理界面中进行配置。 4. 配置完成后，重启Hive服务，使更改生效。 5. 测试新的执行引擎，验证是否已经切换成功，并确保性能符合预期。知识点七：对现有应用的影响更换Hive的执行引擎可能会影响现有的应用和查询。因此，在正式切换之前，需要对现有的Hive工作负载进行评估，以确定是否适合切换引擎。在测试环境中先进行切换，观察性能和兼容性，然后才能在生产环境中部署新的执行引擎。知识点八：Hive3的新特性 Hive3作为最新版本，带来了许多新特性，包括性能提升、SQL兼容性改进、以及更灵活的执行引擎选择。Hive3对Spark的支持得到了加强，并提供了一些针对Spark的优化策略。这些改进使得Hive3成为处理大规模数据分析的一个更加吸引人的选择。知识点九：使用Spark执行引擎的注意事项在使用Spark作为Hive的执行引擎时，需要注意一些事项。例如，Spark对内存的需求可能更高，需要确保集群有足够的内存来支持Spark的运行。另外，Spark作为执行引擎的优化参数配置也需要根据实际情况进行调整，以获得最佳性能。知识点十：案例分析在实际的企业环境中，更换Hive的执行引擎可能涉及到多个方面的考量，包括但不限于数据迁移、系统兼容性测试、性能评估、资源分配等。通过案例分析，可以详细了解更换执行引擎所涉及的技术细节、潜在的风险以及成功的实践方法。通过以上知识点，我们可以了解到Hive更换执行引擎的详细过程、影响和优化策略，以及Hive3版本中针对Spark执行引擎的新特性和改进。这将帮助IT专业人员在数据仓库的管理和优化方面做出更加明智的决策。

资源目录

收起资源包目录

Hive3引擎升级指南：从传统引擎迁移到Spark （1167个子文件）

tink-1.6.1.jar 1.26MB

hive-exec-3.1.3.jar 39.94MB

commons-math3-3.6.1.jar 2.11MB

jersey-server-2.25.1.jar 919KB

hive-standalone-metastore-3.1.3.jar 10.58MB

jcodings-1.0.18.jar 1.53MB

table1.avsc 520B

futurama_episodes.avro 3KB

2000_cols_data.csv 40KB

small_csv.csv 2KB

hbase-common-2.0.0-alpha4.jar 746KB

dec_old.avro 331B

javassist-3.25.0-GA.jar 762KB

jaxb-impl-2.2.3-1.jar 869KB

derby-10.14.1.0.jar 3.08MB

spark-network-common_2.12-3.3.0.jar 2.3MB

rocksdbjni-6.20.3.jar 34.41MB

hbase-protocol-shaded-2.0.0-alpha4.jar 5.45MB

over10k.gz 243KB

htrace-core-3.2.0-incubating.jar 1.42MB

spark-core_2.12-3.3.0.jar 10.49MB

commons-math-2.1.jar 813KB

UserVisits.dat 7KB

table1_1.avsc 392B

avatica-1.11.0.jar 5.74MB

jackson-databind-2.12.0.jar 1.44MB

ivy-2.4.0.jar 1.22MB

hive-service-rpc-3.1.3.jar 1.6MB

grad2.avsc 186B

jackson-mapper-asl-1.9.13.jar 762KB

map_null_val.avro 341B

doctors.avro 521B

employee2.dat 64B

flights_tiny.txt.1 5KB

php_thrift_protocol.h 964B

ant-1.9.1.jar 1.9MB

avro-1.8.2.jar 1.48MB

upgrade.order.derby 265B

php_thrift_protocol.h 930B

esri-geometry-api-2.0.0.jar 893KB

hiveserver2 885B

hbase-protocol-2.0.0-alpha4.jar 3.04MB

hplsql 880B

hive-jdbc-3.1.3-standalone.jar 69.47MB

hbase-shaded-netty-1.0.1.jar 3.68MB

datanucleus-rdbms-4.1.19.jar 1.82MB

hive-serde-3.1.3.jar 1008KB

episodes.avro 597B

hbase-shaded-miscellaneous-1.0.1.jar 2.94MB

avro_historical_timestamp_new.avro 245B

accumulo-core-1.7.3.jar 4.68MB

php_thrift_protocol.cpp 10KB

hive-druid-handler-3.1.3.jar 49.84MB

hbase-client-2.0.0-alpha4.jar 1.66MB

hppc-0.7.2.jar 1.59MB

lt100.txt.deflate 267B

grad.avsc 304B

jersey-guava-2.25.1.jar 949KB

xercesImpl-2.9.1.jar 1.17MB

beeline 881B

hbase-server-2.0.0-alpha4.jar 4.36MB

map_null_schema.avro 187B

jersey-common-2.25.1.jar 699KB

fastbinary.c 26KB

dec.avro 343B

netty-all-4.1.17.Final.jar 3.6MB

httpclient-4.5.13.jar 762KB

lz4-java-1.8.0.jar 667KB

scala-reflect-2.12.15.jar 3.51MB

FacebookService-remote 4KB

zstd-jni-1.5.2-1.jar 5.61MB

ecj-4.4.2.jar 2.2MB

arrow-vector-0.8.0.jar 1.21MB

snappy-java-1.1.4.jar 1.44MB

type_evolution.avro 167B

netty-3.10.5.Final.jar 1.27MB

parquet-hadoop-bundle-1.10.0.jar 3.9MB

log4j-core-2.17.1.jar 1.71MB

hbase-shaded-protobuf-1.0.1.jar 1.38MB

php_thrift_protocol.cpp 29KB

zookeeper-3.4.6.jar 774KB

hcat 5KB

hive-hplsql-3.1.3.jar 679KB

test2.dat 23B

hive 10KB

avro_historical_timestamp_legacy.avro 216B

employee.dat 105B

hive-llap-server-3.1.3.jar 764KB

commons-collections4-4.1.jar 734KB

orc-core-1.5.8.jar 782KB

datanucleus-core-4.1.17.jar 1.92MB

scala-library-2.12.15.jar 5.19MB

jetty-runner-9.3.20.v20170531.jar 5.99MB

calcite-core-1.16.0.jar 4.54MB

upgrade.order.hive 15B

test.dat 11B

guava-19.0.jar 2.2MB

groovy-all-2.4.11.jar 6.71MB

in_file.dat 24B

curator-client-2.12.0.jar 2.31MB

共 1167 条

超哥--

粉丝: 5213
资源: 1

Hive3引擎升级指南：从传统引擎迁移到Spark

hadoop3.0.3及hive2.3.5

hive安装

Could not resolve dependencies for project org.apache.hive:hive-exec:jar:2.3.0:

cannot resolve org.apache.hive:hive-exec:2.3.7

sudo: /usr/local/hive/bin/hive: command not found

idea连接hive java.net.ConnectException: Connection refused: connect.

/usr/local/hive/bin/hive: 没有那个文件或目录

Cannot resolve org.apache.hive:hive-jdbc:2.1.1-cdh6.3.4

flink-connector-hive_3.1.2:pom:1.17.0 如何下载

hive进行初始化是报错了，org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version.

最新资源