Hive入门指南：从基础到优化

需积分: 1 2 浏览量更新于2024-06-24 收藏 782KB DOCX 举报

"这篇文档是关于大数据技术中的Hive学习资料，涵盖了Hive的基本概念、安装教程、数据类型、DDL操作、查询语法、函数应用、压缩与存储、企业级优化、实战项目以及常见错误和解决方案，适合初学者和期末复习使用。文档中详细介绍了Hive的优缺点、架构原理以及其在大数据分析中的作用。" Hive是一种基于Hadoop的数据仓库工具，由Facebook开源，主要用于处理和分析大规模的结构化日志数据。它将结构化的数据文件映射为数据库中的表，允许用户使用类SQL语言（HQL）进行查询，降低了处理大数据的复杂度。Hive的核心特性是将用户的SQL语句转换成MapReduce任务进行执行，数据则存储在HDFS上，而计算任务在Yarn上运行。 Hive的优点主要体现在其简单易学的操作接口，减少了开发人员编写MapReduce程序的负担，尤其适合大数据分析，对实时性要求不高的场景。此外，Hive还支持用户自定义函数，增强了其灵活性。然而，Hive也有其局限性，如HQL的表达能力有限，不适用于迭代式算法和数据挖掘，且效率相对较低，生成的MapReduce作业优化空间较小。 Hive的架构主要包括用户接口、元数据、Hadoop组件和驱动器四个部分。用户可以通过CLI、JDBC/ODBC或WEBUI与Hive交互。元数据存储着关于表的信息，如名称、字段、数据存储位置等，推荐使用MySQL而非默认的derby数据库。Hadoop负责数据的存储和计算。驱动器则包含解析器、编译器、优化器和执行器，负责将SQL语句转化为可执行的物理计划。 Hive的工作流程如下：用户通过接口提交SQL查询，解析器将其转化为抽象语法树，然后进行语法和语义分析。编译器生成逻辑执行计划，优化器根据数据分布和计算资源对其进行优化。最后，执行器将优化后的计划转化为MapReduce或Spark任务在Hadoop集群上执行，返回结果给用户。 Hive是大数据处理领域的一个重要工具，尤其适用于批量分析任务，但需要理解其性能特点和适用场景，才能更好地利用它进行大数据分析工作。学习Hive不仅需要掌握基本概念和语法，还需要了解其内部运行机制和优化策略，以便在实际工作中提升效率和效果。

[root@node02 hive]$ bin/beeline

Beeline version 1.2.1 by Apache Hive

beeline>

[root@hadoop102 hive]$ bin/hive -help

usage: hive

-d,--define <key=value>

to hive

Variable subsitution to apply

commands. e.g. -d A=B or --define

A=B

--database <databasename> Specify the database to use

-e <quoted-query-string> SQL from command line

-f <filename> SQL from files

-H,--help Print help information

--hiveconf <property=value> Use value for given property

--hivevar <key=value> Variable subsitution to apply

to hive

-i <filename>

-S,--silent

shell

-v,--verbose

to the console)

commands. e.g. --hivevar A=B

Initialization SQL file

Silent mode in interactive

Verbose mode (echo executed SQL

2.6 HiveJDBC 访问

2.6.1 启动 hiveserver2 服务

[root@node02 hive]$ bin/hiveserver2

2.6.2 启动 beeline

2.6.3 连接 hiveserver2

2.7 Hive 常用交互命令

1. “-e”不进入 hive 的交互窗口执行 sql 语句

[root@hadoop102 hive]$ bin/hive -e "select id from student;"

2. “-f”执行脚本中 sql 语句

（1）在/opt/module/datas 目录下创建 hivef.sql 文件

[root@hadoop102 datas]$ touch hivef.sql

beeline> !connect jdbc:hive2://hadoop102:10000（回车）

Connecting to jdbc:hive2://hadoop102:10000

Enter username for jdbc:hive2://hadoop102:10000: hadoop（回车）

Enter password for jdbc:hive2://hadoop102:10000: （直接回车）

Connected to: Apache Hive (version 1.2.1)

Driver: Hive JDBC (version 1.2.1)

Transaction isolation: TRANSACTION_REPEATABLE_READ

0: jdbc:hive2://hadoop102:10000> show databases;

+ + +

| database_name |

+ + +

| default |

| hive_db2 |

+ + +

剩余91页未读，继续阅读

gcr*

粉丝: 4

Hive入门指南：从基础到优化

大数据学习资料之hive

大数据技术之Hive.docx

9_大数据分析之hive学习.zip

大数据技术之Hive.zip

大数据技术之Hive-01（基础）.pdf

大数据技术中Hive安装与配置详解

尚硅谷大数据技术：Hive入门与原理解析

大数据之Hive官方文档简要翻译（中文文档）

大数据技术:Hive SQL 数据导入与复杂查询实战指导

大数据 之 Hive 学习笔记

最新资源

大数据之 Hive 学习笔记