Hive入门指南：安装部署与数据仓库详解

需积分: 10 191 浏览量更新于2024-07-19 收藏 1.8MB PDF 举报

Hive（上）--Hive介绍及部署.pdf 文件详细介绍了Hive，一个专为Hadoop平台设计的数据仓库工具。Hive的设计初衷是为了处理大规模结构化数据，它提供了一个类似SQL的语言层，称为HiveQL，使得数据分析人员能够以熟悉的SQL查询方式操作Hadoop分布式文件系统中的数据。 1. **Hive介绍**： Hive的核心优势在于其SQL-like接口，使得非技术人员也能轻松处理大量数据。Hive的主要优点包括： - **SQL兼容性**：HiveQL语法类似于标准SQL，降低了学习曲线，使数据分析师能够利用他们的现有技能。 - **Hadoop集成**：Hive是Hadoop生态系统的一部分，可以利用Hadoop的分布式计算能力进行数据处理。 - **数据存储**：Hive将数据存储在Hadoop的HDFS上，支持行式和列式存储，适合于分析型工作负载。 2. **Hive运行架构**： - Hive构建在Hadoop之上，包括元数据存储（Metastore）、执行引擎（Hive Server 2），以及客户端查询接口。 - 元数据存储管理Hive的数据结构、表定义等信息，而执行引擎则负责解析HQL查询并将其转换为MapReduce任务执行。 3. **Hive数据模型**： - Hive的数据模型基于关系型数据库，支持表、视图、分区和桶的概念，支持事务控制（尽管不是严格意义上的ACID）。 - 数据加载时，Hive将数据转换为Hadoop的InputFormat，便于并行处理。 4. **Hive数据类型**： - Hive支持标准的SQL数据类型，如整数、浮点数、字符串、日期等，以及一些Hadoop特有的类型，如数组和大对象。 5. **与关系数据库的区别**： - Hive更适合大规模数据处理，而传统关系数据库更侧重于事务处理和实时查询。 - Hive是批处理性质，查询响应时间可能较长，但可以处理PB级别的数据。 6. **Hive搭建过程**： - 包括安装MySQL数据库作为元数据存储，以及下载、配置和安装Hive，涉及文件上传、解压、环境变量设置、配置文件编写和Hive服务的启动验证。在文件的这部分内容中，主要讲解了如何为Hive环境设置好数据库支持，包括MySQL的安装、配置和与Hive的整合，确保用户能够成功部署和使用Hive进行数据仓库操作。此外，还提到了在遇到常见问题时的解决方案，如数据库密码设置错误、启动Hive时的错误处理，以及如何在Hive环境中使用HiveQL进行操作。这些步骤对于理解和实际部署Hive系统至关重要。

第 6 页共 28 页出自石山园，博客地址：http://www.cnblogs.com/shishanyuan

3. 远程服务器模式用于非 Java 客户端访问元数据库，在服务器端启动 MetaStoreServer，

客户端利用 Thrift 协议通过 MetaStoreServer 访问元数据库。

1.3 Hive 数据模型

Hive 没有专门的数据存储格式，用户可以自由的组织 Hive 中的表，只需要在创建表的时候

告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。Hive 中所有的数据都存储在

HDFS 中，存储结构主要包括数据库、文件、表和视图。Hive 中包含以下数据模型：Table 内

部表，External Table 外部表，Partition 分区，Bucket 桶。Hive 默认可以直接加载文本文件，

还支持 sequence file 、RCFile。

1. Hive 数据库

类似传统数据库的 DataBase，在第三方数据库里实际是一张表

简单示例命令行：

create database test_database;

2. 内部表

Hive 的内部表与数据库中的 Table 在概念上是类似。每一个 Table 在 Hive 中都有一个相应

的目录存储数据。例如一个表 tbInner，它在 HDFS 中的路径为/user/hive/warehouse/tbInner，

其中/user/hive/warehouse 是在 hive-site.xml 中由${hive.metastore.warehouse.dir} 指定

的数据仓库的目录，所有的 Table 数据（不包括 External Table）都保存在这个目录中。内部表

删除时，元数据与数据都会被删除。

内部表简单示例：

创建数据文件：

test_inner_table.txt

创建表：

create table test_inner_table (key string);

剩余27页未读，继续阅读

ansoncloud

粉丝: 5
资源: 31

Hive入门指南：安装部署与数据仓库详解

Hive安装与配置指南：新手入门必读

Hive安装部署与运维实战指南

大数据平台安装部署实战：Hadoop、Sqoop与Hive

hive-introduction.pdf

04-Hive安装部署及运维使用.pdf

大数据学习：Hive部署.pdf

hbase：实验一-Hive3安装与部署.pdf

8.Hadoop入门进阶课程_第8周_Hive介绍和安装部署.pdf

大数据平台-Hive培训.pdf

Hadoop集群监控与Hive高可用-向磊.pdf

最新资源