Hive入门教程：概念、优势与基本架构解析

需积分: 10 34 浏览量更新于2024-07-17 收藏 537KB DOCX 举报

"hive笔记概述与安装教程" Hive是一个基于Hadoop的数据仓库工具，它允许数据分析师使用类SQL语句对存储在Hadoop文件系统（HDFS）中的大量非结构化或半结构化数据进行查询和分析。由于Hive的设计初衷是为了简化大数据处理的复杂性，因此特别适合那些不熟悉低级编程接口如MapReduce的用户。 **Hive的基本思想** Hive的核心理念是将数据映射为关系型数据库的表，通过SQL查询接口提供数据处理能力。这种设计使得数据分析人员无需深入了解底层的分布式计算框架，就能高效地处理大规模数据。Hive将SQL查询转换为一系列MapReduce任务，由Hadoop集群自动执行，从而降低了数据分析的门槛。 **为什么要使用Hive** 直接使用Hadoop MapReduce进行数据分析存在诸多挑战，如学习曲线陡峭、开发周期紧张、复杂查询实现困难等。Hive的出现，通过提供易于理解和使用的SQL接口，有效降低了这些难题。它不仅减少了开发时间，还允许用户通过编写自定义函数（UDF）来扩展其功能，满足特定业务需求。 **Hive的特点** 1. **可扩展性**：Hive能够随着数据量的增长灵活地扩展集群规模，且通常不需要重启服务。 2. **延展性**：支持用户自定义函数（UDF），使得用户可以定制适合自己业务场景的计算逻辑。 3. **容错性**：Hive具有良好的容错机制，即使部分节点出现故障，查询也能继续执行。 **Hive的基本架构** 在Hadoop 1.x中，Hive依赖于JobTracker和TaskTracker，分别对应于Hadoop 2.x的Resource Manager和Node Manager以及MRAppMaster。Hive的主要组件包括： - **Driver**：解析查询语句，生成执行计划。 - **Compiler**：将SQL语句转化为MapReduce任务。 - **Executor**：执行MapReduce任务。 - **Metadata Store**：存储关于表、列、分区等元数据信息。 **Hive的安装** Hive有两种常见的安装方式： 1. **最简安装**：使用内嵌的Derby数据库作为元数据库。这种方式适合个人学习和简单测试，但不适用于团队协作，因为元数据不能被多个Hive客户端共享。 2. **标准安装**：将MySQL或其他兼容的数据库作为元数据库，提供更稳定和可扩展的解决方案。安装步骤包括安装MySQL服务器、配置环境变量、创建Hive元数据表等。在安装过程中，可能会遇到依赖问题，如缺少Perl，这时需要先安装缺失的依赖库。如果需要更快的安装速度，可以设置本地Yum源，例如挂载光盘镜像并修改配置文件。 Hive是大数据分析领域的重要工具，它通过提供易于使用的SQL查询语言，使数据处理变得更加便捷，尤其对于初学者和数据从业者，Hive是一个理想的入门选择。了解并掌握Hive的使用，能极大地提升数据处理效率，推动业务洞察。



也不会做任何处理（能解析就解析，解析不了就是



）；

5.2.2. 删除表

*(?

删除表的效果是：

 会从元数据库中清除关于这个表的信息；

 还会从 1 中删除这个表的表目录；

5.2.3. 内部表与外部表

内部表$G$Q)%(V$O)：表目录按照  的规范来部署，位于  的仓库目录88

86 中

外部表)WV)G$(V$O)：表目录由建表用户自己指定

0*(EE( 

61

C*AEA

 A88A?

外部表和内部表的特性差别：

!、内部表的目录在  的仓库目录中 P外部表的目录由用户指定

"、 一个内部表时： 会清除相关元数据，并删除表数据目录

#、 一个外部表时： 只会清除相关元数据；

一个  的数据仓库，最底层的表，一定是来自于外部系统，为了不影响外部系统的工作

逻辑，在  中可建 0 表来映射这些外部系统产生的数据目录；

然后，后续的  操作，产生的各种中间表建议用 (*（内部表）

5.2.4. 分区表

分区表的实质是：在表目录中为数据文件创建分区子目录，以便于在查询时， 程序可

以针对指定的分区子目录中的数据进行处理，缩减读取数据的范围，提高效率！

比如，网站每天产生的浏览记录，浏览记录应该建一个表来存放，但是，有时候，我们可

能只需要对某一天的浏览记录进行分析

这时，就可以将这个表建为分区表，每天的数据导入其中的一个分区；

当然，每日的分区目录，应该有一个目录名（分区字段）

5.2.4.1. 一个分区字段的实例：

示例如下：

!、创建带分区的表

*(EE( 

 *

61

C*AEA?

注意：分区字段不能是表定义中的已存在字段

"、向分区中导入数据

A88"!;45A*( MA"!;45A?

A88"!;42A*( MA"!;42A?

#、针对分区数据进行查询



、统计



月



号的总



：

 !"#$%$$#&

实质：就是将分区字段当成表字段来用，就可以使用

!

子句指定分区了



、统计表中所有数据总的



：

 &

实质：不指定分区条件即可

5.2.4.2. 多个分区字段示例

建表：

*( EE

 *E0E6

61C*AEA?

导数据：

A88!A*(  MA0AE0MAAE6M"?

剩余50页未读，继续阅读

爱买冰淇淋的东邪北丐

粉丝: 2
资源: 10

Hive入门教程：概念、优势与基本架构解析

Hive JDBC驱动包 hive-jdbc-uber-*.*.*.*-292.zip 解析

dbeaver连接Hive必备驱动包：hive-jdbc-uber-*.*.*.*-292.jar

Ubuntu 16.04 安装 Hive-1.2.2 教程：配合 Hadoop-2.6.5 和 MySQL

hive自学笔记.docx

阿里巴巴Hive学习笔记.docx

hadoop-辅助工具-笔记.docx

大数据学习笔记.docx

hadoop和yarn原理笔记.docx

大数据技术原理学习笔记.docx

Hadoop平台技术 模块1 Hadoop概述-单元设计.docx

最新资源

Hive JDBC驱动包 hive-jdbc-uber-...-292.zip 解析

dbeaver连接Hive必备驱动包：hive-jdbc-uber-...-292.jar

Hadoop平台技术模块1 Hadoop概述-单元设计.docx