尚硅谷大数据技术Hive详解

需积分: 16 140 浏览量更新于2024-07-18 收藏 1.85MB PDF 举报

"大数据之hive笔记" 这篇笔记主要介绍了Apache Hive，一个基于Hadoop的数据仓库工具，用于处理和分析大规模的结构化数据。Hive由Facebook开源，它提供了类SQL查询语言（HQL），简化了对存储在HDFS上的大量数据进行分析的过程。 **Hive的基本概念** 1. **Hive的定义**：Hive是一个数据仓库工具，它将结构化的数据文件映射成数据库中的表，并允许使用SQL-like语句进行查询。实质上，Hive将用户的HQL语句转化为MapReduce任务在Hadoop集群上执行。 2. **数据存储**：Hive处理的数据都存储在HDFS（Hadoop分布式文件系统）中，确保了数据的高可用性和容错性。 3. **执行机制**：Hive的执行层依赖于YARN（Hadoop的资源管理器），负责调度和执行MapReduce作业。 **Hive的优缺点** 1. **优点** - **易用性**：Hive的SQL接口使得数据分析师无需学习复杂的MapReduce编程即可进行数据分析。 - **降低学习成本**：避免直接编写MapReduce代码，减少了开发人员的学习曲线。 - **适用于大数据处理**：Hive特别适合对大量数据进行离线分析，对实时性要求不高的场景。 - **扩展性**：支持用户自定义函数（UDF），满足多样化的计算需求。 2. **缺点** - **HQL的局限性**：HQL不能表达迭代式算法，对数据挖掘功能支持有限。 - **效率问题**：Hive生成的MapReduce作业通常效率较低，且优化相对困难。 **Hive架构原理** Hive的架构包括以下几个核心组件： - **Parser**：解析器，将用户的SQL语句解析为抽象语法树（AST）。 - **Query Optimizer**：优化器，根据解析后的查询计划进行优化，比如选择最佳的执行路径。 - **Physical Plan**：编译器将优化后的查询计划转化为MapReduce作业的具体执行逻辑。 - **Execution Engine**：执行器，负责在Hadoop集群上执行MapReduce任务。 - **Metastore**：元数据存储，保存表的结构、分区信息等，通常是通过MySQL或Derby等关系型数据库实现。 - **Driver**：驱动程序，协调各个组件的工作，接收客户端请求并返回结果。 - **Clients**：包括CLI（命令行接口）和JDBC/ODBC客户端，提供给用户交互界面。 Hive的设计使得它成为大数据处理领域的一种重要工具，尤其适合于数据仓库和ETL（提取、转换、加载）流程。然而，由于其依赖于MapReduce，所以在实时查询和低延迟场景下，Hive可能不是最佳选择。近年来，Hive也逐步支持Tez和Spark等更高效的执行引擎，以提高查询性能。Hive为大数据分析提供了一个易于使用的、灵活的平台，但同时也需要根据实际需求权衡其优缺点。

尚硅谷大数据技术之 Hive

—————————————————————————————

【更多 Java、HTML5、Android、python、大数据资料下载，可访问尚硅谷（中国）官

网 www.atguigu.com 下载区】

<name>hive.metastore.warehouse.dir</name>

<value>/user/hive/warehouse</value>

<description>location of default database for the warehouse</description>

</property>

配置同组用户有执行权限

bin/hdfs dfs -chmod g+w /user/hive/warehouse

2.8.2 查询后信息显示配置

1）在 hive-site.xml 文件中添加如下配置信息，就可以实现显示当前数据库，以及查询

表的头信息配置。

<name>hive.cli.print.header</name>

</property>

<name>hive.cli.print.current.db</name>

</property>

2）重新启动 hive，对比配置前后差异

（1）配置前

（2）配置后

2.8.3 Hive 运行日志信息配置

1）Hive 的 log 默认存放在/tmp/atguigu/hive.log 目录下（当前用户名下）。

2）修改 hive 的 log 存放日志到/opt/module/hive/logs

（1）修改/opt/module/hive/conf/hive-log4j.properties.template 文件名称为

尚硅谷大数据技术之 Hive

—————————————————————————————

【更多 Java、HTML5、Android、python、大数据资料下载，可访问尚硅谷（中国）官

网 www.atguigu.com 下载区】

MAP

MAP 是一组键-值对元组集合，使用数组

表示法可以访问数据。例如，如果某个列

的数据类型是 MAP ，其中键-> 值对

是’first’->’John’和’last’->’Doe’，那么可以

通过字段名[‘last’]获取最后一个元素

map()

ARRAY

数组是一组具有相同类型和名称的变量的

集合。这些变量称为数组的元素，每个数

组元素都有一个编号，编号从零开始。例

如，数组值为[‘John’, ‘Doe’]，那么第 2 个

元素可以通过数组名[1]进行引用。

Array()

Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中

的 Array 和 Map 类似，而 STRUCT 与 C 语言中的 Struct 类似，它封装了一个命名字段集合，

复杂数据类型允许任意层次的嵌套。

案例实操

1）假设某表有如下一行，我们用 JSON 格式来表示其数据结构。在 Hive 下访问的格式为

{

"name": "songsong",

"friends": ["bingbing" , "lili"] , //列表 Array,

"children": { //键值 Map,

"xiao song": 18 ,

"xiaoxiao song": 19

}

"address": { //结构 Struct,

"street": "hui long guan" ,

"city": "beijing"

}

2）基于上述数据结构，我们在 Hive 里创建对应的表，并导入数据。

创建本地测试文件 test.txt

songsong,bingbing_lili,xiao song:18_xiaoxiao song:19,hui long guan_beijing

yangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,chao yang_beijing

注意，MAP，STRUCT 和 ARRAY 里的元素间关系都可以用同一个字符表示，这里用“_”。

3）Hive 上创建测试表 test

create table test(

name string,

friends array<string>,

children map<string, int>,

address struct<street:string, city:string>

剩余88页未读，继续阅读

qmys

粉丝: 209
资源: 8

尚硅谷大数据技术Hive详解

【63课时完整版】大数据实践HIVE详解及实战

大数据技术之Hive.zip

尚硅谷 hive 课程教学文档

大数据 之 Hive 学习笔记

尚硅谷大数据技术hive学习笔记

大数据hive笔记.zip

大数据_Hive_视频_含有笔记

大数据技术学习笔记之Hive.zip

尚硅谷大数据技术之Hive学习笔记及入门指南

Hive大数据仓库-笔记整理 （一）2020年最新版.pdf

最新资源

大数据之 Hive 学习笔记

Hive大数据仓库-笔记整理（一）2020年最新版.pdf