Hive大数据仓库解析：重点知识与运行机制

需积分: 5 115 浏览量更新于2024-08-05 1 收藏 1.76MB PDF 举报

“2021年-Hive大数据仓库-期末考试知识点重点-笔记整理.pdf”主要涵盖了Hive作为大数据仓库的核心概念、Hive与Hbase的区别以及Hive的运行机制。 ### Hive的基本定义 Hive是由Facebook开源的一个基于Hadoop的数据仓库工具，它的设计目标是让具备SQL基础的用户能够方便地对大规模分布式存储的结构化数据进行查询和管理。Hive将数据文件映射为数据库表，提供了类似SQL的查询语言HQL（Hive Query Language），将用户的SQL语句转化为MapReduce任务执行。Hive的优势在于简化了MapReduce编程，适用于离线数据清洗和分析，但因为其延迟较高，不适合实时查询。 ### Hive与Hbase的区别 #### Hive 1. **批处理系统**：Hive主要是为了解决大量数据的批处理需求，减少了MapReduce任务的编写工作。 2. **非存储计算**：Hive自身并不存储数据，也不负责计算，而是依赖HDFS进行数据存储，依赖MapReduce进行计算。 3. **逻辑表**：Hive中的表是逻辑上的，实际数据存储在HDFS上。 4. **全表扫描**：在查询数据库时，如果需要全量数据，Hive结合Hadoop更适合。 5. **延迟较高**：由于依赖MapReduce执行，Hive的查询响应时间相对较慢，适合离线分析。 #### Hbase 1. **实时操作**：HBase是为了补充Hadoop在实时操作上的不足，支持快速读写。 2. **物理表**：HBase是一个物理存储的数据库，提供内存中的哈希表，用于快速查询。 3. **索引访问**：对于需要索引查询的场景，HBase配合Hadoop更合适。 4. **NoSql数据库**：HBase是一种面向列的NoSql数据库，注重高效的数据存储和检索。 5. **高效实时**：HBase的查询性能较高，更适合实时或近实时的操作。 ### Hive的运行机制 1. **接收SQL语句**：用户通过Hive接口提交SQL查询。 2. **词法和语法分析**：Hive解析器将输入的SQL语句分解成一个个有意义的元素。 3. **语义分析**：检查SQL语句的正确性，确保符合语法规则。 4. **生成逻辑计划**：形成算子树，表示查询的逻辑流程。 5. **逻辑计划优化**：对算子树进行剪枝、谓词下推等优化，提高查询效率。 6. **物理计划生成**：将优化后的逻辑计划转化为由MapReduce任务组成的DAG（有向无环图）物理计划。 7. **执行物理计划**：在Hadoop集群上运行MapReduce任务，完成数据查询和处理。总结来说，Hive是针对大数据分析的工具，提供SQL式的查询接口，简化了对Hadoop数据的操作，而Hbase则是面向实时操作的NoSql数据库，两者在应用场景和性能特性上有显著区别。理解这些知识点对于掌握大数据处理和分析至关重要。

⭐ Hive的基本定义!

Hive是⼀个基于Hadoop的⼀个数据仓库⼯具，可以将结构化的数据⽂件映射为⼀个表。并提供类SQL

查询功能，可以将sql语句转换为MapReduce任务运⾏。其优点是学习成本低，可以通过类SQL语句快

速实现简单的MapReduce统计。延迟较⾼，使⽤离线的数据分析和清洗⼯作。!

⭐ Hive与Hbase的区别!

Hive：Hive是基于Hadoop的⼀个数据仓库⼯具，可以将结构化的数据⽂件映射为⼀张数据库表，并提

供简单的sql查询功能。!

🔺 Hive是建⽴在Hadoop之上为了减少MapReduce jobs编写⼯作的批处理系统。!

🔺 Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑。hive需要⽤到

hdfs存储⽂件，需要⽤到MapReduce计算框架。!

🔺 在操作数据库时，全表扫描⽤Hive+Hadoop。!

🔺 hive可以认为是map-reduce的⼀个包装。hive的意义就是把好写的hive的sql转换为复杂难写的map-

reduce程序，⽤mapreduce来完成⼀些命令。!

🔺 Hive 的延迟⽐较⾼。!

HBase：HBase是Hadoop的数据库，⼀个⾯向列、分布式、可扩展、⼤数据的存储。!

🔺 HBase 是⽀持弥补Hadoop对实时操作的缺陷项⽬。!

🔺 hbase是物理表，不是逻辑表，提供⼀个超⼤的内存hash表，搜索引擎通过它来存储索引，⽅便查询

下载后可阅读完整内容，剩余5页未读，立即下载

上岸y

粉丝: 1
资源: 5

Hive大数据仓库解析：重点知识与运行机制

hive学习和习题集

10-Hive数据仓库

大数据期末复习总结.pdf

apache-hive-2.3.9-bin.tar大数据HIVE.zip

Hive大数据仓库-笔记整理 （一）2020年最新版.pdf

大数据平台-Hive培训.pdf

hive-testbench-hive14.zip大数据TPCDS-99SQL自动测试脚本

智慧城市-交通大数据方案.pdf

大数据开发培训班有哪些-光环大数据培训.pdf

hive1.2.1用mysql作为元数据库搭建DT-大数据.pdf

最新资源

Hive大数据仓库-笔记整理（一）2020年最新版.pdf