Hive面试精要：内部表、外部表与索引解析

需积分: 5 14 浏览量更新于2024-08-04 收藏 359KB DOCX 举报

“大数据面试二：hive，包括Hive面试题，如内外部表、索引、存储、数据倾斜、仓库分层等。” 在大数据领域，Hive作为一个基于Hadoop的数据仓库工具，常用于处理和分析大规模数据。在面试中，掌握Hive的基本概念和技术细节至关重要。以下是针对Hive面试中可能遇到的一些关键知识点的详细解释： 1. **Hive内部表与外部表的区别** - 内部表是Hive默认的数据存储模式，其元数据和数据都由Hive管理。当删除内部表时，Hive会同时删除元数据和存储在HDFS（Hadoop分布式文件系统）中的数据。内部表的数据通常存储在`hive.metastore.warehouse.dir`配置指定的目录下。 - 外部表的数据存储位置可由用户自定义，不局限于Hive的默认仓库。删除外部表仅删除元数据，HDFS上的数据不会被删除，因此更适用于已经存在的数据集。 2. **Hive索引** - 虽然Hive在3.0版本之前支持索引，但其功能相对有限，效率不高，因此实际应用中很少使用。Hive的索引主要用于不经常更新的静态字段，以避免频繁重建索引。每次数据更改后，都需要重建索引以保持其有效性。 3. **Hive任务调度** - 在生产环境中，Hive SQL通常会被编写到脚本中，然后使用工作流调度工具如Azkaban或Oozie进行自动化调度和执行。 - 监控任务调度页面是确保任务按预期运行和及时发现潜在问题的关键步骤。 4. **列式存储格式：ORC与Parquet的优点** - ORC（Optimized Row Columnar）文件格式是一种高效的列式存储格式，它使用ProtocolBuffers序列化元数据，数据高度压缩，减少了存储需求。ORC文件支持Bloom Filter以提高查询性能，特别是在谓词下推时。此外，ORC文件通过合并数据区间来减少I/O操作。 - Parquet是另一种列式存储格式，特别适合处理嵌套数据模型。它通过Striping/Assembly算法有效地存储和处理复杂的数据结构，同时通过Repetitionlevel和Definitionlevel来节省空间。Parquet不直接支持Map或Array，但可以通过组合repeated和group属性来模拟这些数据结构。 5. **数据倾斜与仓库分层** - 数据倾斜是指在分布式计算中，部分节点由于数据分布不均而承受过大的计算负载，导致整体处理效率下降。解决数据倾斜通常需要优化数据分区策略，确保数据均匀分布在各个节点上。 - 仓库分层（如冷热数据分离）是根据数据访问频率和生命周期将数据存储在不同存储层中，如将热点数据存放在速度快的SSD，非热点数据存放在成本更低的HDFS上，以提高整体系统性能和降低成本。理解并熟练掌握这些知识点对于在大数据面试中脱颖而出至关重要，同时在实际工作中也能有效提高数据处理的效率和准确性。

1、hive 内部表和外部表的区别

未被 external 修饰的是内部表，被 external 修饰的为外部表。

区别：

内部表数据由 Hive 自身管理，外部表数据由 HDFS 管理；

内部表数据存储的位置是 hive.metastore.warehouse.dir（默认：/user/hive/warehouse）,外部

表数据的存储位置由自己制定（如果没有 LOCATION ， Hive 将在 HDFS 上的

/user/hive/warehouse 文件夹下以外部表的表名创建一个文件夹，并将属于这个表的数据存

放在这里）；

删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS

上的文件并不会被删除。

2、Hive 有索引吗

Hive 支持索引（3.0 版本之前），但是 Hive 的索引与关系型数据库中的索引并不相同。并且

Hive 索引提供的功能很有限，效率也并不高，因此 Hive 索引很少使用。

索引适用的场景：

适用于不更新的静态字段。以免总是重建索引数据。每次建立、更新数据后，都要重建索

引以构建索引表。

3、运维如何对 hive 进行调度

将 hive 的 sql 定义在脚本当中；

使用 azkaban 或者 oozie 进行任务的调度；

监控任务调度页面

4、ORC、Parquet 等列式存储的优点

- ORC:ORC 文件是自描述的，它的元数据使用 Protocol Buffers 序列化，文件中的数据尽可

能的压缩以降低存储空间的消耗；以二进制方式存储，不可以直接读取；自解析，包含许多

元数据，这些元数据都是同构 ProtoBuffer 进行序列化的；会尽可能合并多个离散的区间尽

可能的减少 I/O 次数；在新版本的 ORC 中也加入了对 Bloom Filter 的支持，它可以进一步提

升谓词下推的效率，在 Hive 1.2.0 版本以后也加入了对此的支持。

- Parquet:Parquet 支持嵌套的数据模型，类似于 Protocol Buffers，每一个数据模型的

schema 包含多个字段，每一个字段有三个属性：重复次数、数据类型和字段名；Parquet 中

没有 Map、Array 这样的复杂数据结构，但是可以通过 repeated 和 group 组合来实现；通过

Striping/Assembly 算法，parquet 可以使用较少的存储空间表示复杂的嵌套格式，并且通常

Repetition level 和 Definition level 都是较小的整数值，可以通过 RLE 算法对其进行压缩，进

一步降低存储空间；Parquet 文件以二进制方式存储，不可以直接读取和修改，Parquet 文件

是自解析的，文件中包括该文件的数据和元数据。

5、数据建模用的哪些模型

星型模型

星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心，所有的维度

表直接连接在事实表上，像星星一样。星形模式的维度建模由一个事实表和一组维表成，且

下载后可阅读完整内容，剩余8页未读，立即下载

roseandwar

粉丝: 2

Hive面试精要：内部表、外部表与索引解析

Hadoop和hive大数据面试题

牛客大数据面试题集锦+答案，共523道，46W+字。大厂必备

大数据面试必备：Hive核心知识点与面试策略

大数据面试必备：Hive与SQL精华文档

大数据面试大全：Hadoop、Hive、Spark 面试题集合

大数据面试必备：Hadoop、Hive、Spark、HBase核心知识点解析

大数据面试必读：300页Java与大数据面试总结

大数据面试题资料：Hive内外部表区别及创建流程详解

大数据面试精华：Oracle、Spark、Java、Hive技能全面解析

大数据面试必备：各技术栈面试题集锦

最新资源