Hive面试高频点：架构、特性与实战应用

需积分: 2 114 浏览量更新于2024-08-04 收藏 219KB DOCX 举报

Hive是Apache Hadoop生态系统中的一个重要组件，专门设计用于处理大规模数据仓库。本文档主要针对大数据面试者提供了一些高频面试问题，帮助他们深入理解Hive的关键特性及应用场景。 1. **Hive架构**： Hive架构基于Hadoop MapReduce框架，它将SQL-like查询转换为MapReduce任务执行。Hive的数据存储在Hadoop分布式文件系统（HDFS）上，与传统的关系型数据库相比，数据分布在多台机器上，提供了更好的容错性和扩展性。 2. **与数据库的区别**： - 数据存储：Hive将数据存储在HDFS而非传统数据库的磁盘或文件系统，适合海量数据处理。 - 数据更新：Hive不支持直接的数据更新，而数据库可以频繁地修改数据。 - 执行延迟：Hive由于其并行计算的优势，执行延迟在大数据量下较低，但小规模数据下数据库可能更快。 - 数据规模：Hive支持超大规模数据处理，数据库则受制于硬件限制。 3. **表类型**： - 内部表：删除后会删除数据，不适用于与其他工具共享数据。 - 外部表：保留数据源，仅删除元数据，有利于数据的持久性和重复利用。 4. **分桶和排序**： - SortBy：分区内的有序，但整体无排序。 - OrderBy：全局排序，通常只有一个Reducer，可能导致性能下降。 - DistributeBy：分区并排序，类似MapReduce中的Partition。 - ClusterBy：当DistributeBy和SortBy字段相同，提供更高效的排序，但只能按升序。 5. **窗口函数**： - RANK(), DENSE_RANK(), ROW_NUMBER()：分别处理排序和重复值处理，OVER()定义了窗口范围。 - LAG()和LEAD()：查看前/后n行数据。 - NTILE(n)：将数据划分到固定数量的区间，每个区间分配一个编号。 6. **用户自定义函数**： - UDF (User Defined Function) 和 UDTF (User Defined Table Function)：开发者的扩展能力，用于处理项目中特定的业务逻辑，如复杂计算或数据转换。通过这些问题，面试者可以考察到求职者对Hive的数据模型、查询优化、分布式处理以及编程接口的理解程度，这对于理解和操作大数据环境至关重要。熟悉这些知识点将有助于在大数据领域的职业发展。

1、Hive 的架构

2、 Hive 和数据库比较

Hive 和数据库除了拥有类似的查询语言，再无类似之处。

1）数据存储位置

Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。

2）数据更新

Hive 中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的，

3）执行延迟

Hive 执行延迟较高。数据库的执行延迟较低。当然，这个是有条件的，即数据规模较

小，当数据规模大到超过数据库的处理能力的时候，Hive 的并行计算显然能体现出优势。

4）数据规模

Hive 支持很大规模的数据计算；数据库可以支持的数据规模较小。

3、内部表和外部表

1）管理表：当我们删除一个管理表时，Hive 也会删除这个表中数据。管理表不适合和

其他工具共享数据。

2）外部表：删除该表并不会删除掉原始数据，删除的是表的元数据

下载后可阅读完整内容，剩余7页未读，立即下载

风老魔

粉丝: 249
资源: 99

Hive面试高频点：架构、特性与实战应用

大数据技术之高频面试题8.0.2.pdf

牛客大数据面试题集锦+答案，共523道，46W+字。大厂必备

大数据笔试题面试题16+家公司.rar

大数据技术高频面试题真题

大数据技术高频面试题

2024年最新，Hive SQL经典面试题，大数据SQL经典面试题

大数据知识、面试题 HDFS、Mapreduce、hive

牛客大数据面试题集锦+答案，共523道，46W+字 面试题总结一网打尽

大数据技术之面试题 .pdf

大数据技术之面试题.doc

最新资源

牛客大数据面试题集锦+答案，共523道，46W+字面试题总结一网打尽