大数据Linux VM期末复习题集：Hive与Impala对比详解

需积分: 0 165 浏览量更新于2024-08-03 收藏 221KB PDF 举报

大数据、虚拟机和Linux VM复习题库涵盖了全面的期末备考内容，重点聚焦于这两个领域的重要概念和技术。该题库包含以下知识点： 1. **数据仓库与数据库系统的关系**：数据仓库是专门设计用于支持决策制定的数据集合，它与数据库系统的主要区别在于目标、数据结构和访问模式。数据仓库通常用于长期存储历史数据，而数据库系统更注重实时操作。 2. **Hive分区表的作用**：Hive分区表用于提高查询性能，通过按某个或多个列值将大表分成较小、更易管理的部分。静态分区基于预定义的键值，而动态分区则依赖运行时输入参数。 3. **聚合函数**：Hive提供了多种聚合函数，如COUNT（用于计算数量）、MAX、MIN（用于找出最大值和最小值）、LEAD和LAG（用于行内的前瞻或滞后值）。 4. **数据仓库定义**：数据仓库是专为分析目的创建的，它从多个源系统收集、整合和存储数据，以便支持决策制定者进行复杂查询。 5. **Hive元数据存储模式**： - **内嵌模式**：Hive默认使用内存数据库Derby存储元数据，不支持并发访问。 - **本地模式**：通过网络连接外部数据库，如MySQL，常用于生产环境，但需要额外配置。 - **远程模式**：MetaStoreServer用于存储元数据，客户端通过Thrift协议访问，提供更好的可扩展性和安全性。 6. **Hive与Impala对比**：Hive和Impala都服务于大数据处理，但Hive更适合批处理，Impala支持实时查询。两者共享元数据，但处理方式不同。 7. **Hive函数类型**：介绍了不同类型的用户定义函数（UDF）、聚合函数（UDAF）和表生成函数（UDTF），以及它们各自的功能。 8. **Hive排序方式**：sortby是非全局排序，仅对单个reduce任务的输出排序；distributeby用于划分数据到reduce任务，而clusterby支持排序但不一定默认逆序。 9. **Hive与传统数据库比较**：Hive基于Hadoop，数据主要存储在HDFS，适用于大量读取而写入较少的场景。 10. **Hive数组操作**：数组trans_cnt[1,2,3,4]中，trans_cnt[2]获取元素对应值为3。 11. **数据倾斜问题**：数据倾斜是指数据分布不均导致查询性能下降，解决方法可能涉及了解业务分布、优化作业或调整数据分布策略，如小文件合并。这些题目旨在帮助学生巩固大数据技术、虚拟机和Linux VM的相关知识，为期末考试做好充分准备。复习时应注意理解这些概念的实际应用和它们之间的相互关系。

一、

选择题

1.下列有关 Hive 和 Impala 的对比错误的是（ C ）

A. Hive 适合于长时间的批处理查询分析，而 Impala 适合于实时交互式 SQL 查询

B. Hive 与 Impala 使用相同的元数据

C. Hive 在内存不足以存储所有数据时，会使用外存，而 Impala 也是如此

D. Hive 与 Impala 中对 SQL 的解释处理比较相似，都是通过词法分析生成执行计划

4.下面关于 Hive 描述函数类型描述正确的是（ A ）

A. UDF: UNIX_TIMESTAMP; UDAF:COUNT，MAX，MIN，LEAD，LAG; UDTF: SPLIT，

EXPLODE

B. UDAF: COUNT，MAX，MIN，LEAD，LAG，EXPLODE

C. UDF: UNIX_TIMESTAMP，COUNT，MAX，MIN;UDAF:LEAD，LAG;

D. UDF︰ UNIX_TIMESTAMP，SPLIT; UDAF: COUNT， MAX，MIN，LEAD，LAG;

UDTF:EXPLODE

5.下面关于 Hive 四种排序方式的区别，描述正确的是（ B ）

A. order by 是要对输出的结果进行全局排序，多个 reducer 可以实现全局排序

B. sort by 不是全局排序，只是在进入到 reducer 之前完成排序

C. distribute by 指的是按照指定的字段划分到不同的输出 reduce 文件中，常见使用方式是

order bydistribute by

D. cluster by 不仅支持正序排序，也支持逆序排序

6.下面关于 Hive 和传统数据库的比较描述正确的是（ D ）

A. Hive 使用了查询语言 HQL(Hive Query Language)，HQL 与 SQL 没有任何关系

B. Hive 和传统数据库除了拥有类似的查询语言，再无类似之处

C. Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在 HDFS 中的，而数据库则

可以将数据保存在块设备或者本地文件系统中

D. Hive 的针对数据仓库设计，针对的是读多写少的场景

7.已知数组 trans_cnt[1,2,3,4], trans_cnt[2]获取的结果为（ C ）

A. 1

B. 2

C. 3

D. 4

8.下面关于 Hive 数据倾斜问题描述正确的是（ D ）

A. 不需要了解业务，对业务进行数据探查无法解决数据倾斜

B. 每一个数据倾斜的作业都需要优化

C. 小文件合并不会解决数据倾斜的问题

D. 可以适当的通过控制 mapper 和 reducer 来控制数据倾斜的问题

10.下面关于 Hive 数据装载描述正确的是（C ）

A. 最好使用 INSERT 插入数据

B. 最好使用 INSERT OVERWRITE 插入数据

C. 可以使用 LOAD DATA 加载

D. 什么场景，装载数据使用 LOAD DATA 效率最低

11.下面关于 Hive sQL 的 JOIN 关键词正确的是（ A ）

(1)INNERN JOIN

(2)JOIN

下载后可阅读完整内容，剩余9页未读，立即下载

都来学

粉丝: 22
资源: 165

大数据Linux VM期末复习题集：Hive与Impala对比详解

大数据虚拟机安装文档.zip

尚硅谷大数据技术之模板虚拟机环境准备1

Java基础复习题库：JDK工具与虚拟机详解

虚拟机Linux系统扩容：解决磁盘空间不足问题

Java期末复习小题库：选择、判断、填空

大数据平台搭建与运维教程：VirtualBox实战与Ubuntu虚拟机配置

Java基础题库：大数据云计算试题整理

虚拟机与大数据平台搭建：Ubuntu安装与配置指南

"计算机系统结构复习资料：名词解释、简答题、基础应用题

大数据平台搭建与运维教程：实战项目与步骤详解

最新资源