大数据Linux VM期末复习题集:Hive与Impala对比详解

需积分: 0 19 下载量 165 浏览量 更新于2024-08-03 收藏 221KB PDF 举报
大数据、虚拟机和Linux VM复习题库涵盖了全面的期末备考内容,重点聚焦于这两个领域的重要概念和技术。该题库包含以下知识点: 1. **数据仓库与数据库系统的关系**:数据仓库是专门设计用于支持决策制定的数据集合,它与数据库系统的主要区别在于目标、数据结构和访问模式。数据仓库通常用于长期存储历史数据,而数据库系统更注重实时操作。 2. **Hive分区表的作用**:Hive分区表用于提高查询性能,通过按某个或多个列值将大表分成较小、更易管理的部分。静态分区基于预定义的键值,而动态分区则依赖运行时输入参数。 3. **聚合函数**:Hive提供了多种聚合函数,如COUNT(用于计算数量)、MAX、MIN(用于找出最大值和最小值)、LEAD和LAG(用于行内的前瞻或滞后值)。 4. **数据仓库定义**:数据仓库是专为分析目的创建的,它从多个源系统收集、整合和存储数据,以便支持决策制定者进行复杂查询。 5. **Hive元数据存储模式**: - **内嵌模式**:Hive默认使用内存数据库Derby存储元数据,不支持并发访问。 - **本地模式**:通过网络连接外部数据库,如MySQL,常用于生产环境,但需要额外配置。 - **远程模式**:MetaStoreServer用于存储元数据,客户端通过Thrift协议访问,提供更好的可扩展性和安全性。 6. **Hive与Impala对比**:Hive和Impala都服务于大数据处理,但Hive更适合批处理,Impala支持实时查询。两者共享元数据,但处理方式不同。 7. **Hive函数类型**:介绍了不同类型的用户定义函数(UDF)、聚合函数(UDAF)和表生成函数(UDTF),以及它们各自的功能。 8. **Hive排序方式**:sortby是非全局排序,仅对单个reduce任务的输出排序;distributeby用于划分数据到reduce任务,而clusterby支持排序但不一定默认逆序。 9. **Hive与传统数据库比较**:Hive基于Hadoop,数据主要存储在HDFS,适用于大量读取而写入较少的场景。 10. **Hive数组操作**:数组trans_cnt[1,2,3,4]中,trans_cnt[2]获取元素对应值为3。 11. **数据倾斜问题**:数据倾斜是指数据分布不均导致查询性能下降,解决方法可能涉及了解业务分布、优化作业或调整数据分布策略,如小文件合并。 这些题目旨在帮助学生巩固大数据技术、虚拟机和Linux VM的相关知识,为期末考试做好充分准备。复习时应注意理解这些概念的实际应用和它们之间的相互关系。