Hive面试精华：数据仓库与类SQL查询详解

需积分: 5 107 浏览量更新于2024-06-16 收藏 4.19MB DOCX 举报

Hive面试题总结汇总 Hive作为Hadoop生态系统中的关键组件，它是一个数据仓库框架，主要用于处理大规模结构化数据，尤其是那些不适合实时查询和低延迟应用场景的数据。Hive的设计初衷是为了简化数据分析和ETL（数据提取、转化和加载）过程，让非专业程序员也能通过类SQL语言HiveQL进行查询。 Hive的主要特点包括： 1. **基于Hadoop**：Hive运行在Hadoop之上，利用其分布式计算能力，适合处理PB级别的数据。但受限于Hadoop的批处理特性，对于实时性和低延迟需求不敏感。 2. **数据仓库架构**：Hive将数据视为数据库表，用户通过HiveQL执行类似于SQL的查询，但Hive不是一个关系型数据库，它不支持实时更新和行级操作，更适合离线分析。 3. **查询语言HiveQL**：Hive提供了HiveQL，一种类SQL的查询语言，便于SQL开发者理解和使用。HiveQL支持复杂的分析任务，但可能需要与自定义Mapper和Reducer配合，对于复杂场景进行扩展。 4. **数据存储**：Hive的数据存储在Hadoop兼容的文件系统，如Amazon S3或HDFS，数据加载时保持原样，只做数据移动，不进行修改。 5. **性能与延迟**：由于Hive的批处理特性，查询响应时间可能较长，适用于批量处理大量数据，如网络日志分析，而非实时OLTP（在线事务处理）环境。 6. **局限性**：Hive不适合需要低延迟、高并发的在线交易处理，更适合在大数据量的背景下进行批处理式的数据分析。面试中关于Hive可能会涉及的问题可能包括但不限于HiveQL语法、数据加载和优化、分区和分桶、表设计原则、Hive与Hadoop其他组件（如HBase、Impala等）的比较以及Hive在大数据处理中的角色和挑战。理解这些核心概念是提升Hive面试成功率的关键。

clustered by(id)

sorted by(name) into 4 buckets

row format delimited fields terminated by ‘\t’

stored as textfile;

分桶抽样查询：

Select * from student tablesample(bucket 1 out of 3 on id);

注：tablesample 事抽样语句，语法 tablesample(bucket x out of y).

X 表时从哪个 bucket 开始抽取，如果需要取多个分区，以后的分区号为当前分区号加上 y.

例如：table 总 bucket 数为 4，tablesample(bucket 1 out of 2),表示总共抽取(4/2) 2 个 bucket

的数据，抽取第一(x)个和第 3(x+y)个 bucket 的数据。

注意：x 的值必须小于等于 y 的值，否则报错：

FAILED:SemanticException:Numerator should not be bigger than denominator in sample

clause for table stu_buck.

hive 分区数量如何合理分配

Hive 中静态分区和动态分区比较及使用

https://blog.csdn.net/rongxiang20054209/article/details/115347715

在Hive中有两种类型的分区：静态分区(Static Partitioning)和动态分区(Dynamic Partitioning)。

静态分区：

表的分区数量和分区值是固定的。

动态分区：

会根据数据自动的创建新的分区。

静态分区的使用场景主要是分区的数量是确定的。例如人力资源信息表中使用“部门”作为分

区字段，通常一段时间是静态不变的。例如：

CREATE EXTERNAL TABLE employee_dept (

emp_id INT,

emp_name STRING

) PARTITIONED BY (

dept_name STRING

)

location '/user/employee_dept';

LOAD DATA LOCAL INPATH 'hr.txt'

INTO TABLE employee_dept

PARTITION (dept_name='HR');

上面的外部表以 dept_name 字段为分区字段，然后导入数据需要指定分区。

动态分区

通常在生产业务场景中，我们使用的都是灵活的动态分区。例如我们使用时间字段（天、小

时）作为分区字段。新的数据写入会自动根据最新的时间创建分区并写入对应的分区。例如

下面的例子：

hive > insert overwrite table order_partition partition (year,month) select order_id, order_date,

order_status, substr(order_date,1,4) year, substr(order_date,5,2) month from orders;

FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one

static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict

写入报错。这是因为 Hive 默认配置不启用动态分区，需要使用前开启配置。开启的方式有

两种：

在 hive 服务配置文件中全局配置；

每次交互时候进行配置（只影响本次交互）；

通常我们生产环境使用第二种。

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

其中参数 hive.exec.dynamic.partition.mode 表示动态分区的模式。默认是 strict，表示必须

指定至少一个分区为静态分区，nonstrict模式表示允许所有的分区字段都可以使用动态分区。

第三部分两者的比较

两种分区模式都有各自的使用场景，我们总结如下：

另外动态分区的值是 MapReduce 任务在 reduce 运行阶段确定的，也就是所有的记录都会

distribute by，相同字段(分区字段)的 map 输出会发到同一个 reduce 节点去处理，如果数据

量大，这是一个很弱的运行性能。而静态分区在编译阶段就确定了，不需要 reduce 任务处

理。所以如果实际业务场景静态分区能解决的，尽量使用静态分区即可。

第四部分动态分区使用的问题

Hive 表中分区架构使得数据按照分区分别存储在 HDFS 文件系统的各个目录中，查询只要针

对指定的目录集合进行查询，而不需要全局查找，提高查询性能。

但是分区不是"银弹"，如果分区数据过多，就会在 HDFS 文件系统中创建大量的目录和文件，

对于集群 NameNode 服务是有性能压力的，NameNode 需要将大量元数据信息保留在内存

中。另外大分区表在用户查询时候由于分析 size 太大，也容易造成 Metastore 服务出现 OMM

报错。

上面两个现象均在生产环境发生，分别造成 NameNode 和 Metastore 不可用。

事实上，Hive 为了防止异常生产大量分区，甚至默认动态分区是关闭的。另外对于生成动

态分区的数量也做了性能默认限制。

4.1 动态分区创建限制

当我们在一个 Mapreduce 任务（hive 写入会编译成 mapreduce 任务）中创建大量分区的时

候，经常会遇到下面的报错信息：

2015-06-15 17:27:44,614 ERROR [LocalJobRunner Map Task Executor #0]: mr.ExecMapper

(ExecMapper.java:map(171)) - org.apache.hadoop.hive.ql.metadata.HiveException: Hive

Runtime Error while processing row ....

Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: Fatal error

occurred when node tried to create too many dynamic partitions. The maximum number of

dynamic partitions is controlled by hive.exec.max.dynamic.partitions and

hive.exec.max.dynamic.partitions.pernode. Maximum was set to: 256... 10 more

这个报错就是因为 Hive 对于动态分区创建的限制，涉及的参数有：

hive.exec.max.dynamic.partitions = 1000;

hive.exec.max.dynamic.partitions.pernode = 100;

hive.exec.max.created.files = 10000

hive.exec.max.dynamic.partitions.pernode，参数限制 MapReduce 任务单个任务(mapper 或

reducer 任务)创建的分区数量为 100；

hive.exec.max.dynamic.partitions，参数限制单次整体任务创建分区的数量上限为 1000 个；

hive.exec.max.created.files，参数限制所有单次整体 map 和 reduce 任务创建的最大文件数

量上限为 10000 个；

以上三个阀值超过就会触发错误，集群会杀死任务。为了解决报错，我们通常将两个参数调

大。但是也需要用户对自己的 Hive 表的分区数量进行合理规划，避免过多的分区。

hive 基本数据类型-M

hive 支持多种不同长度的整型和浮点型数据，支持布尔型，也支持无长度限制

的字符串类型。例如：tinyint、smallint、boolean、float、double、string 等基

本数据类型。这些基本数据类型和其他 sql 方言一样，都是保留字。

集合数据类型—M

hive 中的列支持使用 struct、map 和 array 集合数据类型。大多数关系型数据

库中不支持这些集合数据类型，因为它们会破坏标准格式。关系型数据库中为

实现集合数据类型是由多个表之间建立合适的外键关联来实现。在大数据系统

中，使用集合类型的数据的好处在于提高数据的吞吐量，减少寻址次数来提高

查询速度。

列转行、行转列使用集合类型-M

列转行函数：collect_set 和 collect_list 其中 collect_list 为不去重转换，collect_set 为去重转

换

Select stu_id,stu_name,concat_ws(‘,’,collect_set(course)) as

course,concat_ws(‘,’,collect_set(score)) as score from stuent_score group by stu_id,stu_name;

剩余51页未读，继续阅读

大数据侠客

粉丝: 727
资源: 76

Hive面试精华：数据仓库与类SQL查询详解

面试题总结

hive面试题

hibernate面试题总结

HIVE 面试题 理论

hive 高级 面试题

hivesql面试题

hive数据仓库面试题

大数据面试题2023

hive的高频面试题

hivesql优化面试题

最新资源

HIVE 面试题理论

hive 高级面试题