Hadoop Hive：数据仓库实战与高级语法解析

版权申诉

36 浏览量更新于2024-06-19 收藏 81KB PPTX 举报

本资源是一份名为"大数据存储与处理技术Hadoop：基于Hive数据仓库原理与实战"的PPT文档，共17页，主要讲解了Hadoop生态系统中的Hive工具，这是一款广泛用于大数据处理的数据仓库工具。Hive是构建在Hadoop之上的SQL-like语言，它允许用户通过SQL查询大规模数据集，提供了一个易于使用的接口来操作Hadoop分布式文件系统（HDFS）上的数据。内容重点包括Hive语法的深入理解和实践，特别是在建表方面。Hive的建表语句是基础操作，涉及到的关键元素有： 1. **基本结构**：创建表的命令通常以`CREATE TABLE`开始，可以选择外部表`CREATE EXTERNAL TABLE`，并定义表名、列名、数据类型以及可能的注释。 2. **分区表**：`PARTITIONED BY`用于创建分区，可以根据某个或多个列值对数据进行划分，如根据日期（`dtstring`）进行分区。 3. **分桶（Bucketing）**：`CLUSTERED BY`用于将数据按指定列（如`userid`）进行分桶，并指定分桶数量，这里示例中是3000个桶，有助于提高查询性能。 4. **行格式（Row Format）**：`ROWFORMAT`定义了数据的存储格式，如`DELIMITED`表示字段间用`\t`分隔，是Hive默认的文本格式，还可以选择其他格式如`RCFILE`或`ORC`等。 5. **存储方式**：`STORED AS`用于指定数据的存储引擎，如`textfile`，而`STORED BY`则用于自定义存储处理器类名，从Hive 0.6.0版本开始可用。 6. **位置信息**：`LOCATION`指定表在HDFS中的存储路径，这对于数据管理至关重要。 7. **元数据属性**：`TBLPROPERTIES`用于设置额外的表属性，这些属性可以在Hive配置中进行管理和查看。 8. **查询嵌入**：`AS select_statement`在Hive 0.5.0之后可用，允许用户在创建表时直接定义表结构，但并非所有版本都支持。通过这份文档，学习者可以掌握如何在Hadoop环境中使用Hive构建和管理数据仓库，进行高效的查询和数据分析。无论是初学者还是进阶者，这份资料都是理解Hive的重要参考资源。

专注于大数据

因为相信所以看见

Hive基本语法-建表

第一种常用新建原始表：

create [EXTERNAL] table vv_stat_fact

(

userid string,

stat_date string,

tryvv int,

sucvv int,

ptime float

)

PARTITIONED BY ( 非必选；创建分区表

dt string)

clustered by (userid) into 3000 buckets // 非必选；分桶子

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' // 必选;指定列之间的分隔符

STORED AS rcfile // 非必选；指定文件的读取格式，默认textfile格式

location '/testdata/'; //非必选；指定文件在hdfs上的存储路径，如果已经有文件，会自动加载

，默认在hive的warehouse下

剩余16页未读，继续阅读

passionSnail

粉丝: 467
资源: 7836

Hadoop Hive：数据仓库实战与高级语法解析

"优质大数据课程推荐：Hadoop入门数据分析实战

Hadoop集群大数据分析：Hive数据仓库深度解析

大数据性能优化与Hive SQL调优实战

Hive语法及技术进阶.pptx

完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 09 Hive 共36页.pptx

大数据与云计算培训学习资料 Hadoop资料-分布式数据仓库Hive 共57页.pptx

清华大学精品大数据实战课程（Hadoop、Hbase、Hive、Spark）PPT课件含习题（30页） 第4章 数据仓库工具Hive.pptx

大数据课程-Hadoop集群程序设计与开发-7.Hive数据仓库_lk_edit.pptx

大数据分析与应用Hadoop-Hive.pptx

精品课程推荐 大数据与云计算教程课件 优质大数据课程 05.Hadoop入门数据分析实战（共57页）.pptx

最新资源

清华大学精品大数据实战课程（Hadoop、Hbase、Hive、Spark）PPT课件含习题（30页）第4章数据仓库工具Hive.pptx

精品课程推荐大数据与云计算教程课件优质大数据课程 05.Hadoop入门数据分析实战（共57页）.pptx