Hive入门指南：数据仓库与元数据管理

版权申诉

162 浏览量更新于2024-07-08 收藏 523KB PDF 举报

"02 Hive学习总结及应用.pdf" 这篇文档是关于Hive的学习总结，主要涵盖Hive的功能、开发过程、项目应用以及Hive的数据提取、元数据管理和存储方式。Hive是一个基于Hadoop的数据仓库工具，它允许通过类SQL（HQL）语言进行数据查询、分析和管理，简化了MapReduce编程模型。 Hive的核心功能在于提供了一个方便的接口，使得用户无需编写复杂的MapReduce程序，而是可以通过类似SQL的HQL进行数据处理。文档指出，Hive将HDFS和MapReduce结合，为大规模数据处理提供了便利。Hive的表有两种类型：托管表和外部表。托管表的数据由Hive完全管理，存储在Hive的数据仓库目录下；而外部表则只在元数据库中注册，数据实际存储在用户指定的位置。关于数据导入，Hive并不关心数据的具体存储格式，只需要在创建表时指定列分隔符和行分隔符即可解析数据。数据导入通常涉及将文件移动或复制到Hive表对应的HDFS路径。外部表创建时，需使用`CREATE EXTERNAL TABLE`语句，并指定表的位置。文档还讨论了Hive的元数据管理。元数据包含了表的信息，如表名、列、分区、属性和数据存储路径等。由于元数据经常变动，不适合存储在HDFS上，Hive选择将元数据存储在关系型数据库中，如MySQL或Derby。文档列举了Hive元数据的三种存储方式：1) 使用内嵌的Derby数据库，这是默认且简单的本地存储方式，但不支持多用户同时访问；2) 使用其他本地数据库（如MySQL）存储，提供多用户支持；3) 远程存储，适合生产环境，元数据存储在远程服务器的数据库中。这篇文档为读者提供了一个基础但全面的Hive教程，涵盖了从Hive的基本概念到实际操作和元数据管理的多个方面，是学习和理解Hive在大数据处理中的应用的一个良好起点。

2、导出到 HDFS 中

hive> insert overwrite directory '/home/wyp/hdfs'

> select * from wyp;

3、导出到 Hive 的另一个表中

hive> insert into table test

> partition (age='25')

> select id, name, tel

> from wyp;

六、HiveQL 的常用操作

HiveQL 就是一种类似 SQL 的语言,它与大部分的 SQL 语法兼容,但

就是并不完全支持 SQL 标准,如 HiveQL 不支持更新操作,也不支持索

引与事务,它的子查询与 join 操作也很局限。

#hive 启动

1、退出 hive

hive> quit;

2、查瞧数据库

hive> show databases;

3、创建数据库

hive> create database test;

4、创建数据库,并设置其存放的位置,注意该路径在 hdfs 下

剩余15页未读，继续阅读

xingwang218

粉丝: 1
资源: 9万+

Hive入门指南：数据仓库与元数据管理

02hive学习总结及应用.pdf

Hive学习总结及应用.pdf

大数据技术：MapReduce、数据仓库Hive单元测试与答案.pdf

8.Hadoop入门进阶课程_第8周_Hive介绍和安装部署.pdf

最强HiveSQL开发指南.pdf

Spark大数据处理平台的构建及应用.pdf

Cloudera大数据行业应用.pdf

hive--web信息检索与数据抓取-hive.pdf

《Hadoop大数据开发实战》教学教案—07Hive.pdf

HIVE PDF PDF

最新资源