Hive入门与元数据管理详解

版权申诉

88 浏览量更新于2024-07-08 收藏 403KB PDF 举报

Hive学习总结与应用概述 Hive是一个重要的大数据处理工具，它作为Hadoop生态系统中的数据仓库组件，旨在简化大规模数据处理。Hive基于HDFS（Hadoop分布式文件系统）和MapReduce模型，提供了SQL-like查询语言HiveQL，使得数据分析人员无需深入理解复杂的MapReduce编程就能进行数据查询和分析。 Hive的核心概念包括： 1. 数据仓库与表类型： - 托管表：Hive会将数据物理地存储在Hive仓库目录下，并负责管理，这类表的数据不会与原始数据源分离。 - 外部表：数据位于指定位置，Hive仅作为元数据管理器，不包含数据本身，只在元数据库中记录表结构。 2. 元数据管理： - Hive的元数据指的是关于表的信息，如名称、列、分区等，这些信息非常重要，但HDFS的特性使其不适合频繁更新。因此，Hive通常将元数据存储在关系型数据库（如MySQL或Derby）中，以提供更稳定和高效的管理。 3. 元数据存储方式： - 内嵌derby数据库：这是最常见的Hive元数据存储方式，它以本地磁盘为基础，配置简单，但存在局限性，如在同一目录下仅允许单个Hive客户端连接，否则会导致并发问题。 4. 数据导入和解析： - Hive无需为数据建立索引，而是依赖于用户在创建表时提供的列分隔符和行分隔符来解析数据。数据导入时，通常是将数据移动到表对应的目录，如果数据在HDFS上，则直接移动，本地文件则复制。通过掌握Hive的基础知识，开发人员可以有效地进行数据提取、转换和加载（ETL），并将处理后的结果用于报表生成、业务分析或者进一步的数据挖掘。在实际项目中，Hive的应用可以帮助团队快速获取有价值的信息，提升数据驱动决策的能力。理解并熟练运用Hive，对于数据仓库管理和大数据处理具有重要意义。

hive> insert overwrite directory '/home/wyp/hdfs'

> select * from wyp;

3、导出到 Hive 的另一个表中

hive> insert into table test

> partition (age='25')

> select id, name, tel

> from wyp;

六、HiveQL 的常用操作

HiveQL 是一种类似 SQL 的语言，它与大部分的 SQL 语法兼容，但

是并不完全支持 SQL 标准，如 HiveQL 不支持更新操作，也不支持索

引和事务，它的子查询和 join 操作也很局限。

#hive 启动

1、退出 hive

hive> quit;

2、查看数据库

hive> show databases;

3、创建数据库

hive> create database test;

4、创建数据库，并设置其存放的位置，注意该路径在 hdfs 下

hive> CREATE DATABASE financials

剩余16页未读，继续阅读

xingwang218

粉丝: 1
资源: 9万+

Hive入门与元数据管理详解

02 Hive学习总结及应用.pdf

Hive学习总结及应用.pdf

大数据技术：MapReduce、数据仓库Hive单元测试与答案.pdf

8.Hadoop入门进阶课程_第8周_Hive介绍和安装部署.pdf

最强HiveSQL开发指南.pdf

Spark大数据处理平台的构建及应用.pdf

Cloudera大数据行业应用.pdf

hive--web信息检索与数据抓取-hive.pdf

《Hadoop大数据开发实战》教学教案—07Hive.pdf

HIVE PDF PDF

最新资源