Hive数据仓库工具详解：从原理到实践

需积分: 2 50 浏览量更新于2024-07-05 1 收藏 327KB PDF 举报

"《Hive编程技术与应用》学习笔记主要涵盖了Hive的基本概念、工作原理、数据类型、设计特点以及Hive与关系型数据库的异同。这本书旨在帮助读者理解并掌握Hive在大数据项目中的应用，通过案例实践提升开发技能。" 1. Hive简介： Hive是一个建立在Hadoop之上的数据仓库工具，它允许用户通过类似SQL的HiveQL语言对存储在HDFS中的结构化数据进行查询和管理。Hive的优势在于它的低学习曲线，用户可以方便地进行数据分析，而无需编写复杂的MapReduce程序。 2. Hive与关系型数据库的区别： - 存储系统：Hive依赖于Hadoop的HDFS，而关系型数据库则使用本地文件系统。 - 计算模型：Hive基于MapReduce，而关系型数据库有自己的计算模型。 - 应用场景：关系型数据库更适合实时查询，而Hive为大数据分析设计，实时性较弱。 - 扩展性：Hive能轻松扩展存储和计算能力，这是Hadoop分布式特性的一部分，而关系型数据库在这方面相对较弱。 3. Hive的工作流程： - SQL接收：接收用户输入的查询语句。 - 分析阶段：包括词法分析、语法分析和语义分析。 - 计划生成：从逻辑计划到优化后的逻辑计划，再到物理计划。 - 执行阶段：生成的MapReduce任务在Hadoop集群上执行，最终返回查询结果。 4. Hive的数据类型： - 原子类型：数值、布尔和字符串。 - 复杂类型：数组、映射和结构体，这些允许更灵活的数据结构处理。 5. Hive的设计特点： - 支持索引，提高查询效率。 - 兼容多种文件存储格式，适应不同的数据需求。 - 使用关系数据库存储元数据，加速查询处理。 - 直接操作Hadoop文件系统中的数据。 - 内置UDF丰富，同时支持用户自定义函数扩展。 - 提供SQL-like查询语言，降低用户的学习成本。 6. 综合案例部分：第8至10章通过实际案例教学，涵盖数据清洗、处理、导入导出等大数据项目的关键环节，帮助读者将理论知识应用于实践中，从而掌握完整的开发流程。这本书适合对大数据分析感兴趣的初学者，尤其是希望快速掌握Hive的IT专业人士。通过深入学习，读者可以有效地利用Hive处理大规模数据，进行高效的数据仓库建设和数据分析任务。

【第三章

HiveQL

表操作】

1、HiveQL 的概述

HiveQL 是一种类似 SQL 的语言，它的语法与大部分 SQL 的语法兼容，但是并不完全支付

SQL 标准，如 HiveQL 不支持更新操作，也不支持索引和事务，它的子查询和 join 操作也很

受局限。这是由其底层依赖于 Hadoop 云平台这一特性所决定的。但其有些特点也是 SQL

所无法企及的，例如多表查询、支持 create table as select 和集成 MapReduce 脚本等。

2、内部表

（1）操作一（创建内部表 test1，保存在默认位置）

hive > create table test 1

> (id int , name string , age int , tel string)

> Row FORMAT DELIMITED

> FIELDS TERMINATED BY ‘,’

> STORED AS TEXTFILE;

（2）操作二（查看内部表 test1 是否创建成功）

hive > show tables

（3）操作三（导入数据到内部表 test 1 中）

hive > load data local inpath ‘/root/have_data.txt’ into table test1;

（3）操作四（创建内部表 test2，保存在指定位置）

hive > create table test 2

>(id int , name string , age int , tel string)

> Row FORMAT DELIMITED

> FIELDS TERMINATED BY ‘,’

> STORED AS TEXTFILE;

> location ‘/mytable/test2’;

（5）操作五（查询 test2 中的所有数据）

hive > select * from test2;

剩余20页未读，继续阅读

稀饭居然不在家

粉丝: 4
资源: 23

Hive数据仓库工具详解：从原理到实践

《Hive编程1：深入学习Hive的编程技巧与实践》

Hive JDBC驱动程序*.*.*.*版本客户端配置指南

Hive JDBC驱动包 hive-jdbc-uber-*.*.*.*-292.zip 解析

Hadoop学习笔记.pdf

大数据学习笔记.pdf

大数据技术知识沉淀 数据仓库学习 Hive学习笔记 共63页.pdf

Hadoop课程笔记 .pdf

hadoop笔记2.pdf

大数据技术分享 Spark技术讲座 Apache Spark如何改变我们雇佣员工的方式 共17页.pdf

Hadoop权威指南（第三版）英文版.pdf

最新资源

Hive JDBC驱动程序...版本客户端配置指南

Hive JDBC驱动包 hive-jdbc-uber-...-292.zip 解析

大数据技术知识沉淀数据仓库学习 Hive学习笔记共63页.pdf

大数据技术分享 Spark技术讲座 Apache Spark如何改变我们雇佣员工的方式共17页.pdf