Hadoop数据仓库Hive详解与学习

需积分: 9 175 浏览量更新于2024-07-22 1 收藏 1.15MB PDF 举报

"hive 学习笔记" Hive是基于Hadoop的数据仓库工具，设计目标是为了解决大数据的存储和查询问题，使用户能够使用SQL-like的语言（Hive QL）对分布式存储的大规模数据进行分析。Hive的核心概念包括以下几个方面： 1. **Hive结构** Hive的架构主要包括用户接口、元数据存储、解释器、编译器、优化器和执行器，以及依赖的Hadoop组件。用户可以通过CLI（命令行接口）、Client或WUI（Web用户界面）与Hive交互。元数据通常存储在像MySQL或Derby这样的关系型数据库中，包含了表的定义、列、分区信息和数据位置等。 2. **用户接口** - CLI（Command Line Interface）是最常用的交互方式，它启动时会启动一个Hive服务实例。 - Client模式下，用户需要指定HiveServer所在的节点并启动该服务。 - WUI允许用户通过浏览器访问Hive，提供了图形化的操作界面。 3. **元数据管理** 元数据存储系统保存了关于Hive中的所有表、列、分区及其属性的信息，还包括表的类型（如内部表或外部表）以及数据的实际存储路径。 4. **查询处理** Hive QL查询语句经过解释器、编译器、优化器一系列处理，从词法分析、语法分析到编译和优化，最终生成一个查询计划。这个计划被存储在HDFS上，并由MapReduce执行。 5. **数据存储与计算** Hive的数据存储在Hadoop的HDFS上，大部分查询通过MapReduce任务执行。对于简单的查询，如`SELECT * FROM tbl`，Hive会生成MapReduce任务进行数据读取和处理。 6. **MapReduce的角色** MapReduce负责处理Hive查询的计算部分，它将Hive生成的查询计划转化为一系列的Map和Reduce任务，这些任务在Hadoop集群的各个节点上并行运行，处理海量数据。 7. **优化策略** Hive还支持查询优化，例如，通过CBO（Cost-Based Optimization）选择最优的执行计划，考虑数据分布、统计信息等因素，提高查询效率。学习Hive不仅需要理解其基本概念，还需要掌握Hive QL的语法，包括数据的插入、更新、删除以及复杂的查询操作，如JOIN、GROUP BY、窗口函数等。此外，了解如何配置和调优Hive以适应不同的数据规模和性能需求也是很重要的实践技能。通过深入学习Hive，我们可以更好地理解和应用分布式数据库技术，特别是在大数据分析场景中，Hive作为一个高效的工具，极大地简化了数据分析人员的工作，使得非编程背景的用户也能方便地进行大数据处理。

9/47

blog.csdn.net/haojun186/article/details/7977565

PARTITIONED BY(dtSTRING, country STRING)

CLUSTEREDBY(userid) SORTED BY(viewTime) INTO 32 BUCKETS

ROW FORMATDELIMITED

FIELDSTERMINATED BY '\001'

COLLECTION ITEMSTERMINATED BY '\002'

MAP KEYSTERMINATED BY '\003'

STORED ASSEQUENCEFILE;

Eg:

建表：

CREATE TABLE c02_clickstat_fatdt1

(yyyymmdd string,

id INT,

ip string,

country string,

cookie_id string,

page_id string ,

clickstat_url_id int,

query_string string,

refer string

)PARTITIONED BY(dt STRING)

row format delimited fields terminated by '\005' stored astextfile;

装载数据：

LOAD DATA INPATH'/user/admin/SqlldrDat/CnClickstat/20101101/19/clickstat_gp_fatdt0/0' OVERWRITEINTO

TABLE c02_clickstat_fatdt1

PARTITION(dt='20101101');

访问某一个分区

SELECT count(*)

FROMc02_clickstat_fatdt1 a

WHERE a.dt >='20101101' AND a.dt < '20101102';

2.1.5 其它例子

1、指定LOCATION位置

CREATE EXTERNAL TABLE page_view(viewTime INT, useridBIGINT,

page_urlSTRING, referrer_url STRING,

剩余46页未读，继续阅读

一人之下

粉丝: 8
资源: 10

Hadoop数据仓库Hive详解与学习

hive入门文档笔记

hive-笔记.docx

hive笔记，干货满满，基础语法，分桶分区等

Hive学习笔记

Hive 学习笔记1

大数据 之 Hive 学习笔记

hive学习笔记精华版

HIVE学习笔记详细教程

尚硅谷大数据技术hive学习笔记

Hive学习笔记整理.pdf

最新资源

大数据之 Hive 学习笔记