阿里B2B-ICBU Hive学习笔记：数据仓库与Hadoop详解

需积分: 9 150 浏览量更新于2024-07-22 收藏 930KB DOCX 举报

Hive学习笔记是阿里巴巴B2B-ICBU数据应用部门针对Hive这一大数据处理框架的详细学习资料。Hive作为基于Hadoop的数据仓库基础设施，为大规模数据的存储、查询和分析提供了便利。它设计了一种类SQL的语言——HiveQL，使得熟悉SQL的用户能够轻松操作数据，同时也支持MapReduce开发者扩展其功能处理复杂分析。安装Hive的过程虽然在本篇笔记中并未详述，但通常涉及Hadoop环境的配置和Hive软件的下载与部署。Hive的架构主要包括用户接口，如命令行界面CLI（常用）、客户端Client以及Web用户界面WUI；元数据存储，使用如MySQL或Derby这样的关系数据库保存关于表的信息，如列、分区、属性等；解释器、编译器、优化器负责解析、编译HQL语句，生成查询计划并存储在HDFS中；而MapReduce则用于执行实际的数据处理任务。 Hive与Hadoop的关系密切，HiveQL的解析、优化和查询计划生成都由Hive自身完成，所有的数据都存储在Hadoop的分布式文件系统HDFS中。然而，对于简单的查询如`SELECT * FROM table`，Hive会直接读取数据，而不是生成MapReduce任务。这与传统的SQL数据库相比，Hive更侧重于大规模数据处理，而非实时交互。值得注意的是，Hive和Hadoop在编码上保持一致，均为UTF-8。此外，Hive的设计也考虑到了与SQL语言的兼容性，这使得数据仓库管理员和业务分析师能够无缝地过渡到Hive环境，尽管在某些特性上可能有所不同，例如动态分区和延迟加载等。总结来说，学习Hive意味着理解其在Hadoop生态系统中的定位，掌握HiveQL的使用，了解其元数据管理方式，以及如何将查询转化为Hadoop MapReduce任务。这对于处理大规模数据，实现数据仓库管理和分析至关重要。

本身具有较高的延迟，因此在利用 执行 查询时，也会有

较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规

模较小，当数据规模大到超过数据库的处理能力的时候，的并行计算显然能体现

出优势。

. 可扩展性。由于 是建立在 之上的，因此 的可扩展性是和 的

可扩展性是一致的（世界上最大的 集群在 =>?，@ 年的规模在 +台节

点左右）。而数据库由于 8(语义的严格限制，扩展行非常有限。目前最先进的并

行数据库 6在理论上的扩展能力也只有 台左右。

@ 数据规模。由于 建立在集群上并可以利用 进行并行计算，因此可以

支持很大规模的数据；对应的，数据库可以支持的数据规模较小。

HIVE 元数据库

将元数据存储在 (/中一般常用的有 = 和 (/=。

1.5.1 DERBY

启动  的元数据库

进入到 > 的安装目录

AB

、启动 '$ 数据库

C>C C C>C'C%!C

运行 %!!5!0D>

、连接 ('$ 数据库进行测试

查看C>C C C>C'C%!C -C>-!1。

找到E!$F

E FG1G!  ! #EC F

EFG'B'$BCC>B<C!%!H'I!J!ECF

E%! FK(/ !%! A-K(/!%!EC%! F

EC!$F

进入 '$ 安装目录

C>C C C>C'C%!C''$+*' C'

输入CG

 !LG'B'$BCC>B<C!%!H'I!J!LI

*、元数据库数据字典

表名说明关联键

/#:5MH6 　　



实际上我们常见的 (/ 都是通过这种方法进行组织的，典型的如 %!A%&，其系

统表中和 > 元数据一样裸露了这些  信息N 等O而 6 等商业化的系统则隐藏了

这些具体的 (。通过这些元数据我们可以很容易的读到数据诸如创建一个表的数据字典信

息，比如导出建表语名等。

导出建表语句的 %> 脚本见

附一待完成

1.5.2 Mysql

 安装 $%&

最开始下载了一下 $%& 的  包

7>7$%+A'*1.;H;+77运行后发现报错，需要用 ! 权限，

后来想指定—-1 发现也不行，不能重定向。只好重新再下载一下源码包。

、下载 $%& 源码包

0A!>!!BCC0 %$%&C>%C$%&C$%&.<!AS

、!1-S$%&.<!AS

*、 C -A70!> %%'%JC>C C C$%&C' %%0%7

-1JC>C C1G C$%&

+、如果报错

C%C'C' %%0%B77 !77%$'%B7)7 70 A7-!

!B77! 771!7%!!%

DTUB7,,,7T$%&U7错误 

DTUB7 A7!$7VC>C C1G C$%&.<C !L

DTUB7,,,7T%U7错误 

DTUB7 A7!$7VC>C C1G C$%&.<L

DB7,,,7TU7错误 

则是 ' %%0% 问题N7就是终端画图用的O

解决方法如下：

- 7C7 7' ,7FCC 换一个 % 库

、D

;、D %!

<、T W>7' UX7C$%&

"7!7!>7$7 !77 %7 70!>7I772A

=7$7 ! 77%7*

7% B7.<77%!'!

段错误



解决方法：

还是 % 的一个函数有问题，返回的 >,有时候为非法指针。你如果要

写文档的话，操作步骤修改为：C -A-1JC>C C1G C$%&

0!> %%'%JC%C';+C' %%%0!>!'!0!> 

不用 '!，用  就可以绕过这个，也不用去考虑该代码的问题了。



剩余63页未读，继续阅读

yuehui_qu

粉丝: 0
资源: 1

阿里B2B-ICBU Hive学习笔记：数据仓库与Hadoop详解

阿里巴巴Hive学习笔记.docx

hive学习笔记

完整图文版 阿里巴巴数据产品平台 大数据与云计算技术系列教程 Hadoop之Hive学习笔记（共63页）.rar

完整图文版 阿里巴巴数据产品平台 大数据与云计算技术系列教程 Hadoop之Hive学习笔记（共63页）.pdf

"阿里巴巴内部免费分享的Hive学习笔记V1.01版本管理变化解析

Hadoop之Hive深度学习教程解析 - 阿里巴巴大数据云计算视角

Hive技术详解：从基础到进阶

大数据技术解析：Hadoop、Hive与实时计算

CPPC++_低成本实现Wooting键盘的Rapid trigger功能不必为几个按键购买整个键盘人人都能做Wouo.zip

CPPC++_可能是世界上最快的协同程序库.zip

最新资源

完整图文版阿里巴巴数据产品平台大数据与云计算技术系列教程 Hadoop之Hive学习笔记（共63页）.rar

完整图文版阿里巴巴数据产品平台大数据与云计算技术系列教程 Hadoop之Hive学习笔记（共63页）.pdf