Apache Hive教程：入门到精通

需积分: 12 19 浏览量更新于2024-07-17 收藏 1.22MB PDF 举报

"这份教程是关于DHive的，即Apache Hive，它是一个建立在Hadoop之上的数据仓库基础设施，用于处理大数据的结构化数据。Hive使得在Hadoop分布式文件系统上进行数据查询和分析变得容易。教程面向的是希望在大数据分析领域，特别是使用Hadoop框架的从业者，如ETL开发者和一般的数据分析师。学习本教程前，需要掌握基础的Java知识、SQL数据库概念、Hadoop文件系统以及至少一种Linux操作系统的基本知识。教程内容包括Hive的介绍、安装步骤、数据类型等。" Apache Hive是大数据处理领域的一个关键工具，它主要设计用来处理和管理存储在Hadoop中的大规模结构化数据。Hive提供了类似于SQL的查询语言——HiveQL，使得非程序员也能方便地对大数据集进行分析和查询，简化了大数据的处理流程。 1. **Hadoop**： Hadoop是Apache软件基金会开发的开源分布式计算框架，主要用于处理和存储大量数据。Hive作为其上的一个组件，利用Hadoop的分布式文件系统（HDFS）来存储数据，并通过MapReduce进行数据处理。 2. **什么是Hive？** Hive是一个数据仓库工具，它将复杂的MapReduce操作转换为用户可以理解的SQL查询。它允许用户通过SQL语法对存储在Hadoop中的非结构化或半结构化数据进行结构化查询，同时提供了一种将SQL查询转换为适合Hadoop执行的MapReduce任务的机制。 3. **Hive的功能特点**： - 支持SQL查询：通过HiveQL，非编程背景的用户也可以方便地操作大数据。 - 数据仓库：提供数据聚合、清洗和转换等功能，便于数据分析。 - 扩展性：能够处理PB级别的数据，且易于扩展。 - 面向批处理：虽然响应时间较慢，但适合离线数据分析。 4. **Hive的架构**： Hive包括元数据存储、用户接口和执行引擎等部分。元数据存储通常在关系型数据库中，如MySQL，记录表、列、分区等信息；用户接口支持通过HiveShell、JDBC/ODBC、HiveServer2等方式与Hive交互；执行引擎则负责解析查询语句，生成并执行MapReduce任务。 5. **Hive的安装**： - 验证Java和Hadoop的安装。 - 下载Hive，根据Hadoop版本选择相应的Hive版本。 - 安装Hive，将其添加到系统路径中。 - 配置Hive，修改配置文件如`hive-site.xml`以适应环境。 - 可选地，安装与Hive配合使用的数据库，如Apache Derby，作为元数据存储。 - 配置元数据存储，连接到上面安装的数据库。 - 验证Hive安装是否成功，运行简单的Hive命令测试。 6. **Hive数据类型**： - 列类型：包括基本类型（如整型、浮点型、字符串）和复杂类型（如数组、映射、结构体、联合体）。 - 字面量：定义常量值的方式，如数值、字符串、日期等。 - NULL值：在Hive中，NULL表示未知或未定义的数据。 - 复杂类型：允许创建嵌套的数据结构，增强了数据模型的表达能力。通过这个教程，读者将了解如何在Hadoop环境中设置和使用Hive，以及如何利用Hive的数据类型进行数据操作。对于想要在大数据领域从事数据分析和处理工作的专业人士来说，这是一份非常有价值的参考资料。

Apache Hive

# mv hadoop-2.4.1/* to hadoop/

# exit

Installing Hadoop in Pseudo Distributed Mode

The following steps are used to install Hadoop 2.4.1 in pseudo distributed mode.

Step I: Setting up Hadoop

You can set Hadoop environment variables by appending the following commands

to ~/.bashrc file.

export HADOOP_HOME=/usr/local/hadoop

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Now apply all the changes into the current running system.

$ source ~/.bashrc

Step II: Hadoop Configuration

You can find all the Hadoop configuration files in the location

“$HADOOP_HOME/etc/hadoop”. You need to make suitable changes in those

configuration files according to your Hadoop infrastructure.

$ cd $HADOOP_HOME/etc/hadoop

In order to develop Hadoop programs using java, you have to reset the java

environment variables in hadoop-env.sh file by replacing JAVA_HOME value

with the location of java in your system.

export JAVA_HOME=/usr/local/jdk1.7.0_71

Given below are the list of files that you have to edit to configure Hadoop.

core-site.xml

剩余82页未读，继续阅读

andylu415

粉丝: 1
资源: 21

Apache Hive教程：入门到精通

《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf

Hive用户手册中文版.pdf

Hive入门基础知识.pdf

ADI-tutorial-DDS.pdf

khcoder-tutorial-en.pdf

PMDG-777-Tutorial-1.5.pdf

openrisc-HW-tutorial-Xilinx.pdf

openrisc-HW-tutorial-Altera.pdf

vulkan 英文手册vulkan-tutorial-en.pdf

Computer Networks CSC458-Tutorial-I.pdf

最新资源

《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf