掌握Hive基础操作：数据仓库在Hadoop中的应用

需积分: 5 154 浏览量更新于2024-08-02 2 收藏 1.88MB DOC 举报

本实验旨在通过实践操作熟悉Hive在Hadoop大数据处理框架中的核心作用，Hive作为一个数据仓库工具，它将结构化的数据存储在Hadoop上，为数据分析提供了方便的SQL-like查询语言HiveQL。实验将在Ubuntu 18.04或16.04操作系统环境下进行，依赖Hadoop 3.1.3版本，Hive 3.1.2版本，以及Java Development Kit (JDK) 1.8。实验的主要内容围绕以下步骤展开： 1. 理解Hive的角色：首先，参与者需要理解Hive在Hadoop生态系统中的地位，它作为数据仓库，允许用户以SQL的方式处理海量数据，将非结构化的HDFS数据转换为易于分析的结构化数据。 2. 创建内部表：实验的第一个任务是创建一个名为stocks的内部表，其字段包括股票信息，如股票代码、交易日期、开盘价等，字段之间以英文逗号分隔。创建时，需要指定表的结构，如表14-11所示。 3. 创建分区表：接着，参与者将学习如何创建分区表，如dividends，此表按交易所和股票代码进行分区。分区有助于提高查询性能，示例中提到的表结构如表14-12所示，并附有创建过程的截图。 4. 数据导入：实验要求从名为stocks.csv的文件中导入数据到stocks表，这涉及使用Hive的LOAD DATA INPATH语句，确保数据正确地加载到表中。 5. 创建未分区的外部表：最后，会创建一个未分区的外部表dividends_unpartitioned，同样从dividends.csv导入数据，但不进行分区。表结构如表14-13所示。通过这些步骤，参与者不仅能够掌握如何使用Hive进行数据加载和基本操作，还能理解分区对大数据处理性能的影响，以及内外部表的区别。此外，实践过程中可能涉及到的数据类型、语法和最佳实践也将被深入讲解，以提升对Hive在实际场景中的运用能力。整个实验设计旨在通过实践操作深化理论知识，使学生能有效地利用Hive进行大数据处理和分析。通过完成这个实验，学习者将能更好地理解和应用Hive在企业级数据仓库管理中的作用。

展开

实验 6 熟悉 Hive 的基本操作

一、实验目的

1. 理解 Hive 作为数据仓库在 Hadoop 体系结构中的角色。

2. 熟练使用常用的 HiveQL。

二、实验平台

1. 操作系统：Ubuntu18.04（或 Ubuntu16.04）。

2. Hadoop 版本：3.1.3。

3. Hive 版本：3.1.2。

4. JDK 版本：1.8。

三、数据集

由《Hive 编程指南》(O'Reilly 系列，人民邮电出版社)提供，下载地址：

https://raw.githubusercontent.com/oreillymedia/programming_hive/master/prog-hive-1st-ed-

data.zip

备用下载地址：

https://www.cocobolo.top/FileServer/prog-hive-1st-ed-data.zip

解压后可以得到本实验所需的 stocks.csv 和 dividends.csv 两个文件。

四、实验步骤（每个步骤下均需有运行截图）

（1）创建一个内部表 stocks，字段分隔符为英文逗号，表结构如表 14-11 所示。

表 14-11 stocks 表结构

col_name

data_type

exchange

string

symbol

string

ymd

string

price_open

float

price_high

float

price_low

float

price_close

float

volume

int

price_adj_close

float

下载后可阅读完整内容，剩余5页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

Blossomi

粉丝: 3w+

掌握Hive基础操作：数据仓库在Hadoop中的应用

hive基本操作

大数据实验六实验报告：熟悉Hive的基本操作

大数据技术原理与应用-实验3熟悉常用的HBase操作（林子雨）

大数据技术及应用：Hive整合与配置方案实践

大数据技术原理与应用【林子雨】上机实验一

大数据原理与应用课程设计

大数据技术与应用基础-教学大纲.doc

大数据技术实践实验报告 (2).pdf

《Hadoop大数据技术与应用》教学大纲 - 20180823.docx

大数据建模与挖掘应用.docx

最新资源