Hive实战：创建与加载数据到数据仓库

需积分: 0 100 浏览量更新于2024-08-03 收藏 569KB DOCX 举报

“Hive-数据仓库实战” 在大数据处理领域，Hive是一个至关重要的数据仓库工具，它在数据挖掘、数据聚合以及统计分析中扮演着核心角色。尤其是在电信行业中，Hive被广泛用于分析用户的流量、费用、套餐等信息，帮助企业进行深度的数据洞察，以优化服务和套餐设计。本实验旨在帮助用户掌握Hive的基本操作，并学会通过Hue界面执行HQL（Hive查询语言）。实验内容分为两个主要任务：Hive创建表和加载数据。任务一：Hive创建表 Hive提供了创建表的语句，允许用户定义表结构。创建表的基本语法如下： 1. 创建内部表：内部表是Hive默认的表类型，数据存储在Hive的元数据和HDFS中，由Hive管理。例如，创建一个名为cx_stu01的内部表，包含name、gender和age三个字段，类型分别为string和int，数据以逗号分隔： ``` CREATE TABLE cx_stu01 (name string, gender string, age int) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; ``` 显示所有表的命令是`SHOW TABLES;`。 2. 创建外部表：外部表则将数据存储的管理权交给了用户，只在Hive中保存元数据。当删除外部表时，HDFS上的数据不会被删除。创建一个名为cx_stu02的外部表： ``` CREATE EXTERNAL TABLE cx_stu02 (name string, gender string, age int) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; ``` 任务二：Hive加载数据在创建了外部表后，需要将数据从本地系统加载到HDFS，然后通过Hive进行访问。以下是一个示例流程： 1. 使用文本编辑器在Linux环境中创建数据文件cx_stu01.txt，并输入相应数据，如姓名、性别和年龄。 2. 使用`hdfs dfs -put`命令将数据文件上传到HDFS指定路径，例如`/user/stu01/`： ``` hdfs dfs -put cx_stu01.txt /user/stu01/ ``` 3. 进入Hive环境（如通过Beeline），使用LOAD DATA命令将HDFS上的数据加载到外部表中： ``` LOAD DATA LOCAL INPATH '/home/stu01/cx_stu01.txt' INTO TABLE cx_stu02; ``` 这个过程确保了数据可以从HDFS中读取并用于分析。通过这两个任务，用户不仅学会了如何在Hive中创建和管理表，还了解了数据的导入流程。这为后续的数据查询、聚合和分析奠定了基础。在实际应用中，这些技能对于理解大规模数据集并从中提取有价值的信息至关重要。

载入 hdfs 数据

首先，按 ctrl+c 退出 hive(或者新打开一个 shell 窗口)，在 linux 本地编辑数据文

件:cx_stu01.txt，内容如下:

执行 hdfs 的 put 命令，把数据上传到 hdfs 上的/user/stu01/目录中

命令: hdfsdfs-put cx_stu01.txt/user/stu01/

输入 beeline 进入 hive，执行数据加载，导入数据到外部表中

执行命令: load data inpath '/user/cx_stu01.txt' into table cx_stu02;

select * from cx_stu02;

剩余13页未读，继续阅读

爆炸西蓝花

粉丝: 46
资源: 6

Hive实战：创建与加载数据到数据仓库

大数据Hive数仓开发精讲到企业级实战应用

大数据 hive 实战数据

滴滴出行数据分析：Hbase-Hive-Mysql-Sqoop-可视化实战

Hadoop-2.2.0+Hbase-0.96.2+Hive-0.13.1分布式整合实战与HA配置

大数据编程林子雨实验hive安装包prog-hive-1st-ed-data.zip

Hadoop集群安装Hive-0.8.1实战：解决版本不兼容及metastore_db错误

Hadoop Hive：数据仓库实战与高级语法解析

Hive数据仓库实战：数据建模与设计精要

HIVE实战测试数据，HIVE实战测试数据

大数据存储与处理技术hadoop 基于hive数据仓库原理与实战 hive调优及数据仓库建模 共12页.pptx

最新资源

大数据存储与处理技术hadoop 基于hive数据仓库原理与实战 hive调优及数据仓库建模共12页.pptx