Hive入门：数据仓库框架、HQL与SQL异同及架构详解

需积分: 5 102 浏览量更新于2024-07-17 收藏 632KB DOCX 举报

Hive是Facebook开源的一个数据仓库工具，主要用于处理大规模结构化数据的日志统计。它将结构化数据文件组织为类似数据库的表，提供了SQL查询功能，但其底层实际上是将Hive Query Language (HQL)语句转换为Hadoop的MapReduce处理模型。Hive的设计主要围绕以下几个关键组件： 1. 用户接口：Hive提供多种访问方式，包括命令行接口CLI（如通过`hive`命令），JDBC或ODBC连接，以及Web UI（通过浏览器）。这些接口使得用户能够方便地与Hive交互和执行SQL查询。 2. 元数据管理：Hive的元数据存储在Metastore中，这是一个独立的服务，包含了数据库、表、列、分区等信息，以及它们的数据存储位置（默认在HDFS中）。 3. 存储与计算：Hive的数据存储依赖于Hadoop Distributed File System (HDFS)，而查询处理则利用MapReduce进行并行计算。这意味着Hive操作通常适用于大规模离线数据分析场景。 4. SQL与HQL：Hive SQL语法类似于标准SQL，但有其特定的扩展和限制。Hive SQL执行过程涉及解释器将SQL转化为抽象语法树（AST），编译器将其转化为逻辑执行计划，然后由优化器进行优化，最后由执行器转换为具体的物理执行计划，如MapReduce任务。关系型数据库操作方面，Hive提供了一些基本的数据库管理功能，如创建数据库、创建表、插入数据等。创建表时，可以通过`CREATE TABLE`语句指定表结构，包括数据类型（如INT、STRING），并且可以指定表的存储路径，如果没有指定，则默认在Hive的仓库目录下创建。值得注意的是，Hive设计上倾向于将数据持久化在HDFS上，而不是像传统的关系型数据库那样在内存中操作，这决定了它的处理模式和性能特性。此外，Hive与传统的MySQL等数据库相比，更适合处理大规模、批处理的数据操作，而不适合频繁的写入和更新操作。Hive是Hadoop生态系统中处理大数据的一种强大工具，对于理解和掌握大数据处理流程和技术栈的学习者来说，深入理解Hive的工作原理和操作是至关重要的。

查询数据

select * from student;

描述表信息

desc tableName;

查看函数

show functions;

描述函数

show functions;

帮助

hive --help

指定默认链接的数据库

hive --database dbName -> hive --database db01

在 linux 命令中执行 SQL 或者 HQL 语句

hive -e 'show databases'

在 linux shell 命令中执行一个写有 sql 语句的文件

hive -f /opt/app/hive.sql (hive.sql 是 sql 语句文件)

使当前 shell 配置临时生效

hive --hiveconf hive.cli.print.current.db=false

查看当前参数设置的值

set hive.cli.print.current.db

set hive.cli.print.current.db=false;

剩余25页未读，继续阅读

Oasen

粉丝: 49
资源: 15

Hive入门：数据仓库框架、HQL与SQL异同及架构详解

bigdata_dw_real.docx

大数据集群配置过程_hive篇.docx

03_SparkSql.docx

Starred_Paper_Hadoop_Spark.docx

bigdata_phoenix.docx

sqoop工具_202006041735481.docx

2 Hadoop安装_20211127220518.docx

CDH配置说明_20200414.docx

大数据基础平台配置_VMP_HDP2.6_ADVANCED.docx

大数据云计算学习总结_4.docx

最新资源