Hive：简化大数据处理的利器

102 浏览量更新于2024-08-30 收藏 194KB PDF 举报

"使用Hive构建数据库" Apache Hive是一个基于Hadoop的数据仓库工具，它允许用户使用SQL（称为HQL，Hive Query Language）来查询、管理和处理存储在Hadoop分布式文件系统(HDFS)中的大规模数据集。Hive的设计目标是提供一个简单的接口，使得那些熟悉SQL的分析师和开发人员可以方便地对大数据进行分析，而无需深入学习MapReduce或其他底层Hadoop生态系统的技术。 Hive的主要优点在于它的易用性和可扩展性。它将复杂的MapReduce任务抽象成SQL查询，使得处理大数据变得更加直观。此外，Hive支持多种数据模型，包括非结构化、半结构化和结构化数据，这对于处理现代大数据场景中的多元化数据源至关重要。例如，社交媒体数据、电子邮件、电话记录、机器日志等都可以被有效地整合和分析。在构建数据库方面，Hive提供了一种灵活的方式来设计数据仓库架构。用户可以创建表、分区和桶，以优化查询性能和数据管理。通过分区，可以将大表分解成更小、更易于管理的部分，而桶则可以通过哈希函数将数据分布到特定的物理文件中，从而加速并行查询。Hive还支持数据倾斜的解决策略，确保数据均匀分布在集群中，避免查询性能瓶颈。 Hive与传统的RDBMSes相比，具有显著的可扩展性和成本效益。在RDBMS中，随着数据量的增长，可能需要升级硬件或购买更昂贵的企业级解决方案。而在Hadoop-Hive环境下，只需添加更多的廉价服务器到集群，即可实现水平扩展，这大大降低了大数据处理的成本。对于那些希望利用大数据分析但缺乏MapReduce或Java编程能力的公司来说，Hive是一个理想的工具。它简化了数据接入流程，使得BI工具如IBM Cognos或统计分析软件如SPSS能无缝对接Hadoop，进一步增强了企业的数据分析能力。同时，Hive与各种数据集成工具（如ETL工具）兼容，便于数据清洗和转换，进一步提升了整个数据分析链路的效率。 Hive作为Hadoop生态中的重要组成部分，为企业提供了简单、高效的数据仓库解决方案，使得大数据分析不再局限于技术专家，而是可以普及到更多的业务人员，推动企业决策和业务洞察的提升。通过使用Hive，企业可以更好地管理和利用他们的海量数据，挖掘潜在的价值，驱动业务增长。

使用使用Hive构建数据库构建数据库

当您需要处理大量数据时，存储它们是一个不错的选择。令人难以置信的发现或未来预测不会来自未使用的数据。大数据是一

个复杂的怪兽。用 Java? 编程语言编写复杂的 MapReduce 程序要耗费很多时间、良好的资源和专业知识，这正是大部分企

业所不具备的。这也是在 Hadoop 上使用诸如 Hive 之类的工具构建数据库会成为一个功能强大的解决方案的原因。

如果一家公司没有资源构建一个复杂的大数据分析平台，该怎么办？当业务智能 (BI)、数据仓库和分析工具无法连接到

Apache Hadoop 系统，或者它们比需求更复杂时，又该怎样办？大多数企业都有一些拥有关系数据库管理系统 (RDBMSes)

和结构化查询语言 (SQL) 经验的员工。Apache Hive 允许这些数据库开发人员或者数据分析人员使用 Hadoop，无需了解

Java 编程语言或者 MapReduce。现在，您可以设计星型模型的数据仓库，或者常态化的数据库，而不需要挑战 MapReduce

代码。忽然之间，BI 和分析工具，比如 IBM Cognos? 或者 SPSS? Statistics，就可以连接到 Hadoop 系统。

数据库

构建数据库，并且能够使用这些数据，这不是 Hadoop 或者数据库问题。多年以来，人们一直习惯将数据组织到库中。有许多

由来已久的问题：如何将数据分门别类？如何将所有数据连接到集成的平台、机箱或者库？多年来，各种方案层出不穷。

人们发明了很多方法，比如 Dewey Decimal 系统。他们将通讯录中的人名或企业名按照字母顺序排列。还有金属文件柜、带

货架的仓库、地址卡文件系统，等等。雇主尝试用时间卡，打卡器以及时间表追踪员工。人们需要结构化和组织化数据，还需

要反映和检查这些数据。如果您无法访问、结构化或理解这些数据，那么存储这么多的数据有什么实际意义呢？

RDBMSes 使用了过集合论和第三范式。数据仓库有 Kimball、Inmon、星型模型、Corporate Information Factory，以及专用

数据集市。他们有主数据管理、企业资源规划、客户关系管理、电子医疗记录和其他许多系统，人们使用这些系统将事务组织

到某种结构和主题中。现在，我们有大量来自各个行业的非机构化或半结构化数据，例如，社交媒体、邮件、通话记录、机械

指令、远程信息，等等。这些新数据需要集成到存储结构化的新旧数据的非常复杂、非常庞大的系统中。如何分类才能使得销

售经理能够改进报告？如何构建库才能使得执行主管能够访问图表和图形？

您需要找到一种将数据结构化到数据库的方法。否则，只是拥有大量只有数据科学家才能访问数据。有时，人们只是需要简单

的报告。有时，他们只是想要拖拽或者编写 SQL 查询。

大数据、Hadoop 和 InfoSphere BigInsights

本小节将向您介绍 InfoSphere? BigInsights?，以及它与 Hadoop、大数据、Hive、数据库等有何联系。InfoSphere

BigInsights 是 Hadoop 的 IBM 分区。您可能对 Apache 和 Cloudera 比较了解，但是业内许多人都曾涉足 Hadoop。它开始于

开源的使用 MapReduce 的 Hadoop 和 Hadoop 分布式文件系统 (HDFS)，通常还包括其他工具，比如 ZooKeeper、Oozie、

Sqoop、Hive、Pig 和 HBase。这些发布版与普通 Hadoop 的区别在于它们被添加在 Hadoop 顶层。InfoSphere BigInsights

就属于这一类版本。

您可以在 Hadoop 的 Cloudera 版本之上使用 InfoSphere BigInsights。此外，InfoSphere BigInsights 提供一个快速的非结构

化的分析引擎，您可以将它和 InfoSphere Streams 结合在一起使用。InfoSphere Streams 是一个实时的分析引擎，它开创了

联合实时分析和面向批次的分析的可能。

InfoSphere BigInsights 还拥有内置的、基于浏览器的电子表格 BigSheets。这个电子表格允许分析人员每天以电子表格样式

使用大数据和 Hadoop。其他功能包括基于角色的安全和管理的 LDAP 集成；与 InfoSphere DataStage? 的集成，用于提取、

转换、加载 (ETL)；常用的使用案例的加速器，比如日志和机器数据分析；包含常用目录和可重复使用工作的应用目录；

Eclipse 插件；以及 BigIndex，它实际上是一个基于 Lucene 的索引工具，构建于 Hadoop 之上。

您还可以使用 Adaptive MapReduce、压缩文本文件、自适应调度增强来提高性能。此外，您还可以集成其他应用，例如，内

容分析和 Cognos Consumer Insights。

Hive

Hive 是一个强大的工具。它使用了 HDFS，元数据存储（默认情况下是一个 Apache Derby 数据库）、shell 命令、驱动器、

编译器和执行引擎。它还支持 Java 数据库连接性 (JDBC) 连接。由于其类似 SQL 的能力和类似数据库的功能，Hive 能够为

非编程人员打开大数据 Hadoop 生态系统。它还提供了外部 BI 软件，例如，通过 JDBC 驱动器和 Web 客户端和 Cognos 连

接。

您可以依靠现有的数据库开发人员，不用费时费力地寻找 Java MapReduce 编程人员。这样做的好处在于：您可以让一个数

据库开发人员编写 10-15 行 SQL 代码，然后将它优化和翻译为 MapReduce 代码，而不是强迫一个非编程人员或者编程人员

写 200 行代码，甚至更多的复杂 MapReduce 代码。

Hive 常被描述为构建于 Hadoop 之上的数据仓库基础架构。事实是，Hive 与数据仓库没有什么关系。如果您想构建一个真实

的数据仓库，可以借助一些工具，比如 IBM Netezza。但是如果您想使用 Hadoop 构建一个数据库，但又没有掌握 Java 或者

MapReduce 方面的知识，那么 Hive 会是一个非常不错的选择（如果您了解 SQL）。Hive 允许您使用 Hadoop 和 HBase 的

HiveQL 编写类似 SQL 的查询，还允许您在 HDFS 之上构建星型模型。

Hive 与 RDBMSes

Hive 是一个读模式系统，而 RDBMSes 是一个典型的写模式系统。传统的 RDMBSes 在编写数据时验证模型。如果数据与

结构不符，则会遭到拒绝。Hive 并不关心数据的结构，至少不会在第一时间关心数据结构，它不会在您加载数据时验证模

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38560039

粉丝: 3
资源: 888

Hive：简化大数据处理的利器

java访问hive数据库所需全部jar包

idea 集成使用 hive 需要导入的jar包.rar

docker下构建Hadoop集群，Hive数据库和Mysql数据库查询对比_Hadoop-Hive.zip

Sqoop命令详解：大数据同步至Hive与数据库操作

Hive元数据库详解：DERBY与MySQL支持与操作

使用Spark-Hive构建简易Spring Web应用教程

docs:Hive数据库的文档

java连接hive数据库的demo

采用Hadoop+Hive构建数据仓库，使用django+echarts构建前端web网站对业务指标进行可视化呈现.zip

毕业设计，采用Hadoop+Hive构建数据仓库，使用django+echarts构建前端web网站行可视化呈现.zip

最新资源