Hive入门：Facebook的数据演变与应用

需积分: 3 165 浏览量更新于2024-08-01 收藏 660KB PDF 举报

"IntroToHive - 一个关于Apache Hive的介绍，起源于Facebook的数据处理需求，从最初的少量数据到大规模增长，以及Hadoop在企业数据仓库中的应用和Hive的各种应用场景与组件的详解。" Apache Hive是Facebook为解决日益增长的大规模数据处理需求而创建的一种数据仓库工具，它最初是用来应对从每天几GB到每天1TB新数据的增长（2007年时）。在2006年，数据量只有十几GB，但到了2007年，每日新增数据量达到了1TB，现在这个数字更是增长了10倍。随着数据量的急剧增加，Facebook原有的通过夜间定时任务将数据导入Oracle数据库以及手工编写的Python ETL（提取、转换、加载）方式变得难以应对。 Hadoop作为企业数据仓库解决方案应运而生，它允许将Scribe和MySQL的数据加载到Hadoop的HDFS（分布式文件系统）中，然后通过MapReduce作业进行数据处理。然而，Hadoop缺少对终端用户友好的命令行界面和对即席查询的支持，而无需编写完整的MapReduce作业，同时也缺乏模式信息，这些都是Hive所要解决的问题。 Hive的应用场景广泛，包括但不限于日志处理、文本挖掘、文档索引、面向客户的商业智能（如Google Analytics）以及预测建模和假设测试等。Hive由多个组件构成，包括： 1. Shell：提供类似于连接到数据库的MySQL shell的交互式查询功能，同时也支持Web和JDBC客户端。 2. Driver：处理会话管理、数据获取和执行查询。 3. Compiler：将HQL（Hive查询语言）编译为MapReduce任务。 4. Executor：运行由Compiler生成的MapReduce任务。 5. Metastore：存储元数据，如表结构、分区信息等。 Hive的出现使得非程序员也能通过SQL-like的HQL来查询和分析大数据，大大降低了数据分析的门槛，推动了大数据分析在企业中的普及和应用。

Hive Components

• Shell: allows interactive queries like

MySQL shell connected to database

– Also supports web and JDBC clients

• Driver: session handles, fetch, execute

• Compiler: parse, plan, optimize

• Execution engine: DAG of stages (M/R,

HDFS, or metadata)

• Metastore: schema, location in HDFS,

SerDe

剩余26页未读，继续阅读

sc_warlock

粉丝: 0
资源: 1

Hive入门：Facebook的数据演变与应用

沈阳建筑大学在河南2021-2024各专业最低录取分数及位次表.pdf

贵州茅台数据(1).xlsx

cwgl_jy1301.doc

java-ssm+jsp游戏账号交易系统实现源码(项目源码-说明文档)

java-ssm+jsp医院资产管理系统实现源码(项目源码-说明文档)

一款基于fofa根据域名或fofa语法收集C段分布数量的工具_Ceyes.zip

intro-程序员问卷调查

车型识别系统的系统GUI设计.zip

安徽建筑大学在河南2021-2024各专业最低录取分数及位次表.pdf

湖北理工学院在河北2021-2024各专业最低录取分数及位次表.pdf

最新资源