Hive：大数据时代的结构化数据统计工具

72 浏览量更新于2024-08-29 收藏 98KB PDF 举报

"大数据:hive1\n1:什么是hive:由facebook开源的用于解决海量结构化日志的数据统计\n2：hive是基于hadoop的数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。\n本质：将Hql转化成mapreduce\n其基本执行过程：\n数据仓库通过sql进行统计分析——–>将SQL语言中常用的操作（select,where,group等）用mapreduce写成很多模板\n所有的mapreduce模板封装在hive中—>通过hive框架匹配出相应的mapreduce模板—->运行mapreduece生成相应的分析结果—>result->client—>用户根据业务需求编写相应的sql语句。\nhive的优缺点：\n优点：\n1）操作接口采用类sql语法，提供快速开发的能力（简单、容易上手）\n2）避免了去写mapreduce,减少开发人员的学习成本。\n3）hive的执行延迟比较高，因此hive常用于数据分析，对实时性要求不高的场合。\n4）hive的优势在于处理大数据，对于小数据没有优势，因为hive的执行延迟比较高\n5）hive支持用户自定义函数，用户可以根据自已的需求来实现自已的函数。\n缺点：\nhive的hql表达有限：\n迭代式算法无法表达\n数据挖掘方面不擅长，由于mapreduce数据处理流程的限制，效率更高的算法却无法实现。\nhive的效率比较低\nhive自动自成的mapduce，通常情况下不够智能化\nhive的调优比较困难，粒度较粗\nhive架构原理：\n用户cli:客户端工具有：cli,jdbc/odbc，webui如zeepline,hue\n元数据：metastore\n元数据包括：\n表名，表属性的数据库（默认default）、表的拥有者同，列/分区字段，表的类型（是否是外部表）表的数据所有的目录等\n默认存在有自带的derby数据库（建议永远不要用，单实例数据能干什么呢），推荐存储metastore\n2hado

大数据大数据:hive1

1:什么是hive:由facebook开源的用于解决海量结构化日志的数据统计

2：hive是基于hadoop的数据仓库工具，可以将结构化的数据文件映谢成一张表，并提供类SQL查询功能。

本质：将Hql转化成mpareduce

其基本执行过程：

数据仓库通过sql进行统计分析——–>将SQL语言中常用的操作（select,where,group等）用mapreduce写成很多模板

所有的mapreduce模板封装在hive中—>通过hive框架匹配出相应的mapreduce模板—->运行mapreduece生成相应的分析结果

—>result->client—>用户根据业务需求编写相应的sql语句。

hive的优缺点：的优缺点：

优点：

1）操作接口采用类sql语法，提供快速开发的能力（简单、容易上行）

2）避免了去写mapreduce,减少开发人员的学习成本。

3）hive的执行延迟比较高，因此hive常用于数据分析，对实时性要求不高的场合。

4）hive的优势在于处理大数据，对于小数据没有优势，因为hive的执行延迟比较高

5）hive支持用户自定义函数，用户可以根据自已的需求来实现自已的函数。

缺点：

hive的hql表达有限：

迭代式算法无法表达

数据挖掘方面不擅长，由于mapreduce数据处理流程的限制，效率更高的算法却无法实现。

hive的效率比较低

hive自动自成的mapduce，通常情况下不够智能化

hive的调优比较困难，粒度较粗

hive架构原理：架构原理：

用户cli: 客户端工具有：cli ,jdbc/odbc，webui如zeepline,hue

元数据：metastore

元数据包括：

表名，表属性的数据库（默认default）、表的拥有者同，列/分区字段，表的类型（是否是外部表）表的数据所有的目录等

默认存在有自还带的derby数据库（建议永远不要用，单实例数据能干什么呢），推荐存储metastore

2hadooop使用hdfs进行存储，使用mapreduece进行计算

驱动器dirver

解析器：

sql parser :将字符串转换成语法树AST，这一步一般第三工具完成，比如antlr,对AST进行语法分析，比如表是否存在

,字段是否存在，sql语义是否有误

编译器：

将AST编译生成逻辑执行计划

优化器：

对逻辑执行计划进行优化

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38612095

粉丝: 10
资源: 921

Hive：大数据时代的结构化数据统计工具

海量数据处理-hive数据仓库

华为大数据认证： Hive分布式数据仓库.pptx

大数据：hive3

大数据:hive4:查询

Hadoop大数据：Hive入门与核心概念解析

中科普开HADOOP大数据：Hive数据仓库与数据系统进化

探索大数据：Apache Hive 实用指南

大数据学习：Hive部署.pdf

大数据学习：Hive简介.pdf

尚硅谷大数据技术：Hive入门与原理解析

最新资源