Hive:大数据时代的结构化数据统计工具

0 下载量 72 浏览量 更新于2024-08-29 收藏 98KB PDF 举报
"大数据:hive1\n1:什么是hive:由facebook开源的用于解决海量结构化日志的数据统计\n2:hive是基于hadoop的数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。\n本质:将Hql转化成mapreduce\n其基本执行过程:\n数据仓库通过sql进行统计分析——–>将SQL语言中常用的操作(select,where,group等)用mapreduce写成很多模板\n所有的mapreduce模板封装在hive中—>通过hive框架匹配出相应的mapreduce模板—->运行mapreduece生成相应的分析结果—>result->client—>用户根据业务需求编写相应的sql语句。\nhive的优缺点:\n优点:\n1)操作接口采用类sql语法,提供快速开发的能力(简单、容易上手)\n2)避免了去写mapreduce,减少开发人员的学习成本。\n3)hive的执行延迟比较高,因此hive常用于数据分析,对实时性要求不高的场合。\n4)hive的优势在于处理大数据,对于小数据没有优势,因为hive的执行延迟比较高\n5)hive支持用户自定义函数,用户可以根据自已的需求来实现自已的函数。\n缺点:\nhive的hql表达有限:\n迭代式算法无法表达\n数据挖掘方面不擅长,由于mapreduce数据处理流程的限制,效率更高的算法却无法实现。\nhive的效率比较低\nhive自动自成的mapduce,通常情况下不够智能化\nhive的调优比较困难,粒度较粗\nhive架构原理:\n用户cli:客户端工具有:cli,jdbc/odbc,webui如zeepline,hue\n元数据:metastore\n元数据包括:\n表名,表属性的数据库(默认default)、表的拥有者同,列/分区字段,表的类型(是否是外部表)表的数据所有的目录等\n默认存在有自带的derby数据库(建议永远不要用,单实例数据能干什么呢),推荐存储metastore\n2hado