Hive:大数据时代的结构化数据统计工具
72 浏览量
更新于2024-08-29
收藏 98KB PDF 举报
"大数据:hive1\n1:什么是hive:由facebook开源的用于解决海量结构化日志的数据统计\n2:hive是基于hadoop的数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。\n本质:将Hql转化成mapreduce\n其基本执行过程:\n数据仓库通过sql进行统计分析——–>将SQL语言中常用的操作(select,where,group等)用mapreduce写成很多模板\n所有的mapreduce模板封装在hive中—>通过hive框架匹配出相应的mapreduce模板—->运行mapreduece生成相应的分析结果—>result->client—>用户根据业务需求编写相应的sql语句。\nhive的优缺点:\n优点:\n1)操作接口采用类sql语法,提供快速开发的能力(简单、容易上手)\n2)避免了去写mapreduce,减少开发人员的学习成本。\n3)hive的执行延迟比较高,因此hive常用于数据分析,对实时性要求不高的场合。\n4)hive的优势在于处理大数据,对于小数据没有优势,因为hive的执行延迟比较高\n5)hive支持用户自定义函数,用户可以根据自已的需求来实现自已的函数。\n缺点:\nhive的hql表达有限:\n迭代式算法无法表达\n数据挖掘方面不擅长,由于mapreduce数据处理流程的限制,效率更高的算法却无法实现。\nhive的效率比较低\nhive自动自成的mapduce,通常情况下不够智能化\nhive的调优比较困难,粒度较粗\nhive架构原理:\n用户cli:客户端工具有:cli,jdbc/odbc,webui如zeepline,hue\n元数据:metastore\n元数据包括:\n表名,表属性的数据库(默认default)、表的拥有者同,列/分区字段,表的类型(是否是外部表)表的数据所有的目录等\n默认存在有自带的derby数据库(建议永远不要用,单实例数据能干什么呢),推荐存储metastore\n2hado
2021-09-24 上传
2021-01-07 上传
2021-01-07 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
2022-12-07 上传
2022-12-07 上传
weixin_38612095
- 粉丝: 10
- 资源: 921
最新资源
- Raspberry Pi OpenCL驱动程序安装与QEMU仿真指南
- Apache RocketMQ Go客户端:全面支持与消息处理功能
- WStage平台:无线传感器网络阶段数据交互技术
- 基于Java SpringBoot和微信小程序的ssm智能仓储系统开发
- CorrectMe项目:自动更正与建议API的开发与应用
- IdeaBiz请求处理程序JAVA:自动化API调用与令牌管理
- 墨西哥面包店研讨会:介绍关键业绩指标(KPI)与评估标准
- 2014年Android音乐播放器源码学习分享
- CleverRecyclerView扩展库:滑动效果与特性增强
- 利用Python和SURF特征识别斑点猫图像
- Wurpr开源PHP MySQL包装器:安全易用且高效
- Scratch少儿编程:Kanon妹系闹钟音效素材包
- 食品分享社交应用的开发教程与功能介绍
- Cookies by lfj.io: 浏览数据智能管理与同步工具
- 掌握SSH框架与SpringMVC Hibernate集成教程
- C语言实现FFT算法及互相关性能优化指南