没有合适的资源?快使用搜索试试~ 我知道了~
首页大数据学习工作总结.docx
资源详情
资源评论
资源推荐
Hadoop 学习
使用场景
大数据量存储:分布式存储
日志处理 擅长这个
海量计算并行计算
数据抽取到 、、、 及主流数据库
使用 做数据分析用扩展性应对大量的写操作— 构建了基于
的实时数据分析系统
机器学习比如 !"# 项目
搜索引擎$" 实现
数据挖掘:目前比较流行的广告推荐
大量地从文件中顺序读。% 对顺序读进行了优化,代价是对于随机的访问负载较高。
数据支持一次写入,多次读取。对于已经形成的数据的更新不支持。
数据不进行本地缓存(文件很大,且顺序读没有局部性)
任何一台服务器都有可能失效,需要通过大量的数据复制使得性能不会受到大的影响。
用户细分特征建模
个性化广告推荐
智能仪器推荐
是什么?
&' 是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和
大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。
(%(文件系统,数据存储技术相关)$!"(数据处理),
的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库
相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为 )
*",)*" 是基本数据单元。用函数式变成 !" 代替 %+,%+ 是查询
语句,而 !" 则是使用脚本和代码,而对于适用于关系型数据库,习惯 %+ 的
有开源工具 ,* 代替。
&' 就是一个分布式计算的解决方案
- 能做什么?
擅长日志分析, 就用 ,* 来进行日志分析,../ 年时 就
有非编程人员的 -.0的人使用 ,*+ 进行数据分析;淘宝搜索中àààà的自定义筛选也使
用的 ,*;利用 1, 还可以做高级的数据处理,包括 2,##、,3上用于发现您可
能认识的人,可以实现类似 4 的协同过滤的推荐效果。淘宝的商品推荐也是!
在 5!的 6.0的 作业是用 , 运行的,包括垃圾邮件的识别和过滤,还有
用 户 特 征 建 模 。 ( . 年 7 月 8 新 更 新 , 天 猫 的 推 荐 系 统 是 ,* , 少 量 尝 试
"#!)
6 文件系统的特征?
存储极大数目的信息(####),将数据保存到大量的节点当
中。支持很大单个文件。
提供数据的高可靠性,单个或者多个节点不工作,对系统不会造成任何影响,数据
仍然可用。
提供对这些信息的快速访问,并提供可扩展的方式。能够通过简单加入更多服务器
的方式就能够服务更多的客户端。
% 是针对 !9" 设计的,使得数据尽可能根据其本地局部性进行访问与
计算。
8 整个工作机制图?
不是一个完整的数据库,其中最大的限制是 不支持记录级别的更新,插入,删
除。但是用户可以通过查询生成新表或者将查询结果导入到文件中
大数据技术架构
1.Hive 的架构形式是什么样的?有哪些组件?
Hive 的组件总体上可以分为以下几个部分:对外的界面或接口、中间件或服务端部分、底层驱动、元数
据(即 hive 系统参数数据)
1)对外的接口包括以下几种:命令行 CLI,Web 界面、JDBC/ODBC 接口
2)中间件:包括 thrift 接口和 JDBC/ODBC 的服务端,用于整合 Hive 和其他程序。
3)底层驱动:包括 HiveQL 编译器,优化器、执行的引擎(执行器)
4)元数据 metadata:存放系统参数
1)MetaStore 类似于 Hive 的目录。它存放了有个表、区、列、类型、规则模型的所有信
息。并且它可以通过 thrift 接口进行修改和查询。它为编译器提供高效的服务,所以,它会
存放在一个传统的 RDBMS,利用关系模型进行管理。这个信息非常重要,所以需要备份,
并且支持查询的可扩展性。
2)查询编译器 query compiler: HiveQL 语句被处理,同传统的数据库编译器一样,都经历
以下步骤:
剩余58页未读,继续阅读
cdmazzq
- 粉丝: 2
- 资源: 10
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 2022年中国足球球迷营销价值报告.pdf
- 房地产培训 -营销总每天在干嘛.pptx
- 黄色简约实用介绍_汇报PPT模板.pptx
- 嵌入式系统原理及应用:第三章 ARM编程简介_3.pdf
- 多媒体应用系统.pptx
- 黄灰配色简约设计精美大气商务汇报PPT模板.pptx
- 用matlab绘制差分方程Z变换-反变换-zplane-residuez-tf2zp-zp2tf-tf2sos-sos2tf-幅相频谱等等.docx
- 网络营销策略-网络营销团队的建立.docx
- 电子商务示范企业申请报告.doc
- 淡雅灰低面风背景完整框架创业商业计划书PPT模板.pptx
- 计算模型与算法技术:10-Iterative Improvement.ppt
- 计算模型与算法技术:9-Greedy Technique.ppt
- 计算模型与算法技术:6-Transform-and-Conquer.ppt
- 云服务安全风险分析研究.pdf
- 软件工程笔记(完整版).doc
- 电子商务网项目实例规划书.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0