Hadoop云上实践:存储与计算分离的优势与优化
需积分: 44 146 浏览量
更新于2024-07-19
收藏 4.57MB PDF 举报
“Hadoop存储与计算分离文档讨论了在传统Hadoop集群和云上Hadoop集群部署中的存储与计算分离实践,重点介绍了阿里云E-MapReduce团队的解决方案,包括面临的新挑战和针对OSS(对象存储服务)的优化。”
在传统的Hadoop集群部署中,计算能力和存储能力紧密结合,形成了集群的综合能力。这种模式下,数据存储在本地磁盘,以数据为中心,利用数据本地性提高任务处理效率。然而,随着技术的发展,带宽不再是稀缺资源,磁盘承载计算的作用减弱,集群的木桶效应和资源浪费问题日益凸显。混部策略旨在减少数据迁移,提高资源利用率,但实际操作中可能导致更多的资源浪费和较差的集群扩展性。
转向云上集群部署,如阿里云E-MapReduce,提供了丰富的云计算基础设施,包括ECS(弹性计算服务)、SLS(Serverless日志服务)、VPC(专有网络)、ACS(Autoscaling服务)、RDS(关系型数据库服务)、ONS(消息服务)、OSS(对象存储服务)、MNS(消息队列服务)、OTS(表格存储服务)等。这些服务支持Hadoop BlockStorage的一键部署,使得集群搭建更为便捷。然而,云环境带来了新的挑战,如存储成本比例较高、热数据与冷数据的管理、存储质量下降以及数据服务可用性的高要求。
为应对这些挑战,提出了Hadoop与OSS结合的分离部署方案。OSS作为低成本的存储服务,通过内网传输与ECS上的Hadoop进行交互,降低了存储成本,同时支持热数据和冷数据的分层存储。Hadoop对OSS的支持不断演进,从EMR-Core1.0.0的基础支持到EMR-Core1.2.0的安全性和易用性优化,以及针对特定场景(如小文件和数据仓库)的性能提升。此外,由于文件移动是相对耗时的操作,Hadoop执行过程中涉及的文件移动得到了进一步优化,提升了系统的稳定性和性能。
Hadoop存储与计算分离的实践旨在解决传统部署模式中的局限性,通过云服务实现更高效、灵活和经济的存储与计算管理。阿里云E-MapReduce团队的解决方案不仅展示了云上Hadoop集群的优势,也揭示了如何通过持续优化来适应不断变化的技术环境和业务需求。
2022-11-19 上传
139 浏览量
275 浏览量
320 浏览量
215 浏览量
350 浏览量
336 浏览量
260 浏览量
Liu_Dag
- 粉丝: 37
- 资源: 26
最新资源
- talks:我讲过的各种演讲的幻灯片和资料
- ColorRampGenerator:色带生成器
- 具有dnssec支持的重要隐私,快速递归的dns解析器服务器-Golang开发
- ASP人才网内容管理系统(源代码+论文).zip
- 梅吉特
- Google浏览器安装包
- favicon-badge:一个Polymer元素,用于使用动态设置的数字声明式更新Webapp的favicon。
- react-way-immutable-flux:使用ES6,Immutable.js和Flux的React.js方法
- Trubble
- testina
- uskzvqgn.zip_相位跟踪
- my-plugin-manager:用于WordPress主题或插件的嵌入式脚本,为您的用户提供一个界面,以管理您建议与产品一起使用的插件
- 用数组实现一个线性表.zip
- Gx00_83-05-33-SNMP.zip
- imersaodev-conversoranosluz:每天从法拉利岛(Códigofeitotambémna1ª)出发。 Us programa em que quee convert anos luz emquilômetrose assim poder saber adistânciade planetas e astros
- [Android实例] Android 竖着的SeekBar.rar