Hadoop云上实践:存储与计算分离的优势与优化
需积分: 44 73 浏览量
更新于2024-07-19
收藏 4.57MB PDF 举报
“Hadoop存储与计算分离文档讨论了在传统Hadoop集群和云上Hadoop集群部署中的存储与计算分离实践,重点介绍了阿里云E-MapReduce团队的解决方案,包括面临的新挑战和针对OSS(对象存储服务)的优化。”
在传统的Hadoop集群部署中,计算能力和存储能力紧密结合,形成了集群的综合能力。这种模式下,数据存储在本地磁盘,以数据为中心,利用数据本地性提高任务处理效率。然而,随着技术的发展,带宽不再是稀缺资源,磁盘承载计算的作用减弱,集群的木桶效应和资源浪费问题日益凸显。混部策略旨在减少数据迁移,提高资源利用率,但实际操作中可能导致更多的资源浪费和较差的集群扩展性。
转向云上集群部署,如阿里云E-MapReduce,提供了丰富的云计算基础设施,包括ECS(弹性计算服务)、SLS(Serverless日志服务)、VPC(专有网络)、ACS(Autoscaling服务)、RDS(关系型数据库服务)、ONS(消息服务)、OSS(对象存储服务)、MNS(消息队列服务)、OTS(表格存储服务)等。这些服务支持Hadoop BlockStorage的一键部署,使得集群搭建更为便捷。然而,云环境带来了新的挑战,如存储成本比例较高、热数据与冷数据的管理、存储质量下降以及数据服务可用性的高要求。
为应对这些挑战,提出了Hadoop与OSS结合的分离部署方案。OSS作为低成本的存储服务,通过内网传输与ECS上的Hadoop进行交互,降低了存储成本,同时支持热数据和冷数据的分层存储。Hadoop对OSS的支持不断演进,从EMR-Core1.0.0的基础支持到EMR-Core1.2.0的安全性和易用性优化,以及针对特定场景(如小文件和数据仓库)的性能提升。此外,由于文件移动是相对耗时的操作,Hadoop执行过程中涉及的文件移动得到了进一步优化,提升了系统的稳定性和性能。
Hadoop存储与计算分离的实践旨在解决传统部署模式中的局限性,通过云服务实现更高效、灵活和经济的存储与计算管理。阿里云E-MapReduce团队的解决方案不仅展示了云上Hadoop集群的优势,也揭示了如何通过持续优化来适应不断变化的技术环境和业务需求。
2022-11-19 上传
2022-07-13 上传
2022-06-30 上传
2022-10-29 上传
2022-10-29 上传
2022-10-29 上传
2022-01-18 上传
2022-10-30 上传
Liu_Dag
- 粉丝: 37
- 资源: 26
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析