Hadoop云上实践:存储与计算分离的优势与优化

需积分: 44 7 下载量 73 浏览量 更新于2024-07-19 收藏 4.57MB PDF 举报
“Hadoop存储与计算分离文档讨论了在传统Hadoop集群和云上Hadoop集群部署中的存储与计算分离实践,重点介绍了阿里云E-MapReduce团队的解决方案,包括面临的新挑战和针对OSS(对象存储服务)的优化。” 在传统的Hadoop集群部署中,计算能力和存储能力紧密结合,形成了集群的综合能力。这种模式下,数据存储在本地磁盘,以数据为中心,利用数据本地性提高任务处理效率。然而,随着技术的发展,带宽不再是稀缺资源,磁盘承载计算的作用减弱,集群的木桶效应和资源浪费问题日益凸显。混部策略旨在减少数据迁移,提高资源利用率,但实际操作中可能导致更多的资源浪费和较差的集群扩展性。 转向云上集群部署,如阿里云E-MapReduce,提供了丰富的云计算基础设施,包括ECS(弹性计算服务)、SLS(Serverless日志服务)、VPC(专有网络)、ACS(Autoscaling服务)、RDS(关系型数据库服务)、ONS(消息服务)、OSS(对象存储服务)、MNS(消息队列服务)、OTS(表格存储服务)等。这些服务支持Hadoop BlockStorage的一键部署,使得集群搭建更为便捷。然而,云环境带来了新的挑战,如存储成本比例较高、热数据与冷数据的管理、存储质量下降以及数据服务可用性的高要求。 为应对这些挑战,提出了Hadoop与OSS结合的分离部署方案。OSS作为低成本的存储服务,通过内网传输与ECS上的Hadoop进行交互,降低了存储成本,同时支持热数据和冷数据的分层存储。Hadoop对OSS的支持不断演进,从EMR-Core1.0.0的基础支持到EMR-Core1.2.0的安全性和易用性优化,以及针对特定场景(如小文件和数据仓库)的性能提升。此外,由于文件移动是相对耗时的操作,Hadoop执行过程中涉及的文件移动得到了进一步优化,提升了系统的稳定性和性能。 Hadoop存储与计算分离的实践旨在解决传统部署模式中的局限性,通过云服务实现更高效、灵活和经济的存储与计算管理。阿里云E-MapReduce团队的解决方案不仅展示了云上Hadoop集群的优势,也揭示了如何通过持续优化来适应不断变化的技术环境和业务需求。