Hadoop云上实践:存储与计算分离的优势与挑战

5星 · 超过95%的资源 需积分: 44 33 下载量 147 浏览量 更新于2024-07-20 1 收藏 4.57MB PDF 举报
"Hadoop存储与计算分离实践,主要探讨了在传统集群和云上集群部署中Hadoop的挑战与解决方案,特别提到了阿里云E-MapReduce团队在Hadoop+OSS结合上的实践和优化。" 在传统的Hadoop集群部署中,计算能力和存储能力是紧密绑定的,这种模式下,数据的本地磁盘访问速度远超网络传输,但这也导致了任务处理时数据获取的高开销,即“计算找数据”。集群混部是为了减少数据迁移,提高资源利用率,然而现实中,随着带宽不再成为瓶颈,磁盘的角色在计算中逐渐减弱。集群的木桶效应和资源浪费问题凸显,尤其是在面临DataLocality(数据本地性)和远程数据的抉择时,混部模式的劣势也暴露出来,如资源浪费和集群扩展性的降低。 随着云计算的发展,阿里云E-MapReduce团队提出了一种云上集群部署实践。云计算基础设施如ECS、SLS、VPC等提供了丰富的存储、计算和中间件支持,使得Hadoop集群可以实现一键部署,快速启动和使用。然而,云上部署也带来了新的挑战:存储成本相对较高,热数据逐渐冷却,冷数据不断积累,导致存储质量和平衡代价上升,以及磁盘存储费用和数据服务可用性要求高等问题。 为应对这些挑战,阿里云团队提出了Hadoop+OSS(对象存储服务)的分离部署方案。OSS作为存储层,通过内网高速传输与ECS上的Hadoop进行通信,降低了存储成本并提高了数据服务可用性。Hadoop对OSS的支持也在不断演进,EMR-Core的各个版本逐步优化了性能、安全性以及对小文件和数仓场景的支持,如通过MetaService提供更好的管理和易用性,针对OSS的读写进行优化以提高稳定性与性能。 针对文件移动操作的重量级特点,Hadoop执行过程中涉及大量文件移动,EMR-Core的改进显著提升了效率,减少了不必要的性能损耗。这样的优化策略确保了在存储与计算分离架构下,Hadoop依然能够高效地处理大数据任务,同时利用云存储的优势降低成本和提升服务质量。 总结而言,"Hadoop存储与计算分离实践"着重讨论了传统Hadoop集群的局限性,展示了云上部署的便利性与挑战,并提出了Hadoop与阿里云OSS结合的创新解决方案,以适应不断变化的大数据处理需求。