Hadoop云上实践：存储与计算分离的优势与挑战

5星 · 超过95%的资源需积分: 44 147 浏览量更新于2024-07-20 1 收藏 4.57MB PDF 举报

"Hadoop存储与计算分离实践，主要探讨了在传统集群和云上集群部署中Hadoop的挑战与解决方案，特别提到了阿里云E-MapReduce团队在Hadoop+OSS结合上的实践和优化。" 在传统的Hadoop集群部署中，计算能力和存储能力是紧密绑定的，这种模式下，数据的本地磁盘访问速度远超网络传输，但这也导致了任务处理时数据获取的高开销，即“计算找数据”。集群混部是为了减少数据迁移，提高资源利用率，然而现实中，随着带宽不再成为瓶颈，磁盘的角色在计算中逐渐减弱。集群的木桶效应和资源浪费问题凸显，尤其是在面临DataLocality（数据本地性）和远程数据的抉择时，混部模式的劣势也暴露出来，如资源浪费和集群扩展性的降低。随着云计算的发展，阿里云E-MapReduce团队提出了一种云上集群部署实践。云计算基础设施如ECS、SLS、VPC等提供了丰富的存储、计算和中间件支持，使得Hadoop集群可以实现一键部署，快速启动和使用。然而，云上部署也带来了新的挑战：存储成本相对较高，热数据逐渐冷却，冷数据不断积累，导致存储质量和平衡代价上升，以及磁盘存储费用和数据服务可用性要求高等问题。为应对这些挑战，阿里云团队提出了Hadoop+OSS（对象存储服务）的分离部署方案。OSS作为存储层，通过内网高速传输与ECS上的Hadoop进行通信，降低了存储成本并提高了数据服务可用性。Hadoop对OSS的支持也在不断演进，EMR-Core的各个版本逐步优化了性能、安全性以及对小文件和数仓场景的支持，如通过MetaService提供更好的管理和易用性，针对OSS的读写进行优化以提高稳定性与性能。针对文件移动操作的重量级特点，Hadoop执行过程中涉及大量文件移动，EMR-Core的改进显著提升了效率，减少了不必要的性能损耗。这样的优化策略确保了在存储与计算分离架构下，Hadoop依然能够高效地处理大数据任务，同时利用云存储的优势降低成本和提升服务质量。总结而言，"Hadoop存储与计算分离实践"着重讨论了传统Hadoop集群的局限性，展示了云上部署的便利性与挑战，并提出了Hadoop与阿里云OSS结合的创新解决方案，以适应不断变化的大数据处理需求。