Hadoop云上实践：存储与计算分离的优势与优化

需积分: 44 146 浏览量更新于2024-07-19 收藏 4.57MB PDF 举报

“Hadoop存储与计算分离文档讨论了在传统Hadoop集群和云上Hadoop集群部署中的存储与计算分离实践，重点介绍了阿里云E-MapReduce团队的解决方案，包括面临的新挑战和针对OSS（对象存储服务）的优化。” 在传统的Hadoop集群部署中，计算能力和存储能力紧密结合，形成了集群的综合能力。这种模式下，数据存储在本地磁盘，以数据为中心，利用数据本地性提高任务处理效率。然而，随着技术的发展，带宽不再是稀缺资源，磁盘承载计算的作用减弱，集群的木桶效应和资源浪费问题日益凸显。混部策略旨在减少数据迁移，提高资源利用率，但实际操作中可能导致更多的资源浪费和较差的集群扩展性。转向云上集群部署，如阿里云E-MapReduce，提供了丰富的云计算基础设施，包括ECS（弹性计算服务）、SLS（Serverless日志服务）、VPC（专有网络）、ACS（Autoscaling服务）、RDS（关系型数据库服务）、ONS（消息服务）、OSS（对象存储服务）、MNS（消息队列服务）、OTS（表格存储服务）等。这些服务支持Hadoop BlockStorage的一键部署，使得集群搭建更为便捷。然而，云环境带来了新的挑战，如存储成本比例较高、热数据与冷数据的管理、存储质量下降以及数据服务可用性的高要求。为应对这些挑战，提出了Hadoop与OSS结合的分离部署方案。OSS作为低成本的存储服务，通过内网传输与ECS上的Hadoop进行交互，降低了存储成本，同时支持热数据和冷数据的分层存储。Hadoop对OSS的支持不断演进，从EMR-Core1.0.0的基础支持到EMR-Core1.2.0的安全性和易用性优化，以及针对特定场景（如小文件和数据仓库）的性能提升。此外，由于文件移动是相对耗时的操作，Hadoop执行过程中涉及的文件移动得到了进一步优化，提升了系统的稳定性和性能。 Hadoop存储与计算分离的实践旨在解决传统部署模式中的局限性，通过云服务实现更高效、灵活和经济的存储与计算管理。阿里云E-MapReduce团队的解决方案不仅展示了云上Hadoop集群的优势，也揭示了如何通过持续优化来适应不断变化的技术环境和业务需求。

Liu_Dag

粉丝: 37
资源: 26

Hadoop云上实践：存储与计算分离的优势与优化

Hadoop存储与计算分离实践PDF

Hadoop存储与计算分离实践

基于Ubuntu的hadoop集群安装与配置.pdf

cp /opt/hadoop/hadoop-0.20.2.tar.gz /usr/local/ tar –zxvf hadoop-0.20.2.tar.gz

org.apache.hadoop.shaded.org.apache.commons.configuration2.Configuration

Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V at org.apache.hadoop.conf.Configuration.set(Configuration.java:1357) at org.apache.hadoop.conf.Configurati

hadoop-3.2.1.tar.gz 下载

hadoop.proxyuser.hadoop.hosts

HADOOP_HOME and hadoop.home.dir are unset.

hadoop102: /opt/module/hadoop-3.1.3/libexec/hadoop-functions.sh:行1842: /tmp/hadoop-ys-namenode.pid: 权限不够 hadoop102: ERROR: Cannot write namenode pid /tmp/hadoop-ys-namenode.pid.

最新资源