Hadoop 3更新:Hadoop Common与HDFS的新特性解析

需积分: 5 0 下载量 5 浏览量 更新于2024-07-17 收藏 717KB PDF 举报
"这篇文档是NTT Software Innovation Center的Tsuyoshi Ozawa在2016年Hadoop Summit Tokyo上的演讲稿,主题是‘What’s new in Hadoop Common and HDFS’,主要讨论了Hadoop 3中Common和HDFS模块的新特性。" 在Hadoop 3版本中,Common和HDFS的部分新特性包括: 1. **构建**: - 最低JDK版本升级至JDK8(HADOOP-11858)。由于Oracle JDK7在2015年4月已经结束生命周期,这一变动旨在确保项目能利用JDK8的新功能并保持安全性。 - 之前的Hadoop 2.6.x版本支持JDK6、7、8或更高版本,但在Hadoop 3中,JDK8成为了基础。 2. **Common**: - **更好的库管理**:Hadoop 3增强了对库的管理和组织,可能包括更有效的依赖管理和资源优化。 - **客户端侧类路径隔离**:这是一个重要的安全和稳定性改进,它确保了客户端应用程序的类加载器与Hadoop服务端的类加载器分离,防止潜在的类冲突问题。 - **依赖升级**:为了保持与生态系统同步,Hadoop 3升级了其依赖库,以利用最新的特性和修复。 - **支持Azure Data Lake Storage**:这扩展了Hadoop对云存储的支持,使得用户可以直接访问和操作Azure Data Lake Storage,提供了更大的灵活性和可移植性。 - **Shell脚本重写**:可能涉及到对Hadoop命令行工具的改进,以提高用户体验和性能。 - **metrics2 sink插件支持Apache Kafka**(HADOOP-10949):这是一个新增的功能,允许Hadoop的监控数据通过metrics2框架流到Apache Kafka,进一步增强了监控和日志分析能力。 3. **HDFS**: - **Erasure Coding Phase 1**(HADOOP-11264):这是HDFS引入的一种新的数据冗余策略,用以替代传统的三副本方式,以节省存储空间,同时提供类似的数据可靠性。Erasure Coding通过编码和解码算法来实现数据恢复,对于大规模存储环境特别有利。 - MR, YARN:演讲者指出,有关MapReduce和YARN的更新将由其他人(Junping)进行讲解,意味着Hadoop的计算层也有显著的变化。 这些更新展示了Hadoop 3在向更高效、更灵活和更安全的方向发展,特别是在适应云计算环境和大型分布式系统的需求方面。通过这些新特性,开发者和管理员可以更好地利用Hadoop平台,提高大数据处理的效率和可靠性。