"Apache Hadoop 3.x 的现状与升级指南" Apache Hadoop 是一个用于大数据应用的现代分布式操作系统,其核心组件YARN(Yet Another Resource Negotiator)已经发展成为能够托管各种应用程序的通用资源管理平台。YARN解决了资源管理、隔离、多租户等问题,使得许多组织能够在Hadoop上构建应用而无需反复考虑这些底层细节。Hadoop 分布式文件系统(HDFS)是Hadoop应用的主要数据存储系统,采用NameNode和DataNode架构实现了一个分布式文件系统,为大规模的Hadoop集群提供高性能的数据访问。 在Apache Hadoop 3.x中,Wangda Tan和Wei-Chiu Chuang探讨了其当前的状态以及在大、小部署中的使用情况,并深入研究了Hadoop 3.x的激动人心的现在和未来。Hadoop 3.x增强了Hadoop作为企业数据中心主要资源管理和存储系统的功能。 对于YARN 3.x,有强大的容器定位、全局调度、对机器学习(如Spark)和深度学习(如TensorFlow)工作负载的支持,通过GPU和现场可编程门阵列(FPGA)调度和隔离,实现了极端规模的YARN联邦、YARN上的容器化应用、对长期运行服务(与应用程序并行)的原生支持,无需任何更改,无缝升级应用程序和服务,强大的调度特性,如应用程序优先级、跨应用程序的队内预占,以及通过Timeline Service v2、新的Web UI、更好的队列管理等提供的操作增强。此外,HDFS 3.0宣布GA(一般可用性)为擦除编码,这可以将数据的存储效率翻倍,从而降低企业用例的存储成本。HDFS还增加了对多个备用NameNode的支持,以提高可用性。 为了提高元数据的可靠性和操作简便性,Journal节点已得到增强,可以同步编辑日志段,以防止滚动故障。在DataNode内部进行磁盘平衡是另一个重要的特性,确保磁盘在DataNode中均匀使用,从而保证更好的总体吞吐量,并防止因添加或更换磁盘而导致的使用不平衡。HDFS团队目前正推动Ozone倡议,这是下一代存储架构的基础,其中数据块按存储容器组织,以实现更高的扩展性和处理HDFS中的小对象。Ozone项目还包括一个对象存储实现,以支持新的用例。 此外,本资料还提供了如何从2.x无痛升级到3.x以获取所有益处的指导。升级过程旨在确保平滑过渡,充分利用Hadoop 3.x的所有改进和新特性。 未来发布计划中可能包含更多优化和增强,包括进一步的容器化支持、云原生特性、机器学习的集成以及成本效率的提升。这些更新和改进不仅提升了Hadoop的性能,而且增强了其在大数据处理、长期服务、云计算环境以及机器学习场景中的应用能力。
剩余46页未读,继续阅读
- 粉丝: 4372
- 资源: 276
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JDK 17 Linux版本压缩包解压与安装指南
- C++/Qt飞行模拟器教员控制台系统源码发布
- TensorFlow深度学习实践:CNN在MNIST数据集上的应用
- 鸿蒙驱动HCIA资料整理-培训教材与开发者指南
- 凯撒Java版SaaS OA协同办公软件v2.0特性解析
- AutoCAD二次开发中文指南下载 - C#编程深入解析
- C语言冒泡排序算法实现详解
- Pointofix截屏:轻松实现高效截图体验
- Matlab实现SVM数据分类与预测教程
- 基于JSP+SQL的网站流量统计管理系统设计与实现
- C语言实现删除字符中重复项的方法与技巧
- e-sqlcipher.dll动态链接库的作用与应用
- 浙江工业大学自考网站开发与继续教育官网模板设计
- STM32 103C8T6 OLED 显示程序实现指南
- 高效压缩技术:删除重复字符压缩包
- JSP+SQL智能交通管理系统:违章处理与交通效率提升