Spark on YARN&Mesos:集群资源管理的挑战与实践
124 浏览量
更新于2024-08-28
收藏 203KB PDF 举报
"YARN&Mesos,论集群资源管理所面临的挑战"
在当前的大数据处理环境中,YARN(Yet Another Resource Negotiator)和Mesos是两种广泛使用的集群资源管理系统。YARN作为Hadoop生态系统的一部分,通常被Spark用户采用作为其应用的底层调度器。然而,随着Spark应用的深入发展,一些挑战逐渐显现,特别是在资源调度的粒度上。
TalkingData的研发副总裁阎志涛在一次讨论中提到,他们早在2013年就开始使用Spark 0.8.1,并且在Hadoop CDH4.3环境下运行。起初,Spark主要用于提升机器学习任务的效率。随着时间推移,由于Spark在开发效率和性能上的优势,公司决定全面迁移到Spark平台。随着任务数量的增长和并发需求的增加,引入YARN作为资源调度器变得必要。
在使用YARN时,他们采用了队列策略来区分不同类型的任务,但遇到了资源分配粒度不够精细的问题。资源分配通常是通过设置不同队列的资源百分比来实现的。当Spark 1.2版本宣布不再支持YARN的alpha版本时,他们面临了决策困境:要么自行修改Spark以兼容旧版YARN,要么升级Hadoop到CDH5.x,或者转向其他调度系统如Mesos。
由于升级现有Hadoop集群的风险,特别是考虑到已经存在的P级别数据,TalkingData选择了采用Mesos作为新的资源调度和管理系统。这样可以避免大规模的数据迁移风险,同时在新添加的机器上使用更现代的Hadoop版本。
Mesos作为一种分布式系统内核,提供了更为灵活的资源管理和调度能力,能更好地满足复杂应用的需求。它允许多个框架(如Spark、Kubernetes等)并存,每个框架都可以独立管理其资源,从而解决了YARN在某些场景下粒度控制不足的问题。
YARN和Mesos在集群资源管理上各有优缺点。YARN与Hadoop生态紧密集成,但资源调度粒度和版本兼容性有时成为挑战。而Mesos则提供了更高的灵活性和可扩展性,但可能需要更多的配置和管理工作。选择哪种系统取决于具体的业务需求、现有基础设施和团队的技能集。随着大数据技术的不断发展,资源管理系统的优化和选择将持续是业界关注的重要议题。
2018-07-26 上传
2022-12-10 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
weixin_38595473
- 粉丝: 3
- 资源: 875
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明