统一调度系统:NORMANDY在分布式计算中的实践

需积分: 50 0 下载量 164 浏览量 更新于2024-07-15 收藏 1.08MB PDF 举报
“3-3-分布式计算调度系统的技术与实践-孟宪军.pdf” 这篇文档主要探讨了分布式计算调度系统的技术及其在实际应用中的挑战与解决方案。孟宪军的分享中,提到了一个名为NORMANDY的分布式计算调度系统,它针对大规模计算环境中的资源管理和利用率问题进行了优化。 首先,现状描述了一个庞大的计算资源网络,包括近4万台高性能计算机器,10万台MapReduce计算机器以及近15万台在线机器,每天处理的作业数量达到百万级别。然而,这些资源的需求并不均衡,导致CPU和内存等资源利用率低下,这不仅增加了运营成本,也限制了业务的快速发展。 为了解决这些问题,提出了建立统一服务调度系统的解决方案。这个系统作为计算的唯一入口,旨在整合不同计算平台,提高资源利用率,并通过虚拟化交付和资源审计来优化资源分配。系统采用了百度自研的RPC系统和Giano权限控制系统,支持多种调度算法,如bestfit、nextfit、capacity、fairshare和drf,同时具备物理队列、逻辑队列、抢占、预留和插件作业等功能,增强了调度的灵活性和效率。 NORMANDY的架构设计注重稳定性和高效性。调度端采用简约灵活的设计,而单机架构则包含了成熟的单机隔离技术、丰富的磁盘管理、单机资源监控、命令队列和状态缓存等功能。此外,系统还支持NFS和shuffle等扩展逻辑,展现了其对多样化计算任务的适应性。 NORMANDY的独有功能在于其支持多种计算模型的混合调度,能够进行跨IDC的调度,允许业务运算在不同的数据中心间进行。系统提供了抽象接口,允许用户定制调度算法,进一步提升了灵活性。同时,它还兼容开源的Yarn框架,展示了其对社区标准的接纳。 最后,NORMANDY的愿景是成为百度私有的云调度神经系统,通过迭代创新和定制化的智能调度算法来加速业务发展。这种分布式计算调度系统对于提升大规模计算环境的效率和应对快速变化的业务需求具有重要意义。