腾讯Kubernetes混部与内核隔离技术解析

需积分: 5 0 下载量 85 浏览量 更新于2024-06-22 收藏 6.17MB PDF 举报
“腾讯Kubernetes大规模离在线混部与内核隔离实践,通过TencentKubernetes和TencentOS的结合,实现资源效率提升和成本优化。文档由腾讯云专家工程师徐蓓和蒋彪分享,介绍了腾讯在混部背景、发展历程、混部架构、CPU隔离、内存回收和内存QoS等方面的实践策略。” 腾讯在处理大规模云计算资源分配时面临的问题主要体现在在线资源利用率低(约15%)和离线资源需求高(超过40%),同时在线和离线服务的调度分离导致了较高的管控成本。为解决这些问题,腾讯从2009年开始逐步采用LXC容器、Docker容器,直至2019年转向基于Kubernetes的统一调度平台,并结合TencentOS进行深度定制,实现了离在线混部,以降低成本并提高效率。 在Kubernetes平台上,腾讯采用了cgroupsv2和TencentOS来实现资源隔离。CPU隔离策略根据服务质量(QoS)将任务分为Guaranteed、Burstable和BestEffort三个等级,分别对应优先级0、4和7。Guaranteed级别的任务优先级最高,Burstable次之,BestEffort最低。这种策略允许系统按优先级抢占资源,低优先级任务在高优先级任务需要时进行避让。对于敏感的高优先级任务,会进行核心绑定以减少干扰,而中优与低优任务则进行混部,整体干扰率控制在5%左右。 内存管理方面,腾讯引入了内存OOM(Out-of-Memory)优先级感知,区分Guaranteed、Burstable和BestEffort任务的内存回收优先级。通过设置不同级别的内存水位线,可以确保高优先级任务的稳定运行,同时避免低优先级任务对系统造成冲击。此外,腾讯还参考了KEP 2570(Memory QoS),进一步提升了内存管理的QoS。 TencentOSResourceUtilizationEnhancement(RUE,如意)是腾讯云原生资源隔离的整体解决方案,它旨在提高资源利用率,优化系统性能,确保各种工作负载在共享环境中高效、稳定地运行。通过这些策略和工具,腾讯成功构建了一个能够支持大规模离在线混部的Kubernetes环境,显著提升了资源效率和用户体验。