Pinterest应对用户增长：K8s扩展挑战与经验分享

版权申诉

44 浏览量更新于2024-07-11 收藏 872KB DOCX 举报

“Pinterest在面临用户激增和负载飙升的情况下，如何平稳扩展Kubernetes(K8s)平台，应对不断增长的业务需求和提高平台可靠性。” 在Pinterest的案例中，Kubernetes作为其核心的容器编排系统，经历了大规模的扩展和挑战。随着用户基数的增加，Pinterest的K8s集群需要处理的Pod数量超过了35,000个，分布在超过2,500个节点上。这种急剧的增长对K8s的可扩展性、资源管理和故障隔离提出了更高要求。 2021年的主要挑战包括： 1. **可扩展性需求**：负载的多样化和数量增加要求K8s平台能够灵活地管理和调度Pod，同时处理节点的添加和移除。这需要Kubernetes具有强大的自动扩展能力，以适应不断变化的工作负载。 2. **可靠性提升**：随着更多关键业务负载迁移至Kubernetes，用户对平台稳定性的期望增加。任何全平台范围的停机都会严重影响服务质量和用户体验。 3. **性能问题**：在2021年初，由于短时间内大量Pod的创建，导致集群的自动协调器过度扩展，kube-apiserver因资源限制被OOMKilled。这暴露出平台在处理突发流量和资源管理上的不足。 4. **API服务器压力**：kube-apiserver的延迟峰值和OOMKilled事件揭示了API服务器在处理大量请求时的压力。一个基础设备组件的bug导致了昂贵查询的爆发，进一步加剧了主节点资源的消耗。应对策略和改进措施： 1. **优化资源分配**：在出现OOMKilled事件后，Pinterest需要更加精细地管理资源分配，确保kube-apiserver和etcd等关键组件有足够的资源来应对突发流量。 2. **故障恢复机制**：建立快速的故障恢复流程，如通过执行etcd操作来恢复服务，以及临时扩容主节点以缓解资源限制。 3. **监控与警报**：加强监控系统，及时发现并解决潜在问题，减少因组件故障导致的平台降级。 4. **代码质量控制**：早期发现和回滚有问题的组件，防止类似事件再次发生，确保代码质量和稳定性。 5. **容量规划**：更准确地预测和规划集群容量，以应对可能出现的突发流量。 6. **智能调度策略**：实施更智能的Pod调度策略，避免对特定组件造成过大的压力。 7. **资源限制和配额管理**：设置合理的资源限制和配额，防止单个组件过度消耗资源。 8. **性能优化**：对Kubernetes组件进行性能优化，减少延迟，提高响应速度。通过这些措施，Pinterest得以在用户激增和负载飙升的环境下，逐步优化其Kubernetes平台，实现平稳扩展，确保服务的稳定性和可靠性。这也为其他面临类似挑战的企业提供了经验和参考。

Kubernetes 已有的资源配额管理确保了任何的命名空间都无法在绝大多

数的维度上无限制地恳求或占用资源，无论是 Pod、CPU 还是内存。如我

们在前文的毛病中所提到的，单个命名空间中数量激增的 Pod 创建大事可

能会让 kube-apiserver 过载，导致级联毛病。为确保其稳定性，单个命

名空间的资源使用量都应有肯定限制，这一点很重要。

这项任务的难点之一在于，在每一个命名空间强制执行资源配额需要一个

潜在条件：全部的 Pod 和容器都需规定资源的恳求和限制。在 Pinterest

的 Kubernetes 平台上，不同命名空间的负载属于不同的团队和不同的项

目，而平台用户则是通过 Pinterest 的 CRD 配置他们的负载。我们对这

一问题的处理方案是，为 GRD 的转换层中全部的 Pod 和容器添加默认资

源恳求和限制。

除此之外，我们还在 CRD 的验证层中拒绝了全部未规定资源恳求和限制的

Pod。

另一难点则在于，如何简化跨团队和组织的配额管理。为了资源配额的平

安实现，我们参考了过往的资源使用情况，在其高峰值的基础上额外添加

20%的净空，并将其设置为全部项目资源配额的初始值。我们创建了一个

定时任务来监控配额的使用情况，假如某个项目的用量接近肯定限度，会

在营业时间内向担任该项目的团队发送警报。这项设置鼓舞了担任团队对

项目进行更好的容量规划，并在资源配额发生变动时提出申请。资源配额

的变更在人工审核并签署之后，才会进行自动部署。

客户端访问的执行

我们强制要求了全部的 KubeAPI 客户端都遵照 Kubernetes 已有的最佳

实践：

把握器框架

剩余15页未读，继续阅读

bingbingbingduan

粉丝: 0
资源: 7万+

Pinterest应对用户增长：K8s扩展挑战与经验分享

PyPI 官网下载 | mlflow-pinterest-1.2.3.tar.gz

视觉社交网站Pinterest崛起的秘密.docx

QQ空间秘籍：中国城乡结合版Facebook？.docx

应用程序成功创业：靠外表还是靠核心价值？.docx

一个菜谱网站如何做到月UV高达190万人次？.docx

图片购物搜索淘淘搜：敲响美丽说们的丧钟？.docx

嘀咕网再转型：尝试Pinterest图片分享模式.docx

中国的Pinterest如何“拼”出彩.docx

从花瓣与堆糖看Pinterest模式在中国的可行.docx

Python库 | selenium_pinterest-0.0.61.tar.gz

最新资源