腾讯社交业务运维技术演进:高效率发布与智能监控

版权申诉
0 下载量 58 浏览量 更新于2024-07-17 收藏 2.62MB PDF 举报
"samsun--社交业务运维基础技术架构选型与演进 2018 0413.pdf" 在2018年的GOPS全球运维大会上,孙亮,腾讯社交网络运营部的一员,分享了关于社交业务运维基础技术架构的选型与演进。本次演讲主要涵盖四个方面:高效率发布、高可用容错、成本节约和智能监控,这些都是腾讯运维体系的重要组成部分。 首先,孙亮介绍了高效率发布的织云包管理。面对QQ、TIM、企业QQ等多元化的社交业务,以及诸如C/C++、Node.js、Golang等多种编程语言的支持需求,运维团队每天处理超过10,000个包,总计40,000个版本,占用3TB的存储容量。由于业务的快速发展和敏捷模式的采用,传统的发布方式已无法满足需求。因此,他们引入了Helm一站式CI/CD工具,以实现自动化、容器化和多云管理,极大地提升了发布效率,减少了错误,增强了性能和可用性。此外,还通过轻量级的互助机制进行持续运营和映射现网,确保了快速响应和业务稳定性。 其次,高可用容错是通过织云路由实现的。这一部分没有详细展开,但可以推测,织云路由可能涉及负载均衡、故障切换和智能调度策略,以确保在面临各种异常情况时,能够保证业务连续性和用户体验。它可能覆盖了腾讯的所有事业群,保证了大规模服务的稳定运行。 接着,孙亮讨论了成本节约的织云成本管理方案。这可能涉及到资源的优化使用,如通过智能分析和预测来降低不必要的开支,以及自动化工具来控制和减少无效或过度使用的资源。例如,可能有磁盘清理策略以避免浪费存储,以及一致性梳理来提高硬件利用率。 最后,智能监控部分,织云AI运维利用人工智能技术提升运维效率和问题发现能力。这可能包括对大量运营数据的实时分析,提前预警潜在问题,以及自动化故障诊断和修复,以提升运维的智能化水平。 腾讯社交网络运维团队通过技术创新和优化,构建了一个高效、高可用、低成本且智能的运维体系,以应对社交业务的快速变化和海量用户需求。他们的实践为其他大型互联网公司的运维工作提供了宝贵的经验和参考。