虎牙直播AIOps实践:时序预测与弹性伸缩

版权申诉
0 下载量 191 浏览量 更新于2024-07-04 收藏 4.36MB PDF 举报
“虎牙直播AIOps探索与实践”是由郑健彦在DevOps国际峰会2021·北京站上分享的演讲内容,重点介绍了虎牙直播在AIOps领域的实践经验,涉及到音视频领域的综合资源管理。演讲者在联想数据中心部门有过从事故障预测的经历,后在虎牙直播中负责AIOps的实施,涵盖异常检测、根因定位、时序预测、智能弹性和大数据算力调度等关键领域。 1. **业务背景**:虎牙直播致力于“技术驱动内容”,不断推动实时内容创作与直播互动技术的创新,推出了如云游戏平台YOWA、4K超分、AI打点实时回放、直播数字人、小程序开放平台和虚实同台互动直播等创新功能。在直播业务中,流量呈现单峰结构,特别是在赛事期间,流量波动大,可能导致质量抖动和系统压力增大。 2. **基于时序预测的弹性伸缩**:传统的Horizontal Pod Autoscaler (HPA)基于指标阈值进行资源伸缩,但这种方法存在延迟问题,可能无法及时响应尖峰负载,导致性能下降。因此,引入了基于AI的HPA(AI-HPA),采用LightGBM预测算法进行资源需求预测。该算法支持分位数回归,能有效处理缺失值并适应特征工程,预测准确率高达90%以上。AI-HPA通过减少不必要的扩缩容操作,避免副本数震荡,提前扩容应对周期性流量突增,成功节省了18%的成本。 3. **基于容量模型的赛事弹性处理**:在赛事期间,系统需要具备快速应对流量高峰的能力。通过构建容量模型,可以预测赛事期间的资源需求,提前进行弹性扩容,保证服务质量的同时,避免因资源不足导致的直播卡顿。 4. **直播卡顿多维下钻分析**:针对直播中的卡顿问题,进行了多维度的深度分析,这可能涉及网络延迟、服务器性能、客户端因素等多个方面。通过这样的分析,可以快速定位问题源头,提高用户体验。 总结来说,虎牙直播在AIOps上的实践体现了如何利用人工智能技术优化直播服务的效率和质量,通过预测性弹性伸缩和精细化的性能监控,确保了直播平台在面对流量高峰和突发情况时的稳定性和经济性。这一系列的解决方案对于其他音视频直播平台也有着重要的参考价值。