云时代运维监控大数据:挑战与解决策略

1 下载量 67 浏览量 更新于2024-08-31 收藏 1.33MB PDF 举报
"运维监控大数据的提取与分析" 随着云时代的来临,运维监控面临着前所未有的挑战。传统的监控工具在处理大规模、高动态性的运维对象时显得力不从心,尤其是在虚拟化和容器技术广泛应用的背景下,监控数据量急剧增长,成为大数据的一部分。这种情况下,运维监控必须采用新的策略和技术来应对。 例如,一个典型的互联网档案分析应用,它部署在三个数据中心,支持容灾和负载均衡,遵循微服务架构,由APIGateway、档案、登记、通知、支付等多个技术组件组成,且这些组件能够弹性扩缩容。这种应用的特性是频繁变化,如架构调整、实例数量变化,这给监控带来了一定的难度。 解决监控挑战的关键在于实现监控配置的自动化,以便能够随着基础架构的扩展而扩展,并准确标记监控目标。Zabbix和UYUNMonitor等产品提供了自动部署和发现功能,通过标记或标签的方式,实现对不断变化的目标进行有效监控。 监控的复杂性还体现在监控对象的多样性上。当公司运营数十个类似的应用集群,涉及上百种技术组件和数千个虚拟机或容器实例时,故障诊断变得更加复杂。为了应对这种挑战,我们需要设计有效的数据提取和分析策略。 以两个具体的监控场景为例: 场景1:要获取所有档案查询次数,需要汇总所有数据中心所有档案服务的查询API调用次数。在Zabbix中,可以通过创建档案服务的分组,然后设置一个汇总项来实现;在UYUMMonitor中,通过配置相应的字符串,如`m=sum:查询API调用次数{技术组件=档案服务}`,可以直接获取到这一指标。 场景2:若要了解APIGateway在三个中心的TCP连接数占比,可以分别计算每个数据中心的连接数,然后比较它们的比例,以此评估负载均衡情况。在Zabbix中,需要创建独立的监控项并汇总,而在UYUNMonitor中,同样可以通过配置表达式来获取所需数据。 总结来说,运维监控大数据的提取与分析需要解决两大问题:一是如何有效地监控快速变化的技术环境,二是如何在大量监控数据中提取关键指标并进行深度分析。通过自动化监控配置、利用标记和标签、以及智能的数据聚合方法,可以有效地应对这些挑战,提升运维效率和故障诊断能力。
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部