阿里AIOps实践:智能运维系统Hawkeye与Torch详解
17 浏览量
更新于2024-08-28
收藏 660KB PDF 举报
随着搜索业务的迅速发展,阿里巴巴的运维策略经历了从人工运维、脚本自动化到DevOps的转变。然而,面对大数据和人工智能时代的挑战,传统运维方式已显得力不从心。为了提升平台效率、稳定性和资源管理,阿里巴巴引入了智能运维系统,主要包括在线服务优化大师hawkeye和容量规划平台torch。
hawkeye是一个关键的智能诊断和优化系统,它主要由三个部分构成:分析层、web层和服务层。在分析层,hawkeye-blink负责底层数据分析,通过Blink处理大量访问日志和全量数据,进行深入洞察。而hawkeye-experience则在此基础上,进一步进行用户导向的诊断,如字段信息监测、性能问题检测等,旨在将运维人员的经验自动化,使新接入的应用能快速受益。
web层提供了API接口和可视化监控图表,便于用户获取分析结果,同时服务层则支持hawkeye的各项分析和优化操作。通过这些功能,hawkeye实现了资源优化,如引擎Lock内存优化,通过识别无效字段减少内存消耗;性能优化,例如TopN慢查询优化和buildservice资源设置优化,提升了系统的响应速度;以及智能诊断,如日常巡检和智能问答,实现了自动化的故障检测和问题解答。
容量规划平台torch则专注于更宏观的资源管理和容量规划,确保在满足业务需求的同时,保持资源的合理分配和最小化浪费。阿里巴巴在配置合理性、资源合理性设置、性能瓶颈和部署合理性等方面积累了丰富的实践经验,这表明其对AIOps的深入理解和应用,不仅限于单一的智能工具,而是构建了一个全面的智能化运维体系。
阿里通过从DevOps到AIOps的转型,结合大数据和AI技术,实现了运维过程的自动化、智能化,显著提升了运维效率和系统的稳定性,同时也降低了运维成本。hawkeye和torch作为这一转型的核心组件,扮演着诊断、优化和决策支持的重要角色,推动了整个运维领域的创新和升级。
2023-09-05 上传
221 浏览量
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
weixin_38645862
- 粉丝: 9
- 资源: 902
最新资源
- Wiley.Programming.for.the.Series.60.Platform.and.Symbian.OS.(2003).pdf
- SOA Governance WhatHowWhyWhen.pdf
- SAP NetWeaver Business Rules Management.pdf
- How to Create your Own Rule .pdf
- Enterprise SOA Technology with SAP NetWeaver.pdf
- ENTERPRISE MODELING FOR .pdf
- Enhanced Centralized Monitoring and Administration.pdf
- End-to-end SOA Infrastructure - TODAY.pdf
- demand_manage
- PLSQL_ORACLE9i编程讲义
- GNU make中文手册
- GB 17743-1999电气照明和类似设备的无线电骚扰特性的限值和测量方法
- struts中tiles标签简介
- osworkflow-中文手册
- C语言高级编程技巧 pdf 中文版
- More Effective C++ pdf版 中文