互联网海量业务运维:大数据挑战与机遇

版权申诉
0 下载量 58 浏览量 更新于2024-07-03 1 收藏 1007KB PDF 举报
"该文档是关于大数据技术在互联网海量业务运维中的应用,主要分为三个部分:海量运维的挑战与机会、如何做好海量运维以及海量运维之道。内容涉及大数据时代的特点,如数据挖掘、P级存储和计算、精准推荐等,并介绍了腾讯在大数据运维中的实践,包括Lhotse统一调度、TDW分布式数据仓库、Titan计费平台和Apollo实时分布式计算平台等。同时,文档提出了运维中面临的问题,如质量保证、成本控制和效率提升,并讨论了应对策略,如先抗住再优化和灰度发布等。" 在大数据时代,随着互联网业务的爆炸性增长,数据量呈指数级上升。面对P级别的存储和计算需求,企业需要构建强大的数据平台来支撑。腾讯的数据平台部-运营中心在这方面进行了深入实践,构建了Lhotse、TDW和Titan等关键系统。 1. **Lhotse统一调度**:这是一个大规模分布式计算和存储平台,旨在处理海量用户和行为数据,具备大存储容量和大计算量。它由5000多台机器组成,存储量达到50PB,每天处理的计算量高达3PB。 2. **TDW(腾讯分布式数据仓库)**:作为基于互联网数据的离线处理平台,TDW提供了强一致性的存储服务,拥有5000多台机器,存储量50PB,日均处理3PB数据,用于业务分析和决策支持。 3. **Titan(腾讯计费平台)**:这是一个准银行级的实时支付交易和账户托管平台,具备强一致性容灾和高性能特性,拥有1000多台机器,托管20亿个账户,日均处理1亿笔交易。 4. **Apollo(腾讯实时分布式计算平台)**:专为海量互联网请求设计,提供实时计算能力,允许少量数据丢失以确保高可用性,日均处理流量达100亿,主要用于广告投放、实时查询和推荐系统。 海量运维面临的挑战主要包括质量、成本和效率三个方面: - **质量**:硬件故障率高,操作系统故障频繁,如何保证平台稳定性和应对业务快速扩张成为运维的重大课题。 - **成本**:随着机器、带宽等资源的投入增加,如何降低成本并有效利用资源成为关键问题。 - **效率**:面对数量庞大的服务器,如何在人力资源有限的情况下提高运维效率以适应规模增长是另一个挑战。 为了应对这些挑战,提出的策略包括“先抗住再优化”和“灰度发布”。前者强调在保证系统稳定运行的基础上逐步进行性能优化,后者是指通过小范围的测试和验证逐步推广新功能,以降低风险和影响。 该文档揭示了大数据技术在互联网运维中的重要角色,以及企业在大数据运维中面临的实际问题和解决策略,对于理解和实施大数据运维具有重要的参考价值。