58大数据平台:技术演进、架构与实战挑战
需积分: 9 32 浏览量
更新于2024-07-18
收藏 2.31MB PDF 举报
《58大数据平台的技术演进与实践》是一场由赵健博在58集团技术专场上进行的分享,他作为高级架构师和大数据平台负责人,具有丰富的分布式系统研发及应用经验。该演讲主要聚焦于58大数据平台的架构设计、技术演进过程以及实战中的关键挑战与解决方案。
平台架构方面,58大数据平台采用了一个3+4+2的结构,包括接入层(如Canal/Sqoop用于数据采集)、存储层(HDFS和HBase作为核心,HDFS用于海量数据存储,HBase处理结构化和半结构化数据),调度层(如Yarn和Kubernetes负责任务调度),以及计算层(涉及MapReduce、Hive、Storm、Spark和Kylin等工具,支持实时处理和批量分析)。此外,平台还利用了异构计算能力,如Caffe/Tensorflow等深度学习框架。
平台稳定性和性能是演进的重要关注点。通过实施HDFSHA和YarnHA的高可用性策略,以及Flume的扩展性提升,58大数据平台确保了在面对大规模数据和复杂任务时的持续运行。针对突发问题,例如ActiveNN的异常退出,解决方案包括编辑日志与文件系统的分离配置以及限制checkpoint数据回传速度。
在平台治理方面,强调了对元信息管理、权限控制、流量统计和用户行为分析等功能的精细管理,以满足不同业务需求。同时,多维分析、推荐系统、广告投放等应用场景也得到了体现,表明平台服务于业务数据和服务的全链条。
规模上,58大数据平台已达到1200台机器,处理27PB的总数据量,每天处理高达50TB的数据,且数据增量和任务数量庞大。在扩展性方面,通过FLume的动态发现和ZK支持,平台能够快速响应大规模扩容,即使在单集群情况下也能支持万台规模。
然而,平台在扩展过程中也面临一些挑战,如主节点间的交互瓶颈、部门数据规模过大导致的问题以及HDFS的局限性。通过针对性的优化,如分离配置和限速策略,58团队不断改进平台性能和稳定性。
《58大数据平台的技术演进与实践》分享了一家大型互联网公司如何通过技术创新、架构优化和实战经验应对大数据处理的挑战,以及如何实现业务与数据驱动的战略目标。
2021-01-27 上传
2022-07-28 上传
点击了解资源详情
点击了解资源详情
2022-03-19 上传
2017-12-21 上传
2024-07-18 上传
2019-07-18 上传
2016-12-18 上传
王成-Chris
- 粉丝: 0
- 资源: 1
最新资源
- WPF渲染层字符绘制原理探究及源代码解析
- 海康精简版监控软件:iVMS4200Lite版发布
- 自动化脚本在lspci-TV的应用介绍
- Chrome 81版本稳定版及匹配的chromedriver下载
- 深入解析Python推荐引擎与自然语言处理
- MATLAB数学建模算法程序包及案例数据
- Springboot人力资源管理系统:设计与功能
- STM32F4系列微控制器开发全面参考指南
- Python实现人脸识别的机器学习流程
- 基于STM32F103C8T6的HLW8032电量采集与解析方案
- Node.js高效MySQL驱动程序:mysqljs/mysql特性和配置
- 基于Python和大数据技术的电影推荐系统设计与实现
- 为ripro主题添加Live2D看板娘的后端资源教程
- 2022版PowerToys Everything插件升级,稳定运行无报错
- Map简易斗地主游戏实现方法介绍
- SJTU ICS Lab6 实验报告解析