Uber开源Marmaray:Hadoop驱动的全栈数据采集与分散框架
29 浏览量
更新于2024-08-28
收藏 703KB PDF 举报
Uber开源的Marmaray是一个专为大数据管理和分析设计的通用数据摄取和分散框架,它基于Apache Hadoop平台。Marmaray诞生于Uber对高效数据管理的需求,由于公司内部众多团队、工具和数据源的多样性,需要一个强大且灵活的解决方案来整合和处理PB级别的数据。Marmaray作为一个插件式架构,允许用户自定义数据来源的接入,无论是Kafka、Schemaless还是MySQL等,通过新增插件实现无缝对接。
该框架的核心优势在于其模式化能力。Marmaray通过模式管理库生成高质量的模式,确保从各种数据源摄取的数据都能符合统一的标准,这极大地提高了数据质量,减少了数据科学家在预处理阶段的时间投入。数据被摄取到Hadoop数据湖后,再通过Apache Spark进行分布式处理,进一步加速了数据分析的速度。
Marmaray的设计也考虑到了大规模数据处理的挑战,如Uber业务产生的大量实时数据。它通过自动化的工作流编排服务,构建了一套完整的数据管道,涵盖了数据摄取、清洗、存储和计算业务指标等多个环节,使得内部客户可以实时访问和分析数据。此外,为了满足不同背景和技术背景用户的使用需求,Uber还在不断优化Marmaray,使其成为了一个自助服务平台,提供易用性和灵活性。
随着Uber的全球扩张,存储在Hadoop数据湖中的数据量持续增长,Marmaray作为关键的数据基础设施,不仅支撑了业务决策,还在数据可靠性、性能和用户体验上达到了业界领先水平。Marmaray的成功实践证明了它在复杂企业环境中有效管理海量数据的能力,对于其他寻求同类解决方案的公司来说,这是一个值得借鉴的开源项目。
2020-03-23 上传
2021-05-27 上传
点击了解资源详情
2021-03-15 上传
2021-06-04 上传
2021-05-27 上传
2021-02-21 上传
2021-02-19 上传
2021-05-24 上传
weixin_38739900
- 粉丝: 4
- 资源: 928
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍