Uber开源Marmaray:Hadoop驱动的通用数据采集与分散框架

0 下载量 118 浏览量 更新于2024-08-27 收藏 703KB PDF 举报
Uber开源的Marmaray是一个基于Apache Hadoop的通用数据摄取和分散框架,它解决了公司在海量数据管理上的挑战。三年前,Uber采纳Hadoop作为核心数据平台,以支持跨集群的数据管理,但随着公司内部众多团队、工具和数据源的增多,需要一个稳定且灵活的解决方案来整合这些数据。Marmaray作为插件式框架,其设计初衷是为了提供一种模块化的架构,允许用户自定义数据摄取源和接收器,以适应不同的数据来源和目标。 Marmaray的核心特性包括: 1. **插件化设计**:用户可以根据需要添加新的数据源插件,如Kafka、Schemaless或MySQL等,以实现数据的多样性和灵活性。这使得Marmaray能够在不改变底层Hadoop基础设施的情况下,轻松扩展对新数据格式的支持。 2. **数据质量保障**:Marmaray确保所有摄取的数据都符合源模式,通过模式管理库和服务生成高质量的数据,从而避免了因数据质量问题而浪费数据科学家的时间。 3. **数据湖集成**:Marmaray将数据从多个数据存储摄取到Hadoop数据湖,然后通过内部工作流程编排服务进一步处理,生成业务指标并存储到在线数据存储中,提供近乎实时的数据访问。 4. **大规模数据处理**:随着Uber业务的迅速扩张,数据摄取规模剧增,Marmaray作为可靠的平台,应对了大规模数据可靠性和性能的需求,保证了数据处理的效率和一致性。 5. **用户体验优化**:为了满足不同背景和技术知识的用户,Uber正在构建一个自助服务平台,提供无缝的使用体验,使数据科学家能够专注于数据分析本身,而非底层技术细节。 总结来说,Marmaray是Uber在大数据处理领域的重要贡献,它通过模块化设计和高度可扩展性,帮助公司有效地管理和分析来自各种数据源的海量数据,提升了数据驱动决策的能力和效率。