Uber开源Marmaray：Hadoop驱动的全栈数据采集与分散框架

29 浏览量更新于2024-08-28 收藏 703KB PDF 举报

Uber开源的Marmaray是一个专为大数据管理和分析设计的通用数据摄取和分散框架，它基于Apache Hadoop平台。Marmaray诞生于Uber对高效数据管理的需求，由于公司内部众多团队、工具和数据源的多样性，需要一个强大且灵活的解决方案来整合和处理PB级别的数据。Marmaray作为一个插件式架构，允许用户自定义数据来源的接入，无论是Kafka、Schemaless还是MySQL等，通过新增插件实现无缝对接。该框架的核心优势在于其模式化能力。Marmaray通过模式管理库生成高质量的模式，确保从各种数据源摄取的数据都能符合统一的标准，这极大地提高了数据质量，减少了数据科学家在预处理阶段的时间投入。数据被摄取到Hadoop数据湖后，再通过Apache Spark进行分布式处理，进一步加速了数据分析的速度。 Marmaray的设计也考虑到了大规模数据处理的挑战，如Uber业务产生的大量实时数据。它通过自动化的工作流编排服务，构建了一套完整的数据管道，涵盖了数据摄取、清洗、存储和计算业务指标等多个环节，使得内部客户可以实时访问和分析数据。此外，为了满足不同背景和技术背景用户的使用需求，Uber还在不断优化Marmaray，使其成为了一个自助服务平台，提供易用性和灵活性。随着Uber的全球扩张，存储在Hadoop数据湖中的数据量持续增长，Marmaray作为关键的数据基础设施，不仅支撑了业务决策，还在数据可靠性、性能和用户体验上达到了业界领先水平。Marmaray的成功实践证明了它在复杂企业环境中有效管理海量数据的能力，对于其他寻求同类解决方案的公司来说，这是一个值得借鉴的开源项目。

Uber开源开源Marmaray：基于：基于Hadoop的通用数据摄取和分散框的通用数据摄取和分散框

架架

AI前线导读：

三年前，Uber采用Apache Hadoop作为数据平台，从而可以跨计算机集群管理数PB的数据。但是，因为我们有很多团队、工

具和数据源，所以需要一种可靠的方式来摄取和分散数据。Marmaray是Uber开源的Apache Hadoop数据提取和分散框架。

Marmaray由我们的Hadoop平台团队设计和开发，是一个建立在Hadoop生态系统之上的基于插件的框架。用户可以新增插件

以便从任何来源摄取数据，并利用Apache Spark将数据分散到接收器上。Marmaray这个名字源于土耳其的一条连接欧洲和亚

洲的隧道，在Uber内部，我们将Marmaray设想为根据客户偏好将数据从任何来源连接到任何接收器的管道。数据湖的数据通

常在质量方面存在很大差异。Marmaray可以确保所有摄取的原始数据都符合适当的源模式，保持高质量水平，从而带来可靠

的分析结果。数据科学家可以将时间花在从这些数据中提取有用的见解上，而不是用来处理数据质量问题。

在Uber，Marmaray以聚合的方式连接各种系统和服务：

通过我们的模式管理库和服务生成高质量的模式化数据。

通过Marmaray的摄取组件将多个数据存储中的数据摄取到我们的Hadoop数据湖中。

使用Uber的内部工作流程编排服务来构建管道，用以处理摄取的数据，以及根据这些数据保存和计算业务指标。

将处理的结果提供给在线数据存储，内部客户可以通过Marmaray查询数据并获得近乎实时的结果。

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38739900

粉丝: 4
资源: 928

Uber开源Marmaray：Hadoop驱动的全栈数据采集与分散框架

hadoop jar包.rar

flink-shaded-hadoop-2-uber-2.7.5-10.0.jar.zip

Uber开源Marmaray：Hadoop驱动的通用数据采集与分散框架

uber-bootstrap:基于Udemy的Ivan Petrichenko课程的网站。 用Bootsrap网格等制成

java版ss源码-hive-jdbc-uber-jar:基于最新ApacheHive版本的HiveJDBC“uber”或“独立”jar

Unofficial-Uber-macOS:适用于macOS的非官方Uber:automobile:

Uber数据分析：使用Python的Uber数据分析（Panda和Seaborn）

uber-cli：:automobile:Uber，触手可及

Uber-Clone::construction:进行中

Uber-Eats-Scraper:基于Python的数据抓取工具，以收集有关给定加拿大城市中Uber Eats餐厅的信息

最新资源

uber-bootstrap:基于Udemy的Ivan Petrichenko课程的网站。用Bootsrap网格等制成