淘宝数据魔方：海量数据处理与技术架构揭秘

64 浏览量更新于2024-08-29 收藏 369KB PDF 举报

淘宝数据魔方是一种基于海量数据分析的数据服务产品，旨在帮助淘宝商家和消费者挖掘数据背后的商业价值。面对每天高达30亿的店铺和商品浏览记录、10亿在线商品以及上千万的交易、收藏和评价数据，淘宝构建了一套复杂而高效的技术架构来处理这些数据。在技术架构方面，淘宝数据魔方的实现主要分为五个层次： 1. 数据源：这是数据的源头，包括淘宝主站的用户、店铺、商品和交易数据库，以及用户的浏览、搜索行为日志。这些数据是构建数据产品的基石。 2. 计算层：由名为“云梯”的1500个节点Hadoop集群构成，使用自研的数据传输工具如DataX、DbSync和Timetunnel，将实时产生的数据准实时地传输到Hadoop集群上。在这里，每天大约4万个作业对1.5PB的原始数据执行MapReduce计算，通常在凌晨两点前完成。 3. 存储层：计算后的中间结果被存储在适合大数据处理的存储系统中，可能包括HDFS或其他分布式文件系统，以便后续处理和查询。 4. 查询层：对于实时性要求高的数据，如搜索词统计，淘宝使用了名为“银河”的实时计算平台。银河是一个分布式系统，接收实时消息，进行内存计算，并迅速将结果更新到NoSQL存储，以供前端产品快速调用。 5. 产品层：最终，这些经过处理和计算的数据通过各种数据产品（如量子统计、数据魔方和淘宝指数）呈现给用户，帮助商家进行数据化运营决策，同时辅助消费者做出更理性的购物选择。数据魔方技术架构的核心在于处理海量数据的能力和提供实时或近实时的数据分析。通过使用Hadoop这样的大数据处理框架，以及结合实时计算平台，淘宝能够高效地处理大规模数据，满足不同场景下的需求。此外，缓存策略的应用，如利用数据的非实时写入特性，进一步优化了数据的读取性能。总体而言，淘宝数据魔方技术架构展示了大数据时代下电商平台如何利用先进的技术和工具，从海量数据中提炼价值，推动业务发展，同时也为消费者提供了更加智能化的服务。

淘宝数据魔方技术架构解析淘宝数据魔方技术架构解析

淘宝网拥有国内最具商业价值的海量数据。截至当前，每天有超过30亿的店铺、商品浏览记录，10亿在线商品数，上千万的

成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值，进而帮助淘宝、商家进行企业的数据化运营，帮助消费者

进行理性的购物决策，是淘宝数据平台与产品部的使命。

为此，我们进行了一系列数据产品的研发，比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲，数

据产品的研发难度并不高；但在“海量”的限定下，数据产品的计算、存储和检索难度陡然上升。本文将以数据魔方为例，向大

家介绍淘宝在海量数据产品技术架构方面的探索。

淘宝海量数据产品技术架构

数据产品的一个最大特点是数据的非实时写入，正因为如此，我们可以认为，在一定的时间段内，整个系统的数据是只读的。

这为我们设计缓存奠定了非常重要的基础。

按照数据的流向来划分，我们把淘宝数据产品的技术架构分为五层（如图1所示），分别是数据源、计算层、存储层、查询层

和产品层。位于架构顶端的是我们的数据来源层，这里有淘宝主站的用户、店铺、商品和交易等数据库，还有用户的浏览、搜

索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。

图图1 淘宝海量数据产品技术架构淘宝海量数据产品技术架构

在数据源层实时产生的数据，通过淘宝自主研发的数据传输组件DataX、DbSync和Timetunnel准实时地传输到一个有1500个

节点的Hadoop集群上，这个集群我们称之为“云梯”，是计算层的主要组成部分。在“云梯”上，我们每天有大约40000个作业对

1.5PB的原始数据按照产品需求进行不同的MapReduce计算。这一计算过程通常都能在凌晨两点之前完成。相对于前端产品

看到的数据，这里的计算结果很可能是一个处于中间状态的结果，这往往是在数据冗余与前端计算之间做了适当平衡的结果。

不得不提的是，一些对实效性要求很高的数据，例如针对搜索词的统计数据，我们希望能尽快推送到数据产品前端。这种需求

再采用“云梯”来计算效率将是比较低的，为此我们做了流式数据的实时计算平台，称之为“银河”。“银河”也是一个分布式系统，

它接收来自TimeTunnel的实时消息，在内存中做实时计算，并把计算结果在尽可能短的时间内刷新到NoSQL存储设备中，供

前端产品调用。

容易理解，“云梯”或者“银河”并不适合直接向产品提供实时的数据查询服务。这是因为，对于“云梯”来说，它的定位只是做离线

计算的，无法支持较高的性能和并发需求；而对于“银河”而言，尽管所有的代码都掌握在我们手中，但要完整地将数据接收、

实时计算、存储和查询等功能集成在一个分布式系统中，避免不了分层，最终仍然落到了目前的架构上。

为此，我们针对前端产品设计了专门的存储层。在这一层，我们有基于MySQL的分布式关系型数据库集群MyFOX和基于

HBase的NoSQL存储集群Prom，在后面的文字中，我将重点介绍这两个集群的实现原理。除此之外，其他第三方的模块也被

我们纳入存储层的范畴。

存储层异构模块的增多，对前端产品的使用带来了挑战。为此，我们设计了通用的数据中间层——glider——来屏蔽这个影

响。glider以HTTP协议对外提供restful方式的接口。数据产品可以通过一个唯一的URL获取到它想要的数据。

以上是淘宝海量数据产品在技术架构方面的一个概括性的介绍，接下来我将重点从四个方面阐述数据魔方设计上的特点。

关系型数据库仍然是王道

关系型数据库（RDBMS）自20世纪70年代提出以来，在工业生产中得到了广泛的使用。经过三十多年的长足发展，诞生了一

批优秀的数据库软件，例如Oracle、MySQL、DB2、Sybase和SQL Server等。

尽管相对于非关系型数据库而言，关系型数据库在分区容忍性（Tolerance to Network Partitions）方面存在劣势，但由于它强

大的语义表达能力以及数据之间的关系表达能力，在数据产品中仍然占据着不可替代的作用。

淘宝数据产品选择MySQL的MyISAM引擎作为底层的数据存储引擎。在此基础上，为了应对海量数据，我们设计了分布式

MySQL集群的查询代理层——MyFOX，使得分区对前端应用透明。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38742656

粉丝: 16
资源: 905

淘宝数据魔方：海量数据处理与技术架构揭秘

淘宝数据魔方技术架构解析.pdf

淘宝海量数据产品技术架构解析

淘宝数据魔方：海量数据技术架构揭秘

淘宝数据魔方：海量架构揭秘与实时计算平台

淘宝海量数据产品技术：Glider架构解析

淘宝海量数据处理产品技术架构.pptx

淘宝海量数据：Glider架构解析—整合、查询与中间层设计

淘宝海量数据产品：Prom架构解析与挑战

淘宝海量数据：Glider-HBase架构解析与挑战

数据库基础测验20241113.doc

最新资源