淘宝实战：SparkGraphX的分布式图计算探索

127 浏览量更新于2024-08-27 收藏 359KB PDF 举报

“快刀初试：SparkGraphX在淘宝的实践” SparkGraphX是Apache Spark的一个扩展，专注于大规模图数据处理和分析。淘宝利用SparkGraphX的强大性能和丰富的运算符，将其构建为分布式图计算平台，用于处理复杂的图算法和实际业务场景。在早期，Spark包含了一个名为Bagel的小型模块，它提供了与Pregel相似的图计算功能。然而，随着对分布式图计算需求的增长，Spark在0.8版本中推出了独立的GraphX分支，借鉴了GraphLab的设计，并在0.9版本中正式整合进主干，尽管当时仍处于Alpha阶段。到了1.0版本，GraphX已经足够成熟，可以用于生产环境。 GraphX的核心在于提供了一种抽象，使得用户可以轻松地在分布式环境中操作和计算大型图数据，无需关心底层的分布式实现细节。它解决了图存储模式和图计算模式的挑战，使得复杂图算法的实现变得简单。图存储模式主要有两种：边分割和点分割。边分割方法每个顶点存储一次，但可能导致边跨越机器，增加内网通信流量。点分割则每条边只存储一次，但可能会因为邻居多的顶点复制到多台机器上而增加存储成本。GraphLab2.0的点分割策略因其性能提升而被广泛采纳。图计算模式是另一个关键点，GraphX采用了基于Pregel的计算模型，即Vertex-Centric Computation，允许用户定义顶点的状态更新函数，通过消息传递在图上迭代执行，直到图达到稳定状态或达到最大迭代次数。这种模型简化了分布式图算法的实现，使得开发者可以专注于算法逻辑，而非分布式系统的复杂性。在性能方面，GraphX在每个新版本中都有所改进，即使不改变代码逻辑，仅通过版本升级和接口调整，也能观察到10%~20%的性能提升。尽管与GraphLab相比仍有一定差距，但SparkGraphX得益于Spark的整体优化和社区的活跃支持，具有显著的竞争力。总结来说，SparkGraphX是Spark生态中的重要组件，为处理大规模图数据提供了高效且易于使用的工具。在淘宝的实际应用中，它展示了处理复杂图算法的能力，为分布式图计算带来了新的可能。随着版本的迭代，GraphX不断优化，成为应对日益增长的数据处理需求的有力武器。

快刀初试：快刀初试：SparkGraphX在淘宝的实践在淘宝的实践

由于Spark GraphX性能良好，又有丰富的功能和运算符，能在海量数据上自如运行复杂的图算法，淘宝尝试将它作为分布式

图计算平台，进行各种算法尝试和生产应用。本文结合GraphX的原理和特点，分享其在淘宝的应用实践。

早在0.5版本，Spark就带了一个小型的Bagel模块，提供了类似Pregel的功能。当然，这个版本还非常原始，性能和功能都比

较弱，属于实验型产品。到0.8版本时，鉴于业界对分布式图计算的需求日益见涨，Spark开始独立一个分支Graphx-Branch，

作为独立的图计算模块，借鉴GraphLab，开始设计开发GraphX。在0.9版本中，这个模块被正式集成到主干，虽然是Alpha版

本，但已可以试用，小面包圈Bagel告别舞台。1.0版本，GraphX正式投入生产使用。

值得注意的是，GraphX目前依然处于快速发展中，从0.8的分支到0.9和1.0，每个版本代码都有不少的改进和重构。根据观

察，在没有改任何代码逻辑和运行环境，只是升级版本、切换接口和重新编译的情况下，每个版本有10%~20%的性能提升。

虽然和GraphLab的性能还有一定差距，但凭借Spark整体上的一体化流水线处理，社区热烈的活跃度及快速改进速

度，GraphX具有强大的竞争力。

分布式图计算分布式图计算

在正式介绍GraphX之前，先看看通用的分布式图计算框架。简单来说，分布式图计算框架的目的，是将对于巨型图的各种操

作包装为简单的接口，让分布式存储、并行计算等复杂问题对上层透明，从而使复杂网络和图算法的工程师，更加聚焦在图相

关的模型设计和使用上，而不用关心底层的分布式细节。为了实现该目的，需要解决两个通用问题：图存储模式和图计算模

式。

图存储模式图存储模式

巨型图的存储总体上有边分割和点分割两种存储方式。2013年，GraphLab2.0将其存储方式由边分割变为点分割，在性能上

取得重大提升，目前基本上被业界广泛接受并使用。

边分割：每个顶点都存储一次，但有的边会被打断分到两台机器上。这样做的好处是节省存储空间；坏处是对图进行基于边的

计算时，对于一条两个顶点被分到不同机器上的边来说，要跨机器通信传输数据，内网通信流量大。

点分割：每条边只存储一次，都只会出现在一台机器上。邻居多的点会被复制到多台机器上，增加了存储开销，同时会引发数

据同步问题。好处是可以大幅减少内网通信量。

虽然两种方法互有利弊，但现在是点分割占上风，各种分布式图计算框架都将自己底层的存储形式变成了点分割。主要原因有

以下两个。

磁盘价格下降，存储空间不再是问题，而内网的通信资源没有突破性进展，集群计算时内网带宽是宝贵的，时间比磁盘

更珍贵。这点就类似于常见的空间换时间的策略。

在当前的应用场景中，绝大多数网络都是“无尺度网络”，遵循幂律分布，不同点的邻居数量相差非常悬殊。而边分割会

使那些多邻居的点所相连的边大多数被分到不同的机器上，这样的数据分布会使得内网带宽更加捉襟见肘，于是边分割

存储方式被渐渐抛弃了。

图计算模型图计算模型

目前的图计算框架基本上都遵循BSP（Bulk Synchronous Parallell）计算模式。在BSP中，一次计算过程由一系列全局超步组

成，每一个超步由并发计算、通信和栅栏同步三个步骤组成。同步完成，标志着这个超步的完成及下一个超步的开始。BSP模

式很简洁。基于BSP模式，目前有两种比较成熟的图计算模型。

Pregel模型——像顶点一样思考

2010年，Google的新的三架马车Caffeine、Pregel、Dremel发布。随着Pregel一起，BSP模型广为人知。Pregel借鉴

MapReduce的思想，提出了“像顶点一样思考”（Think Like A Vertex）的图计算模式，让用户无需考虑并行分布式计算的细

节，只需要实现一个顶点更新函数，让框架在遍历顶点时进行调用即可。

常见的代码模板如下：

这个模型虽然简洁，但很容易发现它的缺陷。对于邻居数很多的顶点，它需要处理的消息非常庞大，而且在这个模式下，它们

是无法被并发处理的。所以对于符合幂律分布的自然图，这种计算模型下很容易发生假死或者崩溃。

GAS模型——邻居更新模型

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38624628

粉丝: 8
资源: 934

淘宝实战：SparkGraphX的分布式图计算探索

快刀青衣：到底什么才是大数据？

12306订票助手——快刀

淘宝实战：SparkGraphX的分布式图计算演进与应用

快刀CAD打印

快刀批量打印

快刀抢票器

小宝flash快刀

小宝快刀V4.20|帮助在网页源码和内容中查找存在的文件

小宝快刀V4·20帮助在网页源码和内容中查找存在的文件绿色免费版

快刀批量转PDF

最新资源