没有合适的资源?快使用搜索试试~ 我知道了~
首页spark图计算应用解析
资源详情
资源评论
资源推荐

I
SparkGraphX 应用解析

1
目 录
第 1 章 Spark GraphX 概述......................................................3
什么是
弹性分布式属性图
运行图计算程序
第 2 章 Spark GraphX 解析....................................................10
存储模式
图存储模式
存储模式
、 以及
图的构建
构建图的方法
构建图的过程
计算模式
计算模式
图操作一览
操作一览
转换操作
结构操作
顶点关联操作
聚合操作
缓存操作
计算模型
实现最短路径
实例
第 3 章 图算法.........................................................................63
!" 排名算法
算法概述
从入链数量到 !"
!" 算法原理
实现
广度优先遍历#参考$
单源最短路径#参考$
连通图#参考$
三角计数#参考$

2
第 4 章 PageRank 实例...........................................................77
实现代码%

3
第1章 Spark GraphX 概述
1.1 什么是 Spark GraphX
SparkGraphX 是一个分布式图处理框架,它是基于 Spark 平台提供对图计算
和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。
那么什么是图,都计算些什么?众所周知社交网络中人与人之间有很多关系链,
例如 Twitter、Facebook、微博和微信等,数据中出现网状结构关系都需要图计
算。
GraphX 是一个新的 Spark API,它用于图和分布式图(graph-parallel)的计算。
GraphX 通过引入弹性分布式属性图( Resilient Distributed Property Graph ):
顶 点 和 边 均 有 属 性 的 有 向 多 重 图 , 来 扩 展 Spark RDD 。 为 了 支 持 图 计 算 ,
GraphX 开 发 了 一 组 基 本 的 功 能 操 作 以 及 一 个 优 化 过 的 Pregel API 。 另 外 ,
GraphX 也包含了一个快速增长的图算法和图 builders 的集合,用以简化图分析
任务。
从社交网络到语言建模,不断增长的数据规模以及图形数据的重要性已经推动
了许多新的分布式图系统的发展。 通过限制计算类型以及引入新的技术来切分
和分配图,这些系统可以高效地执行复杂的图形算法,比一般的分布式数据计算
(data-parallel,如 spark、MapReduce)快很多。

4
分布式图(graph-parallel)计算和分布式数据(data-parallel)计算类似,
分布式数据计算采用了一种 record-centric(以记录为中心)的集合视图,而分布
式图计算采用了一种 vertex-centric(以顶点为中心)的图视图。 分布式数据计
算通过同时处理独立的数据来获得并发的目的,分布式图计算则是通过对图数据
进行分区(即切分)来获得并发的目的。更准确的说,分布式图计算递归地定义
特征的转换函数(这种转换函数作用于邻居特征),通过并发地执行这些转换函
数来获得并发的目的。
分布式图计算比分布式数据计算更适合图的处理,但是在典型的图处理流水
线中,它并不能很好地处理所有操作。例如,虽然分布式图系统可以很好的计算
PageRank 等算法,但是它们不适合从不同的数据源构建图或者跨过多个图计算
特征。 更准确的说,分布式图系统提供的更窄的计算视图无法处理那些构建和
转换图结构以及跨越多个图的需求。分布式图系统中无法提供的这些操作需要数
据在图本体之上移动并且需要一个图层面而不是单独的顶点或边层面的计算视图。
例如,我们可能想限制我们的分析到几个子图上,然后比较结果。 这不仅需要
改变图结构,还需要跨多个图计算。
剩余63页未读,继续阅读




















拉兹罗
- 粉丝: 10
- 资源: 9
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制

评论0