II-GC：提升多维网络查询效率的倒排索引存储模型

121 浏览量更新于2024-08-26 收藏 365KB PDF 举报

"本文提出了一种基于倒排索引的多维网络存储模型II-GC，旨在解决在大规模多维网络中进行高效查询的问题。II-GC模型结合了图的非线性结构和顶点的多维属性，利用倒排索引技术来加速查询过程，支持联机分析处理(OLAP)的聚集查询(cuboid)和交叉查询(crossboid)。实验结果在DBLP数据集上显示，II-GC相比GraphCube具有更高的查询效率和更好的扩展性。" 在多维网络中，每个实体可能拥有多个属性，这样的网络结构常见于社交网络、学术网络等。对这些网络进行联机分析处理(OLAP)是数据分析的重要环节，有助于发现深层次的模式和趋势。然而，传统的逐条读取记录的方法在大数据量下效率低下，因为频繁的磁盘I/O操作会导致查询响应时间过长。为了解决这个问题，文章提出的II-GC模型创新性地运用了倒排索引来存储和检索多维网络数据。倒排索引是一种用于全文搜索引擎的数据结构，它能够快速定位到具有特定属性的节点。在II-GC模型中，不仅考虑了图的拓扑结构，还结合了顶点的多维属性，将这些信息存储在倒排索引列表中，从而实现快速查询。 II-GC模型支持两种类型的查询：聚集查询(cuboid)和交叉查询(crossboid)。聚集查询允许用户在多个维度上聚合数据，揭示不同属性组合下的网络特征。而交叉查询则可以找出不同属性之间的关联，提供更丰富的洞察。这两种查询在多维网络分析中非常关键，能帮助用户从不同角度理解网络结构和动态。在实际应用中，II-GC模型的性能通过DBLP数据集进行了验证。DBLP是一个大型的学术引用网络，包含了作者、论文、会议和关键词等多种维度。实验结果表明，II-GC模型在查询速度和系统扩展性方面均优于传统的GraphCube模型，证明了其在处理大规模多维网络查询时的有效性和优越性。总结来说，基于倒排索引的多维网络存储模型II-GC是针对大规模多维网络进行高效OLAP查询的一种创新解决方案。通过优化数据存储和查询方式，II-GC显著提高了查询效率，降低了磁盘I/O的负担，为大规模网络分析提供了有力工具。

一种基于倒排索引的多维网络存储模型

张志远徐恒盼

(中国民航大学计算机科学与技术学院天津 300300)

摘要

具有多维属性的实体相互连接构成的网络（如社交网络）称为多维网络，在多维网络上支持联机分析分析处理具有重要的应用

价值。现有方法大都从文件或数据库中逐条读取记录，当数据量很大时，需要多次读取磁盘，导致查询响应时间过长，效率较低。本

文提出了一种新的基于倒排索引的多维网络存储模型

II-GC

（

Inverted Index based Graph Cube

），通过将图的拓扑结构和顶点的多维属

性存储在倒排索引列表中加快查询速度，并给出了在多维网络上进行聚集查询（

cuboid

）和交叉查询（

crossboid

）的算法。在

DBLP

数据集上的实验表明，该模型较

GraphCube

的查询效率更高，扩展性更好。

关键词多维网络；图立方体；倒排索引；联机分析处理

中图分类号 TP391.9 文献标识码 A

A Multi-dimensional Network Storage Model Based on Inverted Index

Zhang Zhi-yuan Xu Heng-pan

(School of computer science &technology, Civil Aviation University of China, Tianjin 300300,China)

Abstract A network such as social network linked by entities with multiple attributes is called multi-dimensional network. OLAP query on

multi-dimensional network has an important application value. Most existing methods read records one by one from a file or a database. When a

lot of data involved, these methods need more I/O time, thus leading to large query response time and low query efficiency. This paper presents a

new multi-dimensional network storage model based on inverted index, called II-GC (Inverted Index Graph Cube). It speeds up the process by

constructing inverted index both on topological graph and multiple attributes. Algorithms about cuboid query and crossboid query are also

introduced. Experimental results on DBLP show that our model is more efficient and scalable than GraphCube.

Keywords Multi-dimensional network; Graph cube; Inverted index; OLAP

0 引言

随着 Web2.0 等互联网新概念的飞速发展，大量新型

社交网络服务不断涌现，社交网络在人们的生活中扮演

着越来越重要的角色。作为一个交叉领域，社交网络研

究已经得到国内外学者们的广泛关注。目前对于社交网

络的研究多集中于其拓扑结构，如社区划分

[1,2]

，舆情传

播

[3]

等。在实际应用中，除拓扑结构外，与顶点相关的

多维属性信息也非常重要，如统计合著网络中的男女比

例及连接关系等。本文主要研究由拓扑结构及与顶点关

联的多维属性一起构成的多维网络

[4]

。

对多维网络进行 OLAP

[5]

分析可展现不同尺度上的

网络结构特征，如聚集操作可分析合著网络中不同领域

人员之间的网络结构，切片操作可分析某特定领域如数

据挖掘学者之间的网络关系。为突破传统 OLAP 技术无

法支持带有图结构的复杂网络分析的限制，近年来研究

人员开展了很多相关研究。2007 年吴巍

[6]

提出了 Link

OLAP 的概念，将面向实体的分析扩展为面向连接的分

析，以复杂网络可视化为基础，突破了以往传统 OLAP

系统中单调的二维表格表现方式。同年，Chen 等

[7]

提出

了 Graph OLAP 的概念，将 OLAP 技术引入到复杂网络

分析中，实现了在信息维和拓扑维两种维度上的 OLAP

操作。2010 年，Li 等人

[8]

提出了一种适合 Graph OLAP

的数据仓库概念模型，即双星模型，并提出了信息维聚

集算法 I-OLAPing 和拓扑维聚集算法 T-OLAPing。2011

年，Li 等人

[9]

又在原有基础上提出了基于信息网络数据

仓库和信息网络数据立方体的概念，提出了双星座数据

模型，实现了信息维和拓扑维的聚集算法以及上卷下钻

的 OLAP 操作。同年，Zhao 等

[10]

详细介绍了一个新的

数据仓库模型，即基于图的数据立方体 Graph Cube，同

时提出了用于 Graph OLAP 的新的查询方式 crossboid

（详见定义 4），并讨论了 Graph Cube 的物化策略。2011

年，Qu 等

[11]

提出了一种信息网络拓扑维的框架，并基

于此框架提出了更高效的查询方法以及数据立方体的

物化策略，对拓扑维在线分析处理( T-OLAP) 操作中特

定类型度量的优化进行了有针对性的深入分析。

现有的 GraphCube OLAP 聚集算法研究大多是直接

对文件或数据库中的数据进行聚集查询，逐条检索记录，

判断是否符合条件。当文件很大时，往往要多次读写磁

盘，较为耗时。本文提出了一种新的多维网络存储模型

II-GC(Inverted Index Graph Cube)，通过引入倒排索引技

术，把直接对数据库中数据进行的聚集查询转化成倒排

索引集合间的交、并运算，不用逐个读取记录，参与运

算的数据大幅减少，提高了检索速度。

1 基本概念

定义1 多维网络

[4,12]

是一个形式为G=(V，E，)的

图，其中V是顶点的集合，E⊆V×V是边的集合，={

，



，…，



}是与顶点相关联的属性集合。任取∈V，

存在一个多维元组A()=(

()，

()，…，

())，其

中



()是顶点上的第个属性，1≤≤m。

图1是一个社交网络中的多维网络示例。图1(a)表示

社交网络图，图中有10个顶点，记作v

，v

，…，v

，

分别代表社交网络中不同的个体；13条边分别代表个体

间的关系。每个顶点均关联一个多维属性元组，记录该

个体的基本信息，包括ID，Gender，Location及Profession。

所有顶点的多维属性元组集合构成多维属性表，如图1(b)

所示。

基金项目：国家自然科学基金项目(

61201414, 61301245, U1233113

)

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38664427

粉丝: 3
资源: 924

II-GC：提升多维网络查询效率的倒排索引存储模型

空间向量模型

第四章-空间数据管理库-空间数据库管理模型优秀文档.ppt

多维云模型的matlab

如何搭建数据仓库多维数据模型

torch索引多维数据

LSTM多维预测模型的原理

基于critic的多维联系数实现步骤

如何开展基于物理过程的干旱模型与人工神经网络相结合的干旱预测研究，可以选取哪些物理模型和机器学习模型来构建最优模型

LSTM多维输入预测模型MATLAB代码

基于时序卷积神经网络的信号生成模型

最新资源