II-GC:提升多维网络查询效率的倒排索引存储模型

0 下载量 121 浏览量 更新于2024-08-26 收藏 365KB PDF 举报
"本文提出了一种基于倒排索引的多维网络存储模型II-GC,旨在解决在大规模多维网络中进行高效查询的问题。II-GC模型结合了图的非线性结构和顶点的多维属性,利用倒排索引技术来加速查询过程,支持联机分析处理(OLAP)的聚集查询(cuboid)和交叉查询(crossboid)。实验结果在DBLP数据集上显示,II-GC相比GraphCube具有更高的查询效率和更好的扩展性。" 在多维网络中,每个实体可能拥有多个属性,这样的网络结构常见于社交网络、学术网络等。对这些网络进行联机分析处理(OLAP)是数据分析的重要环节,有助于发现深层次的模式和趋势。然而,传统的逐条读取记录的方法在大数据量下效率低下,因为频繁的磁盘I/O操作会导致查询响应时间过长。 为了解决这个问题,文章提出的II-GC模型创新性地运用了倒排索引来存储和检索多维网络数据。倒排索引是一种用于全文搜索引擎的数据结构,它能够快速定位到具有特定属性的节点。在II-GC模型中,不仅考虑了图的拓扑结构,还结合了顶点的多维属性,将这些信息存储在倒排索引列表中,从而实现快速查询。 II-GC模型支持两种类型的查询:聚集查询(cuboid)和交叉查询(crossboid)。聚集查询允许用户在多个维度上聚合数据,揭示不同属性组合下的网络特征。而交叉查询则可以找出不同属性之间的关联,提供更丰富的洞察。这两种查询在多维网络分析中非常关键,能帮助用户从不同角度理解网络结构和动态。 在实际应用中,II-GC模型的性能通过DBLP数据集进行了验证。DBLP是一个大型的学术引用网络,包含了作者、论文、会议和关键词等多种维度。实验结果表明,II-GC模型在查询速度和系统扩展性方面均优于传统的GraphCube模型,证明了其在处理大规模多维网络查询时的有效性和优越性。 总结来说,基于倒排索引的多维网络存储模型II-GC是针对大规模多维网络进行高效OLAP查询的一种创新解决方案。通过优化数据存储和查询方式,II-GC显著提高了查询效率,降低了磁盘I/O的负担,为大规模网络分析提供了有力工具。