保持聚类结构的异质网络表示学习方法研究

5星 · 超过95%的资源 需积分: 0 1 下载量 195 浏览量 更新于2024-08-05 收藏 1.54MB PDF 举报
"保持聚类结构的异质网络表示学习主要关注如何在转换网络节点到低维空间的同时,保留网络的聚类结构,以提升表示的准确性。现有的异质网络表示学习方法通常分为四类:基于网络分解、基于矩阵分解、基于深度神经网络以及基于随机游走的方法。本文提出的HINSC和HINSC++模型,是针对Metapath2vec和Metapath2vec++的改进,它们不仅保持了网络的拓扑结构,还考虑了聚类结构,提高了表示学习的性能。" 在异质信息网络(Heterogeneous Information Network, HIN)的研究中,由于其包含多种类型的节点和边,使得数据挖掘任务变得复杂但富有挑战性。这类网络被广泛用于聚类、分类、相似性计算、链路预测和推荐系统等领域。网络表示学习的目标是将网络中的节点映射为低维向量,保持结构相似的节点在新的向量空间中也具有相似性。 目前的异质网络表示学习方法有以下几种: 1. **基于网络分解**的方法,如PTE、LSHM和HERec,它们将HIN拆分成多个同质子网络,分别进行表示学习,然后组合各子网络的表示。 2. **基于矩阵分解**的方法,如CMF、HeteroMF和DSR,通过构建节点关系矩阵并对其进行分解,来获取节点的低维表示。 3. **基于深度神经网络**的方法,如HNE,运用深度学习模型,如神经网络,来捕获网络的复杂结构信息。 4. **基于随机游走**的方法,如Metapath2vec和Metapath2vec++,它们利用元路径指导的随机游走生成节点序列,进而学习节点的向量表示。 然而,Metapath2vec和Metapath2vec++仅考虑了网络的拓扑结构,忽略了聚类结构,导致表示可能不够准确。针对这一问题,HINSC和HINSC++模型被提出,这两个模型利用元路径随机游走策略,并结合前馈神经网络,确保在输出层既保留了节点的邻接结构,又保持了聚类结构。通过随机梯度下降优化算法,模型可以学习到能反映聚类和拓扑结构的低维表示。 实验结果显示,与Metapath2vec和Metapath2vec++相比,HINSC和HINSC++在聚类任务上的归一化互信息(NMI)提高了12.46%至26.22%,在分类任务上的宏F1(Macro-F1)和微F1(Micro-F1)指标则提升了9.32%至17.24%。这表明,考虑聚类结构的异质网络表示学习模型能显著提升学习效果。