PU学习视角下的异构信息网络关系预测

0 下载量 157 浏览量 更新于2024-08-26 收藏 423KB PDF 举报
"这篇研究论文探讨了一种基于PU学习的关系预测方法,主要应用于异构信息网络。在PU学习的背景下,解决数据不平衡问题,即正例集(具有目标关系的节点对集合)与未标记集(没有目标关系的节点对集合)之间数据数量的不均衡。文中提出了一种结合K-means聚类和投票机制的技术——SemiPU聚类,用于从未标记集中提取可靠的负例集RN,并构建了一个新的关系预测框架PURP。实验结果表明,PURP在DBLP合作作者网络数据上比比较方法表现更优,关键词包括链接预测、关系预测。" 正文: 在信息技术领域,关系预测是数据挖掘和网络分析中的一个关键问题,特别是在异构信息网络中,如社会网络、知识图谱等。这些网络由多种类型的不同实体(如人、组织、事件等)和它们之间的复杂关系构成。关系预测的目标是预测两个给定实体之间是否存在某种特定关系。 本研究聚焦于PU学习(Positive and Unlabeled Learning)在关系预测中的应用。PU学习是一种在仅有正例和未标记数据的情况下进行分类的方法,特别适用于数据标注成本高或难以获取的情况。在关系预测中,由于获取所有节点对是否具有特定关系的完整标签通常是困难且昂贵的,因此PU学习提供了一种有效的策略。 针对PU学习环境下的数据不平衡问题,论文提出了SemiPU聚类算法。该算法结合了K-means聚类和投票机制,旨在从未标记集U中筛选出最可能的负例集RN。K-means聚类用于将未标记节点对分组,而投票机制则用来确定哪些节点对最有可能不包含目标关系。这样,算法可以更准确地识别那些无目标关系的节点对,从而提高预测的准确性。 在提出的框架PURP(Positive-Unlabeled Relationship Prediction)中,SemiPU聚类提取的负例集RN与正例集P一起被用于训练模型。通过这种方式,模型能够在较少的监督信息下学习到更有效的关系表示,从而改善预测性能。 实验部分,研究者使用DBLP合作作者网络作为数据集,这是一个典型的异构信息网络,其中节点代表作者,边代表他们之间的合作关系。实验结果显示,与传统的比较方法相比,PURP在预测作者之间的合作关系方面表现出更高的精度和召回率,证明了其在实际应用中的有效性。 这篇论文为关系预测提供了一种新颖的PU学习解决方案,尤其适用于数据标注困难的异构信息网络。SemiPU聚类和PURP框架的提出,为解决数据不平衡问题和提高预测性能提供了有价值的理论和实践指导。未来的研究可能进一步探索如何优化这个框架,以适应更复杂的网络结构和多样化的关系类型。