没有合适的资源?快使用搜索试试~ 我知道了~
软件影响10(2021)100169原始软件出版物CP-GNN:一个异构信息网络社区检测软件罗林浩a,方义祥b,曹新c,张晓峰a,张文杰ca哈尔滨工业大学,中国深圳b香港中文大学,深圳,香港澳大利亚新南威尔士大学自动清洁装置关键词:社区检测图神经网络上下文路径异构网络A B标准近年来,在包含多种类型节点和边的异构信息网络(HIN)中的社区检测(CD)问题受到了广泛的关注。然而,现有的CD方法不能很好地利用节点之间的高阶关系来检测社区。为了解决这个问题,我们建议利用上下文路径的概念对节点间的高阶关系进行建模,开发了一种基于上下文路径的图神经网络(GNN)软件CP-GNN。该算法不仅能够准确地学习节点嵌入信息,从而发现社区,而且能够无监督地捕捉节点间的高阶关系,为社区的研究和实际应用提供了极大的便利代码元数据当前代码版本v1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-155可复制胶囊的永久链接https://codeocean.com/capsule/2530475/tree/v1法律代码许可证MIT许可证使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求,操作环境依赖torch 1.6.0,matplotlib 2.2.3,networkx 2.4,dgl 0.4.3.post2,numpy 1.16.6,scipy1.4.1,scikit-learn 0.21.3如果可用,链接到开发人员文档/手册https://github.com/RManLuo/CP-GNN/blob/main/README.md问题支持电子邮件luolinhao@stu.hit.edu.cn1. cp-gnn及其目的作 为 网 络 科 学 中 的 一 个 基 础 性 课 题 , 社 区 发 现 ( communitydetection)是将图中的节点划分为具有密集内部连接的簇的一种方法然而,传统的社区发现算法[1]不适用于包含多种类型节点和边的异构信息网络(HIN)。在HIN中,节点之间存在着许多潜在的高阶关系,这些关系对于社区检测是必不可少的.例如,在包含三种类型的节点(即,作者,论文和地点),两个作者很难由于它们之间缺乏直接的联系,例如“关注”,因此被分组到同一个社区。但是,如果他们在同一篇论文中合作,我们可以将他们归为一组,因为他们可能有相似的研究兴趣。因此,通过考虑这些高阶关系(例如,共同作者),我们可以捕获更多有用的节点之间的关系和检测有意义的社区在HIN。为了捕捉上面的高阶关系,已经做出了一些努力[2],但大多数都依赖于一些预定义的元路径[3],这些元路径揭示了潜在的高阶关系。为本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址:luolinhao@stu.hit.edu.cn(L. Luo),fangyixiang@cuhk.edu.cn(Y. Fang),xin. unsw.edu.au(X. Cao),zhangxiaofeng@hit.edu.cn(X.Zhang),wenjie. unsw.edu.au(W. 张)。https://doi.org/10.1016/j.simpa.2021.100169接收日期:2021年11月1日;接收日期:2021年11月9日;接受日期:2021年11月10日2665-9638/©2021作者。由Elsevier B. V.发布,这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsL. Luo,Y.Fang,X.Cao等人软件影响10(2021)1001692Fig. 1. 上下文路径示例。图二. ACM上3长度上下文路径的注意力矩阵表1两个节点通过上下文路径连接的概率)来优化最终的节点嵌入。在上下文信息向量的生成过程中,设计了两种注意机制来区分不同上下文路径的重要性。CP-GNN的更多细节可以在[10]中找到。CP-GNN是一个命令行接口(CLI)软件。代码有一个主要入口点:main.py。我们预处理了四个HIN示例来展示CP-GNN的性能,它们是ACM,DBLP,IMDB和AIFB。用户可以简单地选择不同的HIN并在www.example.com 中 更 改 CP-GNN 的 设 置 config.py 。 我 们 还 在utils\preprocess.py中提供了一个易于使用的图形数据加载器接口。通过继承GraphDataLoader类,用户可以自定义拥有HIN数据集来执行社区检测。3. 对研究的目前,HIN中的大多数社区检测方法[2]都依赖于手动选择元路径,而在复杂的HIN中,这尤其耗时。尽管一些基于GNN的方法[9]放松了对元路径的依赖,但它们仍然需要标记数据来训练GNN网络。然而,CP-GNN是一种无监督的社区检测软件,不需要任何监督信息。在ACM数据集上的性能比较方法F1 NMI ARI纯度Node2vec [6] 0.5733 0.1933 0.1286 0.5876HIN2vec [7] 0.7732 0.4066 0.3313 0.69692019年12月26日星期一沪公网安备31010502000119号2016年12月31日例如,路径author-paper-author可以模拟我们上面展示的关系。为了进一步捕获和表示高阶关系,一些工作[4]将面向元路径的图嵌入机制与社区检测集成。然而,这些方法的问题是,它们的性能高度依赖于预定义的元路径,这需要由领域专家选择的质量。此外,元路径的数量随着路径长度呈指数增长,这意味着几乎不可能找到所有有意义的元路径来捕获高阶关系。此外,不同的元路径对社区检测的贡献不同,这给区分它们的重要性带来了很大的在这份报告中,我们提出了使用上下文路径的概念来建模节点之间的高阶关系,并开发了一种新的上下文路径为基础的图神经网络(GNN)软件,称为C上下文路径为基础的图神经网络(CP-GNN),用于检测社区的异构图中具有相同的目标类型的节点。具体来说,辅助类型节点。例如,图1描绘了四种可能的上下文路径,它们具有不同的长度,可以连接作者101和 102,其中101表示构成路径的辅助节点。上下文路径放松了对路径中节点类型的限制,因此它不能 既能很好地捕捉到高阶关系,又能避免要求由领域专家选择的自定义元路径。然后,我们采用GNN模型递归地嵌入节点之间的上下文路径信息到节点嵌入。嵌入包含信息,可用于社区检测。2. 功能和技术细节为了检测HIN中的社区,CP-GNN利用GNN将每个节点的上下文路径递归地嵌入到上下文信息向量中。通过这种方式,我们可以最大化上下文路径概率(通过与社区检测中不同尺度的几个基线进行比较,F1、NMI、ARI和纯度,我们可以获得表1中的实验结果,这证明了CP-GNN的优越性能。此外,CP-GNN是一个开源软件,可以作为后续研究工作的基线。此外,CP-GNN可以提供HIN中不同关系的重要性分数。图2示出了每个边缘类型的捕获注意力分数的示例。关系的重要性可以通过汇总其边类型的得分来计算。例如,路径PAP和PSP分别表示ACM网络中的共同作者和共同主题的关系它们的重要性得分可以通过以下方式计算:(A)= A + A = 7,(A)= + = 9。显然,PSP的关系比PAP对于社区检测稍微更重要。因此,CP-GNN能更好地揭示HIN中的潜在关系,为HIN的研究提供指导。例如,在模式丰富的HIN中,可能有数千种不同的节点和边类型,从而形成更高阶的关系。研究人员不可能对所有这些关系进行检验,并找到重要的关系。 通过CP-GNN,研究人员可以很容易地获得重要的关系,节省了大量的人力。同时,这些重要的关系能够为HIN中的社区构成提供更多的见解,帮助研究者理解CP-GNN提供的结果。与其他HIN社区检测软件相比,CP-GNN不需要手动定义元路径,并提供社区检测结果的解释。4. 对应用的除了研究,CP-GNN还对应用产生了巨大影响。CP-GNN提供的社区检测结果可用于分析Facebook或Twitter等社交网络。通过分析它,CP-GNN的用户可以发现HIN之间的共同模式,这可以进一步促进许多应用,作为舆论分析和异常检测。此外,CP-GNN可以揭示节点之间的重要关系,为用户提供可解释性。例如,它可以告诉为什么同一社区中的两个用户被推荐给相同的项目。最后,除了社区检测之外,CP-GNN的基本概念及其学习的嵌入可以应用于HIN中的其他任务,例如推荐,缺失关系完成和节点分类。L. Luo,Y.Fang,X.Cao等人软件影响10(2021)10016935. 局限性和今后的工作综上所述,我们开发的软件CP-GNN使得HIN中的社区检测变得非常方便。然而,由于计算密集型的消息传递,它无法处理大的HIN。在未来,我们将尝试优化该模型,以提高CP-GNN的可扩展性,使其能够大规模处理大型HIN。此外,我们还将尝试采用CP-GNN的关键技术来解决其他与社区相关的任务,例如在大时间HIN中检测社区。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢本工作得到了国家自然科学基金项目(批准号:61872108)和深圳市 科 技 计 划 项 目 ( 批 准 号 : JCYJ20200109113201726 ,JCYJ20170811153507788)的部分资助Xin Cao由ARCDE 190100663支持。方怡翔获中大深圳基金UDF 01002139资助。张文杰由ARCDP200101116支持引用[1]Y. Li,C. Sha、X. Huang,Y.黄氏Y. Zhang,属性图中的社区检测:嵌入方法,在:AAAI人工智能会议论文集,第32卷,第1期,2018年。[2] Y. Fang , Y. 杨 , W. Zhang , X. Lin , X. Cao , Effective and EfficientCommunitySearch over Large Heterogeneous Information Networks , PVLDB 13(6)(2020)854-867.[3] Y.孙杰汉,X. Yan,P.S. Yu,T.吴,Pathsim:异构信息网络中基于Meta路径的top-k相似性搜索,PVLDP 4(11)(2011)992-1003。[4] Y. Dong,N.V. Chawla,A. Swami,metapath2vec:异构网络的可扩展表示学习,在:SIGKDD,2017,pp。135-144。[5] D.巴尔曼,S。巴塔查里亚河萨尔卡河Chowdhury, -上下文技术:一种用于在异构信息网络中识别稠密子图的方法,IEEETrans. Comput. Soc. 系统6(6)(2019)1190[6] A. Grover,J. Leskovec,node2vec:网络的可扩展特征学习,在:SIGKDD,2016,pp. 855-864[7] P. Ristoski,G.K.D. De Vries,H. Paulheim,语义网上机器学习系统评估的基准数据集集合,国际语义网会议,施普林格,2016年,pp. 186-194。[8] P. Veličković,G. Cucurull,A. Casanova,A. Romero,P. Lio,Y. Bengio,Graph attention networks,2017,arXiv preprintarXiv:1710.10903.[9] Z. Hu , Y. 董 氏 K. Wang , Y. Sun , Heterogeneous graph Transformer , in :WWW,2020,pp. 2704-2710[10] L. Luo,Y. Fang,X. Cao,X. Zhang,W. Zhang,从异构图中检测社区:基于上下文路径的图神经网络模型,在:CIKM,2021,pp. 1170-1180。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 基于嵌入式ARMLinux的播放器的设计与实现 word格式.doc
- 经典:大学答辩通过_基于ARM微处理器的嵌入式指纹识别系统设计.pdf
- 嵌入式系统课程设计.doc
- 基于飞思卡尔控制器的智能寻迹车设计ARM基础课程课程设计.doc
- 下载基于ARM7的压电陶瓷换能器导纳圆测量仪的研制PDF格式可编辑.pdf
- 课程设计基于ARM的嵌入式家居监控系统的研究与设计.doc
- 论文基于嵌入式ARM的图像采集处理系统设计.doc
- 嵌入式基于ARM9的中断驱动程序设计—课程设计.doc
- 在Linux系统下基于ARM嵌入式的俄罗斯方块.doc
- STK-MirrorStore Product Release Notes(96130)-44
- STK-MirrorStore Storage Connectivity Guide for StorageTek Disk A
- 龙虾养殖远程监控系统的设计与实现数据采集上位-机软件模块-本科毕业设计.doc
- 龙虾养殖远程监控系统的设计与实现数据采集上位-机软件模块-.doc
- 龙虾养殖远程监控系统的设计与实现数据采集上位-机软件模块-本科生毕业论文.doc
- 麻阳风貌展示网站的设计与实现毕业论文.pdf
- 高速走丝气中电火花线切割精加工编程设计.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功