没有合适的资源?快使用搜索试试~ 我知道了~
184→GraphZoo:一个基于双曲几何的图神经网络开发工具包Anoushka Vyas,Nurendra Choudhary,Mehrdad Khatir,Chandan K.Reddy美国弗吉尼亚理工大学计算机科学系{anoushkav,nurendra,khatir}@vt.edu,reddy@cs.vt.edu摘要最近,双曲空间在图处理任务(如链接预测和节点分类)中的表示学习中获得了突出地位。几个欧几里德图模型已经适应了工作在双曲空间和变种已经显示出显着的性能提高。然而,图建模的研究和开发目前涉及到一些繁琐的任务,包括数据处理,参数配置,优化技巧和公共代码库的不可用性的标准化范围。 随着知识图推理和生成等新任务的激增,社区需要一个统一的框架来简化欧几里得和双曲图网络的开发和分析,特别是对于该领域的新研究人员。 为此,我们提出了一个新的框架,GraphZoo,使学习,设计和应用图形处理管道/模型系统通过抽象的冗余组件。该框架包含一个多功能的库,支持几个双曲流形和一个易于使用的模块化框架,以执行图形处理任务,帮助研究人员在不同的组件,即(i)再现最先进的方法的评估管道,(ii)设计新的双曲或欧几里得图形网络,并将其与标准基准上的最先进的方法进行比较,(iii)添加自定义数据集进行评估,(iv)添加新的任务和评估标准。CCS概念• 计算方法学机器学习算法;学习潜在表示;·信息系统→开源软件关键词图学习,图神经网络,双曲模型,软件ACM参考格式:Anoushka Vyas,Nurendra Choudhary,Mehrdad Khatir,Chandan K.雷迪2022. GraphZoo:一个用于双曲几何图形神经网络的开发工具包。 在网络会议2022(WWW '22同伴)的同伴程序,2022年4月25日至29日,虚拟活动 , 里 昂 , 法 国 。 ACM , 美 国 纽 约 州 纽 约 市 , 5 页 。https://doi.org/10.1145/3487553.3524241本 作 品 采 用 知 识 共 享 署 名 国 际 协 议 ( Creative Commons AttributionInternational)授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.35242411引言图形一直是Web领域研究的一个组成部分从形成互联网的相互连接的网页到支持软件基础设施的关系数据库,图形处理技术和工具的开发对于一些Web应用程序至关重要[9]。最近,这一主题的进步 主 要 是 由 神 经 网 络 的 出 现 推 动 的 , 特 别 是 图 神 经 网 络(GNN)。与自然语言处理和计算机视觉等其他领域类似,图域中的研究现在正遭受模型过载,即,太多的新模式正在快速发展。模型开发的快速增长增加了这一领域跟踪研究的复杂性,特别是在模型的可重复性或可重复使用性方面。此外,如果没有标准化,这一领域的新研究人员将需要花费更多的时间来探索和理解整个文献,并进一步复制模型以供应用。由于缺乏公共代码库或可用于特定数据集/任务的独立代码库,情况进一步恶化在这种情况下,需要执行一些繁琐的任务,如数据处理,参数配置和优化技巧,以应用模型到他们的问题设置。其他相关领域通过使用系统框架(如MatchZoo [6]和ModelZoo1)进行标准化来克服这些问题。受此启发,我们引入了一个系统的框架,用于研究图处理,称为GraphZoo,以克服在图研究社区的挑战。 GraphZoo包含两个接口:(i)GraphZoo库,包含标准图形数据集和预处理器,黎曼流形的可扩展模块,双曲层和评估方法,以及(ii)GraphZoo调查员,允许研究人员集成他们的数据集,模型或评估管道,以比较他们实验设置中的基线。使用我们的GraphZoo框架2,研究人员可以:(1) 通过使用训练/测试管道系统地训练模型,包括图形数据预处理器、现成的最先进的层、模型、优化方法、目标函数以及欧几里得和双曲空间的标准评估管道。(2) 借助各种基于图形的双曲/欧几里得层和流形的API,快速开发新模型(3) 借助预定义的评估管道,将新模型与标准数据集上最先进的基线进行(4) 通过在一组配置文件上运行快速网格搜索来执行超参数调优1https://modelzoo.co/2实现:https://github.com/AnoushkaVyas/GraphZoo185WWWGraphZoo系统建立在开源框架[1]上,具有更新的库和新的接口。在这个领域中还有其他库,如DGL [8]和torch-geometric[4]。然而,他们的重点是为欧几里得网络构建层和数据处理模块GraphZoo专注于提高双曲网络的可访问性[2,3,5],并为进一步开发提供完整的评估管道。图2:GraphZoo库的概述图1:GraphZoo框架概述2GRAPHZOO图书馆框架的总体架构如图1所示。该框架有助于模型开发的三个阶段,即数据准备,模型构建和评估。该库提供了许多预处理的数据集,流行的神经网络(如图神经网络和双曲神经网络模型)以及特定于任务的评估指标和损失函数。此外,在实验过程中,可以方便地更改与数据准备、超参数调整和模型选择相关的各种参数。该框架还简化了在新数据集上训练和测试模型以及创建新的图形处理框架的过程。GraphZoo库主要为图数据的节点分类和链接预测提供实验管道。为了执行这些任务,该库有三个主要模块,即数据准备,模型构建和评估。在我们的库中,如图2所示,这三个模块彼此独立,使用户能够灵活地使用自己的自定义参数、数据集和模型一起或单独执行所有任务。2.1数据预处理器数据预处理器旨在将原始图形数据转换为模型的输入格式。默认情况下,该模块处理基准图数据集,如Cora,Pubmed ,Disease和Air-port [1]。此外,它还提供了许多处理单元,用于将原始图形数据转换为下游任务所需的格式。所有的处理单元,作为输入的基本邻接矩阵和节点的功能,并可以平凡地结合在一起,以实现不同的任务的格式要求 在将原始数据集转换为所需格式后,该模块提供了将数据集拆分为训练、测试和验证数据的功能,具体取决于默认拆分或用户提供的拆分。2.2模型构建在模型构建模块中,我们使用双曲流形和层扩展了PyTorch库,以帮助用户方便地构建新架构。 GraphZoo库提供了一组广泛用于图神经网络模型的通用层,例如图卷积(GCN),图注意力(GAT)和双曲层(H-MLP,H-GCN和H-GAT)。 该库还包含预实现的模块和常见的图形网络基线,便于参考和再现:流形:欧几里得,双曲面,庞加莱球(包括双曲目标函数)。优 化 器 : 黎 曼 随 机 梯 度 下 降 ( RSGD ) 和 黎 曼 亚 当(RADAM)。激活:双曲线激活。层:双曲线性回归器,双曲非线性回归器,图形卷积,图形注意力,双曲图形卷积和双曲图形注意力。• 模型:所有层的编码器-解码器模型2.3评价对于实验,该库提供了用于节点分类和链路预测的各种目标函数,例如,二元交叉熵和L2-范数分别用于欧氏和双曲节点分类。此外,该库还提供了几个广泛采用的评估指标,如精度、ROC和····186GraphZoo:A Development Toolkit for Graph Neural Networks with Hyperbolic Geometries WWWF1评分。该框架提供了流形、层、优化器、激活、模型和评估度量的选择,这些度量可以无缝集成以创建用于图形处理管道的系统开发和评估的新颖模型架构。3GRAPHZOO恒温器图3:在CORA数据集上运行H-GCN模型进行节点分类任务的GraphZoo代码片段图4:在GraphZoo中创建新模型的伪代码GraphZoo调查员为新用户提供了一个交互式笔记本界面,可以轻松配置和运行已经实现的模型,以学习和探索最先进的图形神经网络模型。一个全面的教程,包括各种模型组件的理论描述和实现细节,提供了新的研究人员快速启动到开发框架。该模型也是有据可查的,更好地了解高级用户。 图3提供了一个来自库的示例代码片段,用于在Cora数据集上训练H-GCN以执行节点分类任务。 各种其他图形处理流水线可以类似地在参数的微小改变的情况下运行。 高级用户可以通过继承工具包中提供的各种层API和数据预处理器来创建自己的模型并采用新的数据集。框架中还包括一个相同的教程。图4提供了一个伪代码,显示了创建自定义编码器模型以执行实验。4重现性实验在本节中,我们将讨论数据集,并重现网络中节点分类和链接预测下游任务的各种基线结果。 我们还进行了时间和内存分析的模型,以显示我们的库的效率3。数据集:该库在各种基准图数据集上进行了测试,如下所述:引用网络:Cora和Pubmed是描述引用网络的标准基准,其中节点是科学论文,边是它们之间的引用这些数据集中的节点标签是学术(子)区域。Cora包含2,708篇科学出版物,分为7类,Pubmed包含19,717篇医学领域的出版物,分为3类。疾病传播树:该数据集取自[1],其中模拟了SIR疾病传播模型[7]。节点的标签是节点是否被感染。基于该模型,他们构建了树状网络,其中节点特征表明了对疾病的易感性。FlightNetworks:Airport是一个转换数据集,其中节点表示机场,边表示来自OpenFlights.org的航线。该数据集的大小为2,236个节点。该数据集来自[1],其中作者还使用地理信息(经度,纬度和海拔)以及机场所属国家的GDP来增强图表。 他们使用机场所属国家的人口作为节点分类的标签。算法:我们的目标是重现我们的算法的结果,如本文[1]所提供的在我们的实验中考虑的算法是:欧几里德线性(E-Linear),多层感知器(MLP),图卷积(GCN)和它们的双曲变体(H-线性,H-MLP和H-GCN)。此外,我们还测试了图注意力模型(GAT)和双曲变体H-GAT。训练设置:对于给定的方法,我们在初始学习率,权重衰减,辍学,层数和激活函数的验证集上执行超参数网格搜索。我们在最终测试集上测量了模型所有方法的维数相同,均为128。 我们使用Adam优化所有模型,除了使用RiemannianAdam优化的Poincaré嵌入。训练、验证和测试拆分与[1]中使用的相同。 我们通过测量测试集上的ROC曲线下面积来评估链接预测,并通过测量F1评分来评估节点分类,Cora和Pubmed除外,我们在文献中报告了准确性。3我们的实验是在RTX8000 GPU上进行的,限制为48 GB VRAM。···187WWW表1:节点分类(NC)任务的链接预测(LP)和F1得分的AUC值及其在10次随机参数初始化中的相应最佳结果以粗体显示。数据集算法科拉LP NCPubMedLP NC疾病LP NC机场LP NCE-Linear83.62± 0.3484.50± 0.1384.52± 0.2691.28± 0.1491.32± 0.6694.01± 0.3893.32± 0.7790.01± 0.1823.30± 0.1325.50± 0.3753.00± 0.7454.60± 0.4781.50± 0.9478.70± 0.5481.90± 0.3479.50± 0.5185.98± 0.4488.21± 0.3282.60± 0.3694.11± 0.6585.98± 0.1596.55± 0.1694.54± 0.6693.55±0.1234.30± 0.5751.60± 0.5467.60± 0.7767.20± 0.4378.85± 0.4979.40±0.1877.30± 0.5679.20± 0.3457.74± 0.2161.81± 0.1472.13± 0.5775.02. ±0.7664.72± 0.3790.54±0.2070.12± 0.5591.52± 0.2533.25± 0.1946.55± 0.3641.00± 0.3565.57± 0.5366.67± 0.5473.24± 0.3068.34± 0.4870.21±0.3292.79± 0.1393.49± 0.6467.86± 0.6492.21± 0.1890.58± 0.1296.30± 0.7490.65± 0.3194.13±0.7362.79± 0.5469.74± 0.2489.79± 0.7579.05± 0.2478.95± 0.1790.43± 0.7680.54± 0.3887.13±0.46H-线性MLPH-MLPGCNH-GCNGATH-GAT表2:各种算法的链路预测(LP)和节点分类(NC)任务所需的时间(T)(以秒为单位)和内存(M)(以兆字节(MiB)为单位)。数据集任务科拉LPNCPubMedLPNC疾病LP NC机场LP NC算法不M不M不M不M不M不M不M不ME-Linear109911293523549912471390931747408551759529551495643252553589351771889354781162875H-线性19292384035291316839307672174340893281007MLP410532215101515797923381525510953823271149H-MLP29852242536106511104146825896919803201063GCN71125162536391759711003119825428105921903341241H-GCN141103105143034442031612312983916126321823351209GAT2412549210313345247511713200133556821011871615541441H-GAT结果和分析:根据表1中提供的结果,我们注意到我们能够重现基线结果[1](在误差范围内)。 表2给出了算法所需的时间和内存,清楚地表明这些要求与原始实现一致,并且在图处理模型的标准训练/评估设置的限制内。5演示我们将以以下方式展示我们的工具包:(i)使用海报来描述图形处理管道的整体流程,并解释我们的系统模块在不同组件中的作用6结论我们介绍了GraphZoo,一个多功能的库,它有助于系统地学习,使用和设计图形处理管道。虽然已经为每个独立的模块/模型做了大量的工作,但这种将它们组合在一起的有条不紊的方式使框架能够快速地为使用图形的研究人员提供具有重要价值的内容。致谢这项工作得到了美国国家科学基金会IIS-1838730和AmazonAWS信用的部分支持。引用[1] Ines Chami,Zhitao Ying,Christopher Ré,and Jure Leskovec.2019年。双曲 图 卷 积 神 经 网 络 。 在 神 经 信 息 处 理 系 统 的 进 展 , 卷 。 32 岁 CurranAssociates,Inc.加拿大温哥华[2] Nurendra Choudhary , Nikhil Rao , Sumeet Katariya , Karthik Subbian ,and Chan- dan K.雷迪2021年基于知识图的自监督双曲面表示 在网络会议2021(卢布尔雅那,斯洛文尼亚)(WWW '21)的会议记录。计算机协会,纽约州纽约市,USA,1373-1384. https://doi.org/10.1145/3442381.3449974[3] Nurendra Choudhary , Nikhil Rao , Sumeet Katariya , Karthik Subbian ,and Chan- dan K.雷迪2022年ANTHEM:用于产品搜索的注意双曲实体模型第十五届ACM Web搜索和数据挖掘国际会议(虚拟活动,AZ,美国)(WSDM'22)。计算机协会,纽约,纽约,美国,161https://doi.org/10.1145/3488560.3498456[4] Matthias Fey和Jan E.Lenssen. 2019年。使用PyTorch Geometric进行快速图形表 示 学 习 ICLR Workshop on Representation Learning on Graphs andManifolds(图和流形上的表示学习)[5] 屋大维·加内亚,加里·贝西纽,托马斯·霍夫曼。2018.双曲神经网络神经信息处理系统的进展。5345-5355[6] 郭嘉峰,范义兴,纪翔,程学奇。2019年。MatchZoo:神经文本匹配的学习、实践和开发系统 第42届国际ACM SIGIR信息检索研究与发展会议(法国巴黎)。ACM,纽约,纽约,美国,1297[7] 雷蒙德·S考夫1992.人类传染病:动力学和控制。由R. M.安德森和R. M.五月,757页。牛津:牛津大学出版社,1991年.95美元Hepatology15,1(1992),169[8] Minjie Wang,Da Zheng,Zihao Ye,Quan Gan,Mufei Li,Xiang Song,Jinjing Zhou,Chao Ma,Lingfan Yu,Yu Gai,Tianjun Xiao,Tong He,George Karypis,Jinyang Li,188GraphZoo:A Development Toolkit for Graph Neural Networks with Hyperbolic Geometries WWW和郑章。2019年。 Deep Graph Library:一个以图形为中心的高性能图形神经网络软件包。arXiv预印本arXiv:1909.01315(2019)。[9] Ping Wang , Khushbu Agarwal , Colby Ham , Sutanay Choudhury , andChandan K Reddy. 2021年异构网络中用于链接预测的上下文嵌入的自监督学习。在2021年的网络会议上。2946-2957年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功