没有合适的资源?快使用搜索试试~ 我知道了~
评估网络表示以识别跨学科性:图学习方法在科学知识表示中的应用
758评估网络表示以识别跨学科性EoghanCunningham都柏林大学计算机科学学院,爱尔兰Eoghan. ucdconnect.ie摘要许多研究试图将跨学科研究确定为文章参考文献或引用中确定的学科多样性的函数。然而,鉴于科学景观的不断演变,学科边界正在发生变化和模糊,使得在严格的分类法中描述研究变得越来越困难。在这项工作中,我们探讨了图学习方法的潜力,学习嵌入式表示的研究论文,编码他们的这有助于在不使用学科类别的情况下识别跨学科研究我们评估这些表示和他们的能力,以确定跨学科的研究,根据他们的效用在跨学科的引文预测。我们发现,根据引用距离的多种定义,那些在引用图中保持结构等价的表示最能预测网络中遥远的跨学科相互作用。CCS概念• 计算方法学→学习潜在表征。关键词数据集,科学知识表示,跨学科性ACM参考格式:Eoghan Cunningham和Derek Greene2022年 评估网络代表识别跨学科。 在网络会议2022(WWW '22同伴)的同伴程序,2022年4月25日至29日,虚拟活动,里昂,法国。ACM,美国纽约州纽约市,5页。http://doi.org/10.1145/3487553.35246531引言跨学科研究通常被定义为整合两个或多个不同学科的专业知识,数据或方法的研究活动。 鉴于其重要性,已经进行了许多研究,量化文章和作者的跨学科性,以确定相关的研究趋势,并探讨其影响。最被广泛接受的跨学科测量方法是使用引文信息评估知识整合,试图测量跨学科性,本作品采用知识共享署名国际协议(Creative Commons AttributionInternational)授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.3524653德里克·格林都柏林大学计算机科学学院,爱尔兰ene@ucd.ie在一篇文章的引用论文中确定的顶级IC的平衡、多样性和相异性的函数使用这些方法,已经确定了增加跨学科的趋势[19],这与研究影响[8,15]和生产力[9]呈正相关。尽管跨学科性的度量标准之间存在一些一致性(许多研究基于[18]的工作),但文献缺乏对单一度量标准的趋同[24]。大多数候选指标依赖于明确的研究主题或主题类别信息,其来源众多,多样,有时无法获得。此外,科学界的结构已被证明正在迅速演变[21]。 这种演变可能解释了主题分类和层次之间缺乏一致性,差异很大[13]。规定的,静态的,学科分类的局限性,需要一个现代的方法来确定研究学科 这种方法可以提供一个跨学科的动态视图,并可能有助于映射不适合任何现有模式的新兴发展[24]。在这项工作中,我们开始研究适当的图表示学习方法,使我们能够识别和量化引文网络中的研究跨学科性,以便我们可以监控跨学科的相互作用并跟踪研究主题的发展。我们建议在编码研究“跨学科”的研究引文网络中学习无监督的节点(或论文)级表示。 在追求这样的表示,我们探讨了不同的网络特征,嵌入必须保留,以编码跨学科,我们评估这些嵌入根据其效用在跨学科的引文预测任务。具体来说,我们研究了链接预测模型(基于不同的节点表示)的性能如何受到引用距离的影响,根据假设,与那些没有的相比,编码文章跨学科的表示在预测“深远”或“长距离”跨学科交互/引用时会更好[ 8 ]。鉴于期刊级主题类别的公认局限性,我们探讨了引用距离的多种定义:既根据规定的类别与预定义的主题距离,网络定义的距离根据图结构。2背景2.1测量跨学科性许多研究已经开发了量化研究跨学科性(IDR)的指标通常,这些方法旨在评估跨学科性,以实现三个目标:(i)探索IDR随时间推移的趋势[19],(ii)衡量IDR的益处[8,9,15],(iii)衡量响应中跨学科性的变化759WWW[18]第十八话虽然所提出的方法是多种多样的,跨学科性是最常见的引文分析的基础上衡量 使用引文对信息流进行建模,根据参考文献中确定的学科之间的平衡、多样性和/或距离计算知识整合[1,15,19,20]。相反,知识传播是根据引用文章的学科来衡量的[17,23]。这些知识整合、知识扩散或两者结合的定义已被用于列举研究论文的学科间性当然,这些方法依赖于研究论文的明确主题或学科类别,例如Web of Science,Scopus 或Microsoft Academic提供的那些这种明确的分类研究论文,特别是那些分配在期刊水平,是有问题的[1,13]。此外,这些主题分类法[22]可以确认不存在单一的、正确的分类然而,最近的图学习方法可能能够学习编码跨学科性的文章表示,而无需任何明确的学科分类知识。2.2图学习-节点嵌入受自然语言处理[12]中嵌入式表示的大量工作的启发,最近在网络分析领域中,人们相当关注开发将节点转换为低维向量表示的类似方法[3,5]。用于产生这种表示或节点嵌入的方法被设计为保留图上节点之间的重要关系。特别是,我们专注于保持邻近性(其中,对于图中属于同一社区的节点学习了类似的嵌入)和结构等价性(其中,对于图中具有相同结构角色的节点学习了类似的嵌入)的方法。DeepWalk方法[16]扩展了自然语言处理启发的SkipGram模型[12],从图上的所有节点生成固定长度的随机游走该模型学习预测将在给定起始节点作为输入的情况下行走时出现的节点。因此,该模型通过学习出现在类似内容中的节点的类似嵌入来保持节点之间的邻近性,即,随机游动的节点 由[6]提出的node2vec扩展了DeepWalk,引入了两个参数,可以用于偏置随机游走,以探索网络结构的不同方面。在我们的实验中,我们实现了DeepWalk和node2vec作为邻近节点嵌入的例子我们还探索了通过role2vec[ 2 ]学习的保持结构等价的role2vec模型进一步概括了DeepWalk模型的结构特征(例如,图基元计数)到节点,然后将这些节点映射到3数据我们使用五个引文网络进行实验,其中每篇论文被表示为一个节点,引文被表示为它们之间的未标记边缘。其中三个数据集是用于评估图学习算法的著名基准网络我们还提供了两个新的数据集,我们已经收集。3.1基准数据集作 为 我 们 的 三 个 基 准 书 目 数 据 集 , 我 们 考 虑 Cora[11] ,CiteSeer[10]和PubMed[14]。这些数据集的范围从2,708到19,717个节点(论文),平均节点度(每篇论文的引用次数)从2.7到4.5不等 每一篇论文都有一个标签,代表一个学科中的一个主题或领域。例如,Cora数据集包含计算机科学领域内的7个主题:“基于案例”、“遗传算法”、“神经网络”、“概率方法”、“强化学习”、“规则学习”和“理论”。虽然这些数据集为探索研究网络提供了一个可访问的媒介,但从中获得的见解可能受到其稀疏性(低节点度)和跨学科规模的限制,即它们代表的是学科内主题之间的相互作用,而不是宏观的跨学科相互作用。因此,我们还提供了两个额外的引文图,它们在本质上更完整,更跨学科。3.2Scopus索引数据集我们使用来自两组不同期刊论文的Microsoft Academic Graph引文数据构建新的引文网络。这些集包括两个样本的文章从Scopus索引期刊,分层根据其所有科学期刊类别(ASJC)。我们定义了两个包含不同主题的网络,这样我们就可以研究不同学科子集之间的相互作用。我们将这些网络称为Scopus 1和Scopus 2。 前者包含2017年至2018年期间在Scopus索引期刊上发表的1,500篇文章的样本,其中包括ASJC“计算机科学”,“数学”,“医学”,“化学”和“社会科学”。 对于Scopus2,我们使用类别的种子集:“计算机科学”、“数学”、“神经科学”、“工程”和“生物化学、遗传学和分子生物学”。 对于这两个数据集,我们通过包括在Scopus索引期刊上发表的所有可用的引用文章来最大限度地提高图表的完整性。通过这种方式,我们产生了密集的多学科引文网络,这样每篇文章都可以根据其发表的期刊的ASJC进行分类。Scopus1包含27,213个节点,平均度为6.9,而Scopus2包含25,961个节点,平均度为6.2。所有数据集的统计数据见附录表14方法4.1引文预测一种用于评估节点嵌入质量的既定方法是评估其在下游链路预测任务中的性能[6,7]。 我们引入以下引用预测任务来评估我们的论文表示的质量及其对引用图结构进行编码的能力。此外,我们探索他们的能力,以确定和预测跨学科的相互作用在网络中,通过他们的跨学科引文预测的表现。 我们使用75:5:20的训练:验证:测试分裂每个网络中的边来评估不同节点表示的引文预测性能。三组节点表示(DeepWalk,node2vec和role2vec)使用由训练边诱导的子图来学习。在每个模型的情况下,我们学习128维的节点嵌入为了训练用于引文预测任务的多层感知(MLP)模型,我们补充了760−Assessing Network Representations for Identifying Interdisciplinarity WWW每组边具有一组在图中然后,我们将每个边表示为相关节点的嵌入表示的级联,并使用训练和验证边集来训练MLP模型以分类正边和负边。我们将测试数据的性能报告为受试者工作特征曲线(AUC)下的面积。每个实验重复5次随机数据分割,并报告平均AUC评分。 使用这种方法,我们评估了不同的节点表示在整体引文预测和跨学科引文预测的效用。根据跨学科的二元和连续定义,我们使用以下方法来识别测试数据中的跨学科引文。我们报告的二元学科间引文预测得分为AUC性能的测试数据,只有边缘的相关节点属于不同的分类。这些分数出现在表1的括号中。 在图1中,我们根据我们对跨学科性的连续定义比较了引用预测性能和引用距离之间的关系,根据直觉,编码文章跨学科性的表示在预测“长距离”跨学科引用时会更好。为了探索这种关系,我们根据所选择的引文距离定义将测试数据中的边缘聚合(到等宽的箱中),并绘制包含至少25个正边缘和负边缘的箱的AUC。4.2引文距离为了让我们能够定义一种连续的跨学科形式,我们实现并评估了五种引文距离的定义:Scopus主题距离、网络距离、DeepWalk嵌入距离、Node2vec嵌入距离和Role2vec嵌入距离。根据ASJC的邻域相似性定义了Scopus主题距离。使用2010年至2020年间发表的6,000,000篇论文的网络,我们创建了一个学科级加权邻接矩阵W,该矩阵对ASJC中类别之间的所有引用进行了 我们将两个类别i和j之间的主题距离定义为值1 Sij,其中Sij是W中第i行和第j行之间的余弦相似度。因此,我们可以计算引文的Scopus主题距离,作为分配给每个相关论文的ASJC之间的主题距离。 我们将引用的网络距离定义为两篇相关论文之间的图上最短路径的长度[25]。最后,每个嵌入距离被定义为引用中涉及的论文对的两个5结果5.1引文预测与二元学科交叉5.1.1基准数据集。 表1显示了在5个引文数据集上评估的3个链接预测模型的引文结果。在每种情况下,报告整个测试集和测试集的跨学科部分(IDR AUC)的AUC评分对于每个数据集,role2vec学习的结构表示优于基于DeepWalk的方法学习的结构表示。尽管预测跨学科引文可能比预测表1:引文预测结果:AUC(IDR AUC)。[16]第二届中国国际汽车工业展览会[2]科拉0.785(0.789)0.782(0.769)0.836(0.817)CiteSeer0.700(0.670)0.692(0.644)0.766(0.750)PubMed0.800(0.788)0.800(0.778)0.823(0.818)Scopus 10.909(0.903)0.906(0.901)0.900(0.896)Scopus 20.879(0.875)0.879(0.874)0.868(0.869)学科内引用,在每项任务中的表现似乎相关良好。也就是说,在预测主题内引用方面表现最好的模型在预测主题之间的引用时然而,由于基准数据集在规模和完整性方面的限制(见第3.1节),我们继续使用从Scopus索引的期刊中收集的两个新的引文图进行实验。5.1.2Scopus索引数据集。 表1报告了与Scopus数据集相关的引文预测性能。 在这些更大,更多样化和更密集的网络的情况下,我们发现链接预测模型更成功,这可能是由于图的更大完整性。此外,基于DeepWalk的方法不再比role2vec嵌入更有效,并且跨学科和跨学科分数之间的差距进一步缩小。为了更好地理解不同表征对研究论文跨学科作用的编码能力(通过识别那些可以预测更远距离引用的表征),我们现在转向引用距离的连续定义。5.2引文距离在我们的Scopus索引网络中,我们探索了引文距离的5种定义:1根据期刊级别的ASJC分类及其引文邻域,3根据不同无监督嵌入表示之间的距离,1根据论文之间的最短路径距离。 我们在下面比较了这些引用距离的定义,并评估了它们与网络模块化和边缘介数的关系。5.2.1边长和模块化。 我们比较了正负边缘距离的频率分布,以研究在Scopus网络中不同边缘距离度量捕获模态的程度。参见附录中的补充图。至关重要的是,我们发现DeepWalk和node2vec定义的引用距离提供了正负边缘分布之间的最佳分离。5.2.2边距离和边介数。 表2显示了Scopus索引图中引用距离的每个度量的引用距离和边缘间中心性之间的Spear-man等级相关性。边(或引用)的边介数中心性是对图上穿过该边的最短路径的比例的度量[4]。 因此,连接或连接社区的引文将具有较高的边介数中心性。因此,我们期望引用距离的定义编码的跨学科性的引用,与边缘介数正相关 根据基于DeepWalk的嵌入之间的距离定义的距离度量显示具有761WWW表2:引用距离与边缘间距相关。距离Scopus 1 Scopus 2Scopus主题0.029-0.020DeepWalk0.3310.300Node2vec0.3290.304Role2vec0.1910.193与边缘介数中心性的最强相关性。相反,基于Scopus的ASJC的指定主题之间的距离与边介数没有相关性,这表明这些主题分配,或者至少是它们之间的定义距离,并不反映图中的社区结构。我们可以通过比较主题间和主题内边缘的边缘间性得分,进一步研究Scopus数据集中ASJC论文分类的有效性。如果ASJC分配代表网络中的社区,我们将期望ASJC主题之间的边(即,引用链接不同类别的论文)具有比ASJC主题内的边缘(即,将同一类别的文件连接起来比较学科间和学科内边缘的边缘介数分布的Kolmogorov-Smirnov检验发现,在5%的显著性下,跨学科边缘具有更大的介数。这表明,虽然ASJC主题之间的预定义距离与引用距离无关,但ASJC分类在一定程度上反映了网络中的社区。图1:Scopus 1预测性能(AUC)与引用距离的关系图,针对不同的节点表示和不同的引用距离度量。表3:与引用距离相关的链接预测AUC。距离role2vecDeepWalknode2vecScopus主题0.444*0.327*0.323*DeepWalk嵌入0.642*-0.061-0.139*Node2vec嵌入0.632*-0.126*-0.129*Role2vec嵌入-0.875*-0.929*-0.914*网络距离0.245-0.173-0.1915.2.3引文距离和链接预测。 表3报告了在Scopus1网络中比较引用预测与引用距离的线性回归系数。 该表包括星号以突出显示在5%显著性下显著的回归系数。特别是,我们注意到,采用role2vec结构表示的节点的模型表现更好的引用距离增加根据大多数定义的引用距离。附录中的表5绘制了Scopus 2的类似结果,其中role2vec性能再次随着与底层网络结构一致的距离而增加。6讨论和结论在我们对图学习方法识别跨学科研究的潜力的调查中,我们探索了三种不同的节点表示方法,并评估了它们在预测跨学科引文中的效用。根据跨学科引文的二元定义,我们发现预测研究主题之间的联系确实比预测主题内的相互作用更困难。 这种效应在稀疏网络中更为明显,例如基准引用图Cora、CiteSeer和PubMed。在我们收集的更完整的引文网络(Scopus 1和Scopus 2)中,引文预测和跨学科引文预测性能之间的区别不太明显。我们探讨了跨学科引文的连续定义因为有些相互作用被认为比其他的更遥远[8]。我们评估了引文距离的五种不同定义尽管仍然很难确定测量引文距离或跨学科性的最准确方法,但我们强调了预定义的ASJC距离的一些问题,这些问题似乎与潜在的网络结构不一致。此外,我们发现基于role2vec的模型实现了引文预测AUC,该AUC与所有似乎编码底层网络结构的引文距离指标正相关。这提供了证据表明,基于role2vec的论文表示能够编码与跨学科交互相关的结构我们建议,嵌入图上保持结构等价的编码的“跨学科的作用”不同的文章。我们计划将这项工作扩展到学习更高级的纸张表示,包括图中节点上的文本特征。也有可能开发出更好地解释这些嵌入的方法,以量化跨学科性并解释不同的研究论文的跨学科作用762Assessing Network Representations for Identifying Interdisciplinarity WWW致谢这项研究得到了爱尔兰科学基金会(SFI)的支持,资助号为SFI/12/RC/2289_P2。引用[1] Giovanni Abramo,Ciriaco Andrea2018年两种跨学科研究产出测量方法的比较:作者的学科多样性与参考文献列表的学科多样性Journal of Informetrics12,4(2018),1182-1193。[2] 内斯林湾艾哈迈德,瑞安A.放大图片作者:John L.威尔克、周荣、孔向南、霍达·埃达迪里。2019. role2vec:基于角色的网络嵌入。在Proc. DLG KDD中。一比七[3] Hongyun Cai,Vincent W Zheng,and Kevin Chen-Chuan Chang.2018年图嵌入的全面调查:问题,技术和应用。IEEETransactions on Knowledge andData Engineering 30,9(2018),1616-1637。[4] 作者:Michelle Girvan,Mark E.J.纽曼2002年。 社会和生物网络中的社区结构。美国国家科学院院刊99,12(2002),7821[5] 帕拉什·戈亚尔和埃米利奥·费拉拉2018年 图嵌入技术,应用和性能:一项调查。Knowledge-Based Systems151(2018),78[6] Aditya Grover和Jure Leskovec2016年。node2vec:可扩展的网络特征学习。在proc 第22届ACM SIGKDD知识发现与数据挖掘国际会议。855-864[7] Thomas N Kipf和Max Welling。2016年。变分图自动编码器。 arXiv预印本arXiv:1611.07308(2016)。[8] 文森特·拉里维尔斯蒂芬妮·豪斯坦凯蒂·博纳2015年。长距离的跨学科研究会产生更高的科学影响力。 PloS one 10,3(2015),e0122565- e0122565.[9] 放大图片作者:Christine M.Beckman,and Taryn L Stanko.2017年。突出但生 产力较低 :跨学科 对科学家 研究的影响行政科 学季刊 62,1(2017),105[10] 青露和丽丝·格图尔。2003年。基于链接的分类。 在proc 20th InternationalConference on Machine Learning(Washington,DC,USA)(ICML'03).AAAI Press,496[11] Andrew Kachites McCallum , Kamal Nigam , Jason Rennie 和 KristieSeymore 。 2000. 使 用 机 器 学 习 自 动 化 互 联 网 门 户 的 构 建 。 InformationRetrieval3,2(2000),127[12] 托马斯·米科洛夫,陈凯,格雷格·科拉多,杰弗里·迪恩。2013年。向量空间中单词表示的有效估计。 arXiv预印本arXiv:1301.3781(2013)。[13] 斯塔莎·米洛舍维奇2020年。将Web of Science文章重新分类为独特主题类别和广泛学科的实用方法 定量科学研究1,1(02 2020),183-206。[14] Galileo Namata、Ben London、 Lise Getoor 、Bert Huang和UMD EDU 。2012年。查询驱动的集体分类主动调查 在proc 第10届国际研讨会上挖掘和学习与图形,卷。八、1.一、[15] 冈村圭介2019年。重新审视跨学科性:研究影响和活力的证据。PalgraveCommunications5,1(2019),1[16] Bryan Perozzi,Rami Al-Rfou,and Steven Skiena.2014年。Deepwalk:社交表征的在线学习。 在proc 第20届ACM SIGKDD知识发现与数据挖掘国际会议。701-710[17] Alde Porter和D Chubin。一九八五年跨学科研究的指标Scientometrics8,3-4(1985),161[18] 放大图片作者:Alan Porter,Alex Cohen,J.大卫·罗斯纳和马蒂·佩里奥2007年 测量研究人员的跨学科性。Scientometrics72,1(2007),117[19] 艾伦·波特和伊斯梅尔·拉弗尔斯2009.科学越来越跨学科了吗?测量和绘制六个研究领域随时间的变化。 Scientometrics 81,3(2009),719-745.[20] 伊斯梅尔·拉弗尔斯和马丁·迈耶2010年。多样性和网络一致性作为跨学科的指标:生物纳米科学的案例研究。 Scientometrics 82,2(2010),263-287.[21] Martin Rosvall和Carl T Bergstrom。2008年复杂网络上的随机游走映射揭示了社 区 结 构 。 Proceedings of the National Academy of Sciences105 , 4(2008),1118[22] Zhesi Shen , Fuyou Chen , Liying Yang , and Jinshan Wu.2019 年 。Node2vec表示用于聚类期刊,并作为多样性的可能度量数据与信息科学杂志4,2(2019),79。[23] Richard Van Noorden et al. 2015. 通过数字进行跨学科研究。Nature525,7569(2015),306[24] 卡罗琳·S放大图片作者:J. Wagner,J. David Roessner,Kamau Bobb,JulieThompson Klein,Kevin W. Boyack,Joann Keyton,Ismael Rafols,and KatyBörner.2011年。 理解和测量跨学科科学研究(IDR)的方法:文献综述。Journal of Informetrics5,1(2011),14[25] 斯坦利·沃瑟曼和凯瑟琳·浮士德。一九九四年 社会网络分析:方法与应用。北京:清华大学出版社.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功