没有合适的资源?快使用搜索试试~ 我知道了~
3158HINTS:基于动态异构信息网络嵌入的新出版物引文时间序列预测宋江1,Bernard J.科赫2号,宜州孙1号1加州大学洛杉矶分校计算机科学系2加州大学洛杉矶分校社会学系1{songjiang,yzsun}@ cs. ucla. edu2bernardkoch@ucla.edu摘要科学影响力的准确预测对于科学家、学术推荐系统和资助机构都很重要。现有的方法依赖于多年的领先引用值来预测科学论文 在本文中,我们解决了一个新的问题:预测一篇新论文从发表之日起的引用时间序列(即,没有前导值)。我们提出了HINTS,这是一种新型的端到端深度学习框架,可以将 动 态 异 构 信息 网 络(DHIN)中的引用信号转换为引用时间序列。HINTS在论文发表前几年从DHIN嵌入中估算出伪领先值,然后将这些嵌入转换为正式模型的参数,该模型可以在发表后立即预测引用计数。对计算机科学和物理学两个真实数据集的实证分析表明,HINTS与基线引文预测模型具有竞争力。虽然我们专注于引用,但我们的方法可以推广到其他“冷启动”时间序列预测任务,其中关系数据可用,并且早期时间戳的准确预测至关重要。CCS概念• 信息系统→数据挖掘。关键词引文预测;时间序列;动态异质信息网络;科学ACM参考格式:宋江1,Bernard J.科赫2,益州孙1。2021年HINTS:基于动态异构信息网络嵌入的新出版物引文时间 在网络会议2021(WWW '21)的会议记录,2021年4月19日至23日,斯洛文尼亚卢布尔雅那。ACM,美国纽约州纽约市,10页。https://doi.org/10.1145/3442381.34501071引言预测科学研究的“本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3450107确定有前途的年轻科学家和未来支持的领域。由于影响很难量化,科学论文的引用计数通常被用作近似值[11,29,44]。为了预测未来的引用,以前的作品[20,27,38,42]通常依赖于观察到的引用(即, 在出版后的头几年里,主要的引用价值)。这些领先的基于价值的解决方案采用了参数和机器学习方法。[27,38,42]提出正式模型来编码关于论文如何被引用的假设和先验知识(例如,引用轨迹遵循对数正态分布)。然后,他们使用论文发表后前几年的主要引用来推断论文特定参数,以预测长期引用计数。机器学习方法已经通过递归神经网络(RNN)使用表示学习来自动从前导值中捕获复杂的引用模式,然后由另一个RNN作为解码器进行预测[1,47]。图1:学术论文累计引用超过50%的年份引文仅在出版后12年内统计。分布密度以蓝色显示。中位数显示为红色。删除零引用论文。左图:2000 - 2005年发表的351,926篇计算机科学论文(AMiner);右图:1995 - 2000年发表的71,142篇物理学论文(APS)这些方法的一个重要问题是,许多科学论文在出版后的最初几年内具有峰值影响力而此时尚未获得领先值例如,在计算机科学和物理学中,我们发现一半的被引用论文在出版后五年内积累了大部分引用次数(图1)。①的人。 在出版速度非常快的领域(例如,机器学习),在预测影响之前等待三到五年是不切实际的 在本文中,我们因此解决了一个新的挑战:生成引用时间序列的新出版的论文没有任何领先的价值。据我们所知,我们是第一个专注于从出版事件的时间预测引用时间序列的人。 虽然我们关注的是科学影响预测,但这种“冷启动”问题在许多时间序列预测中是常见的3159(TR)关键字包含作者撰写论文发布在VenueCitesWWW较早的结果比较晚的结果更关键的任务(例如,新网页的链接流,初创企业的收入流避免依赖领先值进行影响预测的一种方法是在领域专家阅读论文之前利用他们可见的线索 通过阅读标题,摘要和参考书目,研究人员可以确定论文是否是关于他们领域的热门话题。在作者列表中,他们可以识别出富有成效的实验室和声誉良好的研究人员。在有声望的场所发表的论文质量也可能更高 为了利用这些“元数据”进行长期引文预测,以前的研究[9,43,44,46]已经手动设计了复杂的功能。然而,特征工程是耗时的,不可转让的,很少完成。此外,这些方法很少使用编码在元数据之间的关系中的附加信息,或者它们的历史时间趋势。使用历史和关系上下文,领域专家不仅可以识别流行主题和著名作者,还可以识别趋势主题和“明日之星”研究人员。为了在阅读论文之前利用领域专家可用的所有预测性“提示”,我们在动态异构信息网络(DHIN)中对论文、作者、顶级IC和地点进行编码。DHIN不仅捕获论文的元数据,还捕获这些元数据与其历史趋势之间的 这些额外的信息使我们能够预测引用计数没有领先的价值观,使用我们提出的端到端的框架称为HINTS(异构信息网络时间序列)。HINTS由三个模块组成,将出版前的DHIN中的时间和关系信息转换为出版后的引文时间序列 在第一个模块中,我们使用一个时间对齐的GNN,它同时学习每年异构书目网络中所有节点的有效嵌入。由于静态GNN [14,17,25]不保留书目网络中节点的底层演化,因此我们应用平滑正则化器来跨时间戳对齐嵌入空间中节点的位置这种方法允许我们捕捉节点的时间趋势(例如,新星现象(Rising Star我们表明,这种对齐正则化可以很容易地集成到GNN模型中,并提高预测性能。 第二个模块是一个加权插补机制,用于估计一篇新论文在发表前几年的嵌入序列。通过聚合元数据的动态,这种估算近似了新论文在其发表前几年的时间轨迹。该学习的时间轨迹用作时间序列预测的“伪”前导值。 第三个模块是基于[38]的参数生成器,它对关于引用过程的先前假设进行编码,以预测长期引用时间序列。 使用RNN后跟全连接层,我们将输入的纸张嵌入轨迹转换为该生成器的参数。总之,HINTS将编码DHIN(模块1),在出版前合成领先值(模块2)和正式建模假设(模块3)的新方法结合到一个端到端框架中,可以预测从出版时间开始的引用时间序列。 我们注意到,这个框架一般可以适应其他“冷启动”的时间序列问题,事件发生前的时间和关系数据。经验上,我们将HINTS应用于计算机科学和物理学的两个真实世界的学术数据集,并进行了广泛的实验。的结果表明,HINTS实现了显着的和一致的改进相比,基线冷启动预测方法。对HINTS变体的消融研究也证明了我们提出的模型的每个组件的重要性我们的贡献可归纳如下:我们解决了一个新的,具有挑战性的“我们提出了一个新的框架,称为HINTS,将信号从DHIN到信号的引文时间序列生成。我们在两个来自不同领域的真实世界大规模书目数据集上进行了广泛的实验,以证明HINTS2问题陈述在这一节中,我们首先介绍了贯穿本文的必要定义. 然后,我们提出了一个新的论文引文时间序列预测问题的形式化定义。2.1预赛定义2.1. 异构信息网络。 异构信息网络(HIN)[32]定义为具有节点型映射函数φ:V → T和边型映射函数φ:E → R的图G =(V,E)。T和R表示所有预定义类型的节点和边,其中|不|+的|R|> 2.书目网络[5,30]是一种异构信息网络。 科学论文是中心节点,它们的元数据是邻居。在我们的例子中,一篇论文的元数据包括引用的论文、作者、关键词和地点。 给定这些类型化的组件,可以使用网络模式[31] G=在Meta级别抽象节点类型和边类型。我们的书目网络图如图所示二、图2:书目网络的模式节点包括论文、作者、关键词和发表地点,它们之间的四种关系是:论文-引用-论文、作者-撰写-论文、论文-包含-关键词和论文-发表地点。实际上,书目网络在不断发展。例如,新的论文将被发表,新的研究人员将加入社区,新的关键字将被创建。 这些新的实体将被添加到网络中,同时也带来新的优势。形式上,给定T个时间戳,我们定义一个动态异构信息网络如下。···HINTS:通过嵌入WWW'21的动态异构信息网络对新出版物的引用时间序列预测3160GGt=1t=1t=1i,tp−→pphi,t=σ|Wrhj,t +W0hi,t定义2.2. 动态异构信息网络。动态异构信息网络(DHIN)是一个序列参考书目。 有影响力的论文不是从零开始,而是站在巨人的肩膀上。[8]高影响力的HIN快照,表示为GtT={G1,G2,. . .,GT},其中论文是相关性和潜在影响的基线信号[35]。Gt =(Vt,Et)(1≤t≤T)t=1表示异构图时间线索。领域专家不仅依赖于内容快照及其对应节点集和边集。在我们的例子中,动态书目网络是一个DHIN,它由每个日历年中不断发展的书目网络因此,t是在t年的书目图快照,其节点和边类型在图1中描述二、2.2问题定义我们现在使用一个动态书目网络来形式化新的论文引用时间序列预测问题,网络模式如图所示二、 对于每一篇新论文p,我们将其在发表后L年内的引用计数表示为序列cp ={c1,. . . 、cl、. . . ,cl},其中cl表示引用计数pa。这不仅取决于扫描文件时元数据的准确性,还取决于对这些元数据的时间趋势的例如,一个“后起之秀”可能不仅有一个知名的顾问(关系上下文),而且随着他们发表更多有影响力的论文(时间上下文),他们的网络中心性会随着时间的推移而“健身” 虽然领域专家可以快速识别上述线索,但还有其他无形的因素可以预测引用,这些因素没有编码在元数据中,例如工作的严谨性或贡献的价值。例如,图卷积网络(GCN)论文[17]是一个里程碑,它允许深度学习在图中的新应用。 网络科学家使用“适应性”一词来概括这些潜在的无形资产。[15,38]HINTS的三个模块旨在自动检测这六种类型的信息,并利用它们进行引用啪啪啪啪在出版后的第l年将收到每份预测. 注意,前五个因子可以隐式编码在连接关键字、作者、地点和论文的DHIN中(即,新论文引文时间序列预测问题。给定一个动态的书目网络GtT−1和一个新的出版物,元数据)。2随着时间在第一个模块中,我们学习跨所有时间片的元数据低我们的目标是学习一个函数t=1,T−1f(·)同时。学习的嵌入自然捕捉主题,au-p,给定其由t1描述的上下文,到其在出版年T之后的未来L年的引用时间序列雷神的地位,地点地位书目,和他们的趋势。由于新论文的主要引用值不存在,因此HINTS中的第二个模块使用这些节点嵌入来估算. <$Gt<$T−1,p<$f(·). c1,. . . 、cl、. . . ,cL.(一)在论文发表前的几年,注p不在Gt<$T−1中,且在T之前没有引用。3拟议框架:提示在本节中,我们介绍我们提出的框架,HINTS。我们首先描述了为什么DHIN为论文引用预测提供关键信息背后的直觉 然后,我们分解了HINTS使用的三个模块,将信号从DHIN转化为引文时间序列的细节。HINTS的总体框架如图所示。3.3.1HINTS的动机尽管一些科学论文获得高影响力的原因很复杂,但领域专家和网络科学家可以识别出几种可以预测影响力的线索理想情况下,DHIN的表征学习应捕获以下预测引用的因素:话题 一篇论文更有可能被来自类似研究领域的读者引用。关于热门或趋势主题的论文通常会吸引更多的关注,从而获得更多的引用(例如,近年来的人工智能)。关键字可以作为主题的代理作者身份)比其他身份(例如,bibli-ography),我们的框架学习权重来执行这种平均。插补的嵌入轨迹对所有上述因素进行编码,并在发布之前用作伪主导值。在第三个模块中,我们将输入的嵌入转换为参数化引用生成器的参数。 这个模型改编自[38],编码了关于引用过程的先验知识,并捕获了无形因素(即,“适合度”)来预测出版后几年的引用计数。我们将在下面的小节中详细介绍这三个模块。3.2基于时间对齐GNN动态异构网络嵌入给定一个静态异构书目网络,已经提出了几种嵌入方法[5,7,13,25]不失一般性,我们采用关系图卷积网络(R-GCN)[25]将节点编码为低维向量。R-GCN学习一个关系感知函数,该函数根据相应的关系类型通过加权聚合其邻居来更新节点从形式上讲,如果有一个动态的书目-因为它们是作者精心挑选的,图形网络<$Gt<$T,每个Gt都可以看作是一个静态网络新纸。在时间t。 设hi(k)∈ Rd(k)是节点i在作者状态。读者更倾向于搜索知名作者的论文、知名作者的粉丝或后起之秀的k得双曲余切值.-th层,时间t,其中d(k)表示第k个因为他们的工作质量很高层,它将通过R-GCN更新为:场馆状态。 由于同行评议,读者更有可能(k+1). . .1r∈Rj ∈Nrri,|N(k)(k)(k)(k)它因为一些因素(例如,认为在其领域内有声望的地方发表的论文质量更高、(二)WWW宋江,伯纳德·科赫,孙一舟3161∈ R,t+1∈ RG--t,t+1|Vt +1|我2动态异构书目网络学者实体的时间嵌入一篇新论文及其元数据新纸的插补嵌入轨迹年份:T-uv,T−ua,T−up1,T−3+GRUMLPT−3vp,T−3UT−3发生器#引文年份:T-uk1,T−2uMLPV,T−2时间对齐GNNua,T−2+GRUup1,T−2vp,T−2IpUT−2T−2MLP年份:T-uk2,T−年uk1,T−uv,T−+GRUT−ua,T−up1,T−vp,T−up2,T−发表于T年的新论文会场作者参考UT−1动态异构信息网络嵌入加权嵌入插补时间序列发生器CP图3:HINTS的整体架构对于T年发表的新论文,HINTS首先学习T年之前存在的动态异构书目网络中每个元数据邻居的时间对齐嵌入(本例中为通过计算邻居嵌入的加权平均值,为新论文(紫色节点)构建估算的嵌入轨迹请注意,某些元数据节点可能不存在于所有先前的时间步中。(例如,一年前才提出的新关键词在通过RNN进行时间编码之后,估算的嵌入轨迹被转换为三个可解释的参数,HINTS基于这些参数生成新论文其中,R表示图1中的预定义类型的边/关系的集合其中ui,t表示实体i书目网络,而Nr表示的邻居的集合Gt的节点集经过多层R-GCN操作(我们使用i,t(k)(k)实际上是2层),Gt的最终嵌入矩阵表示为节点i在时间t处在关系r下。Wr和W0是第k层的权矩阵,σ是一个非线性活性函数。时间对齐图神经网络。R-GCN在许多与图形相关的任务中表现出卓越的性能,但将其扩展到动态设置仍然具有挑战性。HINTS的一个重要贡献是一种在时间上对齐图神经网络的方法由于每个单独的书目网络描述了相应年份研究社区的快照,因此我们首先每年应用R-GCN对每个书目网络分别进行编码。为了确保每年它们是可比较的),我们使变换权重矩阵Wr(k)和W0(k)在不同的时间戳上共享。第二,不像一般的动态网络,其中的字符是-节点的TICS可能快速改变(例如, 在线社交网络或蛋白质-蛋白质相互作用网络),但是动态书目信息网络中的大多数实体在短时间帧内不会改变太多。例如,研究人员 受这一观察的启发,我们通过引入时间平滑正则化子Lttt时间,迫使同一实体在附近年份的嵌入彼此接近:作为UtNt×D,其中Nt是t中的节点数,D是嵌入的维数请注意,虽然我们在这里使用R-GCN,但我们的HINTS框架可以容纳许多图神经网络,例如, GCN [17],GAT [36],HAN[41].3.3加权嵌入插补为了预测一篇新发表的论文在发表时的长期影响,我们需要在发表前几年对其进行明确的表示(即,伪前导值)。 虽然一篇论文是新的,但它所链接的元数据可能已经存在于前几年的书目网络中。例如,一篇论文通常是在一个有着长期记录的地方发表的,由几位以前发表过的合著者发表,并且关键词存在了很长一段时间。使用时间对齐的GNN,我们已经学习了每个元数据节点的矢量化表示,该元数据节点编码其历史趋势和与其他节点的关系。假设一个元数据节点i出现在第t年,我们已经知道了它的所有em-t之后的beddings,其是表示为ui,t,ui,t +1,. . . ,ui,T.该序列可以被认为是元数据i在嵌入空间中跨时间的演化轨迹有了上述两个前提,我们可以利用嵌入新论文的元数据邻居的序列L时间=1.ui,t−ui,t +1 <$2,(3)VV嵌入序列,近似于它的轨迹,∈t<$t+1在出版之前一种估算这种嵌入的选择是,HINTS:通过嵌入WWW'21的动态异构信息网络对新出版物的引用时间序列预测3162{}−.Σ.Σpp.,t+1pσp、m∈Mi∈Nm、p,t神经网络(RNN)与GRU [6]来模拟新论文的时间轨迹,然后三个完全连接的C1,...,Cl,.,CLppppc 1,.,cl,.,cL网络信号编码在新论文的估算Vp中ppp=P(log(cp)− log(cp)),(8)ep,t直接使用等式中定义的相同R-GCN算子二、然而,由于额外的变换,该运算符将导致在不同空间中的嵌入。或者,受[ 5 ]中方法的启发,我们通过将其元数据的嵌入与类型感知的可训练权重聚合来估算新论文的嵌入序列,以保持不同类型元数据的不平等贡献。形式上,对于新的论文p,给定其在时间t的元数据集合Np,t和元数据类型集合M,其估算表示vp,t,时间t将从下式导出在[38]之后,为每篇新论文包含的平均参考文献请注意,α是一个全局参数,在模型训练过程中将被固定。由方程式6、对每篇新论文估计ηp、µp和σp三个参数,生成其引文时间序列。[38]第一次,他是在一年 10年)的领先引用值来推断参数,我们通过转换DHIN中编码的信号来学习这三个参数,出版物具体地,插补嵌入序列Vp为:vp t=. .wmui t/|Nm|.(四)首先通过递归的时间编码成单个向量Ip,应用Eq. 在每个时间戳中,我们可以构造一个估算的嵌入序列Vp=Vp,t,Vp,t+1,.,对于新论文p,vp,T1,其中t是观察到p的元数据的第一年Wm是元数据类型m的权重,其将在训练阶段学习。 通过整合其元数据的时间趋势,这种估算的嵌入序列可以很好地代表论文发表前的假设趋势。3.4时间序列生成器Ip分别转化为三个参数。(见图)第三章值得注意的是,与简单的编码器-解码器方法相比,我们的时间序列生成器有三个主要优点:(1)它可以以灵活的方式生成引文时间序列预测,即,为l分配一个时间长度,(2)它利用了关于引用模式的先前知识来实现更好的性能,以及(3)这三个参数是合理可解释的。我们在SEC中详细介绍了这一点。四、在积累L年后,新论文p的引用计数与基于纸张Vp的嵌入序列,我们预测通过学习函数<$(·):Vp→cl,在每一年的引用计数,并建立预测长期引文时间序列一个简单的解决方案是直接然后用均方误差损失函数与地面实况进行比较损失函数定义如下:利用编码器-解码器模式(例如,seq2seq [33])。这种方法1.P 1.一、Ll2p=1l=1 L预定义长度的离散序列。此外,科学出版物的引用时间序列已经成功地在一些最小的假设下建模[29,38]。然而,这种解决方案未能在预测中利用这一重要的先验知识。直觉上,一篇论文因此,在[38]之后,我们将新论文其中cl是论文p在发表后第l年的地面实况引用计数,P是论文总数 接下来[2,19],我们使用引用计数的对数标度来平滑每篇论文对总损失的贡献,而不管其引用水平如何。请注意,许多论文实际上不会收到任何引用,因此我们在进行对数转换之前添加1个计数作为伪引用值。3.5目的1Pp(l)=l<$2πσexp−(lnl−µp)22σ2、(五)通过将引用时间序列生成器目标和上述时间对齐正则化器放在一起,HINTS正则化器的总体目标函数被定义为:其中μp描述了论文p达到引用峰值的时间戳,σp表示论文p的引用衰减率此外,正如在3.1中所讨论的,“=L普雷斯雷德T−1+βt=1我没时间了。(九)因此,另一个参数η p被用来对其进行因此,引用计数与ηp呈正相关。在ηp上积分,预测的累积引用计数C=1,对于对齐正则化器,与[10]中描述的按时间顺序更新嵌入的方法相反,我们在所有时间戳上同时对齐嵌入,使得p可以通过以下方式生成论文p在发表后第l年的最终对齐嵌入Ut保留了之前的所有嵌入,而不是仅保留Ut−1。超参数β(β>0)用于控制其中Φ(x)是C=α. 2019- 04 -2500:00:00lnl−µp))−1](6)对齐的程度HINTS中的所有参数都通过优化该目标来更新。4实验Φ(x)=(2π)X−y2/2−∞dy.(七)在本节中,我们评估HINTS我们描述了我们的实验设置pΣ1/ 2当量6,我们将累积引用计数引文时间序列. 这个预测的序列有两个主要的局限性。 首先,它不能生成灵活的长期引用预测。一旦学会,解码器只能产生LWWW宋江,伯纳德·科赫,孙一舟3163雄性(c,c)=P|.|.(十)RMSLE(c,c)=(log(cp)− log(cp))。(十一)然后将结果与基线进行比较我们还打破了消融研究和解释分析的框架,以了解HINTS是如何工作的。4.1实验装置数据集。 我们使用两个不同领域的公开书目数据集进行分析:AMiner [34]计算机科学数据集1和美国物理学会(APS)物理数据集2。AMiner涵盖了主要计算机科学场所的论文我们使用2000-2009年的数据建立模型,并使用2010-2015年的数据进行评估。APS数据集涵盖APS物理学期刊上的出版物同样,我们使用1995-2004年进行培训,2005-2010年进行测试。累积引用计数的分布(论文数量与引文计数)的论文在测试集显示在图。四、 我们注意到,大量的论文很少直接使用发表年份DHIN快照中一篇新论文的自我网络作为初始级联图。HINTS-GCN:HINTS的变体,使用同质GCN[17]代替R-GCN。HINTS-Seq:HINTS的一种变体,用seq 2seq [33]取代引文生成器模块,直接将输入的嵌入序列转换为离散的引文序列。提示:我们提出的框架,其三个模块在第二节中描述。3.评价在[2,19]之后,我们使用两个对数尺度度量来比较不同的模型:平均绝对对数标度误差(雄性)在出版后引用,所以我们采取下采样来平衡L1.Plli=1AMinerAPS均方根对数标度误差(RMSLE),L巴尔河,1.Pll2P i=1其中cl和cL是地面实况和预测引用计数p p引用次数引用次数分别为发表后第l年的论文数p,P为论文总数正如在SEC中所讨论的那样3.4,我们使用对数转换,因为引用计数变化很大。图4:2010年内累计引用数的分布2010年(AMiner)和2005年(APS)发表的论文发表后5年。我们用图1所示的网络模式为这两个数据集构建了异构书目网络的年度快照二、由于原始APS数据集中没有明确提供关键词,因此我们使用[26]中提出的方法通过组合从每篇论文标题中提取的单字和关键短语来生成它们。基线。 由于“冷启动”引文时间序列预测是一个新问题,据我们所知,没有确切的基线进行比较。许多最先进的时间序列模型(例如,[22,23,39,49])不适用于出版后立即进行预测,因为它们需要前导值。相反,我们将HINTS与合理的替代方案进行比较。 我们考虑三种类型的基线:1)使用手动构建的特征的模型2)设计用于预测信息级联的模型(引用可以被解释为信息级联),以及3)HINTS的两种变体。我们考虑的具体方法是:梯度提升机(GBM):我们提取由[3,44]设计的科学特征,除了那些在我们的问题设置或数据中不可用的特征,例如,“第一年引文”,h索引。然后我们使用它们来预测XG- Boost [4]的时间序列。DeepCas[19]:基于信息级联图中的随机游走进行流行度预测的最先进的深度学习模型。由于1https://aminer.org/citation2https://journals.aps.org/datasets实施细节。 我们使用Tensor-flow 1. 14实现了HINTS. 对于DHIN嵌入模块,我们使用两层GNN,分别为64和128节点(对于R-GCN和GCN变体 在GNN层中,节点特征根据节点类型在四个不同的范围内随机初始化。HINT的RNN时间编码器的隐藏维度设置为50。最后,三个全连接层的隐藏维度分别为20、8和1。对于HINTS-Seq,我们还使用GRU [6]作为RNN解码器。取向系数β设定为0.5。对于训练超参数,我们将两个数据集的学习率设置为0.01我们为AMiner训练了700个epoch,批量为3000篇论文,为APS训练了500个epoch,批量为1200篇论文我们随机初始化所有参数,并使用Adam [16]进行优化。每个实验我们都做三次,并报告平均值。 所有的实验都是在一台配备4核i7- 5860 kCPU、40 G内存和两个Nvidia Titan X GPU的台式机上进行的。使用上述设置,AMiner的总运行时间(不包括数据预处理)约为 24 分 钟 , APS约 为 10 分 钟 。 我 们 的数 据 和 代 码 可 在www.example.com上获得https://github.com/songjiang0909/HINTS_code。4.2数值比较结果在这一部分中,我们深入地研究了HINTS的性能。 我们将HINTS与基线进行比较,对HINTS的组成部分和目标进行消融研究,并分析HINTS预测低引用和高引用论文轨迹的能力差异。与基线比较表. 1显示了所有模型前五年的预测误差。一般来说,HINTS在几乎每个时间步长都超过了我们提出的基线。在AMiner上,论文数量论文数量····模型训练中的高被引论文和低被引论文·HINTS:通过嵌入WWW'21的动态异构信息网络对新出版物的引用时间序列预测3164数据集模型男性RMSLE真相普雷迪·格伦真相普雷迪·格伦.t=1t,t+1表1:AMiner和APS数据集的有效性实验结果第1年第2年3年4年5年整体第1年第2年3年4年5年整体GBM0.6730.9711.0691.3831.3321.0850.7531.1081.2831.6241.6851.291DeepCas1.0031.1031.0680.9871.0251.0371.1191.3251.3661.3301.3461.321AMinerHINTS-GCN0.8240.9040.9190.9581.0190.9250.9361.1191.1521.1761.1961.116HINTS序列1.1390.9530.9690.9800.9921.0111.3751.1641.2061.2161.2231.237提示0.7830.8660.8790.8770.8650.8540.9761.1101.1461.1551.1541.111GBM0.9520.9680.9720.9821.1030.9951.1511.1681.1891.2141.3551.215DeepCas0.9930.9980.9660.9310.8860.9551.1981.2211.1951.1601.1141.178APSHINTS-GCN0.9490.9500.9390.9170.9060.9321.1531.1661.1601.1331.1241.147HINTS序列1.2630.9510.9590.9690.9751.0231.3971.2191.1991.1931.1191.225提示0.9340.9360.9230.9030.8750.9141.1351.1511.1421.1271.1021.132HINTS在男性和RMSLE方面分别比最佳基线DeepCas高出17.6%和15.8%。 这些数字在APS上分别为4.3%和3.9%。 我们推测DeepCas可能会在“冷启动”设置中受到影响,其中初始书目级联图非常小。GBM(特别是在AMiner上)在早期的强劲表现是由于过度拟合了大多数不接受引用的论文。然而,GBM性能随时间急剧下降。相比之下,HINTS实际上随着时间的推移获得了更好的分数,这表明了利用参数假设进行长期引文预测的重要性。HINTS组件的消融研究我们进一步比较并在图中报告平均结果五、AMiner和APS数据集的最佳β s分别为0.6和0.2。 虽然这两个数据集在不同程度上依赖于对齐正则化,但这些结果表明正则化通过学习DHIN的更准确嵌入来提高两个数据集(特别是APS)的性能。我们还注意到,当β>0.7时,性能开始下降这是因为较大的β迫使跨年份的嵌入过于相似。实际上,一个极端的情况是当β足够大时,嵌入随时间的变化将受到几乎相同的限制,这使得嵌入不再合理。HINTS与两个变量,以评估每个模块的有效性首先,我们发现HINTS始终优于HINTS-Seq变体(表1)。1),再次表明补充上下文嵌入与领域知识编码在正式模型的价值。其次,虽然HINTS-GCN优于HINTS-Seq,但HINTS-GCN和HINTS之间的性能仍然存在不小的差距。这一结果强调了建模元数据之间的异质关系对引文预测的实用性。3第1- 10百分位数2101 2 3 45出版后一年第45- 55百分位数32101 2 3 45出版后一年第90- 99百分位数32101 2 3 4 5出版后一年1.31.21.11.0不同对齐系数下两个数据集的RMSLE0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.80.9图6:2010年发表的AMiner论文的预测引文与真实引文,按对数尺度累积引文计数分层实心形状表示平均值,带状覆盖95%的数据。从左起:1- 10百分位数的论文,45- 55百分位数的论文,前90 - 99百分位数的论文。对纸张影响的敏感性科学论文被引用的次数差别很大。评估HINTS图5:AMiner和APS数据集上五年的平均RMSLE,具有10个不同的对齐系数。对线消融研究HINTS的学习目标平衡了引用预测和嵌入的时间对齐。测量对齐正则化函数的影响(T-1L时间),我们进行另一个烧蚀实验,为了准确地预测不同影响力的论文的引用,我们根据其发表后五年的真实对数尺度累积引用计数将AMiner论文分为三类:低引用论文(底部十分位数),中等引用论文(45- 55百分位数)和高引用论文(90- 99百分位数)。图6示出了这些组中的每个组内的所有论文的平均预测时间序列与其对应的平均地面实况轨迹的比较。HINTS似乎过度预测了低引用论文,10种不同的取向系数β,范围从0到0.9。我们在AMiner和APS数据集的测试集上比较了五年的平均RMSLE我们还运行了三次HINTS时间这可能是因为我们的参数生成器旨在对引用论文的轨迹进行建模,而其中许多论文没有被引用。在今后的工作中,这一问题可通过AMIAPSner预测GroundTruthRMSLE日志(引文数量)日志(引文数量)日志(引文数量)WWW宋江,伯纳德·科赫,孙一舟3165零通货膨胀参数。然而,HINTS表现出显着的高被引论文和中等被引论文显示出可容忍的误差。 在高影响力论文上的强劲表现表明,HINTS可能有助于科学家和资助者在科学文献中发现“隐藏的宝石”。4.3HINTS如何工作在这一部分中,我们进行了一系列详细的分析,以更好地了解HINTS的性能 我们首先比较算法如何在不同的字段中使用元数据。接下来,我们通过可视化来探索估算的嵌入和学习的引用时间序列参数。元数据类型在估算中的重要性并不是所有的Meta数据都包含相同的引用预测信息. 为了理解HINTS如何使用不同类型的元数据,我们使用softmax函数对学习的插补权重进行归一化(表1)。2)。不出所料,我们发现每个参考文献贡献的信息相对较少,而作者,地点和关键字是计算机科学和物理学中引用时间序列的更重要预测因素。然而,这三个因素在CS中扮演的角色与物理学不同。 这种区别可能反映了这两个社区运作方式的差异(例如, 也许物理学界更倾向于在顶级期刊上发表论文)。表2:用于估算的元数据的学习权重领域参考作者会场关键词AMiner(CS)0.1810.2430.2810.295APS(物理学)0.1910.2600.3120.237插补嵌入的可视化 为了证实我们的估算,时间编码嵌入有助于预测,我们从AMiner的4.2中描述的每个层中随机抽取了1000篇论文,即,1- 10百分位数、45 - 55百分位数和90- 99百分位数(共3000篇论文)。我们使用t-SNE [21]将嵌入投影到二维空间中(图1)。7)。每一点代表一篇论文,并以其发表后5年的累积引用计数为对数标度。嵌入清楚地捕获了关于累积引用计数的信息,如从蓝色点(左上)到红色点(右下)的梯度所证明的。然而,梯度并不完美;与图一致。6、最后10%的论文广泛分散,有些与前10%混杂在一起。 这种重叠表明,具有相同元数据的两篇论文仍然可以由于质量或机会偏好附件的差异而具有截然不同的结果。虽然元数据对引用有很强的预测性,但它们不能捕捉到对新论文引用有贡献的所有内容。时间序列发生器中参数的解释根据[38]中的参数进行修改,我们期望我们的三个引用参数“适应性”η,“峰值时间”µ和“衰减率”σ在第12节中描述。3.4捕捉引用过程的不同方面值得注意的是,图。图8显示了“适合度”η和累积引用计数之间的强相关性此外,高被引论文潜在维度1图7:来自AMiner样本的插补嵌入的2D t-SNE投影嵌入颜色是由对数尺度五年累计引用计数编码:蓝色表示较低的引用,而红色表示较高。较大的σ,表明由于优先附着,它们的存活时间较长这些参数的可解释性加强了我们从HINTS-Seq消融分析中得出的结论:识别特定领域的知识对于准确的时间序列预测至关重要。图8:AMiner论文与引用函数参数η,µ,σ的关系论文以五年累计引用次数的对数标度着色:蓝色表示引用次数较低,红色表示引用次数较高。5相关工作我们回顾了三条相关的工作:引文时间序列预测,学术推荐系统,异构信息网络嵌入。潜在维度2HINTS:通过嵌入WWW'21的动态异构信息网络对新出版物的引用时间序列预测31665.1引文时间序列预测引文时间序列捕捉科学出版物的影响力或受欢迎程度随时间的变化。大多数现有的方法集中于从论文发表后的早期领先引用值中提取引用模式。方法分为两类。 参数方法对论文的引用模式做出明确的假设[ 15,20,27,38,42 ]。例如,我们建立在由Wang等人提出的对数正态强度函数上。来模拟每篇论文的引用模式。在随后的工作中,Liu et al. 通过提出一个具有时间意识的术语来捕捉引文时间序列中的“近因效应”。第二组论文在有限的特定领域假设下对领先的引用值进行机器学习[1,47]。与HINTS不同的是,所有这些方法都依赖于领先的引用值,而这对于新论文来说是不可用的。为了对新论文进行建模已经提出了几种特征工程技术[3,9,43,44,46]例如,Dong等人建议使用以下特征来表示论文:作者,主题,参考文献,地点,社交网络和时间属性。然而,特征工程需要大量的人力劳动,并且可能会丢弃有用的信息。与这些方法相比,HINTS自动编码的时间和关系线索从一个文件的元数据的上下文中的DHIN时间序列预测。据我们所知,这是第一个将动态网络信号转换为引文时间序列的工作。5.2学术推荐系统与我们的工作密切相关的另一项研究是基于图的论文推荐,其目的是检索与读者查询最相关的与引文预测类似,这些方法试图评估论文的重要性和流行趋势,以提供有用的建议。受网页搜索的启发,[24,37,45]在引文网络上进行PageRank,并引入时间感知正则化器来减少原始PageRank对最近出版物的近因偏差。为了对边的时间顺序进行建模,[12,18]提出了时间感知的中心性度量来捕捉引文网络的动态性质然而,这些工作没有考虑元数据之间的异构 与我们相似,Wang et al. [40]使用动态异质信息网络来使用强化学习范例学习论文的“显著性”。 他们发现引用动量(即,优先附件)比静态元数据对引用的贡献更大。HINTS在两个方面与这些作品不同首先,我们不仅关注识别相似和/或高影响力的论文,而且还预测它们未来的引用。第二,推荐系统可用的出版后时间动态(例如,引文动量[4
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功