没有合适的资源?快使用搜索试试~ 我知道了~
作者识别问题的骆驼模型:内容感知和元路径增强度量学习
首页>外文书>人文>心理励志> User Modeling,WWW 2018,2018年4月23日至27日,法709Camel:用于作者识别的内容感知和元路径增强度量学习美国圣母大学czhang11@nd.eduChao Huang圣母大学Notre Dame,IN46556,USAchuang7@nd.edu陆羽阿卜杜拉国王科技大学Thuwal,23955,SAlu. kaust.edu.sa摘要张相良阿卜杜拉国王科技大学Thuwal,23955,SAxiangliang. kaust.edu.saNitesh V.ChawlaUniversity ofNotre DameNotreDame,IN 46556,USAnchawla@nd.eduACM参考格式:本文研究了大学术数据中的作者识别问题,即利用历史数据对每篇匿名论文的潜在作者进行有效的排序。现有的大多数去匿名化方法通过特征工程来预测论文-作者对的相关性得分,这不仅耗时和存储消耗,而且引入不相关和冗余特征或错过重要属性。表示学习可以通过学习学术网络中的节点嵌入来推断论文-作者对的相关性,从而自动化特征生成过程。然而,所学习的嵌入通常用于通用目的(与特定任务无关),或者仅基于网络结构(不考虑节点内容)。 为了解决这些问题,并在解决作者识别问题上取得进一步进展,我们提出了骆驼,内容感知和元路径增强度量学习模型。具体而言,首先,直接相关的论文作者对建模的基础上的距离度量学习,通过引入一个推损失函数。接下来,由门控递归神经网络编码的纸张内容嵌入被集成到距离损失中。此外,论文的历史书目数据被用来构建一个学术异构网络,其中元路径引导行走整合学习模块的任务依赖和内容感知的Skipgram模型的基础上,设计来制定每篇论文之间的相关性和它的间接作者邻居,并进一步增强模型。大量的实验表明,骆驼优于国家的最先进的基线。 它实现了6.3%的最佳基线方法的平均改善。关键词作者识别;异构网络;表示学习;度量学习;深度学习本文在知识共享署名4.0国际(CC BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW 2018,2018年4月23日©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186152Chuxu Zhang,Chao Huang,Lu Yu,Xiangliang Zhang,and Nitesh V.乔 拉 2018. Camel: Content-Aware and Meta-Path Augmented MetricLearningfor Author Identification。 在WWW 2018:2018年网络会议,2018年4月23日至27日,里昂,法国。ACM,New York,NY,USA,10页。网址://doi. 沪ICP备11011450号-11引言随着Google Scholar、Microsoft Academic和AMiner等各种在线服务收集的学术数据的快速增长,大学术数据挖掘问题在过去十年中得到了很多关注典型的例子包括科学影响建模和预测[4,23,24,31],学术异构网络分析[12,25,26],个性化推荐[8,17,21]。在本文中,我们考虑了大学术数据中每篇匿名论文的作者识别问题,该问题在[9]中提出并进行了简要研究,并在最近的作品中得到了进一步研究[1,19]。具体地,如图1所示,给定具有内容/属性(例如,摘要),我们想设计一个机器学习模型,通过使用历史数据来预测本文的潜在作者。问题的解决给学术界带来了广泛的影响。 让我们以许多会议中的双盲审查过程为例(例如,WWW2018)作为一个例子。虽然在双盲评审过程,论文的作者对审稿人是不可见的,但有时仍然可以通过论文内容来揭示 因此,我们的工作可以作为一个研究,帮助现有的审查系统,以回答这个问题,是否双盲审查过程是真正有效的[1,29]。此外,所提出的模型可以为每个查询论文推断潜在的作者,这对于一般的信息检索或推荐系统设计(例如审稿人推荐)可能是有用的[16,30]。为了解决作者识别问题,监督学习模型已被应用于预测论文和作者之间的相关性,例如2013年KDD杯作者-论文对识别挑战赛的顶级解决方案[5,15,35]中使用的模型和[ 19 ]中的多模态方法。然而,这些方法严重依赖于耗时和存储密集的特征工程,这可能会提取不相关和冗余的特征或错过重要的特征。在过去的几年里,许多网络首页>外文书>人文>心理励志> User Modeling,WWW 2018,2018年4月23日至27日,法710∈∈∈∈联系我们∈→→学习模型潜在的作者历史数据图1:作者识别问题的图示嵌入模型[3,6,20,27]已经被提出来自动化-PA)(APVPA)其可以进一步用于各种学术挖掘任务,例如论文作者相关性推断和类似作者/地点搜索。虽然节点之间的接近度由密集向量保持,但是这些方法学习独立于任务并且不适合于特定问题的通用嵌入。为了解决这个缺点,Chen et al.提出了HetNetE [1],一种任务引导的异构网络嵌入模型,其性能优于现有的基线。然而,HetNetE主要使用网络结构,忽略了论文的语义内容. 此外,它还搜索各种节点(如论文,参考文献和场地)之间的相关性进行优化。为了解决上述问题,并进一步解决作者识别问题,我们开发了Camel,一个内容和元路径的增广度量学习模型。首先,我们通过以下方式对直接论文-作者关系的历史数据进行图2:(a)学术异构网络和(b)元路径方案的图示。定义2.1. 异构网络(HetNet)[26]被定义为具有多种类型的节点V和链路E的网络G=(V,E,OV,RE)。OV和RE表示对象和关系类型的集合每个节点v∈V和每个链路e∈E与节点类型映射函数ψv:V→OV和链路类型映射函数ψe:E→RE相关联。大学术数据中的学术网络可以被视为HetNet,如图2(a)所示网络中的节点类型集合OV包括组织(O)、作者(A)、论文(P)和地点(V),并且链接类型集合RE包括作者-写-论文、作者-附属-组织、论文-引用-论文、论文-发表-地点。定义2.2. (元路径)G =(V,E,OV,RE)中的元路径[ 25 ]根据特定任务的距离度量学习。接下来,我们引入门控递归单元来编码纸张内容和以o 1的形式定义R1 O2R2 · ·· ·rm→−1om,其中reoi∈OV,将语义嵌入集成到度量学习模型中此外,我们利用论文的历史书目数据来构建学术异构网络,其中我们进一步设计了一个学习模块来增强模型。增强模块采用元路径行走来捕获每篇论文与其间接作者邻居之间的相关性,并通过任务相关和内容感知的Skipgram模型进一步最后,基于采样的小批量梯度下降算法的设计,推断模型参数。总而言之,我们工作的主要贡献是:我们开发了一个模型,即,骆驼,解决作者身份识别问题。Camel对基于内容编码器的距离度量学习和基于Skipgram模型的Meta路径行走综合学习进行了联合优化。针对Camel算法设计了相应的优化策略和训练算法。学习的模型仅需要部分内容(即,摘要)作为输入,并有效地预测大学术数据中每篇新论文的作者。我们进行了广泛的评估和分析实验,以显示骆驼的有效性,众所周知的AMiner数据集。 结果表明,我们的方法优于一些基线方法,并实现了6.3%的平均改善超过最佳基线。2问题定义在本节中,我们首先介绍了异构网络和元路径的概念,然后正式定义了大学术数据中的作者识别问题。ri∈RE且r=r1*r2···*rm−1r表示关系类型r1和rm−1之间的互补关系。例如,在图2(b)中,从HetNet提取的元路径定义2.3. (作者识别问题)给定在时间戳T之前发表的一组先前论文IT<,伴随有书目信息(即,作者、摘要内容、参考文献和地点),任务是针对每个新的匿名论文V IT(IT:在T中或之后发表的论文的集合)对所有潜在作者uU(U:所有作者的集合)进行排名,使得其排名靠前的作者是V的真实作者。3该模型我们提出了内容感知的度量学习模型来解决这个问题,并使用历史书目数据来构建HetNet,用于对元路径行走捕获的多个间接论文作者关系进行建模,这有利于并增强了模型。3.1基于门控递归神经网络的度量学习我们通过内容编码器f将每个论文v/外文书>人文>心理励志> User Modeling,WWW 2018,2018年4月23日至27日,法711年q3◦∈LL∈≥L|∈i(vt+1,vt)gEP--Pi,这保证了1训练前训练后其中σ是S形函数,A和B是GRU网络的参数矩阵,算子表示逐元素乘法,Zt和Rt分别是更新门向量和重置门向量。GRU网络将词嵌入编码为深度语义嵌入hRtmax×d,通过均值池层将其连接起来,以获得每篇论文的一般语义嵌入所有这些步骤构成纸内容编码器f。我们还探索了其他编码架构,如LSTM,并获得了类似的结果,如第4.3.2节中的讨论。根据Metric,每篇论文的目标邻居是其真正的作者,并且该模型包含了文件通过GRU基于内容编码器。 为了推断模型的参数,我们可以通过梯度下降方法最小化Metric。对于给定论文的真正作者,损失函数的梯度将他们向内拉,以创建更小的半径。对于伪作者,梯度会将他们向外推,直到他们超出周界一个安全裕度。图3(b)中示出了这种过程的图示 此后,可以利用用于推断每个未来论文的语义嵌入的学习编码器f和优化的作者潜在特征来根据相关性得分(例如,嵌入的内积)之间图3:(a)基于门控递归神经网络的论文内容编码器和(b)用于作者识别的度量学习过程的图示过渡性质比内积,如CML [11]所示,我们引入以下推损失函数来公式化论文及作者 学习模型只需要目标论文的摘要内容作为预测的输入,因为f和作者潜在特征通过使用历史训练数据进行优化。3.2基于元路径行走集成学习的模型扩充三重关系(v,u,u′):Σ在第3.1节中,LMetric本质上是对直接三重关系进行建模,L公制= . . .ξ+dist(v,u)2−dist(v,u′)2(一)也就是说,(v,u,u′)- (paper-true author-false author),对于每篇论文v∈其中Lvv∈ITu∈lvu′glv表示论文v的真实作者的集合,{x}++=max(x,0)外文书>人文>心理励志> User Modeling,WWW 2018,2018年4月23日至27日,法712| PP PP.PLL LMW I LPP..Pi=1P..K..图4. 在这个图中,我们走W≡···→A→P转MW IL+γ。.+logσf(pv)qu′.Σ.....(七)其中σ是sigmoid函数,u′是负作者节点从预定义的噪声分布PP(u′)[18]中采样是阴性样本的数量在我们的例子中,k的影响很小对所提出模型的性能进行了因此我们选择k=1,logp(uv,)退化为分类的交叉熵损失pair(u,u′) forv:-log p(u|v,P)=−log σ。f(pv)qu.−log σ。−f(pv)qu′。(八)图4:联合表征学习模型的图示,其中度量学习用于制定直接论文-作者关系,元路径行走综合学习用于建模间接论文-作者相关性。论文与作者之间既有直接的关联关系,又有间接的传递关系。P,如图所示O12也就是说,对于论文v的每一个在walkw内的正作者u,我们根据P(u′)从C中抽取一个负作者u′。与metapath2vec [3]的目标函数相比有三个主要区别:它强制任务相关的平滑度约束之间的纸张和其间接相关的作者邻居,但不是在所有类型的邻居对一般用途。将用于预测周围上下文的似然概率退化为对每篇论文的正/负作者进行分类的交叉熵损失·A3→P 4→A 4→· · ·Σ由P ≡引导写一→P写-1→A变成模特作为一个例子。除了直接的论文作者联系,例如,A1写P2或A4写P4,wo也捕获间接关系。例如,A1可以关注P4,因为她/他在P2上与A3协作。因此,多个有用的间接关系之间3.3联合模型推断联合模型的目标函数被定义为LMetric和LMPWIL的组合:如果我们生成大量的遍历,则会推断出论文和作者由不同的元路径方案引导,并收集每个遍历内的每个论文节点的周围作者上下文L接头=L公制 +γP∈S(P)LMPWIL+λLreд(9)3.2.2作为任务相关和内容感知Skipgram模型的平滑度约束。 为了在每次行走中制定间接的论文作者关系并强制相应的表示平滑度,我们基于Skipgram模型[18]设计了一个元路径引导的行走集成学习模块(MWIL),该模块已被广泛采用在最近的作品[3,6,20,34]中用于网络上的表示学习。具体来说,给定一组收集的其中S()表示所有元路径方案,re()是正则化。参数λ控制正则化的惩罚,γ是度量和P之间的折衷因子。我们将包括纸张内容编码器的GRU网络系数和作者潜在特征的所有模型参数表示为Θ。设TMet ric和TMPWIL分别是L M et ric中的(v,u,u ′)三元组和L M P W I L中的(v,u,u′)三元组的集合. 结果我们可以将L接头改写为:在元路径的引导下行走W,用于预测论文v的间接相关作者u的损失被定义为:L接头=.Σξ+||2−||2Σ||f(pv)−qu′||2Σ∈LP=−。 . .logp(u|v,P)P(v,u,u′)T度量.Σuglv其中τ是周围上下文的窗口大小,并且Iv指示v在行走w中的位置。概率P(u)的可能性|V,P)是P ∈S(P)(v,u,u′)∈TMPWIL+λθ2(十)定义为内容感知Softmax函数:为了最小化LJoint,我们设计了一个基于抽样的小批量亚当算法p(u|v,P)=.exp f(pv)qu.(六)优化器[13]。学习算法的伪代码是summa-在算法1中被激活。该模型进行联合优化-其中f是在3.1节中定义的内容编码器,C表示语料库W中的所有作者的集合。为了训练Skipgram模型,我们应用流行的负采样方法[18]来近似难以处理的归一化:logp(u|v,P)≈logσf(pv)qu+。Eu′PP(u′).logσ−f(pv)qu′Σ综合性学习,因此我们称之为内容-4实验在本节中,我们进行了广泛的评估和分析实验,以比较Camel与各种基线。还提供了案例研究,以显示不同的方法的性能差异。......组织作者1纸P1P会场一1一1OO2O3A1A2一个3一个2P3P4P5V1元路径走V2V3P1V1 ......这是什么?P4P2A3P4一个4...直接三元关系(P1,A1,A3)(P2,A3,A2,)(P3,A2,A4)...··LMW IL更重要的是,论文表示由GRU内容编码器f进行编码w∈Wv∈wu∈w[Iv−τ:Iv+τ](五)--对数σf(pv)qu–u′∈CPexp基于度量学习和元路径行走的内容编码器的构造+首页>外文书>人文>心理励志> User Modeling,WWW 2018,2018年4月23日至27日,法713≥算法1:学习Camel框架输入:训练数据中的TMetric,通过学术HetNet上的元路径行走提取TMPWIL输出:作者潜在特征q、GRU编码器矩阵A和B(用于生成纸嵌入f(p))1而不收敛②对T度量中的一批(v,u,u′)进行抽样;3,对于P∈S(P)do表2:监督学习基线的选定特征4在TMPWIL中取样一批(v,u,u′);5端6通过等式(10)累积损失7由Adam更新参数;端8表1:本文中使用的数据集的统计。统计AMiner-TopAMiner-Full4.1实验设计论文-作者配对特征,然后利用监督学习算法来预测每个论文-作者对的相关性得分与HetNetE [1]类似,我们基于AMiner数据提取了16种特征(如表2所示),并选择贝叶斯回归(BayesR),随机森林(RandF)和神经网络(NeuN)作为学习算法。此外,一个集成的方法(MultiM)的三个算法的介绍4.1.1数据集。 AMiner [28]是一个著名的学术搜索和挖掘平台,它包含了50多年来来自主要计算机科学场所的数百万作者和论文信息。我们利用2006年至2015年10年的AMiner数据集1,并删除在场馆发表的论文(例如, work-shop)和没有语义内容的实例(即,摘要)。此外,考虑到大多数研究人员关注在顶级场所发表的论文,并且每个研究领域都有自己的社区,我们根据GoogleScholar Metrics提取了六个领域的子集数据,即人工智能(AI),数据挖掘(DM),数据库(DB),信息系统(IS),计算机视觉(CV)和计算语言学(CL)。对于每个领域,我们选择三个被认为具有影响力论文的顶级场所2 。表1总结了两个数据集(AMiner-Top和AMiner-Full)的主要统计数据。4.1.2基线方法。 我们考虑跨越四种类型的九种基线方法:(1)基于引用的匹配,(2)基于特征工程的监督学习,(3)具有内容嵌入的成对排序和(4)异构网络嵌入。基于引文的匹配。该方法在[9]中提出,并通过基于引用的向量表示每篇论文和作者并根据向量相似性(VecS)进一步匹配每篇查询论文的潜在作者基于特征工程的监督学习。此类方法已用于2013年KDD杯挑战赛的顶级解决方案[5,15,35]。它首先提取作者特征和对比内容嵌入的成对排名考虑内容信息的另一种可能性是首先通过语言建模对每篇论文内容嵌入进行编码,然后应用成对排名[22](BPR,利用内积来衡量论文-作者相关性)来学习作者潜在特征。我们应用两个流行的模型Word2V [18]和Par2V[14] 以生成纸嵌入。此外,还介绍了基于GRU [2]的内容编码器和BPR的联合学习模型(GRUBPR)以进行比较。当Word2Vec生成内容中每个单词的嵌入时,我们将输出与均值池层连接起来,以获得每篇论文的一般嵌入进一步利用学习到的论文和作者的特征表示来预测每篇论文的作者。异构网络嵌入。我们还将Camel与[1]中的最新模型HetNetE进行了比较,HetNetE通过任务引导的异构网络嵌入优化了作者和论文的特征表示,并进一步将其应用于识别每篇论文的作者。4.1.3评估指标。 如问题定义中所示,在给定时间戳T之前发表的论文被视为训练数据,并且在T中或之后发表的论文(表示为集合I T)被留下用于评估。我们使用四个流行的度量,即,Recall@k、Precision@k、F1评分和AUC,以评价每种方法的性能回忆@k。 它显示了在top-k返回列表中检索到的真正作者的比率,可以根据以下公式计算:1https://aminer.org/citation2AI:ICML、AAAI、IJCAI。DM:KDD、WSDM、ICDM。DB:SIGMOD、VLDB、ICDE。IS:WWW,SIGIR,记录@ k= 1.|lˆvTlv|(十一)CIKM CV:CVPR、ICCV、ECCV。CL:ACL、EMNLP、NAACL。|v∈ I ≥ T|v∈I≥T|lv|号特征描述1作者论文号2作者的不同地点编号3作者以前引用过的参考文献数4论文的参考文献被作者引用的比率5作者引文占参考文献的比例6在作者以前的出版物中引用文献的数量7论文参考文献在作者以前论文中的比例8作者发表论文占论文参考文献的比例9作者与论文共有关键词数10作者关键词在常用关键词中的比例11论文关键词占常用关键词的比例12作者之前是否参加过报纸13作者之前参加报纸会场的次数14作者参加论文发表会的次数比15论文发表前3年的论文数量16论文发表前3年作者论文比例····作者数量28,646571,563论文数量21,044483,319#场馆18492引用次数245,4203,154,421Ave. 每篇论文的作者3.2943.087·首页>外文书>人文>心理励志> User Modeling,WWW 2018,2018年4月23日至27日,法7141·×个前@k=|v∈ I|v∈I|lvLv|.≥TK其中lv和lv分别表示论文v的真实作者和通过特定方法排名前k位的作者的集合• 精度@k。它反映了top-k排名作者的准确性0.300.250.300.25GRUBPRHetNetE骆驼+29.2%并定义为:0.200.20T=2013年+40.1%.T0.15(十二)0.100.150.10+34.5%+43.0%F1评分。它平衡了精度和召回率之间的权衡,并被定义为精度和召回率的调和平均值:0.050Rec@100Rec@2000.050Rec@100Rec@200F1=2精度·召回率查准率+查全率(十三)图5:整个作者集的结果比较。骆驼明显优于其他。AUC。 它测量每个作者的相关和不相关论文之间的成对顺序的准确性,其公式为:Camel相对于不同基线的改善(%)。该表的主要结论总结如下:第11章AUC=.δ(svu> svu′)(14)• 具有内容嵌入的成对排序模型具有更好的|v∈ I ≥T|E(v)|(u,u ′)∈ E(v)|(u,u′)∈E(v)其中reE(v)≡{(u,u′)|u∈lv,u′glv}.对 于 所 有 评 估 , 我 们 设 置 k = 10 。 较 大 的 Recall@k 、Precision@k、F1或AUC值意味着更好的性能。4.1.4实验设置。 用于模型训练的所有信息,例如Camel中的三重样本或监督学习基线中的选定特征,都是从训练数据中提取的。我们通过设置T = 2012和2013来设计两个不同的训练/测试分割。此外,还有三个关键的实验设置参数 嵌入维度d被设置为128并且正则化参数λ等于0.001。 我们固定铰链损耗裕度ξ = 0。对于度量学习,窗口大小w =1,对于元路径行走增强,窗口大小w=6此外,联合模型的折衷因子γ等于0.1。元路径选择。我们通过贪婪地选择和组合不同的元路径行走来实证研究我们的模型的性能,并发现“APA”,“APPA”和“APVPA”是最有效的元路径方案。请注意,节点序列的集合在这些元路径设置下捕获论文和作者之间的多个相关性。评价候选人。提取和存储所有论文-作者对的特征是耗时和内存密集的(其总计超过2。AMiner-Full中的7 1011对监督学习算法无法扩展到如此大量的数据。因此,我们采用HetNetE [1]中的设置,随机抽取一组负面作者,并将其与真实作者的集合相结合,形成每篇论文的总共100位作者的候选集。所报告的结果是在这种设置的10次实验 为了完整性,我们还对整个作者集的不同表示学习模型进行了评估。4.2性能比较所有方法的性能报告于表3中,其中最佳结果以粗体突出显示,并且最佳基线由星号表示。表的最后一行报告平均值比具有一个算法的监督学习基线的平均性能更差(即,BayesR、RandF和NeuN),其表明由内容嵌入生成的特征表示比直接从数据提取的简单特征更好地捕捉复杂的论文-作者关系。此外,由于AMiner数据中存在一些缺失的引用信息,因此VecS的性能较差。HetNetE比监督学习方法和具有内容嵌入的成对排序模型取得了更好的结果,表明任务引导的异构网络嵌入模型生成了特定于任务的特征表示,并且在作者识别问题上表现得比其他两种更好Camel在所有实验设置中表现最好Camel在不同基线上的平均改善范围从6.3%到158.7%,证明了我们提出的模型的有效性。为了进行全面的评估,我们还在AMiner-Top数据集的整个作者候选集结果(Rec@100和Rec@200)如图所示5. 可以看出,Camel显著优于其他两种方法(分别具有39.8%和28.0%的平均改进),这进一步显示了Camel的有效性。4.3分析与探讨本节中的分析实验基于AMiner-Top数据,其他数据集中的结果显示了相似的结论,但由于页数限制而省略。4.3.1参数灵敏度。超参数在Camel中起着重要的作用,因为它们决定了如何训练模型。我们进行实验来分析两个关键参数的影响,即,元路径增强模块的窗口大小τ以及作者和论文的嵌入(潜在特征)维度d我们通过改变其值并固定其他参数来研究特定参数在τ和d的各种设置下,Camel的性能(在Rec@10和Pre@10方面)如图6所示。根据该图:GRUBPRHetNetE骆驼T=2012年+20.2%+34.6%+28.1%+41.7%·······首页>外文书>人文>心理励志> User Modeling,WWW 2018,2018年4月23日至27日,法715L·LMW ILLL LMW I L表3:不同方法的性能比较。最后一行显示了Camel在不同基线上的平均改进(%)。在所有情况下,HetNetE是最佳基线(由星号表示),并且Camel具有最佳性能引文数据集T度量VecS特征工程+监督学习BayesR RandF NeuNMultiM内容嵌入+成对排序Word2V Par2V+ BPR + BPRGRUBPR网络我们的嵌入建议HetNetE骆驼AMiner-Top20122013Rec@10Pre@10F1AUC0.25770.06360.10200.62540.57900.13020.21260.78350.64500.14620.23840.76510.63880.14420.23530.81320.65410.14960.24350.82670.66710.15010.24490.89470.64230.14540.23710.88010.65800.14850.24230.88150.6938*0.15320.25100.8993*0.75430.16820.27500.9257AMiner-Full我们的vs. 基线158.65%21.55%百分之十九点一五15.90%百分之十三点八三10.55%15.12%15.70%6.28%-0.7400.190.760.190.7300.7500.180.170.750.740.730.180.170.7400.160.720.710.160.150.730三四五六七八窗口大小0.15三四五六七八窗口大小0.72425 26272829嵌入维数d0.142425 262728 29嵌入维数d图6:窗口大小τ和嵌入维度d对Camel性能的影响。Camel在τ约为6且d约为128时实现最佳结果随着τ的增加,Rec@10和Pre@10首先增加,因为更大的窗口表示更有用的间接论文-作者相关性。 但当τ超过一定值时,由于不相关噪声的影响,性能会随着τ的进一步增大而下降。最好的τ在6左右。类似于τ,应该为d设置适当的值,使得学习作者和论文的最佳表示。d的最佳值约为128。除了d和τ,我们还研究了正则化参数λ等其他超参数的影响,并揭示了类似的观点。 因此,超参数的某些设置导致Camel的最佳性能。4.3.2提出的不同型号的性能 Camel是基于内容编码器的度量学习和元路径行走综合学习的联合表示学习模型。 每个学习组件是否在联合模型中起作用?如何元路径方案影响模型回归单元的选择和相关性度量是否对模型的性能有影响 为了回答这些问题,我们进行实验,以评估性能的变体提出的模型w.r.t.不同的分析类别:• 目标函数联合目标函数L联合包含两个主要分量:Metric和P.为了显示元路径行走综合学习模块的有效性,我们对仅使用基于内容编码器的度量学习的模型进行评估,即, 度量,并在表4部分(a)中报告其性能。根据这个结果,我们可以发现Camel显著优于Metric,显示了将P纳入联合模型的巨大优势。随机漫步我们设计了一个元路径行走综合学习模块来扩充模型。为了显示元路径行走比随机行走更大的好处,我们设计了具有随机行走综合学习模块的联合学习模型(Camel-RW),并将其与Camel进行了比较。 结果显示T = 2012年T = 2013(c)(dT = 2012年T = 2013(b)T = 2012年T = 2013(一T = 2012年T = 2013Rec@10前@10Rec@10前@10··2012Rec@10前@10F1AUC0.22170.05180.08390.61060.69940.16360.26510.84970.69220.16340.26440.81290.72170.16940.27440.86970.73020.17350.28040.87540.74780.18120.29170.92040.70340.16630.26900.90140.68420.16580.26700.88090.8166*0.1904*0.3088*0.9346*0.84460.20210.32490.9526Rec@100.31200.60700.63710.65060.66120.64780.64620.66120.6782*0.7476前@100.08530.14970.15760.16120.16280.15970.15930.16200.1653*0.1838F10.13390.24020.25280.25830.26130.25630.25560.26020.2658*0.2951AUC0.65190.80910.83390.84560.85240.88720.87680.88490.8938*0.92052013Rec@10前@10F1AUC0.28950.07360.11730.64450.71760.17560.28210.85920.69770.17190.27580.81260.72260.17710.28450.86280.73540.18030.28950.87490.76120.18910.30290.92560.71050.17510.28100.89400.68740.17020.27280.87520.8127*0.2065*0.32930.9313*0.83920.21970.34820.9501首页>外文书>人文>心理励志> User Modeling,WWW 2018,2018年4月23日至27日,法716LL分析类别变体申报型号T =2012Rec@10 Pre@10F1T = 2013年AUC Rec@10 Pre@10F1AUC表4:关于不同分析类别的各种所提出的模型的性能比较:(a)目标函数的不同分量;(b)随机游走的不同选择;(c)随机游走采样的元路径方案的选择和(d)纸张内容编码器的递归单元的选择;(e)选择论文-作者相关性测量。(a)目标函数L公制0.68560.15390.25140.89010.66950.16510.26490.8758(b)随机游走Camel-RW0.73640.16560.27040.91860.72420.17870.28670.9132(c)元路径选择骆驼-APA骆驼-APPA0.71220.73710.16010.16430.26130.26870.89390.91940.68410.72260.17010.17720.27250.28470.88100.91090.16220.26550.92090.70750.17270.27770.9099骆驼-APVPA0.7315(d)循环单元选择Camel-LSTM0.75380.16800.27490.92520.74720.18360.29480.9203(e)相关测量GRUBPR0.65800.14850.24230.88150.66120.16200.26020.8849骆驼0.75430.16820.27500.92570.74760.18380.29510.9205在表4部分(b)中,Camel具有比Camel-RW更高识别因此,元路径行走比随机行走更好地捕获学术HetNet上的间接论文-作者相关性。元路径选择。 在元路径增强模块中,我们选择了三种元路径方案:“APA”、“APPA”和“APVPA”。 为了研究不同元路径方案对模型性能的影响,我们设计了三个联合学习模型,即,Camel-APA 、 Camel-APPA 和 Camel-APVPA , 分 别 由 “APA” 、“APPA”和“APVPA”步行综合学习模块增强。 表4(c)部分报告了三种型号的性能。 我们可以观察到Camel-APPA比其他两个实现相对更好的性能,表明作者倾向于比合著者的论文或在同一地点发表的论文对他/她的参考文献具有更强的相关性/偏好。此外,所有三个模型的性能比骆驼,表明不同的元路径方案的组合导致更好的性能。经常性单位选择。我们选择GRU作为Camel的纸张内容编码器的基本递归单元。 除了GRU之外,还有由不同的递归单元构建的各种深度架构用于序列建模,例如长短期记忆网络(LSTM)。 为了测试递归单元选择对模型性能的影响,我们在Camel和使用LSTM的模型(Camel-LSTM)之间进行了对比实验。根据表4部分(d)中所示的结果,Camel-LSTM和Camel具有接近的性能。换句话说,GRU或LS
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ASP.NET数据库高级操作:SQLHelper与数据源控件
- Windows98/2000驱动程序开发指南
- FreeMarker入门到精通教程
- 1800mm冷轧机板形控制性能仿真分析
- 经验模式分解:非平稳信号处理的新突破
- Spring框架3.0官方参考文档:依赖注入与核心模块解析
- 电阻器与电位器详解:类型、命名与应用
- Office技巧大揭秘:Word、Excel、PPT高效操作
- TCS3200D: 可编程色彩光频转换器解析
- 基于TCS230的精准便携式调色仪系统设计详解
- WiMAX与LTE:谁将引领移动宽带互联网?
- SAS-2.1规范草案:串行连接SCSI技术标准
- C#编程学习:手机电子书TXT版
- SQL全效操作指南:数据、控制与程序化
- 单片机复位电路设计与电源干扰处理
- CS5460A单相功率电能芯片:原理、应用与精度分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功