没有合适的资源?快使用搜索试试~ 我知道了~
1104带噪声监督的图对齐裴世超阿卜杜拉国王科技大学Thuwal,沙特阿拉伯shichao. kaust.edu.sa中国山东济南大学于国贤xian85@gmail.com摘要近年来,图对齐在网络任务中的应用越来越受到关注,如知识图整合和社交网络链接。尽管取得了显着的性能,流行的图对齐模型仍然受到噪声的监督,但如何减轻标记数据中的噪声的影响仍然是探索不足。基于负采样的噪声识别模型是检测和滤除噪声数据的一种可行的方法。然而,由于负采样噪声鉴别模型对采样分布的敏感性,会导致决策边界不准确。此外,在整个训练过程中,很难找到一个持久的阈值来分离潜在的正(良性)和负(噪声)数据。 为了解决这些重要问题,本文设计了一个非抽样判别模型,该模型借助正-非标记学习的无偏风险估计来规避负抽样的有害影响。我们还提出了在不同的训练阶段选择合适的潜在的积极数据,通过课程学习启用自适应过滤阈值,最大限度地提高对齐模型和非采样判别模型的性能。在多个真实数据集上进行的大量实验验证了该方法的有效性。CCS概念• 信息系统→信息集成;·计算方法学→机器学习方法。关键词图对齐,鲁棒性,正无标记学习,电流学习作 者是一个很好的人。 D r. 张祥良是沙特阿拉伯国王阿卜杜拉科技大学的第二附属本作品采用知识共享署名国际协议(Creative Commons AttributionInternational)授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512089陆羽蚂蚁集团杭州,中国bruceyu. alibaba-inc.com张祥良美国圣母大学xzhang33@nd.eduACM参考格式:Shichao Pei,Lu Yu,Guoxian Yu,and Xiangliang Zhang.2022年图形对齐,与噪声监督。 在ACM Web Conference 2022(WWW '22)的会议记录中,2022年4月25日至29日,虚拟活动,法国里昂。ACM,美国纽约州纽约市,11页。https://doi.org/10.1145/3485447.35120891介绍图对齐是图领域中最关键的研究问题之一,它试图将图中的相同节点关联起来[13,69]。 它已被广泛用于通过知识图集成[11]和社交网络链接[16]来缓解语义Web和社交网络领域中具有挑战性的数据稀疏性问题。针对该问题提出的许多监督[8,13,57]和半监督[30,41]方法严重依赖于一组给定的干净标记节点对(训练数据)来学习图之间的关联。然而,噪声的参与是现实世界的数据标注过程中常见的和不可避免的问题。训练数据中存在噪声对会对对齐结果产生有害影响[42],就像对一般的标签依赖学习[36,50]造成的问题一样。尽管一些无监督方法[24,31,60,71]已经努力摆脱对标记数据的需求,但它们非常依赖于具有高度区分性的属性,这些属性是隐私敏感的、噪声污染的、难以收集的,因此探索如何减轻噪声监督的影响值得更多的关注。最近的一个模型[42]首次尝试训练一个判别模型来识别给定标记节点对中的潜在噪声,遵循极大极小博弈的原则[56]。然而,仍有一些关键问题尚未解决。负抽样问题。为了训练噪音辨别力-在初始化模型中,按照负采样策略绘制负样本以模拟噪声数据[45,56]。尽管有效,但有理由认为,由于抽样对抽样分布和要抽取的阴性样本数量的敏感性,抽样并不稳健[9,23]。一方面,能够很好地满足抗噪声目的采样分布总是给予负节点对更高的概率,这些负节点对更难与可信标记(正)节点对区分开。如图1(a)中的玩具示例所示,灰色圆圈中的P3和P6对可以分别作为P1和P2的负样本进行采样 这些负对很可能接近决策区域,并可以改变决策边界,使其进一步侵入由正例主导的区域,如图1(b)所示。几个真阳性(良性)对将WWWShichao Pei,Lu Yu,Guoxian Yu,XiangliangZhang1105(a)P1P3待对齐的正极对可信标记对来自良性数据的噪声相反,太大的阈值使模型不能获得足够的可用正数据以改善对准性能。P2目前的工作。为了解决上述挑战性问题,在P7噪声对本文提出了一种新的非抽样和课程学习-P6的方法,称为CPUGA(曲率无偏正性-P4P5阴性样本未标记的G/A对齐),以减轻噪声数据的影响G1G2(b)噪声积极阴性样本图1:一个演示负采样对两个图之间的鲁棒图对齐的影响的玩具示例。(a)不同颜色的节点表示节点嵌入到不同的图中。对P1和P2是可信的正标记节点对并且已经被对齐。灰色圆圈中的P3和P6对分别是P1和P2的负采样对P4、P5和P7在不可信标记对的集合中P4和P5对对P7是应当被识别并且不被对准的噪声节点对(b)节点对嵌入空间中正样本和噪声样本的区分。地面实况判定边界(绿线)应该将噪声对P7与其他正对分开,但是边界被负样本P3和P6警告。所得到的决策边界(红色虚线)侵入由阳性样本(包括P1和P2)支配的空间。然后,真阳性对P4和P5将被误分类为噪声。被误认为噪音。另一方面,负样本的采样的小集合可能不能很好地反映真实的噪声分布。基于它们的估计分布将是不准确的,并且无论采取了多少更新步骤,都会进一步导致难以收敛到最佳的最小值[61]。积极的数据选择问题。 为了使最大-标记数据的最大使用,正(良性)节点对被迭代地识别并用于增强对准模型以关联更多节点。 对于判别模型而言,该迭代过程是一个循环学习过程,因为新识别的正数据可以促进判别模型的泛化以选择更多的正数据。因此,必须确保从给定的标记数据中选择的正节点对的清洁性在带噪声标签的学习中[42,46],对判别模型的损失值应用预定义阈值以选择可用的正样本是一种简单且广泛使用的策略。然而,固定门槛的设定是一个两难的选择。例如,太小的阈值将不可避免地在训练的早期阶段向对齐模型引入噪声,不仅阻碍对齐能力,而且降低区分真提高了图对齐模型的鲁棒性由于负采样会导致上述多个问题,我们设计了一个非采样判别模型,采用正-无标记(PU)学习的无偏风险估计[14,28],并将普通分类风险重写为等价形式,仅依赖于可信的正标记节点对和未标记节点对。该判别模型学习的决策边界本质上消除了负采样的不利影响。此外,为了学习更准确的节点表示,以提高对齐的性能,对齐模型应该在初始时使用一小部分具有最强置信度的正对,然后逐渐使用置信度较低的对,就像人类从简单样本到复杂样本一样。因此,我们提出了一种基于课程学习的积极数据选择策略,具有自适应阈值调整,随着训练的进行,逐步选择潜在可用的积极数据。基于课程学习的选择方法自然地考虑了模型在训练中的状态,并在每次迭代中动态地为正对选择分配置信度得分。总之,我们对这项工作的贡献如下:我们提出了一种新的鲁棒图对齐模型,设计了非采样学习,以区分噪声和良性数据在给定的标记数据。 该模型在避免负采样带来的问题方面是先进的。我们设计了一种基于课程学习的自适应阈值调整的正数据选择策略,使得在训练的不同阶段使用合适的数据来提高对齐模型和非采样判别模型的性能我们在真实世界的数据集上进行了广泛的实验,并通过与强基线的比较来验证我们所提出的方法的有效性。2相关工作2.1图像比对图对齐是一项将图中的相同节点关联起来的任务它提供了一种有效的方法来促进许多现实世界的应用[11,21,48]。一般来说,现有的方法主要可以分为两类[70],即,(1)基于拓扑结构的方法[ 11,13,35,37,40,41,43,52,62,68 ],它只依赖于图的结构信息来关联节点;(2)基于结构和属性的方法,它利用结构和高度区分的属性特征来对齐图,包括节点的属性[10,17,24,30,49,51,57,64,67]和边的属性[58,59,66]。除了几种无监督方法[24,31,60,71]之外,大多数方法仍然需要一组干净的标记节点对,这些方法还需要节点上的隐私敏感和噪声相关属性,或者必须假设结构身份。然而,假设不成立,当123P5P6P7P1P3P4P2···带噪声监督的WWW1106.Σ.YY()|YG G∈.ΣGG|E||E|ER{}GERGER未标记的对,它们形成集合U=(ei,ej)|Aij=0,表示图来自不同的域,因为对齐的节点通常具有不同的结构。REA[42]是第一个考虑训练数据中噪声节点对的工作。它遵循对抗训练的原则[18]从未标记的数据中采样负节点对作为噪声,并训练分类器来区分采样的噪声数据和可信的正数据。REA虽然能有效地提高比对模型的鲁棒性,但它受到负采样的不利影响,并且难以选择合适的正(良性)样本。2.2在噪声监督下学习防止深度网络过度拟合噪声标签已经越来越受到关注。一般而言,相关方法可分为三类,即,1)基于噪声转移矩阵的方法[54],其试图估计具有干净标签的类翻转到其他类的概率; 2)基于目标的方法[6,65],其采用正则化和重新加权技术;3)基于优化策略的方法[22,26,39],依赖于深度神经网络的记忆效应[2],通过自训练或协同训练来提高鲁棒性然而,它们都集中在一般的深度网络上,不能直接应用于图对齐问题,主要原因有两首先,根据图对齐的流行损失函数[11,57],直接最小化正或噪声对的损失 正对和噪声对的损失之间没有区别,并且不能应用基于记忆效应的“大小损失”技巧。第二,图对齐中没有类别信息可以用于噪声转移矩阵估计。因此,一个独特的方法与噪声监督的图对齐。2.3课程学习如何选择训练样本来学习一个好的模型是机器学习领域的一随着深度学习的发展及其作为一种强大的学习范式在许多应用中的重要作用[5]在训练过程中,控制训练样本输入神经网络的顺序的方法越来越受到关注[19]。课程学习依赖于先验知识来构造一个排序函数,为不同的数据样本分配学习优先级。以往的研究表明,课程学习可以提高各种模型的泛化能力和收敛性[20,44]。它为我们的场景中实现自适应阈值调整的愿望提供了一个可行的范例。因此,为了逐步挑选出合理的正对,我们设计了一个自适应的正数据选择策略,基于课程学习,以提高对齐模型和非抽样判别模型的性能。2.4正非标记学习在现实世界中有许多场景,其中只能收集正(P)数据,以及大量未标记(U)数据。Gi和Gj基本图对齐模型图编码器节点对齐训练集可信标签未标记对U对Y+嵌入检索增强类先验估计非采样鉴别器鉴别器不可信标记对Y-课程正面数据选择选定的阳性对Yp图2:训练阶段的CPUGA模型概述。黄色框表示可用于训练的数据。绿色框用于从图形编码器中检索节点嵌入。蓝色模块是CPUGA的关键组件,并联合训练,以将图对齐模型交付到测试阶段。之后,基于重要性重新加权策略的方法[15,33]将U数据视为N数据,但重要性权重降低,显示出其性能上的优越性。最近,基于无偏风险估计的方法[14,28]将分类风险重写为仅取决于PU数据的等效形式,从而实现更好的性能。本文应用无偏风险估计设计了一种非抽样方法,避免了噪声判别模型建立中负抽样3所提出的方法我们首先制定的问题,图对齐噪声监督。然后,我们详细介绍所提出的模型,其架构如图2所示。3.1问题公式化让i =i,我且j =j,J 是两个需要对齐的不同图表。在这两个图中,指的是一组节点,表示一组边。 我们使用n =i 并且m=j表示i和 j中的节点数。图 i和 图 j之间的节点关联矩阵可以记为ARn×m。在已有的带噪声标签学习方法的基础上,失去一般性,我们假设存在一组可信的正标记节点对,其中Aij=1,即,+=e i,e jA ij= 1,包括无噪声。 还存在一组不可信的标记节点对- 被标记为积极的,但是,可能是一个真正的阳性(正确标记)或假阳性(错误标记)。这里的假阳性指的是噪声。这些不可信的标记的nodepairs由Y−=(ei.、e和j)|Aij=2。F.或所有其他(PU)学习[4]。早期的PU作品[32,34]是基于消极的(N)样本选择,通过各种选择策略从U数据中选择可靠的N数据,然后进行普通的PN学习。节点对没有被标记,但可以对齐(正)或不对齐(负)。在本文中,由于我们关注的是1对1节点对齐,而不是1对多对齐,因此我们设置使用这些数据进行学习的任务称为正-未标记WWWShichao Pei,Lu Yu,Guoxian Yu,XiangliangZhang1107(·)GGG()下一页YUYYYYin.(·)Y YYY(·)GG()下一页||||||||LLUUY(·)()||−||U[详细]. KKNiY()UU从p研发)Σ,我们需要最小化其预期的错误分类hlNei ←Aggregate(hl,ek∈ {ei}<$Nei表1:符号符号描述GA图[55]在《易经》中,(2)聚合相邻节点。方程中的激活函数σ(3)可以设置为LeakyReLU。在获得节点的嵌入之后,我们可以根据图对齐的流行设置[57]定义损失函数:节点关联矩阵..′′Y+可信正标记节点对Y-不可信标记节点对LGA=(ei,ej)∈YT(ei′,ej′)∈N(ei,ej)[fe(hi,hj)−fe(hi,hj)+γ]+(4)UpTYp选定的阳性(良性)节点对其中YT是增广的正节点对,其可以是初始的。使用Y+化,然后由所选择的节点对Yp补Y=Y++Y增强正节点对从Y-。我们将在后面讨论如何得到Ypγ是预定义的||A : , j||0=1and||A:,j||0=1asconstraintsforany la bel edn odepair(ei,ej). 这些约束意味着我们隐式地设置||0= 0,||0=0作为G i和ej j中任何未对齐节点e i的约束||A: , j ||0 = 0 as constraints forany unaligned node ei in Gi and ejj形式上,给定图i和j以及具有标记对的节点关联矩阵A,图对齐是识别具有约束条件Ai,j=0和Ai,j=0的未标记节点对ei,ej的集合,并将关联指示从Ai,j=0改变为Ai,j=1。具体地,所识别的节点对ei、ej中的ei和ej是跨图的相同节点。为了提高系统的鲁棒图对齐,对齐模型被设计为从一组增强的正节点对中学习T=p+,其中p是从-中选择的具有高置信度分数的良性节点对。p的选择由噪声鉴别模型操作,该模型可以通过使用可信标记节点对将p与-中的+和未标记节点对. 的判别模型期望识别并选择Y-中尽可能多的真正节点对。3.2基本图对齐模型首先,我们介绍了一个图编码器,用于使用给定图的结构信息来学习节点的表示,并定义了图对齐的损失函数。 受图神经网络(GNNs)[27]及其在图对齐上的应用[8,57]的启发,我们遵循以前的工作,采用GNNs作为图编码器。我们将编码器定义为:Hi, Hj=Φ(Gi,Gj)(1)其中Φ是图形编码器。它的输入是图i和j,它们使用相同的编码器Φ联合编码以将两个图嵌入到相同的嵌入空间中,并且它的输出是大于0的margin参数,并且x+=max 0,x.函数fe可以定义为:fehi,hj=hihj1。为了优化Eq.(4),我们需要一组负节点对N(ei,ej)用于每个对(ei,ej):{(ei′,ej)|ei′∈Ei}<${(ei,ej′)|ej′∈Ej},其中rei和ej替换为Bernoulli负[10]采样节点ei′和ej′。这里的负-遵循流行损失函数[8,57]的GA中的积极采样不会导致上述负采样问题,因为基于成对排序的损失遗传算法的目的是学习节点对的最优排序,而不是像噪声识别模型那样学习用于识别噪声的精确决策边界。本文主要研究如何克服负采样对噪声判别模型的影响。3.3非抽样判别模型为了避免在噪声判别模型中使用负采样,我们利用未标记的节点对设计了一个非采样判别模型,因为它包含了正数据和大量的负数据。在可信正标记数据+的指导下,使用未标记数据训练判别模型实际上是一个正-未标记(PU)分类问题[14]其中只有一部分正数据被标记。 假设未标记数据U由正对U+和负(噪声)对U-组成。U的边际密度是pU(x),其中x是随机变量指的是节点对。 pU+(x)= pU(x|(1)和pU−(x)= pU(x |− 1)是U +的类条件密度,U-,分别。边际密度pU(x)可以写为:pU(x)=πpU+(x)+(1−π)pU−(x)(5)其中π是正类先验。在积极无标签学习中,π是未知的,必须从一个完整的验证集估计,+学习嵌入H i =。嗨,嗨,...,图G中节点的h i个,以及Hj=h j,hj,..., H J标记数据集[15]或来自PU数据[12]。要分类U和.Σ12NiU−inU,其中二元分类器D学习12m率L(U,定义为:演示文稿. 编码器中使用的GNN通过以下方式工作LR(D)=πEx<$pU+(x)[l(D(x),1)](六)hl+1←σ(Wl·hl(三)其中l(D(x),z)是测量预测损失的损失函数iNei利用GroundTrueLa BelZ,例如, l(D(x),z)=1/(1+exp(z·D(x)。以来其中,Nei表示ei周围的相邻节点的集合,hl是从第l个聚合生成的ek的嵌入,hlU+和U−的分离是未知的,pU+符合在完全选择假设下的pY+是节点eei及其邻居,以及随机[3,15],我们利用p+来代替方程中的p +。(五)、所以px可以定义为:Wl是层l的可训练参数。聚合算子,如归一化均值池[27]和注意力加权pU(x)=πpY+(x)+(1−π)pU−(x)(7)图Gj中的节点。我们用hz表示在不考虑i和j的情况下嵌入节点ez(2)+(1−π)Ex<$pU−(x)[l(D(x),−1)]带噪声监督的WWW1108.()下一页()下一页L||−||()下一页k=1,UYUUUY..Y||U()()下一页(一)|)的方式对于μ,则Gamma分布作为Y. Eq(|θ)[logp(X|()]负风险估计器遵循最近的工作[28]来处理过拟合问题:节点对的表示,μ1和μ2是平均值,1和2是正标记节点对Y+。增强的正数据可以由于U-也是未知数,我们简单地重写Eq。(7)作为(1-π)pU−(x)=pU(x)−πpY+(x),取l(D(x),−1)的期望q(|θ),并将KL散度定义为:∫q(|θ)p(X)双方都有:(1 −π)E[l(D(x),−1)]=E [l(D(x),−1)]KL [q(q|θ)||p(|X)]=q(X)|θ)logdp(X)p(X|)(十一)xpU−(x)xpU(x)–(八)=K L[q(q|θ)||θ)[ log p(X |(X)] + log p(X)|Ψ)]+logp(X)通过结合Eq.(6)Eq. 我们可以得到损失函数LR(D)的更新定义为:其中p是指先验分布。我们采用Dirichlet分布作为先验,高斯分布作为先验LR(D)=πEx<$pY+(x)[l(D(x),1)]+Ex<$pU(x)[l(D(x),−1)]–(九)是X拟合到具有参数α的高斯混合分布的对数似然。由于logpX是一个常数,我们在优化过程中不考虑这项损失函数可以是通过优化Eq. (9)、歧视模式D被豁免从传统的正负(PN)分类需要噪声(负)数据它通过对给定的正和未标记数据采用无偏风险估计来学习区分正和负。请注意,由于模型设计的灵活性和由Ex<$pU ( x )[l(D(x),−1)] −πEx<$pY+(x)[l(D(x),−1)]引起的负损失[28],模型可能会出现过拟合。我们把非-定义为:L先验=KL[q(k)]|θ)||θ)[ log p(X |(12)|Ψ)](12)损失函数先验被称为证据下限(ELBO)。我们可以通过MonteCarlo抽样程序来近似这个精确的损失,如下所示:.nsL优先级i=1LR(D.D(x)=πExpY+(x)[l(D(x),1)]+中国(10)其中,i(i)表示从Max0,Ex<$pU(x)[l(D(x),− 1)] −πEx<$pY+(x)[l(D(x),−1)]变分后验分布,ns是样本数然后损失函数L先验可以通过随机梯度CNOD由具有ReLU和节点对的表示作为输入的两层神经网络实现 对于节点对Ei,Ej,Hi,Hj1)。解决Eq.(10)是正类先验π的估计。3.4类先验估计为了优化损失函数LR,我们必须为下降以找到θ然后,我们通过从q(k)中采样来获得最优的k|θ)。最后,我们可以估计类先验π如下:π=q(πi|θmax),i=argmax|#k|(十四)#1=. X|x∈Y+,p(x|1,µ1,.1)> p(x)|μ2,μ2,.中文 (简体)在等式中的π(10),但未知-阻碍了类先验的直接期望联合估计类先验#2=. X|x∈Y+,p(x|μ2,μ2,.2)> p(x)|1,µ1,.中文(简体)通过反向传播优化判别模型,我们的目标是找到一个变分近似的后验分布上的,是一组参数,描述的离散表示的节点对从 +和。这是受到最近关于随机变分推理[25],Bayes byBackprop [7]及其在PU学习中的应用[1]的启发。具体地说,我们假设节点对的表示符合高斯混合分布,该分布包括两个分量,一个是来自+的正节点对,+,另一个负节点对来自−。的节点对的表示的密度函数可以被定义为p(X|n)=n1N(X|µ1,1)+2N(X|2,2),whe r.Xdeno.特斯其中,#1和#2表示来自可信正标记对+的两组节点对,#k对#k中的可信标记对的数量进行计数。 我们表示高斯混合分布的分量i包含更多的正样本。由于组件i随着更多的正样本可以被视为p+x,自然选择pxi作为类先验π。3.5课程正面数据选择需要更多的积极数据来提高比对性能,这促使我们选择潜在的积极节点对从不可信的标记节点对Y-来增加可信的协方差矩阵中,1和2是非负混合权重,1+2=1。分布pX由这些参数确定,在后面的描述中为了简单起见,这些参数共同表示为p X。由于期望估计参数π以分配π的值,我们采用变分推断来近似后验分布p∈ X,因为该后验分布是难以处理的。变分学习找到了一个变分分布的参数θ,它使Kullback-Leibler(KL)发散与后验分布最小化。我们将变分分布表示为不仅可用于训练图对齐,而且可用于训练非采样判别模型。在开始时,挑选出合理的阳性样本总是很容易的,然后越来越难挑选出更合理的阳性样本。因此,我们设计了一个课程正数据选择策略,随着训练的进行而逐步增加+,因为课程学习可以通过从简单的样本开始,然后逐渐增加难度来提高学习模型的泛化和收敛性。logq(i)|θ)−log p(θ(i))−log p(X|(13)WWWShichao Pei,Lu Yu,Guoxian Yu,XiangliangZhang1109YYL()YYY[|Y|]的一种Y.由方程式(10)、1LLLLspR()下一页(·)(·)(−· ())(())(f(λ)=a+b·(−)abcr()下一页v∈[0,1]|Y− |Lsp(vλ)=−Yvilsp( D( xi),−)+fr(λ)可以避免偏见的影响()Y进一步优化图对齐损失的LGA以及LR′(D)模型的判别损失。我们吃牛肉YYvi=3.5.1基于课程学习的数据选择策略。课程学习的主要思想是在训练的早期阶段向模型提供简单的样本,并随着训练过程的进行逐渐提供非抽样判别模型的性能,因为它们扩大了正数据。然而,节点对p有很大的偏向性[63],因为所选的对通常有很大的损失,可能不会覆盖所有的正节点对空间。然后目标是向一小组选定的正节点对Yp馈送式中的项πEx<$p+ p(x)[l(D(x),−1)] (10)如果初始时对对齐模型和非采样判别模型的置信度最强,然后用置信度较低的节点对从-我们特别引入参数v来加权每个节点对 ei,ejin−以指示节点对是否应当被选择为潜在位置,我们直接去看你的生日+和p. 错误分类如果减去等式中的项,则速率RD(10). 为了避免所选数据p中偏差的影响,我们修改经验误分类率如下:L′(D)=πEx<$p (x)[l(D(x),1)]动态数据因此,我们的目标是学习潜在权重变量v=v1,v2,.,在每次训练迭代中的v−T。为了在迭代λ中学习最优v,我们首先定义一个损失函数,权重参数v为:R+Max.0,ExPYTU(x)[l(D(x),−1)]− π Ex <$pY+(x)[l(D(x),−1)]中国(19)min;|.Y−|i=11|.Y−|i=1这与Eq不同。(10)在第一项中,将xpY+(x)其中x ∈ PYT(x)。我们保持后者的条款相同的方程。(10)所以哪里表示以−为单位的节点对,(十七)3.6优化Xi因为,Yvi是权重参数为了联合优化图对齐损失LGA,Xi D是等式中的定义d。(10),且lsp(·)是非抽样判别模型L′(D),类评分函数来测量节点对的置信度(我们将在后面的描述中讨论和定义它我们暂时将先验估计R,以及课程数据的损失将−中的所有对标记为负数(即,-1)。然后,具有大的损失的节点对将是潜在的正样本,而具有小的损失的节点对可以被视为噪声样本。此外,我们认为,||v||1=我|=Y−|vi是一个l1-范数正则化r. 因为D是最优的选择sp,采用迭代优化策略进行训练建议的CPUGA。首先,我们将权重参数v初始化为0,并优化图对齐GA的损失,以获得节点的嵌入。然后在估计前对损失进行优化类先验π,然后训练非抽样判别模型当最小化Lsp时,全局最优使用具有类先验π的节点对Y+和U。具有优化v=[v1,v2,. . ,v−]在迭代λ中可以是每个ed,因此,我们可以优化损耗Lsp并计算最佳解决方案的LO|SYS|:.v,则增广正节点对Yp可以(其中frλ是由迭代次数λ参数化的用于控制学习步调的步调函数如果节点对xi的得分lsp(D(xi),−1)大于fr(λ),则在迭代λ中选择它。我们定义expλ 哪里 、 和 预定义的页面-参数来控制学习速度。fλ随λ减小增加。 这意味着在每次迭代中选择的节点对的数量随着训练的进行而增加,首先是一些高置信度节点对,然后是更多的低置信度节点对。接下来,我们定义在等式中使用的评分函数lsp(17). 虽然Sigmoid损失已广泛用于分类任务,但它在我们的场景中有一个缺点,即,它的损失值总是限制在(0,1)的范围内,使得潜在的正节点对的损失上界的我们利用物流损失作为替代,这是不是上界,但Lipschitz连续和可微无处不在。我们将评分函数定义为lspDx,z=ln 1+expz Dx,其中z表示输入数据x的标签。通过课程学习中的评分函数lsp和调步函数fr,可以随着训练的进行动态地选择潜在的正数据,并计算出每个正数据的置信度得分Y −中的节点对可以通过评分函数lsp(·)的优化来更新。3.5.2使用选定的正面数据。所选择的节点对Yp可以用于附加Y+,如等式(1)所示。(4)扩大训练集。此外,Yp可用于改善进行足够的迭代,直到整个模型收敛。详细培训程序见附录B.3。4实验在本节中,我们描述了用于验证所提出的方法CPUGA对知识图对齐问题[11]的有效性的评估实验,知识图对齐问题[ 11 ]是一个规范图对齐任务,近年来越来越受到关注。数据集。 根据以前的研究[52,57],我们使用两个广泛使用的公共数据集DBP15K [51]和DWY100K [52]。 我们随机分割30%的标记节点(即, 知识图中的实体)对进行训练,并将其余70%用于测试。由于上述数据集中给定的标记节点对是干净的,我们生成一些噪声数据来代替部分干净数据,以模拟从注释平台上采集的或由当前对齐模型生成的真实原始标记节点对根据最近的工作[42],我们随机破坏40%的训练集作为噪声对,并保留其余60%作为阳性对。然后我们随机选择50%的阳性对,可信正标记节点对+,混合其他50%正对与噪声对作为不可信标记节点对Y-。为了构造节点关联矩阵A,我们首先将Y+中的节点对填充到矩阵A中为1,然后将Y-中的其他50%的正节点对填充为2。败坏廉洁者()−)()vi1lspD xi 、 1 >frλ0否则带噪声监督的WWW1110YY(ei′,ej)|Ai′j=0,||0=0||0=0Y∪ (ei,ej′)|Aij′=0,||0= 0。||0=0.表2:在DBP15K和DWY100K中与噪声标记对的图对齐性能比较。最好的结果用粗体表示,最强的基线用下划线表示。方法DBP15KZH−ENDBP15KJA−ENDBP15KFR−ENDWY100KWDDWY100KYG点击率@1点击率@5MRR 点击率@1点击率@5MRR 点击率@1点击率@5MRR 点击率@1点击率@5MRR 点击率@1点击率@5MRR[第11话]0.1690.362 0.2160.1480.3450.1980.1430.3380.1920.1540.3250.2030.1370.318 0.186ITransE[72]0.1850.394 0.2580.1740.3860.2420.1810.4020.2690.1930.4140.2960.1580.346 0.223[57]第五十七话0.2230.424 0.3160.2230.4390.3210.2310.4620.3370.2930.4610.3720.3540.505 0.428AlignEA[52]0.2630.457 0.3420.2540.4510.3380.2780.4710.3570.3310.4870.3920.3760.525 0.448MuGNN[8]0.2740.471 0.3610.2790.4810.3680.2840.4850.3720.3480.5030.4170.4010.554 0.475[53]第五十三话0.2860.468 0.3650.2950.4700.3790.2980.4860.3840.3720.5140.4370.4200.563 0.490[42]第四十二话0.2350.437 0.3190.2360.4510.3340.2290.4560.3320.3120.4680.3790.3520.513 0.432REA[42]0.2890.486 0.3800.2930.4980.3880.3040.5390.4030.3680.5470.4440.4260.577 0.494CPUGA-KE0.2280.426 0.3160.2300.4460.3230.2280.457 0.3340.2980.462 0.3750.3560.509 0.427CPUGA0.3060.506 0.3970.3120.521 0.4060.3210.556 0.4240.3900.568 0.4670.4490.603 0.524n. odepair(ei,ej),wereplace(ei,e. j)其中(ei′,ej′)从rom中采样d表3:区分潜在正节点对不同比例的噪音。损坏的对与干净的对只有一个节点差异。汇率 这类似于在实际路线注释过程中所犯的粗心错误。 然后我们可以将采样的噪声节点对填充到A中为2。数据集的详细信息见附录C。基线方法。 为了验证我们提出的方法的有效性,我们将其与几种基于嵌入的方法进行比较,而不考虑标记数据中的噪声:MTransE [11] , ITransE [72] , AlignEA [52] , GCN-Align[57],MuGCN [8]和AliNet [53]。我们还将所提出的方法与基于负采样的鲁棒知识图对齐模型进行了比较:REA [42].需要注意的是,一些图对齐模型被提出来设计更强大的图编码器,以编码更丰富的信息,例如节点和边的属性信息由于我们的模型仅依赖于结构信息,并侧重于比对模型的鲁棒性,因此我们不将这些模型纳入比较。此外,CPUGA-KE表示CPUGA的一个变体,它只包含一个图编码器,没有判别模型和正数据选择。噪声数据的图形对齐性能 我们在表2中列出了所有评估模型的比对结果。 我们可以看到,CPUGA在不同数据集上的Hits@1,Hits@5和MRR的图对齐方面优于最先进的基于结构化的嵌入方法。 虽然这些基于嵌入的方法,如MuGNN和AliNet,使用先进的技术开发了不同的知识图编码器,但它们仍然受到给定标记节点对中的噪声的影响。 由于这些方法没有任何机制来对抗噪声数据,我们可以注意到,噪声标签对其对齐结果的影响是显着的。REA利用基于负采样的方法来检测噪声数据。然而,由于负采样的使用,REA对图对齐的改善被抑制我们的CPUGA始终优于REA,因为我们采用非采样判别模型来学习更合理的决策边界,以区分正数据和噪声,并采用基于课程学习的正数据选择策略,以避免在训练的早期阶段涉及噪声所以CPUGA避免了负采样的不利影响我们还注意到CPUGA-KE与REA-KE的性能相似,说明CPUGA的改进主要来自于非采样策略和课程学习策略的设计,而不是图编码器的设计。识别良性和噪声节点对。 我们还研究了在不可信对的集合中有多少正(良性)和噪声对可以用不同的噪声比例正确识别。具体来说,我们将所有选定对的预测标签视为1,其余的-视为0。然后,可以将预测的标签与它们的地面真实标签进行比较。如表3所示的结果,与REA相比,CPUGA在所有数据集和不同噪声设置水平下都获得了更高的精确度,召回率和F1得分 这再次证实了CPUGA在−正确识别更多真正对方面的有效性。消融研究。为了更深入地了解我们的方法中涉及的不同组件,我们通过考虑以下变体来进行消融研究:(1)CPUGA-SNS,其采用最简单的基于负采样的负采样,其对每个可信的正对随机采样负对;(2)CPUGA-NS , 其 利 用 [42] 中 采 用 的 负 采 样 请 注 意 , CPUGA-SNS 和CPUGA-NS都没有实现基于课程学习的积极数据选择。(3)CPUGA-w/o-CL,只有非抽样样本,不包含基于课程学习的实证数据%噪声ZH-EN雅园FR-ENREA CPUGAREA CPUGAREA CPUGA百分之二十Pre. 0.9350.9350.9290.9330.9300.931Rec.F10.7310.8200.7730.8460.7140.8080.7570.8350.7500.8310.7910.855百分之四Pre.Rec.F10.8710.7600.8120.8740.8170.8440.8740.7380.8000.8780.8070.8410.8670.7780.8200.8750.8200.847WWWShichao Pei,Lu Yu,Guoxian Yu,XiangliangZhang11110 30 320 300 28百分之十百分之二十百ENNENZH-JA-EFR-0 50 540 520 500 48百分JA-ENFR-EN百分之二十百分之三十ENZH-−YY()下一页Y()下一页()下一页R()下一页ZH−ENREA表4:消融研究结果0420410400303037036甲基 ODSCPUGA510152025(a) 一0.420.410.400.30.380.37ODSGA246810(b) B图5:DBP 15KZH−EN的参数分析。图3:当改变可信标记对Y+的比例时,DBP 15K的结果(x轴)。0.80.80.82使用不同噪声强度的F1评分(右)我们发现我们提出的CPUGA在F1得分和Hits@1上始终优于REA,表明我们的方法可以区分更多的正对和噪声对,并提高比对模型的鲁棒性此外,当噪声强度为10%,AliNet的性能优于CPUGA和REA,因为噪声的有害影响是温和的,AliNet应用了更先进的KG编码器,而CPUGA和REA使用了基于GCN的基本编码器。对超参数设置的敏感性。图5示出了不同的超参数,即,起搏功能中的参数a和bf(·)对CPUGA在DBP15K数据集上的性能有影响。0.80CPUGA10% 20% 30%0%的百分比0% 0%图5(a)表明,小的a降低了CPUGA因为a控制起搏功能的下限,图4:噪声强度沿x轴变化时DBP15KZH EN选择. 结果总结见表4。 Hits@1表示比对性能,F1表示潜在阳性(良性)对识别的性能。我们看到,CPUGA-w/o-CL的性能不如CPUGA,因为没有适当阈值的对齐模
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功