没有合适的资源?快使用搜索试试~ 我知道了~
基于图拓扑的最优传输微调图神经网络
Jiying Zhang1,2 , Xi Xiao2 , Long-Kai Huang1 , Yu Rong1 and Yatao Bian1∗0通过图拓扑引导的最优传输微调图神经网络01 腾讯AI Lab,中国深圳 2 清华大学深圳国际研究生院,中国深圳zhangjiy20@mails.tsinghua.edu.cn,xiaox@sz.tsinghua.edu.cn,yu.rong@hotmail.com,{hlongkai,yatao.bian}@gmail.com0摘要0最近,预训练-微调范式由于在图学习社区中减轻了许多现实应用中标签不足的问题而受到了广泛关注。目前的研究使用现有的技术,如权重约束、表示约束,这些技术是从图像或文本数据中导出的,将不变的知识从预训练阶段转移到微调阶段。然而,这些方法未能保留图结构和图神经网络(GNN)风格模型的不变性。在本文中,我们提出了一种新颖的基于最优传输的微调框架,称为GTOT-Tuning,即基于图拓扑的最优传输微调,用于GNN风格的骨干网络。GTOT-Tuning需要利用图数据的特性来增强微调网络产生的表示的保留。为了实现这个目标,我们将图的局部知识转移形式化为带有结构先验的最优传输(OT)问题,并构建GTOT正则化器来约束微调模型的行为。通过使用节点之间的邻接关系,GTOT正则化器实现了节点级的最优传输过程,并减少了冗余的传输过程,从而实现了从预训练模型的高效知识转移。我们使用各种GNN骨干网络在八个下游任务上评估了GTOT-Tuning,并证明它在GNN中实现了最先进的微调性能。01 引言0在许多实际应用中,从有限数量的训练实例中学习是一个基本问题。解决这个问题的一种流行方法是对在大型数据集上进行预训练的模型进行微调。与从头开始训练相比,微调通常需要更少的标记数据,可以进行更快的训练,并且通常可以获得更好的性能[Li等,2018b;He等,2019]。0� 通讯作者:Yatao Bian(yatao.bian@gmail.com)0传统的微调方法大致可以分为两类:(i)权重约束[Xuhong等,2018],即直接约束预训练模型和微调模型之间的权重距离。显然,它们无法利用图数据的拓扑信息。(ii)表示约束[Li等,2018b]。这种方法约束了从预训练模型和微调模型产生的表示之间的距离,保留了微调网络的输出或中间激活。因此,这两种方法都未能很好地考虑中间层嵌入所隐含的拓扑信息。然而,已经证明GNN通过探索图的局部和全局语义来明确地查看数据的拓扑结构[Xu等,2018;Hu等,2020;Xu等,2021],这意味着节点嵌入之间的隐含结构非常重要。因此,这些只涵盖权重或层激活并忽略输入数据的拓扑上下文的微调方法已经无法获得全面的知识转移。为了保留预训练模型中的微调网络的局部信息,在本文中,我们探索了一种基于原则的表示正则化方法。i)Masked OptimalTransport(MOT)被形式化并用作预训练模型和微调模型之间的知识转移过程。与TypicalOT距离[Peyr´e和Cuturi,2020]相比,后者考虑了两个域之间的所有成对距离[Courty等,2016],MOT允许选择在最终OT距离中求和的特定节点对,这是由于引入的掩码矩阵。ii)通过将掩码矩阵设置为邻接矩阵,将图的拓扑信息合并到MaskedWasserstein距离(MWD)中,从而在节点嵌入空间中产生GTOT距离。通过惩罚GTOT距离,最小化微调模型和预训练模型之间的嵌入距离,保留微调模型的局部信息。最后,我们提出了一种新的微调框架:GTOT-Tuning,如图1所示。使用节点之间的邻接关系,所提出的GTOT正则化器实现了精确的节点级最优传输过程,并省略了不必要的传输过程,从而实现了从预训练模型的高效知识转移(图2)。此外,由于OT优化动态更新传输映射(权重)0arXiv:2203.10453v1[cs.LG]20Mar20220+v:mala2277获取更多论文+1352643Preliminaries+v:mala2277获取更多论文0GNN0冻结0GNN0可训练0C0P0分类器0� !"#"0� $%0共享结构0预训练网络0微调网络0微调阶段0节点嵌入0节点嵌入0成本矩阵传输计划MOT0图1:GTOT-Tuning的整体框架,其中L GT OT表示GTOT正则化损失,LCE表示交叉熵损失。P的灰色格子表示当顶点对(vi,vj)不相邻时,Pij=0。假设输入图具有自环。0在训练过程中通过求和余弦不相似性)能够根据下游任务自适应地隐式调整微调权重和预训练权重之间的距离。在八个不同的具有不同GNN骨干的数据集上进行的实验证明,GTOT-Tuning在所有基准方法中取得了最佳性能,验证了我们方法的有效性和泛化能力。我们的主要贡献可以总结如下。1)我们提出了一个带有掩码矩阵的掩码OT问题,通过引入掩码矩阵来约束传输过程。特别地,我们定义了掩码Wasserstein距离(MWD)来提供一种灵活的度量来比较两个分布。2)我们提出了一种针对GNN的微调框架,称为GTOT-Tuning,基于所提出的MWD。该框架的核心组件GTOTRegularizer具有利用图结构来保持微调和预训练模型之间的局部特征不变性的能力。据我们所知,这是第一个专门针对GNN的微调方法。3)在各种基准数据集上进行了大量实验证明,结果证明了我们方法的竞争性能。02 相关工作0GNN的预训练。预训练技术已被证明对提高GNN模型的泛化能力非常有效。预训练GNN的现有方法主要基于自监督范式。一些自监督任务,例如上下文预测[胡等,2020;荣等,2020],边/属性生成[胡等,2020]和对比学习([You等,2020;徐等,2021]),已被设计用于从无标签图中获取知识。然而,大多数这些方法只使用了传统的微调方法,即预训练权重作为下游任务的初始权重。如何充分利用预训练的GNN模型的最佳性能仍然是一个开放问题。我们的工作旨在利用图结构在下游任务上实现更好的性能。0迁移学习中的微调。微调预训练模型用于下游任务是一种流行的范式0在迁移学习(TL)中。[Donahue和Jia,2014;Oquab等,2014]表明,将预训练的AlexNet模型提取的特征转移到下游任务中比手工设计的特征表现更好。[Yosinski等,2014;Agrawal等,2014]的进一步研究表明,微调预训练网络比固定的预训练表示更有效。最近的研究主要关注如何从不同的角度更好地利用预训练模型的先验知识。i)权重:L2 SP[Xuhong等,2018]提出了一种L2距离正则化,惩罚微调权重和预训练权重之间的L2距离。ii)特征:DELTA[Li等,2018b]通过通道注意力选择预训练激活的方式约束特征图。iii)架构:BSS[Chen等,2019]惩罚较小的奇异值以抑制不可转移的频谱分量,以防止负转移。StochNorm[Kou等,2020]使用随机归一化替代预训练模型的经典批归一化。尽管取得了令人鼓舞的进展,但仍缺乏针对GNN的微调方法。0最优传输。最优传输在深度学习的许多应用中经常使用,包括领域自适应[Courty et al., 2016; Xu et al.,2020],知识蒸馏[Chen et al., 2021],序列到序列学习[Chenand Zhang, 2019],图匹配[Xu et al.,2019],跨域对齐[Chen et al.,2020],刚性蛋白质对接[Ganea et al.,2022]和GNN架构设计[B´ecigneul et al.,2020]。一些经典的最优传输问题的解决方案,如Sinkhorn算法,可以在[Peyr´e and Cuturi,2020]中找到。与我们密切相关的工作可能是[Li et al.,2020],它提出了一种基于典型最优传输的微调方法。显著的区别在于我们的方法是i)基于提出的MOT,ii)为GNN量身定制的,iii)能够利用图的结构信息。0符号表示。我们通过�∙, ∙�定义矩阵U,V ∈ Rm×n的内积�U, V� =tr(U�V) = �i,j UijVij。I ∈ Rn×n表示单位矩阵,1n ∈Rn表示大小为n的每个分量都是1的向量。我们用粗体字母x∈ Rn表示一个n维向量,其中xi是x的第i个分量。设G(V,E)是一个具有4Masked Optimal TransportAlgorithm 1 Computing Masked Wasserstein Distance0顶点V和边E的图。我们用A ∈R|V|×|V|表示G的邻接矩阵,⊙表示Hadamard乘积。为了方便起见,我们遵循迁移学习的术语,将从微调模型(目标网络)输出的信号图称为目标图(具有节点嵌入{xT1, ...,xT|V|}),相应地,从预训练模型(源网络)输出的图称为源图(具有节点嵌入{xS1, ...,xS|V|})。请注意,在微调设置中,这两个图具有相同的邻接矩阵。0Wasserstein距离。Wasserstein距离(WD)[Peyr´e andCuturi,2020]常用于匹配两个经验分布(例如,图中的两组节点嵌入0定义1. 设α = �ni aiδxi和β = �mibiδy为两个离散分布,其中δxi是集中在位置x的Dirac函数。Π(α, β)表示所有边缘分布为α(x)和β(y)的联合分布γ(x, y)。a∈ Rn+和b ∈ Rm+是满足�ni=1ai = �mi=1bi =1的权重向量。两个离散分布α,β之间的Wasserstein距离定义如下:0Dw(α, β) = inf γ ∈ Π(α,β) E(x, y) � γ c(x, y) (1)0或Lw(a, b) = min P ∈ U(a, b) �P, C� = min P ∈ U(a, b)0ij PijCij (2)0其中 U(a, b) = {P ∈ Rn×m | P1m = a, P�1n = b},Cij =c(xi, yj) 是表示xi和yj之间距离的成本标量。P ∈Rn×m被称为传输计划或传输映射,Pij表示从ai到bj要移动的质量量。a,b也被称为P的边缘分布。0两个域中每对样本之间的差异可以通过最优传输距离Dw(α,β)来衡量。这似乎意味着Lw(a,b)是源图和目标图之间的一种自然选择作为表示距离进行GNN微调。然而,在源图和目标图之间存在局部依赖关系,特别是当图很大时(见第5节)。因此,将所有节点对的距离求和并不合适。受到这一观察的启发,我们提出了一个掩码最优传输问题,作为典型OT的扩展(第4节)。0回顾一下典型OT(定义1),ai可以被传输到任何bj ∈{bk}mk=1,其数量为Pij。在这里,我们假设ai只能被传输到U中的bj,其中U �{bk}mk=1是一个子集。这个约束可以通过限制传输计划来实现:如果bj � U,则Pij =0。此外,通过引入掩码矩阵,问题可以形式化如下。0定义2(掩码Wasserstein距离)。按照定义1的相同符号,给定掩码矩阵M101 In this paper, Mij = 0 represents the ij-th element of thematrix being masked.0Input: Cost Matrix C, Mask matrix M ∈ {0, 1}n×m, Marginalshreshold τ.0Algorithm 1计算掩码Wasserstein距离0u1 = uu =0Initialize: u = v = 0. for i = 1, 2, 3, ... do0log((M⊙exp(−C + u1�m + 1/nv�))�1n)) + v0log(M⊙exp(−C + u1�m +1/ + uv = ϵ(log(b) −0Break0end for P = M⊙exp(−M⊙C + u1�m +1/nv�)0Dmw = �P, C� Output: P,Dmw0∈ {0, 1}n×m where every row or column is not all zeros,the masked Wasserstein distance (MWD) is defined as0Lmw(M, a, b) = min P ∈ U(M, a, b) �M⊙P, C�, (3)0where U(M, a, b) := {P ∈ Rn×m+ | (M⊙P)1m = a,(M⊙P)�1n = b, P⊙(1n×m − M) = 0n×m} and C ∈ Rn×mis a cost matrix.0从公式(3)可以看出,掩码矩阵M表示需要优化P的元素,换句话说,在计算内积时需要将成本纳入求和。值得注意的是,不同的掩码矩阵M会导致不同的传输映射,并获得与M相关的OT距离。可以设计M来获得特定的WD。此外,定义的MWD可以通过设置M = 1/n×m来恢复WD,很明显Lmw(M, a, b) ≥Lw(a,b)。通过添加熵正则化惩罚可以获得近似解,这对于推导适用于并行迭代的算法至关重要[Peyr´e和Cuturi,2020]。0Proposition 1. The solution to definition 2 with entropicregularization ϵH(M⊙P)2 is unique and has the form0Pij = uiMijKijvj (4)0where Kij = exp(−Cij/ϵ) and (u, v) ∈ Rn+ × Rm+ are twounknown scaling variables.0从结果可以明显看出,MWD与直接加权距离矩阵C不等价[Xu等,2020],因此掩码OT问题是非平凡的。我们在附录中给出了证明,其中关键观察是exp(M⊙X) = M⊙exp(X) +1/n×m−M,其中X∈Rn×m是任意给定的矩阵。通过Sinkhorn Knopp迭代(Appendix)可以简单地计算出解。02 Namely, min P ∈ U(M, a, b) �M⊙P, C�−ϵH(M⊙P), where H(∙)0熵函数。假设0 log 0 = 0以确保H(M⊙P)是良定义的。0+v:mala2277获取更多论文15264+v:mala2277获取更多论文0�0可训练的0冻结01' 3'05' 2'06'04'01跳0掩码矩阵0�0图2:计算GTOT距离的示例。在目标图中保留第i个节点表示时,源图中与1跳顶点距离(即{2′,3′,4′,5′})对应的顶点将被考虑。这意味着GTOT正则化器是一种局部知识传递正则化器。0A.2).然而,正如我们所知,当正则化参数ϵ与成本矩阵C的条目相比太小时,Sinkhorn算法会遭受数值溢出的问题[Peyr´e和Cuturi,2020]。当掩码矩阵的稀疏性较大时,这个问题可能更加严重。幸运的是,通过在对数域中进行计算可以在一定程度上缓解这个问题。因此,为了保证数值稳定性和速度,我们提出了对数域掩码Sinkhorn算法(推导可以在附录A.3中看到)。算法1提供了整个过程。掩码思想的进一步扩展涉及将掩码矩阵添加到Gromov-Wasserstein距离[Peyr´e等,2016](MGWD)中,该距离可用于计算每个域中节点对之间的距离,以及确定这些距离与对应域中的距离相比如何。定义和算法可以在附录A.4,C中找到。05 通过掩码OT距离微调GNN在我们提出的框架中,我们使用掩码最优传输(MOT)进行GNN微调,其中学习一个传输计划 P ∈ R n × m来优化预训练模型和微调模型之间的知识转移。MOT具有几个独特的特点,使其成为GNN微调的理想工具。(i)自归一化:P的所有元素之和为1。(ii)稀疏性:引入的掩码矩阵可以有效限制传输映射的稀疏性,从而为微调提供更可解释和更稳健的表示正则化器(附录中的图12)。(iii)效率:我们的解决方案只需要矩阵-向量乘法,因此可以轻松地通过算法1获得,并且适用于GNN。(iv)灵活性:掩码矩阵可以为特定的传输任务分配独占的传输计划,并减少不必要的最优传输过程。05.1 GTOT正则化器0给定从预训练GNN和微调GNN消息传递阶段提取的节点嵌入 { x S i } |V| i =1 和 { x T i } |V|i =1 ,我们计算余弦不相似度 C ij = 10将 2 (1 − cos( x S i , x T j )) 作为MWD的成本矩阵。0事实上,余弦不相似度是许多OT应用中常用的选择[Chen等,2020;Xu等,2020]。直观上,在大多数情况下,图中两个(测地)距离较远的顶点的特征越不相似。这意味着在使用MWD进行微调时,应考虑到图的邻接关系,而不是对成本矩阵的所有成对距离求和。因此,我们将掩码矩阵设置为邻接矩阵A(带自环),基于1-hop依赖的假设,即目标图中的顶点仅与源图中相应顶点的1-hop内的顶点相关联(图2)。这个假设是合理的,因为通过(预训练的)GNN提取的相邻节点嵌入有些相似[Li等,2018a],这也揭示了仅考虑节点之间的距离而不考虑邻居是次优的。我们将这种具有图拓扑的MOT称为图拓扑诱导的最优传输(GTOT)。在边缘分布均匀的情况下,GTOT正则化器被正式定义为0L mw ( A , q , q ) = min P ∈ U ( A , q , q ) � A ⊙ P , C �(GTOT正则化器)0其中 q 被定义为均匀分布 1 |V| / |V|0j ∈N ( i ) � { i } P ij C ij ,其中 N ( i ) 表示节点 i的邻居集。我们尝试将图结构纳入到OT中,使用不同的方法,例如直接在非相邻位置的成本上添加一个大的正数,但这种方法不如我们的方法简洁,并且由于大数值计算的挑战,避免非相邻顶点的求和是棘手的。此外,当邻接矩阵是稀疏的时候,我们的方法有潜力使用稀疏矩阵加速。我们的方法易于扩展到i)加权图,通过逐元素乘积将边权重矩阵 W与成本矩阵相乘,即 � A ⊙ P , W ⊙ C �,或者ii)k-hop依赖假设,通过将 A 替换为 A k 或 g ( A ),其中 g是一个多项式函数。类似地,使用MOT,我们可以定义基于MGWD的正则化器来对边级表示进行正则化。由于我们希望专注于使用MWD对节点级表示进行正则化,我们将详细信息推迟到附录 C 中。05.2GTOT微调框架与[Li等,2020]提出的OT表示正则化器不同,我们的框架中的GTOT正则化器计算训练数据的小批量样本之间的Wasserstein距离,而是专注于单个样本,即源图和相应目标图的节点嵌入之间的GTOT距离。考虑节点之间的GTOT距离允许在节点级别进行知识转移。这使得微调模型能够输出更适合下游任务的表示,即节点表示与预训练模型输出的表示尽可能相同,但在图级别表示上具有特定的差异。总体目标。给定 N 个训练样本 { ( G 1 , y 1 ) , ∙ ∙ ∙ , ( G N , y N ) },GTOT-的总体目标是Table 1: Test ROC-AUC (%) of GIN(contexpred) on downstream molecular property prediction benchmarks.(’↑’ denotes performance im-provement compared to the Fine-Tuning baseline. )MethodsBBBPTox21ToxcastSIDERClinToxMUVHIVBACEAverageFine-Tuning (baseline)68.0±2.075.7±0.763.9±0.660.9±0.665.9±3.875.8±1.777.3±1.079.6±1.270.85L2 SP [Xuhong et al., 2018]68.2±0.773.6±0.862.4±0.361.1±0.768.1±3.776.7±0.975.7±1.582.2±2.470.25DELTA[Li et al., 2018b]67.8±0.875.2±0.563.3±0.562.2±0.473.4±3.080.2±1.177.5±0.981.8±1.172.68Feature(DELTA w/o ATT)61.4±0.871.1±0.161.5±0.262.4±0.364.0±3.478.4±1.174.0±0.576.3±1.168.64BSS[Chen et al., 2019]68.1±1.475.9±0.863.9±0.460.9±0.870.9±5.178.0±2.077.6±0.882.4±1.872.21StochNorm [Kou et al., 2020] 69.3±1.674.9±0.663.4±0.561.0±1.165.5±4.276.0±1.677.6±0.880.5±2.771.03GTOT-Tuning (Ours)70.0±2.3↑2.075.6±0.7↓0.164.0±0.3↑0.163.5±0.6↑2.672.0±5.4↑6.180.0±1.8↑4.278.2±0.7↑0.983.4±1.9↑3.873.34↑2.49Table 2: Test ROC-AUC (%) of GIN(supervised contexpred) on downstream molecular property prediction benchmarks.MethodsBBBPTox21ToxcastSIDERClinToxMUVHIVBACEAverageFine-Tuning (baseline)68.7±1.378.1±0.665.7±0.662.7±0.872.6±1.581.3±2.179.9±0.784.5±0.774.19L2 SP [Xuhong et al., 2018]68.5±1.078.7±0.365.7±0.463.8±0.371.8±1.685.0±1.177.5±0.984.5±0.974.44DELTA[Li et al., 2018b]68.4±1.277.9±0.265.6±0.262.9±0.872.7±1.985.9±1.375.6±0.479.0±1.173.50Feature(DELTA w/o ATT)68.6±0.977.9±0.265.7±0.263.0±0.672.7±1.585.6±1.075.7±0.378.4±0.773.45BSS[Chen et al., 2019]70.0±1.078.3±0.465.8±0.362.8±0.673.7±1.378.6±2.179.9±1.484.2±1.074.16StochNorm [Kou et al., 2020] 69.8±0.978.4±0.366.1±0.462.2±0.773.2±2.182.5±2.680.2±0.784.2±2.374.58GTOT-Tuning (Ours)71.5±0.8↑2.878.6±0.3↑0.566.6±0.4↑0.963.3±0.6↑0.677.9±3.2↑5.385.0±0.9↑3.781.1±0.5↑1.285.3±1.5↑0.876.16↑1.97Tuning is to minimize the following loss:L = 1NN�i=1l(f, Gi, yi)(6)where l(f, Gi, yi) := φ(f(Gi), yi)+λLmw(A(i), q(i), q(i)),f denotes a given GNN backbone, λ is a hyper-parameter forbalancing the regularization with the main loss function, andφ(·) is Cross Entropy loss function.6Theoretical AnalysisWe provide some theoretical analysis for GTOT-Tuning.Related to Graph Laplacian.Given a graph signal s ∈Rn×1, if one defines Cij := (si − sj)2, then Lmw =minP∈U(A,a,b)�ij PijAij(si − sj)2.As we know,2sT Las = �ij Aij(si − sj)2, where La = D − A is theLaplacian matrix and D is the degree diagonal matrix. There-fore, our distance can be viewed as giving a smooth value ofthe graph signal with topology optimization.Algorithm Stability and Generalization Bound.We ana-lyze the generalization bound of GTOT-Tuning and expect tofind the key factors that affect its generalization ability. Wefirst give the uniform stability below.Lemma1(UniformstabilityforGTOT-Tun-ing).LetS:={z1=(G1, y1), z2=(G2, y2), · · · , zi−1 = (Gi−1, yi−1), zi = (Gi, yi), zi+1 =(Gi+1, yi+1), · · · , zN = (GN, yN)} be a training set withN graphs, Si:={G1, G2, ..., Gi−1, G′i, Gi+1, ..., GN}be the training set where graph i has been replaced. As-sume that the number of vertices |VGj| ≤ B for all j and0 ≤ φ(fS, z)M, then0|l(fS,z)-l(fSi,z)|≤2M+λ√0B(7)0其中λ是方程(6)中使用的超参数。0根据引理1和[Bousquet and Elisseeff,2002]的结论,GTOT-Tuning的泛化误差界限如下所示。0命题2.假设使用GTOT正则化的GNN满足0≤l(fS,z)≤Q。对于任意δ∈(0,1),以下界限在样本S的随机抽取上至少以概率1-δ成立。0R(fS)≤Rm(fS)+4M+2λ√0B0+ (8NM+4Nλ√0B + Q)0�0l02N(8)0其中R(fS)表示广义误差,Rm(fS)表示经验误差。证明见附录。这个结果表明,GNN与GTOT正则化器的泛化界受训练数据集中最大顶点数(B)的影响。07实验我们在图分类任务上进行实验以评估我们的方法。7.1不同微调策略的比较。设置。我们重用了由[胡等,2020]发布的两个预训练模型作为骨干:GIN(contextpred)[Xu等,2018],它仅通过自监督任务ContextPrediction进行预训练,以及GIN(supervisedcontextpred),它是通过Context Prediction + GraphLevel多任务监督策略进行预训练的架构。这两个网络都是在化学数据集(包含200万个分子)上进行预训练的。此外,MoleculeNet[Wu等,2018]中的八个二分类数据集用于评估微调策略,其中使用了脚手架分割方案进行数据集分割。更多细节可以在附录中找到。基线。由于我们没有找到关于微调GNN的相关工作,我们将几个针对卷积网络的典型基线方法扩展到GNN,包括L2 SP [Xuhong等,2018],DELTA[Li等,2018b],BSS [Chen等,2019],SotchNorm[Kou等,2020]。结果。不同微调策略的结果如表1、2所示。观察(1):GTOT-Tuning在不同数据集上获得了竞争性能,并且平均表现优于其他方法。观察(2):权重正则化(L2SP)无法改善纯自监督任务。这意味着L2SP可能需要预训练任务与下游任务相似。幸运的是,我们的方法可以持续提升监督和自监督预训练模型的性能。观察(3):欧几里德距离正则化(Features(DELTA w/oATT))的性能比普通微调差,这表明直接使用节点表示正则化可能导致负迁移。0+v:mala2277获取更多论文0.20.30.70.85560657075Test AUC (%)Fine-TuningGTOT-Tuning0.20.30.70.850525456586062Fine-TuningGTOT-Tuning020400801000.250.500.751.001.251.501.752.00Fine-TuningGTOT-Tuning020400801003.13.23.33.43.53.63.73.8Fine-TuningGTOT-Tuning0测试AUC(%)0标记比例0MUV0标记比例0测试AUC(%)0SIDER0图3:不同标记数据比例的测试AUC。07.2消融研究0掩码矩阵的效果。我们通过使用GTOT正则化器对GNN进行微调的实验来验证引入的邻接矩阵的效率。表3中的结果表明,当使用邻接矩阵作为掩码矩阵时,大多数下游任务的性能将优于直接使用经典WD。此外,当掩码矩阵为单位矩阵时,竞争性能也意味着我们可以选择可能的预设计掩码矩阵,例如A的多项式,用于特定的下游任务。这也表明我们的MOT可以灵活地用于微调。0表3:GIN(contextpred)在下游任务上的测试ROC-AUC(%)。(括号表示掩码矩阵。MWD(A)是GTOT距离。)0方法 BBBP Tox21 Toxcast SIDER0# BPTs 1 12 617 27 # A距离 1.57 1.56 1.56 1.410w/o MWD 68.7 ± 3.4 75.9 ± 0.5 63.1 ± 0.6 60.2 ± 0.9 w/ MWD (1 n × n ) 66.2 ± 3.3 75.3 ± 0.9 63.6 ± 0.6 62.7 ± 0.7 w/ MWD (A ) 69.6 ± 2.6 75.7 ± 0.5 63.8 ± 0.4 63.5 ± 0.6 w/ MWD ( I ) 68.6± 3.5 75.4 ± 0.7 64.1 ± 0.3 63.7 ± 0.50方法 ClinTox MUV HIV BACE0# BPTs 2 17 1 1 # A距离 1.41 1.19 1.65 1.650w/o MWD 69.5 ± 5.0 69.5 ± 1.3 78.2 ± 1.2 82.5 ± 1.7 w/ MWD (1 n × n ) 69.5 ± 5.0 74.3 ± 1.3 78.2 ± 0.8 83.7 ± 1.9 w/ MWD (A ) 70.9 ± 5.8 80.7 ± 0.6 78.5 ± 1.5 83.1 ± 1.9 w/ MWD ( I ) 69.7± 4.0 80.2 ± 0.9 78.3 ± 1.3 82.6 ± 2.50不同标记数据比例的影响。我们还研究了在MUV和SIDER数据集上使用不同比例标记数据的方法的性能。如图3所示,相对于不同数量的标记数据,MWD方法始终优于基线(普通微调),表明我们方法的泛化性能。0无预训练 无预训练0微调0GTOT-Tuning0MUV MUV0负迁移0图4:多任务数据集(MUV)上一对微调策略的ROC-AUC得分的散点图比较。每个点代表一个特定的下游任务。许多下游任务中,普通微调的表现比非预训练模型差,表明存在负迁移。与此同时,使用GTOT正则化器时,负迁移得到了缓解。07.3 GTOT-Tuning的原理0a)模型权重对下游任务的自适应调整。采用A距离[Ben-David等,2007],dA(DS,DT)=2(1-2ξ(h))来衡量预训练和微调领域之间的差异,即预训练数据DS和微调数据DT之间的领域差距。ξ(h)是一个线性SVM分类器h对两个领域进行区分的错误率[Xu等,2020]。我们使用GIN(contextpred)提取的表示作为输入计算dA,并在表3中展示结果。从图5可以看出,当领域差距相对较小(MUV)时,GTOT-Tuning约束了微调模型和预训练模型之间的权重距离。相反,当领域差距较大(BACE)时,我们的方法不一定增加权重之间的距离,而是增加了权重之间的距离。这表明GTOT-Tuning能够根据下游任务自适应地隐式调整微调权重和预训练权重之间的距离,从而产生强大的微调模型。b)在多任务下减轻负迁移。图4显示了GTOT-Tuning在多任务数据集上提升了大多数任务的性能,证明了我们的方法在减轻负迁移方面的能力。0Epoch0Frobenius距离01e3 BACE0Epoch0Frobenius距离01e3 MUV0图5:预训练初始化权重和微调权重之间的权重距离。由于MOT的软对齐,GTOT正则化器能够根据下游任务隐式调整权重的距离。0由于空间限制,我们将GCN(contextpred)骨干、敏感性分析和运行时间的额外实验结果推迟到附录D.5、D.6和D.7中。代码可以在https://github.com/youjibiying/ GTOT-Tuning上找到。0+v:mala2277获取更多论文+v:mala2277获取更多论文08 讨论和未来工作尽管结果不错,但还有一些值得在未来进一步探索的方面:i)基于MOT的方法需要相对较高的计算成本,需要设计更高效的算法来解决它。ii)当与MGWD结合使用时,MWD有潜力表现得更好,这可能需要通过设计更合适的组合来实现。iii)MOT获得的最优输运计划可以用于设计图中的新消息传递方案。iv)所提出的方法可以潜在地扩展到需要高级知识转移技术的更具挑战性的设置,例如图的分布学习[Ji et al. ,2022]。v)可以设想图知识蒸馏或MOT重心的其他应用。0致谢作者们要感谢王喜梅,傅国基和陈冠梓对他们的真诚和无私的帮助。0参考文献[Agrawal et al. , 2014] Pulkit Agrawal,RossGirshick和JitendraMalik。分析多层神经网络在目标识别中的性能。在ECCV中,页码329-344,2014年。0[Altschuler et al. , 2017] Jason Altschuler,JonathanWeed和PhilippeRigollet。通过Sinkhorn迭代的近线性时间近似算法进行最优0[B´ecigneul et al. , 2020] Gary B´ecigneul,Octavian-EugenGanea,Benson Chen,Regina Barzilay和TommiJaakkola。最优输运图神经网络。arXiv预印本arXiv:2006.04804,2020年。0[Ben-David et al. , 2007] Shai Ben-David,JohnBlitzer,Koby Crammer,FernandoPereira等人。领域自适应表示的分析。NeurIPS,19:1370[Bousquet and Elisseeff, 2002] Olivier Bousquet和Andr´eElisseeff。稳定性和泛化。JMLR,2:499-526,2002年。0[Chen and Zhang, 2019]陈立群和Yizhe等人。张。通过最优输运改进序列到序列学习。在ICLR中,2019年。0[Chen et al. , 2019]陈新阳,王思楠,傅波,龙明生和王建民。灾难
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功