图拓扑优化传输：微调图神经网络新框架

186 浏览量更新于2024-06-19 收藏 19.8MB PDF 举报

"这篇论文提出了一种新的微调框架，名为GTOT-Tuning，用于图神经网络（GNN）。该框架基于最优传输理论，旨在更好地保留图数据的结构信息和预训练模型的知识。通过图的局部知识转移，GTOT-Tuning优化了节点级别的最优传输过程，减少冗余，提高知识迁移效率。在多个GNN骨架网络和下游任务上的实验显示，GTOT-Tuning在GNN微调方面达到了最先进的性能。" 正文: 在图学习领域，预训练-微调策略已成为处理标签稀疏问题的有效手段。然而，当前的方法主要依赖于权重约束和表示约束，这些方法源自图像或文本数据，可能未能充分利用图数据的特性和GNN模型的结构不变性。为此，研究者们提出了GTOT-Tuning，一个基于图拓扑的最优传输微调方法，其核心是利用图的拓扑信息来增强微调过程中表示的保持。 GTOT-Tuning的创新之处在于将图的局部知识转移转化为一个带有结构先验的最优传输问题。最优传输理论是一种在不同分布之间寻找最小成本的映射方法，常用于机器学习中的配对问题。在GTOT-Tuning中，这一理论被用来指导节点间的表示转移，确保在微调过程中，节点的相邻关系得以保留，从而减少无效的知识传输，提高从预训练模型到微调模型的知识迁移效率。在实际应用中，微调对于从有限的训练样本中学习至关重要，尤其是在图数据的背景下。传统的微调策略，如权重约束，仅仅关注模型参数的相似度，忽视了图的拓扑结构；而表示约束则关注模型输出的表示空间一致性，但同样没有充分利用图的结构信息。GTOT-Tuning的出现，填补了这一空白，它通过构造的GTOT正则化器，有效地实现了图结构的保留，增强了微调效果。在一系列实验中，GTOT-Tuning被应用于多种GNN骨架网络，并在八个不同的下游任务上进行了测试。实验结果表明，GTOT-Tuning在大多数情况下都超越了现有技术，证实了其在GNN微调领域的优越性。这不仅提高了模型在有限数据条件下的泛化能力，也为处理各种图数据问题提供了新的思路。 GTOT-Tuning为图神经网络的微调提供了一个强大的工具，通过最优传输理论，它能够更好地适应图数据的特性，实现高效的预训练知识迁移，从而提升模型在实际应用中的性能。这对于解决现实世界中的图数据问题，尤其是那些面临数据稀缺挑战的应用，具有深远的影响。

Table 1: Test ROC-AUC (%) of GIN(contexpred) on downstream molecular property prediction benchmarks.(’↑’ denotes performance im-

provement compared to the Fine-Tuning baseline. )

Methods BBBP Tox21 Toxcast SIDER ClinTox MUV HIV BACE Average

Fine-Tuning (baseline) 68.0±2.0 75.7±0.7 63.9±0.6 60.9±0.6 65.9±3.8 75.8±1.7 77.3±1.0 79.6±1.2 70.85

L2 SP

[

Xuhong et al., 2018

]

68.2±0.7 73.6±0.8 62.4±0.3 61.1±0.7 68.1±3.7 76.7±0.9 75.7±1.5 82.2±2.4 70.25

DELTA

[

Li et al., 2018b

]

67.8±0.8 75.2±0.5 63.3±0.5 62.2±0.4 73.4±3.0 80.2±1.1 77.5±0.9 81.8±1.1 72.68

Feature(DELTA w/o ATT) 61.4±0.8 71.1±0.1 61.5±0.2 62.4±0.3 64.0±3.4 78.4±1.1 74.0±0.5 76.3±1.1 68.64

BSS

[

Chen et al., 2019

]

68.1±1.4 75.9±0.8 63.9±0.4 60.9±0.8 70.9±5.1 78.0±2.0 77.6±0.8 82.4±1.8 72.21

StochNorm

[

Kou et al., 2020

]

69.3±1.6 74.9±0.6 63.4±0.5 61.0±1.1 65.5±4.2 76.0±1.6 77.6±0.8 80.5±2.7 71.03

GTOT-Tuning (Ours) 70.0±2.3↑

2.0

75.6±0.7↓

0.1

64.0±0.3↑

0.1

63.5±0.6↑

2.6

72.0±5.4↑

6.1

80.0±1.8↑

4.2

78.2±0.7↑

0.9

83.4±1.9↑

3.8

73.34↑

2.49

Table 2: Test ROC-AUC (%) of GIN(supervised contexpred) on downstream molecular property prediction benchmarks.

Methods BBBP Tox21 Toxcast SIDER ClinTox MUV HIV BACE Average

Fine-Tuning (baseline) 68.7±1.3 78.1±0.6 65.7±0.6 62.7±0.8 72.6±1.5 81.3±2.1 79.9±0.7 84.5±0.7 74.19

L2 SP

[

Xuhong et al., 2018

]

68.5±1.0 78.7±0.3 65.7±0.4 63.8±0.3 71.8±1.6 85.0±1.1 77.5±0.9 84.5±0.9 74.44

DELTA

[

Li et al., 2018b

]

68.4±1.2 77.9±0.2 65.6±0.2 62.9±0.8 72.7±1.9 85.9±1.3 75.6±0.4 79.0±1.1 73.50

Feature(DELTA w/o ATT) 68.6±0.9 77.9±0.2 65.7±0.2 63.0±0.6 72.7±1.5 85.6±1.0 75.7±0.3 78.4±0.7 73.45

BSS

[

Chen et al., 2019

]

70.0±1.0 78.3±0.4 65.8±0.3 62.8±0.6 73.7±1.3 78.6±2.1 79.9±1.4 84.2±1.0 74.16

StochNorm

[

Kou et al., 2020

]

69.8±0.9 78.4±0.3 66.1±0.4 62.2±0.7 73.2±2.1 82.5±2.6 80.2±0.7 84.2±2.3 74.58

GTOT-Tuning (Ours) 71.5±0.8↑

2.8

78.6±0.3↑

0.5

66.6±0.4↑

0.9

63.3±0.6↑

0.6

77.9±3.2↑

5.3

85.0±0.9↑

3.7

81.1±0.5↑

1.2

85.3±1.5↑

0.8

76.16↑

1.97

Tuning is to minimize the following loss:

L =

i=1

l(f, G

, y

) (6)

where l(f, G

, y

) := φ(f(G

), y

)+λL

(i)

, q

(i)

, q

(i)

f denotes a given GNN backbone, λ is a hyper-parameter for

balancing the regularization with the main loss function, and

φ(·) is Cross Entropy loss function.

6 Theoretical Analysis

We provide some theoretical analysis for GTOT-Tuning.

Related to Graph Laplacian. Given a graph signal s ∈

n×1

, if one deﬁnes C

:= (s

− s

)

, then L

min

P∈U(A,a,b)

− s

)

. As we know,

s =

− s

)

, where L

= D − A is the

Laplacian matrix and D is the degree diagonal matrix. There-

fore, our distance can be viewed as giving a smooth value of

the graph signal with topology optimization.

Algorithm Stability and Generalization Bound. We ana-

lyze the generalization bound of GTOT-Tuning and expect to

ﬁnd the key factors that affect its generalization ability. We

ﬁrst give the uniform stability below.

Lemma 1 (Uniform stability for GTOT-Tun-

ing). Let S := {z

= (G

, y

), z

, y

), ··· , z

i−1

= (G

i−1

, y

i−1

), z

= (G

, y

), z

i+1

, y

i+1

), ··· , z

= (G

, y

)} be a training set with

N graphs, S

:= {G

, G

, ..., G

i−1

, G

i+1

, ..., G

}

be the training set where graph i has been replaced. As-

sume that the number of vertices |V

| ≤ B for all j and

0 ≤ φ(f

, z) M, then

|l(fS,z)-l(fSi,z)|≤2M+λ√

B（7）

其中λ是方程（6）中使用的超参数。

根据引理1和[BousquetandElisseeff,

2002]的结论，GTOT-Tuning的泛化误差界限如下所示。

命题2.假设使用GTOT正则化的GNN满足0≤l(fS,z)≤Q。对于

任意δ∈(0,1)，以下界限在样本S的随机抽取上至少以概率1-δ

成立。

R(fS)≤Rm(fS)+4M+2λ√

+(8NM+4Nλ√

B+Q）



2N（8）

其中R(fS)表示广义误差，Rm(fS)表示经验误差。证明见附录

。这个结果表明，GNN与GTOT正则化器的泛化界受训练数据

集中最大顶点数（B）的影响。

7实验我们在图分类任务上进行实验以评估我们的方法。7.1不

同微调策略的比较。设置。我们重用了由[胡等，2020]发布的

两个预训练模型作为骨干：GIN（contextpred）[Xu等，201

8]，它仅通过自监督任务Context

Prediction进行预训练，以及GIN（supervised

contextpred），它是通过ContextPrediction+Graph

Level多任务监督策略进行预训练的架构。这两个网络都是在

化学数据集（包含200万个分子）上进行预训练的。此外，M

oleculeNet

[Wu等，2018]中的八个二分类数据集用于评估微调策略，其

中使用了脚手架分割方案进行数据集分割。更多细节可以在附

录中找到。基线。由于我们没有找到关于微调GNN的相关工

作，我们将几个针对卷积网络的典型基线方法扩展到GNN，

包括L2SP[Xuhong等，2018]，DELTA

[Li等，2018b]，BSS[Chen等，2019]，SotchNorm

[Kou等，2020]。结果。不同微调策略的结果如表1、2所示。

观察（1）：GTOT-Tuning在不同数据集上获得了竞争性能，

并且平均表现优于其他方法。观察（2）：权重正则化（L2

SP）无法改善纯自监督任务。这意味着L2

SP可能需要预训练任务与下游任务相似。幸运的是，我们的

方法可以持续提升监督和自监督预训练模型的性能。观察（3

）：欧几里德距离正则化（Features(DELTAw/o

ATT)）的性能比普通微调差，这表明直接使用节点表示正则

化可能导致负迁移。

+v:mala2277获取更多论文

剩余23页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

图拓扑优化传输：微调图神经网络新框架

最新资源