没有合适的资源?快使用搜索试试~ 我知道了~
元聚合器:用于1位图神经网络的聚合
Yongcheng Jing1, Yiding Yang2, Xinchao Wang3, Mingli Song4, Dacheng Tao5,1yjin9495@sydney.edu.au, yyang99@stevens.edu,xinchao@nus.edu.sg, brooksong@zju.edu.cn, dacheng.tao@gmail.com−3.130.09 −0.15−+++−+⋯⋯0.245.110.3553010元聚合器:学习用于1位图神经网络的聚合01 悉尼大学,澳大利亚,2 史蒂文斯理工学院,3 新加坡国立大学,4 浙江大学,5京东探索学院,中国0摘要0在本文中,我们研究了一种新颖的元聚合方案,用于对图神经网络(GNN)进行二值化。我们首先开发了一个基本的1位GNN框架,将GNN参数和图特征都进行二值化。尽管这种轻量级的架构,但我们观察到这个基本框架在区分图拓扑方面的判别能力不足,导致性能大幅下降。这一发现激发了我们设计元聚合器来提高基本二值化GNN的表达能力,其中聚合方案可以根据二值化特征以可学习的方式自适应改变。为此,我们提出了两种专用形式的元邻域聚合器,一种是称为贪婪Gumbel聚合器(GNA)的独占元聚合器,一种是称为可调节混合邻域聚合器(ANA)的扩散元聚合器。GNA学习从候选池中独占地选择一个最佳聚合器,而ANA学习一种混合聚合行为,同时保留几个单独聚合器的优点。此外,所提出的元聚合器可以方便地作为通用的插件模块插入现有的全精度GNN中。在各个领域的实验表明,所提出的方法优于现有技术水平。01. 引言0图神经网络(GNN)最近成为学习和分析非欧几里德数据的主导范式,这些数据包含丰富的节点内容信息和拓扑关系信息[7, 12, 53]。因此,已经开发了大量的GNN架构[21,46, 55, 60,63]。GNN的成功也引发了在许多领域应用精心设计的图网络的浪潮,例如目标检测[11,8],姿态估计[59],点云处理[22, 51,36]和视觉SLAM[40]。这些032位特征032位权重0预定义的聚合0图01位 特征01位 权重0浮点数0操作01位0操作0元0聚合0图1.(a)传统全精度GNN和(b)提出的1位GNN的计算工作流程示意图。我们为所提出的模型设计了两种元聚合器,分别称为贪婪Gumbel聚合器(GNA)和可调节混合聚合器(ANA),它们学习以图感知和层感知的方式执行自适应聚合。0基于图神经网络(GNN)的应用通常依赖于繁琐的图结构来提供令人满意的结果。例如,SuperGlue是一种基于GNN的特征匹配方法,为了达到最先进的性能,需要1200万个网络参数[40]。然而,在实践中,这些应用通常需要一种紧凑且轻量级的架构,以实现实时交互,特别是在资源受限的环境中。例如,在自动驾驶[30]中,保持GNN-basedSLAM算法对复杂交通条件的快速和及时响应至关重要,因此迫切需要压缩繁琐的GNN模型。[58]的工作是第一次尝试,利用知识蒸馏来学习一个参数更少的紧凑学生GNN。尽管效率有所提高,但这种方法仍然依赖于昂贵的浮点运算,更不用说首先要预训练一个性能良好的教师模型了。在本文中,我们努力朝着超轻量级GNN迈进一步。我们的目标是训练一个定制的1位GNN,如图1所示,它既具有有利的内存效率,同时又具有竞争性的性能。我们首先开发了一个简单的GNN二值化框架,通过将32位特征和参数转换为1位,然后利用直接的1101−1+1+1+1−1+1∗−1Feature Weight−1−31+1−1−1−1+1+1∗FeatureWeight−31−1+1−1−1+1+1∗(a)(b)(c)53020- 30-101 - 30- 30-101 - 30- 2 - 10-10- 3 10- 30- 10� : 1位操作 : 均值聚合0-10特征权重0: 均值聚合 : 最大聚合 : 总和聚合0: 扩散聚合1 : 扩散聚合20图2.具有不同拓扑结构的两个图的聚合示例结果,分别为(a)传统的预定义和固定聚合器,(b)所提出的独占形式的元聚合器GNA,以及(c)所提出的扩散形式的元聚合器ANA。0通过估计器优化二值化模型。衍生的原始二值化GNN具有良好的内存效率;然而,其性能并不如预期那样令人鼓舞。通过解析其底层过程,我们发现二值化产生了有限的表达能力,使得模型无法区分不同的图拓扑结构。图2(a)展示了一个说明性的例子,其中一个均值聚合器,这是全精度GNN常用的聚合器,对于具有二值化特征的两个不同的图拓扑结构产生了相同的聚合结果,从而导致性能较差。受到这一发现的启发,我们在所提出的GNN二值化框架中引入了一个可学习和自适应的邻域聚合器,以减轻上述困境并增强1位图的区分能力。与现有依赖于预定义和固定聚合器的GNN不同,我们精心设计的元邻域聚合器能够动态选择(图2(b))或生成(图2(c))定制的输入和层特定的聚合方案。因此,我们明确考虑了二值化图特征的定制特性,并进一步加强了处理拓扑结构的区分能力。为此,我们提出了两种变体的元聚合器:一种是独占元聚合器,称为贪婪Gumbel邻域聚合器(GNA),它以可学习的方式自适应地选择最佳聚合器;另一种是扩散元聚合器,称为适应性混合邻域聚合器(ANA),它可以近似一个单一的聚合器或动态生成一个混合聚合行为。具体而言,GNA通过利用贪婪Gumbel采样将候选聚合器的离散决策与个体图特征结合到梯度下降过程中。不可避免地,GNA的性能受到候选池中个体聚合器的限制。因此,我们进一步设计了ANA,它能够基于输入的1位图动态生成一个混合聚合器。ANA同时保留了多个个体聚合器的优点。0聚合器,导致有利的能力来处理具有挑战性的1位图特征。此外,所提出的GNA和ANA可以轻松地扩展为便携式模块,用于增强全精度GNN模型的表达能力。总之,我们的贡献是一个新颖的GNN定制二值化框架,生成具有竞争性能的1位轻量级GNN模型,使其能够胜任边缘计算等资源受限应用。这是通过一种自适应的元聚合方案来实现的,以适应具有挑战性的量化图特征。我们在不同领域和图任务的几个大规模基准测试上评估了所提出的定制框架。实验结果表明,所提出的元聚合器不仅在设计的1位二值化GNN模型上,而且在一般的全精度模型上都取得了优于现有技术的结果。02. 相关工作0我们在这里简要回顾与我们的工作相关的几个主题,包括图神经网络(GNNs),基于GNN的应用以及先前基于CNN的网络二值化技术。0图神经网络。图神经网络的概念最早在[41]中提出,它将现有的神经网络推广到处理非欧几里德域中表示的图数据。在过去的几年中,图神经网络取得了前所未有的进展,发展出了各种方法[21, 19, 63, 7, 57, 56, 25, 27, 48, 13, 24, 32,26]。例如,[46]中的图注意力网络引入了一种新颖的注意力机制,用于高效的图处理。另一方面,GraphSAGE[10]通过对局部邻域进行采样和聚合特征表示来解决大规模图上的可扩展性问题。GNN的成功也推动了图网络在各种问题领域[63]的应用,包括语义分割[52, 22, 36, 34],目标检测[11,8],姿态估计[59],交互检测[35,17]和视觉SLAM[40]等。具体而言,[52]提出了一种用于点云分类和语义分割的动态图卷积模型,它结合了PointNet[33]和图卷积网络[21]的优点。尽管性能令人鼓舞,但目前缺乏对庞大GNN模型进行压缩的研究,这对于在资源受限的环境(如移动终端)中部署至关重要。0网络二值化。在模型压缩领域[62, 42, 43, 5,44],网络二值化技术旨在节省内存占用并加速网络。53030通过对网络参数进行二值化,然后利用位运算进行推理[14,15,4]。近年来,提出了各种CNN二值化方法,可以分为直接二值化[6, 14, 15, 20]和基于优化的二值化[38, 4,29]。具体而言,直接二值化使用预定义的二值化函数将权重和激活量化为1位。相反,基于优化的二值化引入了用于二值化参数的缩放因子,以提高表示能力,但不可避免地导致效率下降。受CNN领域中上述二值化技术的成功启发,我们在本文中提出了一种专门针对GNN的二值化方法。具体而言,我们主要关注基于GNN的直接二值化,因为我们的目标是开发超轻量级的GNN模型。我们还注意到了三个同时进行的工作[47, 49,1],它们也旨在加速GNN模型的前向过程。然而,[47,49]直接应用基于CNN的二值化技术,而没有考虑GNN的特点,实际上它们将作为我们实验的基准方法。[1]中的另一项工作仅关注改进动态图卷积模型[52]的效率,通过加速在汉明空间中k最近邻图的动态构建。与[47, 49,1]不同,我们旨在设计一个更通用的针对GNN的二值化框架,适用于大多数现有的GNN模型。03. 原始二值GNN和预分析0在本节中,我们首先通过简单地对模型参数和激活进行二值化来开发一个原始的二值GNN框架。然后,我们通过研究内部消息聚合过程来展示这个原始的二值GNN的局限性,并相应地提出了两种可能的解决方案来解决这些局限性。最后,基于这些可能的解决方案,我们引入了提出的定制GNN二值化框架的元聚合器的概念。0GNN模型的构建。GNN利用图的拓扑结构和节点/边的特征来学习节点、边或整个图的表示向量。设G = {V,E}表示一个有向/无向图,其中vi∈V表示节点,(vi,vj)∈E表示边,vj是vi的邻居节点集合。每个节点都有一个相关的节点特征X = [x1, x2, ...,xn]。例如,在3D物体分类任务中,x可以设置为3D坐标。现有的GNN在每个GNN层都遵循迭代的邻居聚合方案,其中每个节点vi从其邻居节点{vj}中迭代地收集特征以捕捉结构信息[23,55]。设ℓ表示第ℓ层节点vi的特征向量Xℓi,GNN中相应的更新特征向量Xℓ+1i可以表示为:0Xℓ+1i = f � Xℓi, {Xℓj: (j,i) ∈ E}�,(1)0其中Xℓj表示与相邻节点相关联的特征。f是一个映射函数,它以Xℓi和Xℓj作为输入。选择映射f对应于不同的GNN架构。为了简单起见,我们以Kipf和Welling[21]提出的图卷积网络(GCN)作为示例GNN架构进行以下讨论。我们将Mean表示为计算传入消息的平均值的聚合器,W表示用于特征变换的可学习权重矩阵。对于GCN,通用的GNN形式可以实例化为:Xℓ+1i = ReLU �WlMean(j,i)∈EXℓj�或Xℓ+1i = ReLU �Mean(j,i)∈EWlXℓj�,分别对应聚合先于特征变换步骤或聚合后于特征变换步骤的情况。0原始1位GNN模型。我们开发了一个简单的二进制GNN框架,通过直接将32位输入特征和可学习权重在特征变换步骤中二进制化为1位来压缩繁琐的GNN模型。具体来说,对于原始二进制GCN的情况,正向传播过程可以建模为:0网络正向传播:wb = sign(w) =0�+1,w ≥ 00−1,w < 0,(2)0其中w表示可学习权重矩阵W中的元素。我们以相同的方式对图特征X进行二进制化,通过用特征元素x替换Eq.2中的w。在反向传播过程中,不能像大多数全精度模型那样简单地利用反向传播(BP)算法[39]来优化二进制图网络,因为二进制化函数(即Eq.2中的sign)是不可微分的。sign函数的导数部分几乎在任何地方都会导致0梯度,从而导致梯度消失问题。为了缓解这个困境,我们在二进制图网络的反向传播过程中利用了直通估计器(STE)[2],其公式为:0网络反向传播:∂L∂w =0∂L∂wb,w ∈(−00,否则,(3)0其中L表示损失函数。实质上,Eq.3可以被视为通过硬tanh函数传播梯度,硬tanh函数定义为:Htanh(x) = Clip(x, −1,1)。我们在图3中说明了聚合在特征变换之后发生的示例二进制GCN层的计算工作流程。聚合先发生的GCN模型也可以观察到类似的方案。通过紧凑的节点特征和网络权重,二进制GCN仅依靠1位XNOR和位计数操作进行基于图的处理,从而实现了高效且轻量级的图模型,适用于边缘计算。−1 −11−1111−111−1−1−1−11−3⋮⋮−32⋮0.60.60.6−−323315322313.82.43.13.81.15.63.12.72.73.71.3(a)(b)Towards addressing the aforementioned limitations ofthe devised mixed multi-aggregators, we introduce in thissection the proposed concept of the Meta Aggregator, whichaims to adaptively and efficiently adjust the way to aggre-gate information in a learnable manner. Towards this end,we propose a couple of specific forms of meta aggregators,i.e., the exclusive meta aggregation method and the diffusedmeta aggregation method, as illustrated in Fig. 5.The exclusive form, termed as Greedy Gumbel Neigh-borhood Aggregator (GNA), learns to determine a singleoptimal aggregation scheme from a pool of candidate ag-gregators, according to the individual characteristics of thequantized graph features, as shown in the upper part ofFig. 5. The diffused meta form, on the other hand, adap-53040聚合0二进制化0一位节点特征0一位操作0位计数0一位网络权重0图3.示例二进制GNN层的计算工作流程示意图。尽管具有高效的1位操作,输出特征彼此之间的区别较小,导致图4中聚合步骤中的挑战。0尽管具有紧凑的二进制参数和特征,但我们实证观察到开发的原始GNN的结果并不如预期。具体来说,我们在ZINC数据集[16]上使用[7]中的GCN架构进行了初步实验。在25次独立运行的平均值中,全精度的GCN模型在平均绝对误差(MAE)方面达到0.407±0.018的性能,而原始二进制GCN在MAE方面的结果为0.669±0.070,远远落后于全精度模型。我们通过研究二进制GNN中的内部计算过程来探索这种不可信性能的原因。具体来说,我们回顾了图3中的示例工作流程,该示例显示了二进制GCN层中特征变换在聚合步骤之前进行的情况。值得注意的是,1位操作的结果位于离散整数域中。因此,结果特征空间比32位浮点操作的特征空间要小得多。换句话说,1位操作的输出彼此之间的区别较小。当这种特性出现在图域中时,会导致在邻域聚合过程中难以提取和区分图拓扑,而这实际上是图网络成功的关键。为了进一步说明这个困境,我们在图4中展示了几个示例,包括在GNN中常用的最大和平均聚合方案。图4(a)显示了32位GNN层的聚合结果,其中最大和平均聚合器成功地分别区分了两种不同的拓扑结构。然而,在二进制GNN中,离散整数特征的聚合结果(图4(b))既不能用最大聚合器也不能用平均聚合器区分相应的两个图结构。此外,当聚合发生在变换之前时,情况将更具挑战性,因为输入聚合器的特征仅限于1或-1。然而,从图4(b)中,我们还发现,通过组合不同的聚合方案,实际上可以区分各种图拓扑。这一观察结果激发我们开发可能的解决方案来应对这个挑战。00.24 5.11 - 3.13 - 0.80 - + +01位节点特征 0.35 0.09 - 0.04 - 0.15 + - +0邻居节点 中心节点 2个邻居节点特征0- 3 10最大聚合0- 20- 10- 20- 3.2 1.80- 2.30- 1.60- 2.50平均聚合01个聚合后的节点特征0图4.(a)传统32位GNN层和(b)二值化GNN层的示例聚合结果,对应于图3。对于(a),平均聚合器和最大聚合器都能区分两个图结构;然而,对于二值化GNN(b),最大聚合器和平均聚合器无法区分两种拓扑结构。0为了解决传统二值化GNN中的困境,我们提出了一些直观的混合多聚合器,以两种不同的方式结合各种聚合方案的优点。第一种方法是使用几个不同的聚合器进行多次消息聚合,然后计算聚合结果的总和,从而在五个标准聚合器中获得0.599±0.017的MAE性能。另一种方法是将几个独立聚合器的结果连接起来,通过25次运行获得0.614±0.045的平均结果。尽管性能有所提高,但所设计的可能解决方案需要在每个GNN层执行多次特征聚合,导致计算负担沉重。受到这一限制的启发,我们引入了提出的元邻域聚合器,旨在增强拓扑结构的区分能力,同时享受高效的计算。04. 元邻域聚合04.1. 概述softmax((% . + /)/2)MinMaxVar3% . log[ 3789 ∑(;,=)∈ℇ @(% . AB)]Std⋯MaxMean53050自编码器 %0贪婪Gumbel聚合器 0平均0标准差0求和0最大标准聚合器池0-1 20- 3 20编码图特征 % .0适应性混合聚合器0扩散聚合器池 -1 20- 3 00图5.提出的元邻域聚合方法的总体框架。上排图示了独占式元聚合器GNA的工作流程,它从二值化图自编码器A(即粉色梯形)接收编码图特征,并根据候选聚合器池中的个体特征确定单个最优的逐层和逐节点聚合器。另一方面,下排图示了扩散式元聚合器ANA,它融合了各种聚合行为。0ANA是Adaptable Hybrid NeighborhoodAggregator的缩写,它可以学习一个定制的聚合公式,可以融合几个独立聚合器的特性,如图5的下部所示。接下来,我们详细介绍了设计的两种形式的元邻域聚合方法,即GNA和ANA,以及相关的训练策略。04.2. 贪婪Gumbel聚合器0受图4的观察启发,在相应的一组案例中,不同的单一聚合器适用于不同的情况,如第3节所述,我们提出了根据特定输入图自适应确定最优聚合器的想法,如图5的上部所示。为此,需要解决一些挑战。首先,聚合选择器应该在不引入太多额外计算成本的情况下理解各种输入图的基本特征。为了解决这个问题,我们提出利用1位图自编码器从输入图中提取有意义的信息,然后利用这些信息来指导不同聚合方法的决策。第二个挑战是如何将离散选择融入到训练GNN的梯度下降过程中。一种直接的解决方案是将离散决策过程建模为状态分类问题,并将候选池中的各种聚合器视为不同的标签。然而,这种天真的尝试没有考虑到选择器的不确定性,这可能导致模型崩溃问题,即输出选择与输入图无关,例如总是或从不选择特定的聚合器。为了缓解这个困境,我们提出通过贪婪Gumbel采样[28,45]在聚合器决策过程中引入随机性,并通过Gumbel-Max技巧的连续形式传播梯度[18]。具体来说,我们通过贪婪地从Gumbel分布中采样噪声来引入这种随机性,因为它具有Gumbel-Max技巧的特性[9]。在Gumbel随机变量方面,Gumbel-Max技巧如下所示:0算法1使用提出的元邻域聚合器训练轻量级1位GNN模型。输入:L:层数;W:GNN模型权重;G = {V, E}:具有节点v_i ∈V和边(v_i, v_j) ∈E的输入图数据;X:输入的二值化节点特征向量;A:图自编码器;Meta-Aggre. ∈ {GNA,ANA}:元邻域聚合器的选择。0输出:M_b:目标1位二值化GNN模型。01: 对于ℓ = 1到L do 2: 将图样本G输入到GNN层ℓ中;03: 通过公式2,将GNN的权重Wℓ二值化为Wℓ_b。05: 通过公式2,将Aℓ的权重W_Aℓ二值化为W_Aℓ_b。06: 使用W_Aℓ_b获得编码特征Aℓ(G);07: // 从两个元聚合器中确定选择。08: 如果Meta-Aggre.是GNA,则09: // 独占地决定最优聚合器。010: 将Aℓ(G)输入到GNA模块中。011: 通过公式4,对节点v_i得到决策GNAℓ_i。012: 使用得到的GNAℓ_i进行聚合。013: 否则,如果Meta-Aggre是ANA,则014: // 生成一个扩散聚合器。015: 将Aℓ(G)输入到ANA模块中。016: 通过公式5获得扩散聚合器ANAℓ_i;017: 使用得到的ANAℓ_i进行聚合。018: 结束如果。019:通过公式3,对二值化的GNN模型M_b进行epochs次优化。0可以利用Gumbel-Max技巧来参数化离散分布。然而,Gumbel-Max技巧中存在一个argmax操作,不可微分。因此,我们采用其连续松弛形式,称为Gumbel-softmax估计器,来解决这个问题,它使用softmax函数来替代不可微分的argmax函数。通过前述的图自编码器和Gumbel-softmax估计器来分别解决这两个挑战,所提出的贪婪Gumbel聚合器可以自适应地决定每个特定节点和层的最佳聚合器,从而显著提高了二值GNN模型的拓扑判别能力。Bit-width32/321/11/11/132/321/11/11/1Param Size399.941KB81.7070KB82.0610KB81.8799KB402.645KB82.2002KB82.5566KB82.3740KBTest MAE±SD0.476±0.0060.670±0.0640.592±0.013 0.566±0.0120.407±0.0180.669±0.0700.608±0.024 0.607±0.020Train MAESD0.3000.0240.6100.0660.5310.013 0.4530.0190.3030.0260.6240.0690.5580.027 0.5640.021G) log153060表1.在ZINC数据集上使用不同架构的结果,以平均绝对误差(MAE)为指标。从左到右:全精度GNN的结果(Full),不带提出的元聚合器的1位GNN的结果(Vanilla),带有GNA和ANA的1位GNN的结果。我们还提供了配对t检验的p值,以证明通过提出的GNA和ANA的统计显著改进。0方法 Full (GAT) [46] Vanilla (GAT) [14] GNA (GAT) ANA (GAT) Full (GCN) [21] Vanilla (GCN) [14] GNA (GCN) ANA (GCN)0p-value GNA vs. Vanilla: 3.010 × 10^(-7) / ANA vs. Vanilla: 2.359 × 10^(-10) GNA vs. Vanilla: 1.597 × 10^(-4) / ANA vs. Vanilla: 9.787 × 10^(-5)0节点 v i 的图邻域聚合器(GNA)可以表示为:0GNA ℓ i = softmax(A ℓ (G) + G/τ), (4)0其中 A ℓ 表示第 ℓ层的二值化图自编码器,提取主要和有意义的信息,G表示采样的Gumbel随机噪声。G是具有一个中心节点 v i和一组相邻节点 v j 的输入子图,其中连接 (v i, v j) ∈E。τ是表示softmax温度的常数。GNA ℓ i是输出的独热向量,指示来自候选聚合器池(如 {max, min,std, var, ..., mean})的节点 v i 和层 ℓ的聚合器决策。通过这种方式,所提出的贪婪Gumbel聚合器以可学习的方式自适应地决定每个特定节点和层的最佳聚合器,从而显著提高了二值GNN模型的拓扑判别能力。04.3. 可适应的混合聚合器0尽管改进了表示能力,但贪婪的Gumbel聚合器的性能受到现有标准聚合器的限制,这为进一步改进留下了空间。基于这一观察,我们进一步设计了一种可适应的混合邻域聚合器(ANA),可以以可学习的方式生成几种标准聚合器的混合形式,从而同时保留不同聚合器的优势。ANA的整体计算流程如图5的下部所示。我们首先给出了扩散消息聚合的开发的基于图的数学公式,定义如下:0ANA ℓ i = 10�0deg i0(j, i) ∈ E exp(A ℓ (G)X ℓ j)0�0�, (5)0其中 deg i 是节点 v i 的入度,G = {V, E} 是具有边 (v i, v j)∈ E 的图样本。我们使用 A ℓ 表示第 ℓ层的1位图自编码器,与公式 4 中使用的一样。X ℓ j表示相邻节点的特征向量。0节点 v j 在第 ℓ 层的邻居节点,而 ANA ℓ i是获得的扩散聚合器。方程式 5可以基本上逼近最大和平均函数,这取决于图自动编码器 Aℓ ( G ) 的输出。具体来说,较高的 A ℓ ( G )会导致类似于最大聚合器的行为,而较小的值 A ℓ ( G )会产生平均邻域聚合的效果。详细的数学证明在补充材料中提供。通过稍微改变方程式 5的形式,我们还可以逼近其他聚合器。例如,通过简单地对输入的图特征添加一个负号,方程式 5可以接近最小聚合的行为。此外,通过利用方差 Var ( X ) = mean ( X 2 ) − � mean ( X ) � 2 的事实,可以通过在方程式5中添加平方运算来逼近方差聚合器。更详细的推导和数学证明可以在补充材料中找到。此外,还可以通过在方程式 5中使用基于图的可学习权重因子来同时结合所有这些近似聚合器的优点,以自适应地控制各种聚合器近似的扩散程度。我们在补充材料中说明了相应的复杂公式,并提供了更详细的解释。04.4. 训练策略0我们还提出了一种针对所提出方法量身定制的训练策略。总体上,使用所提出的元邻域聚合方法训练1位GNN模型的主要操作总结在算法1中。为了清晰起见,我们在说明中省略了偏置项,其行为与GNN权重W类似。此外,我们以特征转换发生在聚合步骤之前的情况为例,说明整体工作流程。从算法1中可以观察到,在每一层,输入图被输入到轻量级1位图自动编码器A中,以提取对后续元聚合器有益的有用信息。在这个图编码过程之后,元邻域聚合模块接收到编码特征,并且独立确定一个最优聚合器,或者生成一个融合了几个独立聚合器行为的扩散聚合器。53070表2.在ZINC数据集上,对32位全精度模型的提出的元聚合方法和其他方法的结果,以MAE为指标进行平均。结果是在25个独立运行和25个不同随机种子上进行平均的。0方法 参数大小 测试MAE ± 标准差 训练MAE ± 标准差0GatedGCN [ 3 ] 413.027KB 0.426 ± 0.012 0.272 ± 0.023GraphSage [ 10 ] 371.004KB 0.475 ± 0.007 0.296 ± 0.030 GIN [55 ] 402.652KB 0.387 ± 0.019 0.319 ± 0.020 MoNet [ 31 ]414.070KB 0.386 ± 0.009 0.299 ± 0.016 GCN [ 21 ] 402.645KB0.407 ± 0.018 0.303 ± 0.026 GAT [ 46 ] 399.941KB 0.476 ± 0.0060.300 ± 0.024 GNA (我们的方法) 411.270KB 0.337 ± 0.021 0.160± 0.026 ANA (我们的方法) 404.504KB 0.325 ± 0.015 0.109 ±0.0140通过这些独立聚合器的行为,最终可以通过使用直通估计器在模型上进行优化来获得所需的1位GNN模型,如第3节所述。05. 实验0在本节中,我们在三个公开可用的基准测试中进行了广泛的实验,涵盖了不同的问题领域,包括图回归、节点分类和3D物体识别。在进行评估之后,我们进一步对所设计的元聚合器的优势和劣势进行了详细讨论。05.1. 实验设置0数据集。我们在三个不同的数据集上验证了所提出的元聚合方法的有效性,每个数据集都专门针对不同的任务。具体而言,对于图回归任务,我们使用了ZINC数据集[ 16],这是一个最受欢迎的现实世界分子数据集[ 7]之一。ZINC的目标是回归特定的分子属性,即受限溶解度,这是开发分子GNN的关键属性[ 61]。此外,对于节点分类任务,我们采用了蛋白质相互作用(PPI)数据集[ 64],这是一个具有24个图的多标签数据集,对应于不同的人类组织。PPI数据集中的每个节点都带有各种蛋白质功能的标签。因此,PPI的目标是从人体组织蛋白质的相互作用中预测121种蛋白质功能。此外,我们利用ModelNet40[ 54]对3D物体分类任务进行评估。ModelNet40是一个用于3D对象分析的流行数据集[ 33 , 34],总共包含12,311个来自40个形状类别的网格CAD模型。每个对象包含一组3D点,其中3D坐标作为特征。目标是预测每个3D形状的类别。0表3.在PPI数据集上进行节点分类任务的结果,以微平均F1得分为指标。详细的网络架构可以在补充材料中找到。0方法 位宽 参数大小 F1得分0全精度 [ 46 ] 32/32 43.7712MB 98.700基准 [ 14 ] 1/1 28.2560MB 92.68 GNA (我们的) 1/128.2572MB 97.52 ANA (我们的) 1/1 28.2565MB 97.710以及动态图卷积模型(DGCNN)[ 52]来评估所提出的元聚合方法。对于其他设置,如学习率和批量大小,我们遵循[ 7 ],[ 46 ]和[ 52]中的设置,分别用于图回归、节点分类和点云分类任务。特别地,为了更具说服力的评估,我们在25个独立运行中报告了在ZINC数据集上的结果,使用了25个不同的随机种子。此外,与CNN二值化领域的做法[ 37]一样,我们保持第一个和最后一个GNN层为全精度,并对其他GNN层进行二值化,用于所有比较方法。更详细的任务架构设计以及超参数设置可以在补充材料中找到。05.2. 结果0图回归。表1展示了基础1位GNN模型和具有所提出的元邻居聚合器GAN和ANA的GNN模型的消融结果。具体来说,我们通过对25个独立运行的结果进行平均,使用25个种子,报告了两种GNN架构(即GCN [ 21 ]和GAT [ 46])的结果。所提出的GNA和ANA在表1中表现出令人满意的性能,无论是测试还是训练的MAE,并且同时保持了紧凑的模型大小。此外,我们在表1的最后一行提供了固定聚合器(Vanilla)的1位GNN与具有所提出的可学习元聚合器的1位GNN之间配对t检验的p值。相应的结果在统计上验证了所提出方法的有效性。此外,我们在表2中展示了将所提出的元聚合器扩展到全精度GNN的结果,并将其与最先进的方法[ 3 , 10 , 55 , 31 , 21 , 46]进行了比较。具体来说,表2的最后两行结果是通过将GAT中预定义的聚合器替换为所提出的GNA和ANA得到的。从表2中可以观察到,所提出的方法在性能上大大优于其他方法,并且同时引入了很少的额外参数。0节点分类。在表3中,我们展示了使用GAT架构的不同方法的结果。所提出的GNA和ANA在表3中表现出与32位全精度模型相当的结果,但是53080固定聚合器 GNA ANA 全精度 固定聚合器 GNA ANA 全精度0近 远0图6. 学习到的特征空间的可视化结果,以红点与其他点之间的距离表示。可视化的特征是从模型的中间层提取的。更多结果可以在补充材料中找到。0表4.在ModelNet40数据集上进行3D物体识别的结果,以整体准确率(Acc)和平均类准确率(mAcc)为指标。0方法 位宽 参数大小 准确率(%) 平均类准确率(%)0全精度 [ 52 ] 32/32 1681.66KB 92.42 89.510基准 [ 14 ] 1/1 1091.20KB 74.19 65.95 GNA (我们的) 1/11091.30KB 78.36 71.67 ANA (我们的) 1/1 1091.30KB 84.64 78.890采用更轻量级的架构。所提出的方法还优于依赖于固定聚合方案的基础1位GNN模型。03D物体识别。在ModelNet40数据集上,我们提出的方法和其他方法的结果如表4所示。我们在这里基于[58]中设计的架构构建我们的网络。我们还在图6中展示了不同方法的可视化结果,其中图6中的“FixedAggr.”列对应于表4中的“Vanilla”模型。使用所提出的元聚合方案,1比特GNN模型的整体准确性和平均类别准确性都提高了10%以上。这种改进也在图6中得到了说明,所提出的元聚合器帮助1比特GNN学习了与全精度GNN模型更接近的结构。05.3. 讨论0我们在这里详细介绍了所提出的两种元聚合器GNA和ANA的优点和缺点。对于独占的元形式GNA,随着未来的进展,性能可能进一步提高。0新颖的聚合方案。换句话说,GNA的结果取决于候选聚合池中每个单独聚合器的结果,这同时也是GNA的一个弱点,因为其性能受限于单个聚合器的性能。另一方面,扩散形式ANA可以同时保留几个流行聚合器的优势。然而,方程式5中的数学形式限制了ANA可能近似的聚合器类型,这意味着即使未来出现新的和流行的聚合器,ANA也可能没有太多改进的空间。06. 结论0在本文中,我们提出了一对可学习的聚合方案用于1比特紧凑GNN。所提出的方法的目标是增强1比特GNN的拓扑判别能力。这是通过自适应选择单个聚合器或生成同时保持几个聚合器优势的混合聚合形式来实现的。此外,所提出的元聚合方案可以轻松扩展到全精度GNN模型。在各个领域的实验证明,使用所提出的元聚合器,1比特GNN的结果与繁琐的全精度模型相当。在我们的未来工作中,我们将努力将所提出的聚合器推广到紧凑且轻量级的视觉变换器。0致谢。Yongcheng Jing先生得到了ARCFL-170100117的支持。XinchaoWang得到了新加坡国立大学的创业基金的支持。53090参考文献0[1] Mehdi Bahri, Ga´etan Bahl, 和 Stefanos Zafeiriou.二进制图神经网络. arXiv预印本 arXiv:2012.15823 , 2020. 30[2] Yoshua Bengio, Nicholas L´eonard, 和 Aaron Courville.通过随机神经元估计或传播梯度用于条件计算. arXiv预印本arXiv:1308.3432 , 2013. 30[3] Xavier Bresson 和 Thomas Laurent. 残差门控图卷积网络.arXiv预印本 arXiv:1711.07553 , 2017. 70[4] Adrian Bulat 和 Georgios Tzimiropoulos. Xnor-net++:改进的二进制神经网络. 在 BMVC , 2019. 30[5] Hanting Chen, Yunhe Wang, Chunjing Xu, Boxin Shi,Chao Xu, Qi Tian, 和 Chang Xu. Addernet:深度学习中我们真的需要乘法吗?在CVPR , 2020. 20[6] Matthieu Courbariaux, Yoshua Bengio, 和 Jean-Pierre David.Binaryconnect: 在传播过程中使用二进制权重训练深度神经网络. 在NeurIPS , 2015. 30[7] Vijay Prakash Dwivedi, Chaitanya K Joshi, ThomasLaurent, Yoshua Bengio, 和 Xavier Bresson.基准测试图神经网络. arXiv预印本 arXiv:2003.0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功