图像分类中的图像关系可视化与建模

170 浏览量更新于2023-10-16 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1CNN2Graph：构建图像分类Vivek Trivedy，Longin Jan Latecki美国费城天普大学计算机与信息科学系{vivektrivedy，latecki} @ temple.edu摘要神经网络分类器通常通过重症监护I. D. 假设在训练过程中独立地通过示例。我们提出了CNN2GNN和CNN2Transformer，它们利用示例间信息进行分类。我们使用图神经网络（GNNs）来构建一个潜在空间二分图，并计算输入图像和代理集之间的交叉注意力得分。我们的方法解决了现有方法的几个挑战。首先，它是端到端可微的，尽管图的构造通常是离散的。其次，它允许归纳推理，而无需额外的成本。第三，它提出了一个简单的方法来构建图从任意的数据集，捕获的例子级别和类级别的信息。最后，它解决了代理崩溃问题相结合的对比和交叉熵损失，而不是单独的聚类算法。我们的研究结果提高了分类性能的基线实验和优于其他方法。我们还进行了实证调查，显示Transformer风格的注意力尺度优于GAT注意力与数据集大小。1. 介绍传统上，在图像分类中，样本独立地通过CNN模型，CNN模型是卷积层和池化层的堆栈，然后是完全连接的分类层。卷积层和池化层将来自每个图像的局部部分的信息组合在一起，目的是在完全连接的层中产生全局矢量表示。最近基于视觉Transformer的方法[1，2]用在图像的块上操作并且还计算每图像全局表示的自注意模块代替卷积操作。隐式在这范式是的每个图像的处理独立于所有其他图像，因此尽管CNN和Vision Transformers分别从每个图像中学习，但它们不会显式地捕获全局示例空间中图像之间的关系。具体地，在构造组合一个图像的局部信息的图像内全局表示和构造图像间全局表示之间存在差异。图1：交叉熵损失（左上），对比损失（右上）和我们的组合损失（下）的图表。我们使用标准的交叉熵损失以及自适应的对比损失，其中我们计算训练示例与按类均匀分布的一组代理和锚之间的损失。它是一种将来自多个图像的信息组合在一起的表示。为了允许后者，我们利用GNN，它为描述关系提供了一个自然的框架。GNN中的两个主要操作是传播和聚合。传播步骤通过权重矩阵W更新每个节点sum，max）。聚合允许GNN通过邻域信息路由来学习示例之间的关系。早期的 GNN 变体，如 GraphSAGE [3] 和图卷积网络（GCN）[4]使用各向同性邻域聚合。图注意力网络（GATs）[5，6]通过在模型中引入注意力计算来扩展聚合，该模型允许节点优先加权邻居的贡献。这在低同伦图中特别重要，其中大多数节点的邻居是不同的类[7]。许多GNN方法的缺点是无法进行归纳推理。许多方法仅在转换设置中操作[4，8，9]，其中测试节点在训练期间存在于图中。当用户必须将图定义为2·在训练和测试期间的生成过程可能不一致，导致较差的泛化。从任意数据构建图的常见方案是使用k-最近邻（KNN）图[10使用这种方法有三个主要缺点。首先，通过一些初始特征表示来确定图的结构，这些初始特征表示可能是下游任务的不良先验。其次，由于KNN选择规则的性质，这个过程是不可微的[13，14]，它将学习初始特征的模型与在图上学习的模型断开。第三，归纳推理不具有规模性，因为它需要O（nt）阶的计算，其中n是训练节点t是测试节点的数量，在向前传球之前进入曲线图。我们通过在训练样本和包含可学习代理向量和锚点样本的固定代理集之间构建一个完整的二分图来解决这些缺点，这些代理向量和锚点样本在训练数据中的每个类别上均匀选择。因此，图不是基于某些初始特征表示构建的，而是通过类信息构建的，直接与我们的下游任务对齐。我们的模型是端到端可微的，因为图的连通性规避了KNN选择规则的不可微性。最后，用于推理的节点插入是O（1）操作，因为每个测试示例都是简单的，连接到代理集中的每个元素，镜像培训设置。我们还探索了GNN和Transformer之间的关系，如[15]所述。GNN和Transformers之间的关系在我们的设置中是相关的，因为我们提出的图结构是完整的，像Transformers的自注意机制一样是二分的[16]。我们将在3.3节讨论这些细节。我们的主要贡献如下：• 我们提出了一个简单的框架，从任意图像数据，利用示例间的信息构建图形。它通过允许端到端学习和归纳推理来改进现有方法，并通过向主干CNN添加简单模块来明显提高分类准确性。• 我们使用代理，对比学习类级全局信息，也直接纳入特征表示分类。我们表明，对比和交叉熵损失的简单组合可以防止代理崩溃（当可学习的代理被模型忽略）。• 我们对两种类型的注意力进行了实证研究，并显示了与GAT注意力相比，Transformer注意力具有更好的可扩展性。2. 相关工作GNN许多GNN方法的主要区别在于聚合函数[3-6，17-19]。分裂计算也是将GNN用于大型图的重要部分。像GCN [4]这样的方法最初需要在每个前向传递过程中使用整个图邻接矩阵。GraphSAGE [3]通过邻域采样解决了这个问题。我们的方法使邻域采样简单，通过一个完整的二分图结构与固定数量的代理集节点，我们使用一跳的邻居在向前传播。在大多数GNN设置中，给出了图结构。Misraa等人。 [10]探索了图结构不可用并且必须使用基于类的连接和基于KNN的连接的组合来构建的情况。我们的方法在数据集级别而不是像[20]中那样的小批量级别构建图。Zhu等人。 [7]探索了同质性对节点分类的影响，并强调了许多GNN方法与异质性的斗争。我们通过注意力和损失函数的构建来克服这一点。图像分类我们使用ResNet架构[21]作为我们模型的支柱，ResNets已被证明与图像分类的最新技术具有竞争力。我们用我们的交叉注意模块替换了经典CNN架构[21-24]中使用的全连接层[25-28]中描述的对比方法试图构建一个嵌入空间，使得类似的例子聚集在这可以通过生成一对或三对示例来完成。常见的方法包括使用具有不同增强的相同图像来构建正对[29，30]或使用标签信息来构建对象的对或三元组[26]。选择一对或三对可能在计算上是昂贵的。这个问题的解决方案包括挑选特别难的[31]或半难的否定例子[32]或完全忽略否定例子[33]。方法如[34同样，我们的方法在选择锚和代理时在数据集级别而不是小批量级别操作。代理可以是3D∈∈∈∈−1容易倒塌。像[30]这样的方法通过强制均分约束来处理这个问题。我们证明了对比损失和交叉熵损失的组合可以防止代理崩溃，如3.4节所述。支持向量机（SVM）[37]和核方法[38，39]是类似到我们方法，因为它们捕捉数据点之间的关系。支持向量机使用类似于我们的锚点的支持点，而内核方法通过内核函数捕获所有数据点之间的相似性得分，这使得它们很难用更多的例子来扩展。这两种方法的缺点是，分类的特征转换是通过对内核的选择进行实验来发现的。神经网络构建了一个直接针对下游分类任务优化的潜在空间。我们利用计算相似性和使用支持示例是有用的这一想法，但我们使用神经网络作为嵌入函数，使用注意力进行相似性计算，并学习支持示例以直接优化分类。非参数方法，例如[40] 也通过注意力学习数据点之间的关系，但我们的参数方法直接针对下游分类进行调整，并且更好地扩展，因为注意力应用于代表更广泛数据分布的代理集，而不是整个数据集。我们还通过原型网络[41]调整了少量学习的想法，该网络假设每个类的原型表示可以通过采用嵌入式支持集示例的平均值来捕获。通过计算到原型的距离来完成分类。我们使用嵌入式锚点示例作为类代表，但还包括不受嵌入函数约束的完全可学习的代理向量。此外，我们不是计算到原型的距离，而是在执行线性分类之前使用交叉注意力并聚合输入图像嵌入，锚点示例和代理之间的信息。这与其他方法不同，这些方法通常只对比使用代理/原型，而不是将它们直接合并到特征表示中。五个步骤：1. 从数据集中选择c锚点图像-每个类一个2. 初始化c个可学习代理向量PRc×F3. 通过n个训练图像和c个固定锚点图像通过编码器CNN，Φ-给出训练嵌入，XRn×F和锚嵌入LRc×F4. 计算单独的交叉关注：CA（X，L）=L′和CA（X，P）=P′。的风格 CNN2GNN和CNN2变压器。5. X′=聚集体（X，L′，P′）.将X′通过a线性分类层3.1. 图与代理集构造代理集包含两种类型的示例：代理示例和锚示例。代理示例是可学习的参数，其初始化的维度等于骨干CNN的嵌入维度。这允许在每个训练示例和代理之间计算注意力系数。我们选择与数据集中的c个类相对应的c个代理在整个训练和推理设置中，参数保持固定，并在每个类上均匀采样：L= {<$i∈UXi：Xi<$X}，i=1。. . c（1）其中L是锚点的集合，U是均匀采样操作，c是数据集中的类的数量，X是训练集，并且Xi是包含类i的元素的X的子集。我们讨论角色在第3.4节中的损失函数中的锚。在所有设置中，在一小批训练样本和代理集之间构建一个完整的二分图。3.2. 各向同性聚集我们探索在以前的GNN方法中使用的各向同性聚合函数具有平均池聚合的小批量的前向传播步骤被定义为：z=D−1AD−1[（L）]（2）3. 方法我们构建了一个代理集，并在骨干CNN模型之上添加了一个交叉注意模块，以学习数据点之间的关系，从而更好地进行图像分类。我们的方法可以概括为B2 2其中zB是小批量中图像的更新表示，X是输入图像的集合，是逐元素平方根，A是小批量邻接矩阵，4∥∥∥图2：CNN2GNN中的前向传播步骤。是骨干CNN，P是代理的集合，L是锚的集合，并且是级联操作。的maxpooling聚集是类似于均值池化，但是与邻接矩阵的相乘被在级联的训练节点和代理集表示上的特征最大值代替。输入图像的最大池化聚合X i计算为：z i=max[（L）]。3.3. 基于注意力的聚合T是可学习的注意力向量，W是可学习的权重矩阵。每个训练节点参与每个代理集元素，产生一个带有可选自循环的完整二分图，如图2所示。我们采用了[43]中的实现，并在算法1.为了简洁起见，我们只举一个例子来说明单头注意力的情况。基于各向异性注意力的聚合允许模型在生成新的训练示例表示时对代理集元素进行加权。代理集元素用作全局类代表，因此每个输入图像应该最大程度地关注与其类相对应的此外，我们人工构造的图具有高度的边异质性算法一：CNN2GNN正向输入：图像Xi，锚点L，代理P，骨干CNN节点，邻接矩阵A输出：上下文感知图像嵌入zout1 g=[X i]P（L）]2 g1，g2=W1g，W2g如[7]中所述，同质性比为1，其中c为3gsum[i，j]=gi+gjgi，gj∈g1，g2C类的数量因为GNN可能会挣扎4 e=aT·LeakyReLU（g（共计）在异嗜性环境中[7，42]，各向异性聚集允许更精细的邻域上下文。我们尝试了两种方法来应用注意力。3.3.1CNN2GNN在CNN2GNN中，注意力计算可以写成如下[6]：e（hi，hj）=TLeakyReLU（W[hi，hj]）（3）其中e（hi，hj）是源图像hi和代理集合的成员hj之间的注意力权重，5 eij= −∞ifAij== 0 elseeij6α=So f tmax（e）7 z输出=α·g2在算法1中，CNN是一个骨干CNN，W1，W2是可学习的权重矩阵。请注意，在实现中，我们分别对e中的锚和代理索引应用Softmax，以确保锚注意力权重的归一化不会影响代理注意力权重，反之亦然。多头注意力用于更大的表现力和稳定性，如[5，16]所述。522∥∥2∥∥D1D23.3.2CNN2变压器在CNN2Transformer中，我们的方法结合了锚点和代理，如图3所示。方程式如下：Xemb，Lemb =（X），（L）（4）Lmha=S. WqXemb·Wk1LembWvLemb（5）Pmha=S. WqXemb·Wk1PWvP（6）zout=ω（Xemb，Lmha，Pmha）（7）其中X是输入图像的集合，L是锚点的集合，P是代理的集合，ω是CNN主干，ω是聚合函数（例如，cat，max），S是softmax函数，d是图像的嵌入维数。Wq是查询的可学习权重。Wk1，Wk2和Wv1，Wv2分别是可学习的键矩阵和值矩阵。我们的方法使用两个交叉注意模块，其中查询是输入图像，键和值是锚或代理。因此，注意力模块的输出提供了锚和代理的两个单独的加权和，Lmha和Pmha，然后我们将其与原始图像嵌入聚合以产生最终表示。通过这种方式，每个图像的最终表示具有来自按类别均匀分布的其他图像的固定集合的信息（即，锚点）并且具有被训练为全局表示每个类的参数（即，代理）。3.4. 损失函数和代理崩溃代理可以在损失函数中没有惩罚项或某种正则化的情况下崩溃[30]。理想情况下，我们希望每个代理与其中一个类集群，充当全局类令牌。我们结合两种方法来避免代理崩溃：对代理进行分类并在代理上使用对比风格损失。对代理集的元素进行分类是简单的，其中每个代理在类的数量上被均匀地分配一个类，并且通过共享分类层被传递。图3：Transformer编码器模块，通过锚点和代理的交叉关注产生新的图像表示。3.1.为了避免我们在我们的方法中使用的锚点和通常在三重态损失中使用的术语S.三重态损失的一般结构[25]是：L三重态（S，G，N）=max.f（S）−f（G）f（S）−f（N）<$2+α，0<$其中S是源的集合，G是从其采样阳性的集合，N是从其采样阴性的集合，f是嵌入函数，2是L2范数，α是边际参数。注意，S、G和N是集合而不是元素。对比损失的构造[28]是：D（X）=<$f（X1）−f（X2）<$2，X1，X2∈X（9）在每一个小批量的损失。锚钉的分类类似。这明确地推动每个L对比度（X）=（1 −Y1）2（D（X）2+（十）代理和锚通过硬分类约束成为其类的代表。我们也应用三重态[25]和对比损失[28]来防止崩溃。我们首先统一地将每个代理分配给一个类标签。我们构建三元组，并从训练样本X，锚L和代理P. 代理人和代理人如第（Y）1（max（0，α−D（X））2其中，X1，X2是较大集合X中的实例，f是嵌入函数，2是L2范数，α是边缘参数，Y是X1和X2之间的相似度（即，无论它们是否属于同一类）。（八）6LLLLL×L我们使用四个对比风格的损失术语：Lat= L三重态（L，X，X），（11）Lpt= L三重态（P，X，X）（12）Lap= L三重态（L，P，P），（13）Lp= L对比（P）（14）每个术语要么有助于防止代理崩溃，要么推动训练示例关注正确的代理集元素。参见图4关于三重态损失如何影响潜在空间。at和pt分区潜在空间使得训练图像朝向对应于它们的类的锚和代理移动。ap提供一致的支持集[44]发送给代理主播也作为类代表，但由于它们通过主干CNN与训练示例共享嵌入，它们的表示与其他训练示例类似。在每个反向传播步骤中，锚点也会被分类，这通过模型重复看到来稳定它们的表示。代理是模型中的自由参数，我们发现，为了避免崩溃，它们需要一个稳定的基础（由锚提供），以平衡任意小批量的pt最后，p在每个代理之间强制一个余量，以显式地惩罚崩溃。对比风格和交叉熵损失都可以总结为单个损失的总和：L总对比度= Lat+ Lpt+ Lap+ Lp（15）L分类=Lce（X）+Lce（L）+Lce（P）（16）其中CE是标准交叉熵损失，其从集合中分类实例。损失总额可概述如下：L总 = L总计对比+ L分类（17）我们注意到，我们的方法可以开箱即用，无需对损失项进行仔细的加权，但通常很难平衡许多项。我们强调了一些我们认为有助于我们的方法工作的优化点。不同的损失量在优化过程中可能会有问题，因此嵌入首先进行L2归一化。我们还观察到，优化大致遵循三个阶段。在阶段1中，分类损失在训练中相对较早地降低。在第二阶段，分类损失稳定，对比损失继续减少，因为潜在空间重新组织，所以代理移动到“正确的”类-在UMAP [45]随时间变化的图中可见（图4）。在阶段3中，对比损失收敛，在此期间，随着网络的完全优化，分类损失也降低到最小值。我们的方法需要大约20%的时间来训练基线（过拟合更快）来管理这些损失，但始终收敛到更好的准确性，如表2所示。4. 评价4.1. 实施细节和数据集在我们的实验中，我们使用标准Imagenet预训练的ResNet18和ResNet34模型作为基线。为了进行比较，我们将我们的模块添加到ResNet之上，然后将其作为骨干网络。代理通过He初始化进行初始化[50]。所有实验都使用SGD优化器，动量为0.9，学习率为3 × 10-4，一百个纪元。我们对所有数据集骨干聚集精度ResNet18米恩普尔92.64Maxpool92.79ResNet34米恩普尔92.82Maxpool92.90表1：各向同性聚集准确度CIFAR-10图4：CIFAR-10图像，锚点（X）和代理（三角形）嵌入在训练的开始（左上），中间（右上）和结束（左下）通过UMAP图与CNN 2 Transformer（ResNet 34）。这些点用标签着色，图（右下）显示了对比损失的减少如何与每个锚点和代理聚类对应。7表2：注意力模型验证准确度CIFAR-10 [46]CIFAR-100 [46]STL-10 [47]SVHN [48]ImageNet-1k [49]ResNet18基线94.0776.9595.3895.2969.42CNN2GNN95.51±0.4274.80±0.8195.70±0.2096.62±0.5560.12±1.02CNN2变压器95.79±0.2477.39±0.2095.74±0.1996.35±0.2271.12±0.35ResNet34基线95.2479.3295.8995.5673.03CNN2GNN96.39±0.4177.87±0.9196.89±0.2697.01±0.3161.02±0.77CNN2变压器96.73±0.3780.10±0.4597.21±0.1996.54±0.0775.42±0.15模型CIFAR-10 SVHN CIFAR100CNN2GNN96.2196.4979.63CNN2变压器96.8297.1081.49表3：未与锚点/代理（ResNet 34）聚合的图像。(a) CNN2GNN（b）CNN2变压器表4：CIFAR-10的比较。(c)CNN2GNN（d）CNN2变压器图5：ResNet34主干验证示例的注意力矩阵，其中条目（i，j）显示了标签为i的图像和标签为j的代理之间的归一化注意力得分。顶行用于 CIFAR100 ，底行用于 SVHN 。对于CNN2Transformer，示例主要关注与对角线所示的标签相对应的代理CNN 2GNN正确地处理了SVHN数据集的正确代理，但在CIFAR-100上却没有这样做，CIFAR-100有更多的类，如（a）所示。除了CIFAR-100和ImageNet-1 k，我们使用的批量大小为100。对于每次运行，在类的数量上均匀随机地选择锚点。对于数据增强，我们在基线和实验模型上使用随机裁剪[51]和颜色抖动。对于锚点，我们在一个时期内固定增强，并为每个新时期应用新的增强。我们使用线性分类协议的所有实验。我们对CIFAR-10[46]、CIFAR-100 [46]、STL-10 [47]和SVHN [48] 和 ImageNet-1 k [49] 数据集，并使用Torchvision给出的分割。4.2. 结果讨论表1显示了注意力作为各向同性聚合的重要性，模型精度[57]第五十七话73.1[58]第五十八话74.7[59]第五十九话74.8[29]第29届中国国际音乐节74.2美国（公告牌热门单曲榜）[60]70.6[56]第五十六话74.98CNN2变压器（ResNet34）75.42CNN2GNN（ResNet34）61.02表5：ImageNet-1 k上的比较。代理人/代理人135196.7396.8996.81396.1296.6296.33596.1896.2196.42表6：CIFAR10结果显示CNN2Transformer（ResNet34）每个类别的锚点和代理数量不同。Entry（i，j）是一个带有i个代理和j个锚的运行。表现比基线差这与其他方法一致，其中各向同性聚集导致异嗜图的准确性较低。表2显示CNN2Transformer始终优于基线，尤其是在ImageNet-1 k上。基线在ImageNet上进行了预训练，并针对其他数据集进行了微调。我们假设CNN2GNN在CIFAR-100和ImageNet-1 k数据集上的表现更差，因为模型精度[52]第52话91.3[29]第二十九话90.5[44]第四十四话：一个女人93.7SpinalNet（VGG19 bn）[53]96.00ConvMixer-256/8 [54]96.03Mixer-S/16-SAM [55]96.10[56]第56话：一个人的世界94.81CNN2GNN（ResNet34）96.39CNN2变压器（ResNet34）96.738L图6：使用CNN 2 Transformer（ResNet 34主干）的CIFAR-10验证示例的注意力矩阵，其中条目（i，j）显示标签为i的图像和标签为j的锚点之间的归一化注意力分数。此运行使用3个锚点和1个代理。我们发现，注意力在锚上是分散的。GAT的注意机制比Transformers弱，特别是对于具有多个类的大规模数据。GATv2 [6]提到GAT注意力[5]可以在几个节点上崩溃（即，注意力不以查询节点为条件），我们发现，当邻域大小增加时，GATv2注意力也会崩溃，如图所示5.关于这一发现的进一步结果见附录。我们的方法对不同的锚点选择也是鲁棒的，如三次运行中相对较小的标准差所示。表3示出了测试所学习的锚和代理表示的质量的实验的结果。在这里，我们在进行分类之前不聚合图像表示，这意味着每个图像的最终表示是以输入图像为条件的锚和代理的注意力加权和。这相当于在CNN2GNN的图中移除自连接，并将等式7更改为zout=CNN2变压器的ω（Lmha，Pmha）。我们发现尽管去除了关于图像本身的信息，所学习的锚和代理的表示优于基线。在表4和表5中，我们比较了我们的方法其他方法。我们比较了各种各样的架构和模型大小，发现我们的方法在CNN和纯Transformer架构中的性能优于更大的模型，数据增强相对较少我们也优于自我监督的方法，如BYOL，Simplified和NNNN，尽管我们使用较小的ResNet，并且在预训练中不使用任何自我监督。在表6中，我们显示了不同数量的锚和代理的结果。我们发现，增加锚的数量增加模型性能，但增加代理的数量会降低模型性能。我们假设这是因为每个锚都引入了关于其类的新信息，而额外的代理不会添加关于底层图像数据分布的新信息。例如，为汽车类设置几个锚点，每个锚点是不同颜色的汽车，训练模型对这些差异保持不变。图6验证了这个想法，图6显示了示例将注意力分散在锚点上，而不是集中在单个锚点上。我们还注意到，p损失项鼓励每个分配的类的代理表示相互折叠，这也解释了为什么每个类的多个代理会降低分类准确性。5. 结论我们提出了一种方法，使图形结构的图像分类，允许通过代理集和交叉注意模块学习数据点之间的局部和全局表示。这项工作背后的动机是将来自内核方法、图表示学习和视觉的想法结合在一起我们的模型在分类准确性方面有了明显的提高我们进一步表明，交叉熵和对比损失的简单最后，我们提出了一个实证研究表明，Transformer的注意力尺度比GAT注意力随着类的数量增加。对于未来的工作，我们有兴趣适应新的图形结构，聚合方案和代理学习方案的下游任务。我们对锚和代理作为独立集合的交叉关注给出了一个简单的方法来合并多条信息（即：多模态数据）。我们的方法目前的缺点是代理的数量与类的数量成线性关系，这可能需要大量的计算资源。我们把这个问题留给以后的工作来解决，也许可以放松对代理的类约束。致谢这项工作得到了NSF Grant IIS-1814745的部分支持。这些计算是在坦普尔大学的HPC资源上进行的，这些资源部分由美国国家科学基金会通过1625061号资助，美国ARL，合同号W 911 NF-16-2-0189。9引用[1]Alexey Dosovitskiy等人一张图片值16x16字：用于大规模图像识别的变换器。2020（cit.对瘦疮丙酸i）。[2]Hugo Touvron等人训练数据高效的图像转换器&通过注意力蒸馏。2021. arXiv：2012.12877[cs.CV]（cit.对瘦疮丙酸i）。[3]WilliamL.Hamilton ， RexYing ， JureLeskovec. 大型图上的归纳表示学习。 2018.1706年。02216 [cs.SI]（cit.在pp。i，ii，xii）。[4]托马斯·N Kipf和Max Welling。图卷积网络的半监督分类。 2017.arXiv ： 1609 。02907[cs.LG]（cit. 在pp。（一、二）。[5]PetarVeli ckovi c'etal. 图形注意力网络。2018.arXiv ：1710。 10903 [stat.ML]（cit. 在pp。一、二、四、八、十二）。[6]动摇布罗迪，乌里阿隆，和埃兰Yahav。图注意力网络有多注意力？ 2021. arXiv ： 2105.14491 [cs.LG]（cit. 在pp。一、二、四、八）。[7]Jiong Zhu et al.超越图神经网络中的同质性：当前的限制和有效的设计。2020. arXiv：2006 .11468[cs.LG]（cit.在pp。一、二、四）。[8]W.刘和张世福“Robust 2009年IEEE计算机视觉和模式识别会议（2009年），pp。381-388（cit.对瘦疮丙酸i）。[9]托尔斯滕 · 约阿希姆 “ 通过谱图划分的Transductive学习”。在：第二十届国际机器学习会议的会议记录。ICML'03。美国华盛顿特区：AAAI Press ，2003，pp. 290-297. ISBN：1577351894（cit.对瘦疮丙酸i）。[10]Aashish Kumar Misraa et al.基于图神经网络的多模态检索。 2020. arXiv ： 2010.01666[cs.IR]（cit.对瘦疮丙酸ii）。[11]姜锡浩图神经网络的k-近邻学习在：数学9.8（ 2021 ）。 ISSN ： 2227-7390 。DOI ： 10.3390/math9080830 。网址： https ：//www.MDPI 。 com/2227-7390/9/8/830（cit.第二页）。[12]Luca Franceschi 等学习图神经网络的离散结构。2020. arXiv：1903.11960 [cs.LG]（cit.对瘦疮丙酸ii）。[13]托比亚斯普洛茨和 Stefan罗斯在：神经信息处理系统的进展。Ed. 通过S. Bengio等人第31卷。Curran Associates，Inc.2018年。 URL：https：//proceedings.神经突cc/paper/2018/file/f0e52b27a7a5d6a1a87373dffa53dbe5-Paper.pdf（cit.第二页）。[14]Anees Kazi et al. 图卷积网络的可微图模块（ DGM ）。 2020. arXiv ： 2002.04999[cs.LG]（cit.对瘦疮丙酸ii）。[15]柴坦尼亚·乔希“Transformers是Graph NeuralNetworks”。《梯度》The Gradient（2020）对瘦疮丙酸ii）。[16]Ashish Vaswani等人“注意力是你所需要的一切”。第31届神经信息处理系统国际会议论文集。NIPS'17美国加州长滩：Curran AssociatesInc.2017年，页6000-6010.ISBN：9781510860964（cit.在pp。（ii，iv）.[17]Felix Wu 等 . 简化图卷积网络。 2019 年。arXiv：1902. 07153 [cs.LG]（cit.对瘦疮丙酸ii）。[18]克里斯托弗·P Burgess等Monet：无监督场景分解和表示。 2019. arXiv ： 1901.11390[cs.CV]（cit.第二页）。[19]Jani Zhang et al. GaAN ： Gated AttentionNetworksforLearningonLargeandSpatiotemporal Graphs（门控注意力网络在大型和时空图上的学习）在：第三十四届人工智能。2018年，页339对p. ii）。[20]珍妮·塞登施瓦兹，伊斯梅尔·埃莱齐和劳拉·里尔-塔克斯·埃。在：第38届机器学习国际会议论文集，ICML 2021，2021年7月18日至24日。第139卷。机器学习研究论文集。PMLR，2021年，第页。9410对p. ii）。[21]Kaiming He et al.用于图像识别的深度残差学习。2015. arXiv：1512 . 03385 [cs.CV]（cit.在pp。ii，xiii）.[22]GeoffreyHinton亚历克斯Krizhevsky Ilya Sutskever. “ImageNet使用深度卷积神经网络进行分类。In：（2012）.URL：https：//paperswithcode.com/method/alexnet（cit.第二页）。10[23]Christian Szegedy等人用卷积更深入。2014年arXiv：1409.4842 [cs.CV]（cit.对瘦疮丙酸ii）。[24]Karen Simonyan和Andrew Zisserman 用于大规模图像识别的深度卷积网络。2015. arXiv：1409.1556 [cs. CV]（cit.对瘦疮丙酸ii）。[25]Florian Schroff Dmitry Kalenichenko JamesPhilbin FaceNet ： A Unified Embedding forFace Recognition and Clustering. 在： 2015 年IEEE计算机视觉和模式识别会议（CVPR ）（ 2015 年 6 月）。 DOI ： 10.1109/cvpr.2015年。 7298682。 URL：http：//dx.多伊org/10.1109/CVPR。2015年。 7298682（cit.在pp。（二、五）。[26]Prannay Khosla等人监督对比学习。2021年。arXiv ：2004. 11362 [cs.LG]（cit.对瘦疮丙酸ii）。[27]基利安Q Weinberger和Lawrence K.索尔大间隔最近邻分类的距离度量学习。In：J. Mach.学习.第10号决议（2009年6月），第110页。207-244.ISSN：1532-4435（cit.对瘦疮丙酸ii）。[28]R. Hadsell，S. Chopra和Y.乐存。通过学习一个不变映射来减少抽象性。在：Proc.计算机视觉和模式识别会议（CVPRIEEE Press，2006（cit.在pp。（二、五）。[29]Ting Chen等人视觉表征对比学习的简单框架。2020. arXiv：2002 . 05709 [cs.LG]（cit.在pp。ii，vii）.[30]Mathilde Caron等人通过对比聚类分配的视觉特征的无监督学习。 2021. arXiv ： 2006 .09882[cs.CV] （ cit. 在 pp 。（二、三、五）。[31]Joshua Robinson等用硬负样本进行对比学习。2021. arXiv：2010 . 04592[cs.LG]（cit. 对瘦疮丙酸ii）。[32]Yannis Kalantidis等人对比学习的硬负混合。2020年。arXiv：2010. 01028[cs.CV]（cit.第二页）。[33]Jean-BastienGrill 等 BootstrapYourOwnLatent ： A New Approach to Self-SupervisedLearning（引导你的潜意识：一种自我监督学习的新方法） 2020. arXiv ： 2006.07733[cs.LG]（cit.对瘦疮丙酸ii）。[34]Q. Qian等人，“SoftTriple Loss：Deep MetricLearning Without Triplet Sampling（没有三重采样的深度度量学习）2019年美国加利福尼亚州洛斯阿拉米托斯：IEEE计算机协会，11月。2019年，页6449-6457.DOI：10.1109/ICCV 。 2019 年。00655 。网址：https：//doi.ieeecomputersociety.org/10.1109/ICCV。2019年。00655（cit. 对p. ii）。[35]Sungyeon Kim et al.“深度度量学习的代理锚丢失”。IEEE/CVF计算机视觉和模式识别会议（CVPR）。二零二零年六月（cit.对p. ii）。[36]Yair Movshovitz-Attias等人使用代理的无扰距离度量学习。2017年。1703年。07464[cs.CV]（cit. 对瘦疮丙酸ii）。[37]Bernhard E. 作者： Isabelle M. Guyon 和Vladimir N. 瓦普尼克 “A Training Algorithm在：计算学习理论第五届年度研讨会的会议记录。COLT 92。美国宾夕法尼亚州匹兹堡：计算机协会， 1992 年， pp 。 144-152 ISBN ：089791497X。DOI：10.1145/130385.130401。网址：https：//doi.org/10.1145/130385.130401（cit.对瘦疮丙酸iii）。[38]赵永明和劳伦斯·索尔“深度学习的核心方法”。在：神经信息处理系统的进展。Ed. 通过Y. Bengio等人第22卷。Curran Associates，Inc.2009年 URL：https：//proceedings.神经突cc/paper/2009/file/5751ec3e9a4feab575962e78e006250d-Paper.pdf（cit.第三页）。[39]托马斯霍夫曼贝尔尼亚研发公司Scholkopf和Alexander J.斯莫拉 “内核机器学习的方法”。见：《统计年鉴》36.3（2008年6月）。ISSN：0090-5364。DOI：10 . 1214/00905360700000677。URL：http：//dx.多伊org/10. 1214/ 009053607000000677（cit.第三页）。[40]邓佳等ImageNet：一个大规模的分层图像数据库。2009年IEEE计算机视觉与模式识别会议。2009 年，第页。 248-255. DOI ： 10.1109/CVPR.2009.5206848（cit.第三页）。[41]杰克斯内尔凯文斯沃斯基Richard S.泽梅尔原型网络for Few-shotLearning 2017. 1703年。05175 [cs.LG]（cit.第三页）。11[42]Yao Ma et al.同构是图神经网络的必要条件吗？2021. arXiv：2106 . 06134 [cs.LG]（cit.第四页）。[43]图形注意力

下载后可阅读完整内容，剩余1页未读，立即下载