大规模目标检测中的空间感知图关系网络

115 浏览量更新于2023-10-17 收藏 12.98MB PDF 举报

目标检测

性能提升

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

……1192980用于大规模目标检测的空间感知图关系网络0Hang Xu 1 � ChenHan Jiang 2 � Xiaodan Liang 2 † Zhenguo Li 101 华为诺亚方舟实验室 2 中山大学0摘要0如何在检测系统中正确编码高阶对象关系而不依赖于任何外部知识？如何利用对象的共现和位置之间的信息进行更好的推理？这些问题是当今大规模目标检测系统面临的关键挑战，旨在识别与复杂空间和语义关系纠缠在一起的数千个对象。提取可能影响对象识别的关键关系至关重要，因为将每个区域单独处理会导致在面对大量混乱的类别和重尾数据分布时性能大幅下降。最近的研究尝试通过构建图来编码关系，例如使用手工语言知识来构建类与类之间的图，或者隐式学习区域之间的全连接图。然而，手工语言知识由于语义和视觉上下文之间的语义差距无法为每个图像个性化，而全连接图由于包含了与无关对象和背景相关的冗余和分散的关系/边而效率低下且嘈杂。在这项工作中，我们引入了一种空间感知图关系网络（SGRN），以自适应地发现和整合关键的语义和空间关系以进行每个对象的推理。我们的方法考虑了相对位置布局和相互作用，可以轻松地注入到任何检测流程中以提升性能。具体而言，我们的SGRN集成了一个图学习模块，用于学习一个可互操作的稀疏图结构来编码相关的上下文区域，以及一个带有可学习的空间高斯核的空间图推理模块，用于具有空间感知的图推理。大量实验证实了我们方法的有效性，例如在VG（3000个类别）和ADE方面，mAP提高了约32％和28％。01. 引言0� 两位作者对本文贡献相同。†通讯作者：xdliang328@gmail.com0第k次传播权重0第一次传播权重0(a) 手工知识图 (b) 全连接图0(c) 空间感知稀疏图 (d) 带有高斯核的传播0距离0距离0男人男人0马羊马车驾驶员0男人男人0马羊马车驾驶员0图1. 构建图来编码关系的不同选择：(a)使用手工知识构建类与类之间的图。一些空间关系被忽略，固定的图无法适应图像，因为语言和视觉上下文之间存在差距。（例如，“goat”是孤立的）。(b)隐式学习区域之间的全连接图。学习到的边是冗余的，因为背景区域也被连接起来，全连接图忽略了成对的空间信息。(c)我们提出的SGRN学习了一个具有空间感知的稀疏图，利用语义和空间布局关系。(d)以“driver”节点为中心进行多个可学习的空间高斯核传播的示例。不同的空间核使得图的传播根据成对的空间信息而表现不同（边的粗细不同）。0VOC[11]和MS-COCO数据集[32]的80个类别）。然而，现在有越来越多的需求来识别更多种类的对象（例如，VG数据集[25]的3000个类别），因此大规模目标检测[19,23]因其在工业上的实用性而受到了很多关注。当前的检测流程主要是将每个区域的识别分开处理，当面对重尾数据分布和大量混淆的类别时，性能会大幅下降。在深度学习盛行之前，社区已经广泛认识到对象之间的关系可以帮助提高对象识别的性能[12, 17, 47, 48,49]。通过演化关系信息来增加更多的上下文信息将缓解上述问题。92990因此，大规模目标检测面临的一个关键挑战是如何捕捉和统一语义和空间关系，并提升性能。0随着几何深度学习的进步，使用图似乎是建模关系的最合适方式，因为它具有灵活的建模成对交互的结构。图1给出了不同的选择来设计用于检测任务的编码成对关系的图的示例。图1a使用手工制作的语言知识[24, 36, 23,6]构建了一个类别到类别的图。例如，Jiang等人[23]最近尝试通过不同形式的知识在大规模检测中融入语义关系推理。然而，他们的方法严重依赖于VisualGenome数据中的属性和关系的注释。此外，一些空间关系可能被忽略，固定的图不能适应图像，因为语言和视觉上下文之间存在语义差距（例如，“山羊”是孤立的）。另一方面，一些工作[34, 5,20,51]尝试从视觉特征中隐式学习区域之间的全连接图，如图1b所示。例如，Hu等人[20]引入了关系网络，使用自适应注意模块允许对象的视觉特征之间的交互。然而，他们的全连接关系在整合冗余和分散的与无关对象和背景的关系/边缘时是低效且嘈杂的，同时也没有充分利用成对的空间信息。此外，他们的论文中提到的模块学到了什么并不清楚。因此，我们的工作旨在开发一种基于图的网络，可以在训练图像中直接学习具有空间信息意识的可解释稀疏图结构。图1c显示了我们的方法通过同时利用语义和空间关系来学习空间感知稀疏图。0在本文中，我们提出了一种新颖的面向大规模目标检测的空间感知图关系网络（SGRN）。我们的网络只包含两个模块：一个稀疏图学习模块和一个空间感知图卷积模块。与构建类别到类别图[7,40]不同，我们将提议区域定义为图节点。通过关系学习模块学习到了一个稀疏图结构。这不仅可以识别图像中与目标识别有关的最相关区域，还可以避免与负面区域的不必要开销。然后，通过可学习的空间高斯核进行空间感知图卷积，以传播和增强区域上下文表示。图卷积中高斯核的设计允许图传播能够感知不同的空间关系，如图1c所示。最后，将每个区域的新增强上下文与原始特征进行拼接，以提高分类和定位的性能。0我们的方法采用端到端的方式。我们的方法可以轻松地插入到任何现有的检测流程中，以赋予其捕捉和统一语义和空间关系的能力。因此，我们的SGRN能够在具有可解释的学习图的区域上进行自适应图推理（见图4）。上下文信息和空间信息都能够高效地通过图进行提取和传播。通过在频繁/稀有类别之间共享基本特征，可以缓解类别不平衡的问题。此外，通过相关区域的增强上下文信息，可以解决具有严重遮挡、类别模糊和小尺寸问题的困难区域的识别。此外，我们的方法在重用图学习器和推理模块方面展现了很好的领域可迁移性，如第4.5节所示。所提出的SGRN在不添加任何额外信息的情况下，即[30]、Faster R-CNN [45]、RelationNetwork [20]、HKRM [23]和RetinaNets[31]等，优于当前最先进的检测方法。在几个目标检测基准上，基于FPN和FasterR-CNN的检测网络上观察到了一致的改进，例如VG[25]（1000/3000个类别）、ADE[53]（445个类别）和MS-COCO[32]（80个类别）。特别是在VG（3000个类别）上，SGRN的mAP提升约为32%，在VG（1000个类别）上提升14%，在ADE上提升28%，在MS-COCO上提升8%。02. 相关工作0目标检测。0目标检测是计算机视觉中的核心问题。近年来，由于使用了CNN（如Resnet 101[18]等骨干），取得了很大的进展。现代目标检测方法通常可以分为两组：1）两阶段检测方法：Faster R-CNN[45]、R-FCN [8]、FPN[30]。它们使用区域建议网络在第一阶段生成感兴趣的区域，然后将区域建议发送到流水线中进行对象分类和边界框回归。2）一阶段检测方法，如SSD [33]和YOLO[43]。它们通过输入图像进行回归，并学习类别概率和边界框坐标。这些模型达到了较低的准确率，但比两阶段目标检测器快得多。然而，通常考虑的类别数量较少：PASCALVOC [11]为20个，COCO[32]为80个。此外，这些方法通常在每个提议上单独执行，而不考虑区域之间的关系。0视觉推理。0视觉推理旨在结合对象或场景之间的不同信息或交互。例如………93000图像0FC cls0FC bbox0分类器权重0骨干0Adj0提议特征0精炼的提议特征0空间图推理0特征编码器0关系学习者0FC0可学习的高斯核0加权传播边0区域节点0增强的提议特征0稀疏邻接矩阵0潜在向量0视觉嵌入0RoIAlign0图2.所提出的SGRN的概述。我们的方法可以堆叠在任何现代检测网络上。SGRN将区域之间的关系编码为一个无向图。关系图学习模块首先从视觉特征中学习一个稀疏的邻接矩阵，保留最相关的连接。然后，收集先前分类层的权重，并将其软映射到区域，成为每个区域的视觉嵌入。区域之间的成对空间信息（距离、角度）被输入高斯核中以确定图卷积的模式。在空间感知图推理模块中，不同区域的视觉嵌入根据稀疏的邻接矩阵和高斯核进行演化和传播。空间图推理模块的输出然后与原始区域特征连接，以改善分类和定位。0在分类[36, 2]、目标检测[6, 20,23]和视觉关系检测[7]任务中发现。早期的工作通常涉及手工制作的对象之间的关系或共享属性[1, 2, 26,37]。例如，[14, 35,44]依赖于在语言空间中找到的相似性，如属性。[13, 15,39]将对象关系用作后处理步骤。最近的工作考虑了图结构[6, 7, 24,36]，以融入各种任务的外部知识。邓等人[10]采用标签关系图来指导分类。陈等人[6]利用局部基于区域的推理和全局推理来促进对象分类。然而，他们的方法严重依赖于外部手工制作的语言知识（词嵌入）。这些手工制作的图可能不合适，因为语言和视觉上下文之间存在差距。其他工作[20, 34,41]以隐式方式编码关系。刘等人[34]提出了结构推理网络（SIN），它使用堆叠的GRU单元隐式地学习完全连接的图来编码信息。然而，使用全连接图允许冗余信息流动，并使GRU单元的效率降低，从而导致报告的性能较低（MSCOCO上的mAP：23.2%）。相比之下，我们的SGRN学习了一种稀疏的关系图，可以用来促进我们的空间感知GCN模块。0图卷积神经网络0图卷积神经网络（GCNs）旨在将卷积神经网络（CNNs）推广到图结构数据。在这个方向上的进展通常被归类为谱方法和空间方法。谱GCNs [9,24]使用与欧几里得域的类比来定义图傅里叶变换，从而允许在谱域中进行卷积，就像进行乘法一样。空间GCNs0[3, 38,50]直接在图上使用一个补丁运算符定义卷积，对节点邻居组进行操作。Monti等人[38]提出了混合模型CNN（MoNet），这是一种空间方法，可以将CNN架构统一推广到图上。图注意力网络[50]将卷积算子建模为对节点邻居的注意力操作。受到这些工作的启发，我们的模型也将图卷积定义为混合模型。然而，尽管这些方法学习了一个固定的图结构，但我们的目标是为每个图像学习一个动态自适应的图，以利用对象的共现和位置之间的信息。03. 提出的方法03.1. 概述0SGRN的概述可以在图2中找到。我们开发了一个空间感知的图关系网络，可以在任何现代主导检测系统上实现，以进一步提高其性能。在我们的网络中，关系被形式化为区域到区域的无向图G：G = < N，E>。关系图学习模块首先从视觉特征中学习可解释的稀疏邻接矩阵，该矩阵仅保留用于识别对象的最相关连接。然后，收集前一分类层的权重，并将其软映射到区域以成为每个区域的视觉嵌入。计算区域之间的成对空间信息（距离、角度），并将其输入高斯核以确定图卷积的模式。在空间感知图推理模块中，根据稀疏邻接矩阵和高斯核，不同区域的视觉嵌入得到演化和传播。空间图推理模块的输出然后与其他模块的输出进行拼接。3.2. Relation Learner Modulezi = φ(f), i = 1, 2, ..., Nr(1)93010原始区域特征以改善分类和定位。0该模块旨在产生与目标检测相关的提案区域之间关系的图形表示。我们将关系形式化为区域到区域的无向图G：G = ，其中N中的每个节点对应一个区域提案，每个边ei,j ∈ E编码两个节点之间的关系。然后，我们寻求学习E ∈R N r × Nr，从而可以确定节点邻域。形式上，给定从骨干网络提取的区域视觉特征的D维度，我们使用区域视觉特征f = {f i} Nr i = 1，f i ∈ RD作为我们模块的输入。我们首先通过非线性变换将视觉特征转换为潜空间Z，表示为0,其中z i ∈ RL，L是潜空间的维度，φ(.)是非线性函数。在本文中，我们考虑使用具有ReLU激活的两个全连接层作为非线性函数φ(.)。令Z ∈ R N r × L为{z i} N r i = 1，z i ∈ RL的集合，带有自环的无向图G的邻接矩阵可以通过矩阵乘法计算得到E = ZZ T，使得e i,j = z i z T j。请注意，在这些Nr个区域提案中存在许多背景（负样本）。使用完全连接的邻接矩阵E将建立背景（负样本）之间的关系。这些冗余的边将导致更大的计算成本。此外，后续的空间感知图卷积将过度传播信息，并且图卷积的输出对所有节点都是相同的。为了解决这个问题，我们需要对图的稀疏性施加约束。对于每个区域提案i，我们只保留E的每行中的前t个最大值。换句话说，选择大多数t个相关节点作为每个区域提案i的邻域：0邻居（节点 i）= 前 t 个 j =1 ,..,N r 的顶部 ( e i,j )0。这确保了一个稀疏的图结构，专注于对象识别中最相关的关系。03.3. 区域的视觉嵌入0大多数现有的基于图的方法[24, 36, 7,6]根据边在每个图像中在区域之间传播局部的视觉特征。然而，当区域的视觉特征较差时，他们的方法会失败，因此传播是低效甚至错误的。请注意，这种情况在大规模检测中经常发生，当图像中存在严重的遮挡和模糊时。为了缓解这个问题0在问题中，我们的方法试图在所有类别上全局传播信息。换句话说，我们的方法需要为每个类别创建一个高级语义视觉嵌入，该嵌入可以被视为一个特定对象类别的理想原型。在一些零/少样本问题中，他们[47, 52,16]使用分类器的权重作为未见/不熟悉类别的嵌入或表示，我们尝试使用权重作为每个类别的视觉嵌入。这是因为分类器的权重实际上包含了高级语义信息，因为它们记录了从所有图像训练得到的特征激活。形式上，令 W ∈ R C × ( D+1) 表示先前分类器的权重（参数），其中 C 是类别数，D是视觉特征的维度。可以通过从基础检测网络的先前分类层复制参数 W（包括偏置）来获得类别的视觉嵌入。注意，W在训练过程中进行更新，因此我们的视觉嵌入随时间更加准确。此外，我们的模型可以以端到端的方式进行训练，避免对整个数据集进行平均或聚类[27]。由于我们的图 G是一个区域到区域的图，我们需要找到从类别视觉嵌入 w∈ W 到节点的区域表示 x i ∈X（我们的空间图推理模块的输入）的最合适的映射。陈等人[6]建议使用硬映射，直接使用一对一的先前分类结果作为类别到区域的映射。然而，如果先前的分类结果错误，他们的映射将是错误的。相反，我们使用软映射，计算映射权重m w → x i ∈ M s 为 m w → x i = exp( s ij ) / ∑ j exp( s ij) ，其中 s ij 是基础检测器的先前分类层对于区域 i相对于类别 j的分类得分。因此，我们的空间感知图推理模块的输入 X ∈R N r × ( D +1) 可以计算为 X = M s W ，其中 M s ∈ RN r × C 是软映射矩阵。03.4. 空间感知图推理模块0基于区域输入（节点） X ∈ R N r × ( D +1)0和学习到的图边 E ∈ R N r × N r，利用边引导的图推理用于学习新的对象表示，以进一步增强分类和定位。由于图推理中区域的位置对于图推理也至关重要，因此我们的图推理模块还应考虑空间信息。在这里，我们介绍了我们的空间感知图推理模块，使用图卷积神经网络（GCN）来与空间信息一致地建模关系和交互。为了捕捉成对的空间信息，我们使用成对的伪坐标函数 u ( a, b )，它定义了对于每个节点 a ， u ( a, b ) 将返回坐标f𝑍 = 𝜙(. )ℰ = 𝑍𝑍𝑇𝐺𝐶𝑁1(ℰ, X, 𝑤1)…FC𝐺𝐶𝑁𝐾(ℰ, X,𝑤𝐾)𝜃𝑑f′k(i) =�j∈Neighbour(i)wk(u(i, j))xjeij,(2)wk(u(i, j)) = exp�− 12 (u(i, j) − µk)T Σ−1k(u(i, j) − µk)�,We ﬁrst conduct experiments on large-scale object de-tection benchmarks with a large number of classes: VisualGenome (VG) [25] and ADE [53].Note that these twodatasets have long-tail distributions. The task is to local-ize an object and classify it, which is different from the ex-periments with given ground truth locations in Chen et al.[6]. For VG, we use the synsets [46] instead of the rawnames of the categories due to inconsistent label annota-tions, following [21, 6, 23]. We consider two set of targetclasses: 1000 most frequent classes and 3000 most frequentclasses:VG1000 and VG3000. We split the remaining 92960images with objects on these class sets into 87960 and 5,000for training and testing, following [23]. For ADE dataset,we use 20,197 images for training and 1,000 images fortesting with 445 categories, following [6, 23]. Since ADEis a segmentation dataset, we convert segmentation masksto bounding boxes [6] for all instances.Moreover, we are curious about whether our SGRN alsoworks on a smaller scale dataset (fewer categories) so thatexperiments are also conducted on common object detec-tion datasets: MSCOCO [32] with 80 classes. MSCOCO2017 contains 118k images for training, 5k for evaluation(also denoted as minival) as common practice [20, 31, 29].For all the evaluation, we adopt the metrics from COCOdetection evaluation criteria [32], that is, mean Average Pre-cision (mAP) across different IoU thresholds (IoU= {0.5 :93020分类器权重 W Bbox 预测0伪坐标 �(�, �)0软映射0视觉嵌入X �0高斯核函数 � 1 (�(. )) 高斯核函数 � 1(�(. )) 高斯核函数 � 1 (�(. ))0连接0图3.空间感知图推理模块的流程图。关系学习模块从视觉特征f中学习得到稀疏的邻接矩阵E。分类器权重W被软映射到区域上作为视觉嵌入X。然后计算成对的伪坐标u(i,j)，并使用可学习的均值和协方差确定w k ( .)，其中K个高斯核函数。最后，将E、X和w k ( .)输入到由方程(2)定义的图卷积神经网络(GCN)中。我们的空间感知图推理模块的输出与f连接起来，以提高分类和定位的性能。0在该系统中，节点b的相对位置可以被识别为伪坐标系。本文中，我们使用极坐标函数u(a, b) = (d,θ)，返回一个二维向量，计算区域提议a和b的中心点([c a, ya], [c b, y b])之间的距离和角度，例如：0�。然后，我们需要通过定义一个补丁操作符来描述图中每个邻近节点的影响和传播，从而构建我们的空间感知图推理。类似于MoNet[38]，我们通过一组可学习的均值和协方差的K个高斯核函数来定义补丁操作符。形式上，给定区域语义输入x j ∈X和图结构G = ，对于节点i，每个核函数k的补丁操作符定义如下：0其中Neighbour ( i )表示节点i的邻域，w k ( .)是第k个高斯核函数：0其中µ k和Σk是可学习的2×1均值向量和2×2协方差矩阵。对于每个节点i，f ′ k ( i )是邻近语义表示X和高斯核函数w k ( .)的加权和。然后，对于每个节点，将f ′ k ( i)在K个核函数上进行连接，并通过线性变换L ∈ R E × (D+1)得到h i = L [f ′ ( i)]，其中E是每个区域输出增强特征的维度。最后，将每个区域的h i与原始区域特征fi连接起来，以提高分类和定位的性能。03.5. 用于多个领域的SGRN0近年来，出现了一些包含不同类别数量的开放大型检测数据集。例如，MSCOCO有80个类别，VisualGenome有3000个类别。然而，检测器通常在全监督下训练，并且在面对新的数据集或新的类别时需要重新训练。这是繁琐且非常耗时的。由于我们的关系图学习模块和空间感知图推理模块可以在不同的数据集中重复使用，我们特别关注SGRN的领域可迁移性。具体而言，为了在新的数据集上训练一个新模型，我们首先从源数据集训练的模型中复制所有参数，包括SFRN，除了边界框回归和分类层。边界框回归和分类层的权重W source 可以通过W target = Γ Wsource进行转换，其中Γ ∈ R C target × C source。Γ是一个可以通过计算类别名称词嵌入[2,16]之间的余弦距离得到的转换矩阵。在第4.5节中可以找到从多个数据集进行迁移的实验。我们的SGRN展示了很强的迁移能力，可以用来缩短训练时间表。04. 实验04.1. 数据集和评估。VG1000Light-head RCNN[28]6.210.96.22.86.59.814.618.018.77.217.125.3Cascade RCNN[4]6.512.16.12.46.911.215.319.419.56.119.227.5HKRM[23]7.813.48.14.18.112.718.122.722.79.620.831.4Faster-RCNN[45]5.79.95.82.76.98.913.817.017.06.615.823.5Faster-RCNN w SGRN 6.8+1.1 11.1+1.2 7.1+1.3 3.3+0.6 7.0+0.1 10.8+1.9 15.3+1.5 19.5+2.5 19.6+2.6 8.3+1.7 17.8+2.0 26.7+3.2FPN[30]7.112.97.34.27.910.714.919.820.011.119.323.6FPN w SGRN8.1+0.9 13.6+0.7 8.4+1.1 4.4+0.2 8.2+0.3 12.8+2.1 19.5+4.6 26.0+6.2 26.2+6.2 12.4+1.3 23.9+4.6 34.0+10.4VG3000Light-head RCNN[28]3.05.13.21.74.05.87.39.09.04.310.315.4Cascade RCNN[4]3.86.53.41.94.84.97.18.58.64.29.913.7HKRM[23]4.37.24.42.65.58.410.112.212.25.913.020.5Faster-RCNN[45]2.64.42.71.73.64.86.27.67.64.39.112.9Faster-RCNN w SGRN 3.2+0.65.0+0.63.4+1.3 2.0+0.3 4.2+0.66.5+1.77.3+0.99.2+1.69.2+1.64.9+0.6 11.4+1.7 16.2+3.3FPN[30]3.46.13.42.64.86.36.99.19.16.711.513.4FPN w SGRN4.5+1.17.4+1.34.3+1.0 2.9+0.3 6.0+1.28.6+2.3 10.8+3.9 13.7+4.6 13.8+4.7 8.1+1.4 15.1+3.6 21.8+8.4ADELight-head RCNN[28]7.011.77.32.45.111.29.613.313.44.310.420.4Cascade RCNN[4]9.116.88.93.57.115.312.116.416.66.413.825.8HKRM[23]10.318.010.44.17.816.813.618.318.57.115.528.4Faster-RCNN[45]6.912.86.83.16.412.39.313.313.67.913.420.5Faster-RCNN w SGRN 9.5+2.6 15.3+2.5 10.1+3.3 4.9+1.8 8.4+2.0 16.0+3.7 12.5+3.2 17.6+4.3 17.7+4.1 8.4+0.5 16.0+2.6 27.3+6.8FPN[30]10.921.012.07.312.118.413.520.320.913.321.929.0FPN w SGRN14.0+3.1 23.1+2.1 14.8+2.8 8.1+0.8 13.7+1.6 21.4+3.0 16.5+3.0 25.5+5.2 26.2+5.3 17.7+4.4 27.5+5.6 35.3+6.393030% 方法 AP AP 50 AP 75 AP S AP M AP L AR 1 AR 10 AR 100 AR S AR M AR L0表1. VG 1000（Visual Genome）、VG 3000和ADE 445测试数据集的主要结果。“w SGRN”是基线模型Faster-RCNN [ 45 ]和FPN [ 30]添加了提出的SGRN方法。注意，与HKRM [ 23 ]的比较不公平，因为他们的方法在这里使用了Visual Genome的关系和属性注释。00.95，0.5，0.75）和尺度（小、中、大）。我们还使用不同给定检测数目（{1，10，100}）和不同尺度（小、中、大）的平均召回率（AR）。04.2. 实现细节。0我们使用Pytorch [ 42 ]、8个TeslaV100显卡在一台服务器上进行所有实验。ResNet-101 [ 18]在ImageNet [ 46]上预训练，作为我们的骨干网络。我们使用两种广泛采用的最先进的检测方法，即Faster-RCNN [ 45 ]和FPN [ 30]作为我们的基线模型。Faster-RCNN [ 45]。训练中的超参数大多数遵循[ 45]。conv2之前的参数是固定的，与[ 28]相同。训练过程中，使用翻转的图像和多尺度（像素大小={ 600 � 1000 } ）进行数据增强。测试时，使用像素大小=600。按照[ 45]的方法，在conv4的特征图上应用RPN。NMS后的提议区域总数为Nr =128。conv5中的特征被平均池化成为每个提议区域的特征向量，并直接输入到bbox回归和分类层中。我们使用128个区域经过avg-pool（D =2048）后的最终conv5作为我们关系学习模块的输入的提议的视觉特征。不采用类别无关的bbox回归。FPN [ 30]。训练中的超参数大多数遵循[ 30]。测试时，使用像素大小=800。RPN应用于所有的特征图。NMS后的提议区域总数为Nr = 512。0conv5被平均池化成为提案的视觉特征（D =512），作为我们关系学习模块的输入。在bbox-head中，使用2个共享的FC层用于提案的视觉特征，输出是一个1024维的向量，用于bbox回归和分类层。采用类别无关的bbox回归。除非另有说明，所有实验的设置都相同。SGRN。在关系学习模块中，我们使用两个大小为256的线性层来学习潜在的Z（L =256），并保留最相关的32个节点。区域的视觉嵌入来自分类层（FasterRCNN为2048维，FPN为1024维）。对于空间感知图推理模块，我们使用两个具有512和256维的空间感知图卷积层，以使每个区域的模块的输出大小为E =256。所有线性层都使用修正线性单元（ReLU）激活函数激活。对于所有的训练，使用随机梯度下降（SGD）在8个GPU上进行，每个GPU上有2张图片。初始学习率为0.02，在微调过程中降低三次（×0.01）；权重衰减为10^-4；动量为0.9。对于所有的数据集，我们对基线模型（12个epoch后进一步训练不会提高基线性能）进行24个epoch的训练。对于我们的SGRN，我们使用12个epoch的基线模型作为预训练模型，并使用相同的设置与基线模型进行另外12个epoch的训练。我们还使用公开发布的代码实现和比较表1中的方法。为了公平比较，我们不使用soft-nms或on-SIN [34]23.244.522.0FPN w SGRN41.7+3.4 62.3+1.8 45.5+3.5line hard example mining (OHEM) in all experiments.93040图4.我们的SGRN学习到的图结构示例。区域的中心点被绘制并由学习到的图边连接起来。边的粗细对应于图边权重的强度。0% 方法 mAP AP 50 AP 750MSCOCO0关系网络[ 20 ] 38.8 60.3 42.90空间记忆网络[ 5 ] 31.6 52.2 33.20RetinaNet[31] 39.1 59.1 42.30DetNet[29] 40.2 62.1 43.80IoUNet[22] 40.6 59.0 49.00HKRM[23] 37.8 58.0 41.30FPN[30] 38.3 60.5 42.00表2. MSCOCO上的平均精度（mAP）、AP 50和AP75的比较。“FPN wSGRN”是基于FPN[30]的提出的SGRN方法。除了FPN和我们的方法之外，其他准确度数字均直接来自原始论文。04.3. 与最先进方法的比较0大规模检测基准。我们首先在大规模检测基准上评估了我们的SGRN方法：VG 1000（具有1000个类别的VisualGenome），VG 3000（具有3000个类别的VisualGenome）和ADE（具有445个类别的ADE）。表1显示了我们的方法SGRN在基准模型Faster-RCNN [45]和FPN[30]上的结果。我们的SGRN在所有大规模检测基准上的分类和定位准确度都显著优于基准方法。我们的方法在VG1000上的整体AP为8.1%，而FPN为7.2%；在VG3000上为4.5%，而FPN为3.4%；在ADE上为14.0%，而FPN为10.9%。从表1可以看出，我们的方法可以将平均精度提高0.6%至3.0%。我们的方法主要适用于大物体（APL：+2%�3%）。此外，我们的SGRN能够在平均召回率上比FPN提高3%~10%的幅度（例如VG 1000的ARL：+10.4%）。这表明我们的方法可以通过空间感知图推理提高准确性和错误发现率。我们还将我们的方法与Light-head RCNN [28]、Cascade-0RCNN [4]和HKRM[23]在表1中进行了比较。需要注意的是，HKRM方法使用了VisualGenome的关系和属性注释，因此比较不公平。从表中可以看出，SGRN相对于其他竞争方法有很大的优势（相对提高了10%~80%）。图4显示了我们的SGRN学习到的图结构的可视化示例。区域的中心点被绘制并通过学习到的图边连接起来。边的粗细对应于图边权重的强度。我们的方法学习到了区域之间的可解释边缘。例如，具有相同类别的对象被连接在一起，如“books”、“people”、“cars”。它们的视觉特征因此得到了共享和增强。此外，具有语义关系或共现关系的对象也被连接在一起，例如“mouse”和“laptop”、“umbrella”和“person”、“bicycle”和“car”以及“cellphone”和“people”。正确的学习边缘有助于成功的图学习，从而提高检测性能。图5还显示了基准方法FPN和我们的SGRN在具有1000个类别的VisualGenome上的定性比较。由于编码关系的帮助，我们的方法比基准方法更准确。例如，SGRN可以检测到“doughnut”、“catcher”、“food”和“sign”，而FPN则不能。FPN在猫的图像中检测到了一些误报的边界框，如“paw”和“leg”。常见的检测基准。我们进一步研究了我们的SGRN在一个较小规模的数据集（较少的类别）上的性能。表2显示了在MSCOCO数据集的minival上的性能，该数据集包含80个类别。为了与最先进的方法进行比较，我们还直接从原始论文中报告了SIN [34]、Spatial Memory Network[5]、Relation Network [20]、RetinaNet [31]、DetNet[29]、IoUNet [22]和HKRM[23]的准确度数字。需要注意的是，我们实现的基准FPN的准确度比原始论文中的准确度更高（38.3 vs 36.2[30]）。可以看出，我们的方法比基准FPN和其他竞争方法都要好3.4%。这表明我们的SGRN方法也可以通过改进特征表示来处理具有较少类别的数据集，这是由于其关系图推理能力。04.4. 消融分析0为了进行详细的消融分析，我们使用FPN基线进行了实验。表3显示了我们模型在ADE上不同组件的有效性：1）视觉嵌入的图卷积是我们方法中最重要的组件，对FPN的改进贡献了1.9%。2）使用全连接图进行推理会导致性能下降，而稀疏连接可以提高mAP约0.3%。3）空间高斯核的设计可以提高mAP 0.5%。4）使用软映射M_s可以进一步提高总AP0.4%。FPN%Embedding Connection Gaussian MappingAPAP50AR1AR10FPN10.921.013.520.3√12.8+1.9 21.9+0.9 14.5+1.0 23.5+3.2√√13.1+2.2 21.6+0.6 15.4+1.9 23.9+3.6√√√13.6+2.7 23.0+2.0 15.1+1.6 24.3+4.0√√√13.4+2.5 21.8+0.8 16.0+2.5 23.7+3.4√√√13.7+2.8 22.5+1.5 16.2+2.7 24.7+4.4SGRN√√√√14.0+3.1 24.1+2.1 16.5+3.0 25.5+5.2FPNVG3000-123.46.13.46.99.19.1SGRNVG3000 VG100013.45.73.57.49.69.6SGRNVG3000 VG100054.67.54.810.2 13.513.5SGRNVG3000 COCO12.13.72.24.76.66.7SGRNVG3000 COCO53.45.73.57.810.710.8Frozen-FPNCOCO-1228.7 50.728.6 25.6 42.545.4Frozen-SGRN COCO VG1000133.1 52.336.5 29.5 45.046.4Frozen-SGRN COCO VG1000537.7 57.840.8 31.9 50.635.1FPNCOCO-1238.3 60.542.0 32.1 50.835.4SGRNCOCO VG1000133.0 51.336.5 29.5 45.947.3SGRNCOCO VG1000538.9 58.742.6

下载后可阅读完整内容，剩余1页未读，立即下载