没有合适的资源?快使用搜索试试~ 我知道了~
BoxeR: 2D和3D变压器的Box-Attention
47730BoxeR: 2D和3D变压器的Box-Attention0Duy-Kien Nguyen 1 Jihong Ju 2 Olaf Booij 2 Martin R. Oswald 1 Cees G. M. Snoek 10Atlas Lab - 1 阿姆斯特丹大学 2 TomTom0{ d.k.nguyen, m.r.oswald, cgmsnoek } @uva.nl { jihong.ju, olaf.booij } @tomtom.com0摘要0在本文中,我们提出了一种简单的注意机制,称为Box-Attention。它使得来自感兴趣区域的网格特征之间可以进行空间交互,并提高了变压器在几个视觉任务中的学习能力。具体而言,我们提出了BoxeR,即BoxTransformer,它通过预测来自输入特征图上参考窗口的变换来关注一组框。BoxeR通过考虑其网格结构来计算这些框的注意权重。值得注意的是,BoxeR-2D在其注意模块内部自然地推理框信息,使其适用于端到端实例检测和分割任务。通过在框注意模块中学习对旋转的不变性,BoxeR-3D能够从鸟瞰视角生成用于3D端到端物体检测的有区分性信息。我们的实验证明,所提出的BoxeR-2D在COCO检测和实例分割上取得了最先进的结果。此外,BoxeR-3D改进了端到端3D物体检测基线,并且在WaymoOpen的车辆类别上已经获得了令人满意的性能,而无需进行任何类别特定的优化。代码可在https://github.com/kienduynguyen/BoxeR上获得。01. 引言0对于目标检测、实例分割、图像分类和许多其他当前的计算机视觉挑战来说,似乎多头自注意力变压器就足够了[40]。在自然语言处理取得成功之后,学习长距离特征依赖关系在计算机视觉中也被证明是一种有效的策略,例如[1,7]。令人惊讶的是,现有的计算机视觉变压器并没有明确考虑视觉模态的固有规律。重要的是,图像特征的向量化方式与语言标记完全相同,导致像素之间的局部连接丧失。一旦提供足够的数据,传统的变压器可能足够强大,以弥补这种空间结构的丧失,但在本文中,我们更愿意为变压器配备空间0Box-Attention0BoxeR-2D0BoxeR-3D0图1.用于目标检测和实例分割的BoxeR带有框注意力。BoxeR-2D感知图像并生成物体边界框和像素掩码。从BoxeR-2D扩展而来,BoxeR-3D从点云输入中预测3D边界框。0通过设计的图像感知。最近的证据[5, 39,47]表明,归纳偏差在自然语言处理和计算机视觉中都非常重要,并且图像识别[24]和目标检测[47]的领先作品都利用了“空间信息”。此外,强大而有效的归纳偏差使我们能够更快地收敛和更好地泛化[39]。一种解决方案是通过位置编码丰富图像特征,这在将多头注意力应用于视觉任务时已经成为常见做法。Carion等人[1]和Zhu等人[47]都将绝对2D位置转换,而Ramachandran等人[29]则将相对2D位置编码为向量并将其求和到图像特征中的注意力计算中。然而,这种方法只是将数据增强到图像特征中。它要求网络在其权重内隐含地推断空间信息,导致训练过程中收敛速度缓慢,因为网络架构缺乏空间感知能力。众所周知,网络架构中的归纳偏差能够提供强大的学习能力,这已经由著名的架构(如卷积神经网络[19]和长短期记忆[13])证明。特别是,我们假设变压器的注意模块中更好的空间归纳偏差会导致更好的图像特征学习表示。受到这一观察的启发,本文的第一个贡献是一种用于端到端视觉的Box-Attention机制。47740我们在第3节中介绍的使用Transformer进行表示学习的方法与在感兴趣区域内使用图像特征不同,它将表示相对位置的一组可学习嵌入作为注意力计算中的关键向量。在我们的第二个贡献中,在第4节中,这些计算被封装到一个我们称之为BoxeR-2D的复合网络中,它可以更好地预测端到端目标检测和实例分割任务。在第5节中,BoxeR-2D和盒子注意力被扩展为BoxeR-3D,以解决端到端的3D目标检测问题,而无需进行3D-IoU计算、锚点和对象中心的热图。这个扩展到3D目标检测的方法是我们的第三个贡献,见图1。在第6节中,我们通过在COCO数据集[21]上进行多个实验结果展示了我们的贡献的有效性,在端到端目标检测方面取得了领先的结果。所提出的方法为端到端实例分割提供了一个简单的解决方案,在具有更少参数的情况下,优于许多成熟和高度优化的架构在具有挑战性的COCO实例分割数据集上。通过仅利用数据无关的先验信息,我们的方法为WaymoOpen数据集[35]上的端到端3D目标检测提供了一个引人注目的解决方案。02. 相关工作0我们简要回顾了计算机视觉领域的最新发展,重点关注注意力机制在骨干网络、目标检测、实例分割和3D目标检测中的应用。注意力用于视觉骨干网络。随着注意力机制的进展,有几种方法可以在卷积网络中创建和使用注意力,例如[14, 29, 34, 42]。最近在VisionTransformer(ViT)[7]中显示,仅使用注意力的网络在图像识别方面达到了可比较的性能,并在更多数据和更长的训练时间设置下优于卷积神经网络。由于ViT在高分辨率图像上的计算成本较高,同时只产生单一尺度的特征图,因此一些工作[8,24]专注于加速自注意力计算并生成用于目标检测和分割的多尺度特征图。在本文中,我们将注意力集中在从视觉骨干网络提取特征并为多个视觉任务提供预测的预测模块上。目标检测中的注意力。现代两阶段目标检测方法[23](即Faster R-CNN[31])利用区域建议网络(RPN)和预测模块在预训练骨干网络之上预测一组预定义的对象。注意力机制被认为是RPN和预测模块的补充,以进一步提高性能[3,37]。或者,一种替代的方法是只使用注意力机制进行目标检测,而不使用RPN [17]。0阶段性目标检测方法[30,41]消除了对RPN的需求,并直接从卷积特征图中预测对象。虽然检测性能有了显著提升,但这些基于卷积的架构仍然依赖于许多手工设计的组件。最近,Carion等人引入了一种基于Transformer的预测模型,称为DETR[1],它以端到端的方式进行预测。Zhu等人[47]指出了自我注意力在图像特征上的收敛速度慢和计算成本高的问题,引入了多头可变形注意力,用两个线性投影来采样点并计算它们的注意力权重来替代注意力计算中的点积。虽然在收敛速度和准确性方面有所改进,但是围绕参考点采样位置的策略阻止了它有效地捕捉到对象的信息,如对象的大小和位置。由于图像特征映射上的采样点是分离的,该模块无法感知到所关注区域的局部连接性。我们的BoxeR紧密遵循了Carion等人的端到端目标检测整体框架[1],但其核心区别在于使用了空间先验和多头盒子注意力机制。我们的多头盒子注意力受到了标准多头注意力和卷积操作的启发,这两者都已经被证明可以学习到强大的图像表示。盒子注意力仅通过预测盒子的中心和大小来考虑盒子区域,这更加高效,并允许我们在预测的区域内提取结构化信息。0实例分割的注意力。需要一种用于同时定位对象并分割属于对象的像素的实例分割方法。受现代目标检测器的启发,早期的研究[2,27]在第一阶段预测分割提议;然后在第二阶段对分割提议进行分类。He等人提出了在多任务设置中同时训练目标检测和实例分割以提高两个任务性能的方法。与预测来自相同特征集(即ResNet特征)的边界框和掩码的现代分割模型不同,DETR依赖于变压器特征进行目标检测,并使用从变压器生成的注意力图与ResNet特征进行分割。这导致了信息水平上的不匹配,因为这两个任务高度相关。Dong等人建议通过利用可变形注意力来学习用于目标检测和实例分割的统一查询。然而,这种方法在很大程度上落后于基于卷积的架构。我们引入了box-attention,它在单个BoxeR-2D架构中自然地扩展到目标检测和实例分割,实现了两个任务的最先进性能。03D物体检测的注意力。3D物体检测的主要挑战是处理来自鸟瞰图像特征的旋转边界框。许多方法01201247750矩阵乘法0学习的变换0查询0值0键softmax0Box-Attention计算学习何处关注0图2.Box-Attention。左:Box-Attention中的注意力计算,使用参考窗口(用黄色表示)而没有任何变换。给定一个查询向量,Box-Attention在以查询位置为中心的3×3网格特征上计算注意力图。注意力权重由查询和相对位置编码之间的矩阵乘法生成作为键。右:没有变换和有变换的Box-Attention。具有变换的Box-Attention能够聚焦于图像中的动态区域。0ods [20, 33,35]通过生成不同角度的锚点作为目标提议,然后进行分类和回归来改进了FasterR-CNN。由于基于锚点的方法会生成大量重叠的提议,这就需要为每个类别调整非极大值抑制,因此[10,44]的方法专注于在场景中预测对象中心的热图。虽然重叠的提议数量减少了,但预测热图会导致与锚点相比丢失先验信息,并且仍然依赖于非极大值抑制来过滤对象提议。[25,32]中也采用了自注意力的变压器进行3D物体检测。不幸的是,由于这些方法需要来自先前方法的初始对象预测,因此它们存在与传统检测器相同的问题。Misra等人最近在室内3D物体检测中引入了3DETR。该方法在编码器和解码器中都使用了自注意力,并通过点云上的最远点采样算法生成对象查询[28]。相反,BoxeR提供了一个用于室外场景的端到端3D物体检测的解决方案,它仅使用鸟瞰图特征来预测对象,而无需进行非极大值抑制、3D旋转IoU或复杂的初始化方法。03. Box-Attention0Box-attention是一种多头注意力机制,旨在关注图像特征图中感兴趣的框。为此,它在每个框内采样一个网格,并计算来自网格结构的采样特征的注意力权重,使该模块易于推广到2D或3D物体检测以及实例分割。在注意力计算的每个头中,通过从预定义的参考窗口预测几何变换(即平移、缩放和旋转)来生成感兴趣的框。Box-attention的设计允许网络关注动态的0图像特征的区域进行注意力计算,以合理的计算成本获得准确的结果。多头自注意力。我们首先简要总结一下Transformer中标准的多头自注意力[40]。通过计算与键向量(K)对应的值特征(V)的加权平均向量,l个注意力头的多头自注意力生成查询(Q)的输出特征:0MultiHead(Q, K, V) = Concat(h1, ..., hl) WO, (1)0其中h i = Attention(QW Qi, KW Ki, VWVi)。自注意力模块使用Q和K之间的点积特征计算每个头中的注意力图,其中计算随着矩阵大小的增加而呈二次增长。0Attention(Q, K, V) = softmax � QK �0√ dk0� V,(2)0其中dk是一个头中关键特征的维度。多头盒子注意力。盒子注意力采用了等式(1)中的多头注意力计算,具有多头的特征聚合和可学习的投影矩阵WO。在注意力计算阶段,给定查询向量q ∈ Rd的感兴趣的盒子bi,在第i个注意力头中,盒子注意力使用双线性插值从bi中提取大小为m ×m的网格特征图vi,如图2所示。使用双线性插值计算网格特征的精确值,减小了盒子注意力在盒子回归和像素分割中的量化误差。这与可变形注意力[47]不同,可变形注意力预测不规则点,导致捕捉对象信息时存在歧义。相反,我们的注意力机制继承了RoIAlign[11]的精确采样感兴趣区域(即边界框提议)内的网格结构的精神。=………47760为了获得准确的像素级信息,这在像素级准确的掩码中被发现是重要的。在第i个头注意力计算期间,我们将网格特征图v i ∈ R m × m × dh视为与查询q ∈ Rd对应的一组值特征。通过计算q和m ×m可学习的关键向量Ki之间的点积,生成m ×m的注意力分数,其中每个向量表示网格结构中的一个相对位置,然后进行softmax函数。因此,我们在查询之间共享相同的键集。通过将Ki视为采样网格的相对位置嵌入,盒子注意力可以有效地捕捉与该区域相关的空间信息。在实现中,可以通过一个简单的线性投影(Rd → Rm ×m)来高效地执行注意力图生成,该投影等效于与可学习的关键向量进行点积。最终的h i ∈ R dh是v i中m ×m向量的加权平均,使用注意力权重。0h i = 0m × m softmax � QK � i � � Vi, (3)0在注意力头中,Q ∈ R N × d,Ki ∈ R (m × m) × d,Vi∈ R N × (m × m) ×dh,其中dh是一个头中特征的维度。在[22]中已经证明,多尺度特征图在目标检测和实例分割中都能带来很大的改进。我们的盒子注意力可以简单地扩展到多尺度特征上。给定查询向量q的一组盒子{b1i,...,bti},每个盒子都属于t个多尺度特征图中的一个,我们从每个盒子中采样一个特征网格,得到vi ∈ R (t × m × m) × dh。通过与t × m ×m可学习的关键向量Ki ∈ R (t × m × m) ×d的计算方式相同,计算t × m ×m的注意力分数,其中每个向量表示t个网格结构中的一个相对位置,然后进行softmax归一化。h(1,...,l) ∈ Rdh特征现在是v(1,...,l)中t × m ×m向量的加权平均,如公式(3)所示。多头实例注意力。实例注意力是盒子注意力的简单扩展,没有任何额外的参数。我们的目标是从感兴趣的盒子中生成准确的实例分割掩码。在第i个注意力头中,它生成两个输出,h i ∈ Rdh用于目标检测和h mask i ∈ R m × m ×dh用于实例分割。在为h i加权平均t × m ×m特征的同时,我们将vi在第一维(包含多尺度特征的数量)上进行折叠,用于hmask i。为此,我们使用softmax函数对t × m ×m的注意力分数的第一维进行归一化,然后应用于vi。注意,我们在生成h(1,...,l)和h mask(1,...,l)时共享注意力模块的所有参数,包括可学习的投影矩阵WO。注意位置。注意位置是我们盒子注意力的一个关键组成部分,它指的是预测一个准确的0盒子注意力0前馈0加和归一化0加和归一化0类别0自注意力0实例注意力0加和归一化0加和归一化0前馈0加和归一化0边界框掩码0编码器解码器0目标提议0对象查询图像特征0S × S0预测0预测0图3.BoxeR结构。BoxeR-2D使用与对象提议相对应的编码器特征作为其对象查询。然后,使用实例注意力将对象查询解码为边界框和像素掩码。0在注意力计算中,盒子注意力模块学习将查询q在特征图上的参考窗口转换为一个关注区域,通过简单的几何变换(如平移和缩放)(参见图2)。具体而言,我们用bq=[x,y,wx,wy]表示查询q的参考窗口,其中x,y表示其中心位置,wx,wy表示窗口的宽度和高度(归一化坐标)。平移函数Ft接受q和bq作为输入,并执行平移操作,输出b'q如下:0Ft(bq, q) = b'q = [x + ∆x, y + ∆y, wx, wy],(4)0其中∆x和∆y是相对于参考窗口中心的偏移量。类似地,缩放函数Fs接受相同的输入并调整bq的大小。0Fs(bq, q) = b'q = [x, y, wx + ∆wx, wy + ∆wy],(5)0其中∆wx和∆wy是相对于参考窗口大小的偏移量。偏移参数(即∆x,∆y,∆wx,∆wy)通过对q进行线性投影来进行预测,以提高效率。在具有l个头和t个多尺度特征图的多头注意力设置中,我们使用l×t个变换函数,其中每个函数预测一个感兴趣的盒子bjiforith头和jth特征图。盒子注意力是一种转换的组合,它使我们的盒子注意力能够有效地关注必要的区域,具有较少的参数和较低的计算开销。它也可以看作是一个伪预测步骤,因为它为网络提供了在注意力模块内预测感兴趣区域的空间信息。04. BoxeR-2D:一个盒子Transformer0为了证明我们方法的有效性,我们提出了BoxeR,一个基于Transformer的网络,具有盒子-47770图4.BoxeR-2D的行为。我们通过回溯其预测来展示BoxeR-2D的行为。编码器中的盒子注意力能够从参考窗口(用紫色表示)中捕捉到多个长宽比的区域,而解码器中的实例注意力起到了优化对象提议的作用。BoxeR-2D预测的对象提议与最终预测高度重叠。0在其架构中引入了注意力机制;参见图3。BoxeR由一个编码器和一个解码器组成。编码器用于对从主干网络提取的多尺度特征图进行编码,解码器用于预测实例边界框和像素掩码。我们的方法遵循端到端目标检测框架(例如DETR[1])的思路,减少了对手工设计模块(如非极大值抑制和锚点-真值匹配)的需求。0BoxeR编码器。与Transformer类似,每个BoxeR编码器层包含盒子注意力和前馈子层,每个子层后面都跟随一个LayerNorm[15]和残差连接。根据[47]的方法,编码器接受从ResNet主干网络的C3到C5提取的多尺度图像特征图{xj}t−1j=1(t=4)作为输入。第t个特征图xt通过在最终的C5特征上应用一个3×3的卷积层(步长为2)来获得。BoxeR编码器将多尺度输入转换为多尺度的上下文表示{ej}tj=1。注意,多尺度的上下文表示{ej}tj=1与输入{ xj } t j =1具有相同的分辨率。0在编码器中,Q和V都是来自多尺度特征图的特征。我们为每个查询向量分配一个参考窗口,其中窗口位于查询空间位置的中心。滑动窗口的大小为{32^2,64^2,128^2,256^2}像素,分别对应于多尺度特征图{x1,x2,x3,x4}(t=4)(或每个多尺度特征图上的4^2个特征),如[22]所建议。由于盒子注意力的l个并行注意力头能够隐式地捕捉每个特征级别上的多个长宽比的框,因此我们发现不需要具有多个长宽比的参考窗口(见图4)。除了使用位置嵌入来增强每个查询,我们还添加了一个表示与每个查询对应的参考窗口大小的大小嵌入。大小嵌入仅在不同级别的查询向量之间有所不同。这两个嵌入都经过归一化并使用正弦编码进行编码。0由于两阶段网络在目标检测中表现出显著的改进[31,47],我们展示了BoxeR编码器能够生成高质量的物体提议作为解码器的输入。在物体提议阶段,将来自最后一个编码器层的特征输入到预测头中,以预测相对于其参考窗口的物体提议。我们不像[47]中那样将在物体提议阶段预测的边界框的正弦嵌入视为对象查询,而是将具有最高分类分数的编码器特征(经线性投影变换)作为解码器的输入特征。这为BoxeR解码器提供了更丰富的信息,因为编码器特征包含了空间和上下文信息。预测的边界框被视为解码器中相应提议的参考窗口。BoxeR解码器中的每个层中,交叉注意力子层是我们的多头实例注意力,而自注意力和前馈子层保持不变。来自编码器的物体提议的特征是BoxeR解码器的输入。在这个阶段,物体提议的参考窗口被细化以进行准确的预测。具体而言,我们用xs∈RN×d表示第(s+1)个解码器层的输入。第(s+1)个解码器层然后输出xs+1∈RN×d和xmasks+1∈RN×m×m×d。前馈子层对于这两个输出是相同的。输出特征xS∈RN×d然后被解码为边界框坐标和类别标签,如[47]中所述,而xmaskS∈RN×m×m×d用于生成实例掩码。我们遵循MaskR-CNN[11]中的训练策略,使用逐像素的sigmoid和二进制损失来预测实例掩码。由于注意模块中的where-to-attend模块基于参考窗口预测感兴趣区域,我们设计了检测头来预测边界框,作为相对于其参考窗口大小和位置的偏移量。参考窗口在预测阶段作为其物体提议特征的初始猜测。辅助解码器sisting of 118,000 training images and 5,000 validation im-ages. The instance is categorized based on its size: small,medium and large. We report the standard COCO metricsfor bounding boxes and masks. We use the train split fortraining and report ablations on the val split. We also reportresults on the test-dev set.We use the Adam optimizer [16] with α=0.0002, andweight decay set to 0.0001. The learning rate of our back-bone and transformation functions in the attention moduleis multiplied by a factor of 0.1. We find that dropout is notnecessary for BoxeR and makes the training slower. Thus,we remove it from the BoxeR architecture. We train our net-work for 50 epochs with a batch size of 32, the learning rateis decayed at the 40th epoch by a factor of 0.1. Other hyper-parameter settings follow Deformable DETR [47]. Duringthe training procedure, the same data augmentation is usedas in [1]. For a better comparison, we also report BoxeR-2Dtrained with a 3× schedule as in [43].Waymo Open. For 3D object detection, we use the WaymoOpen dataset [35], which contains 798 training sequencesand 202 validation sequences. Each sequence consists of200 frames where each frame captures the full 360 degreesaround a vehicle. We report the official 3D detection evalua-tion metrics including the standard 3D bounding box meanaverage precision (mAP) and mAP weighted by headingaccuracy (mAPH) in three categories: vehicle, pedestrian,and cyclist.47780在我们的情况下,BoxeR解码器中的所有预测头都共享其参数,因此对其他解码器层的编码损失也是有效的。我们发现,在匈牙利匹配器[17]中不需要添加掩码成本,这导致训练更加高效。更多细节请参阅补充文档。05. BoxeR-3D:端到端的3D物体检测0通过扩展我们的盒子注意力和BoxeR,我们实现了端到端的3D物体检测,使其能够处理点云输入。3D物体检测的盒子注意力。在where-to-attend模块中,除了平移和缩放之外,我们还添加了鸟瞰图平面上的旋转变换来模拟物体的角度。我们用bq=[x,y,wx,wy,θ]表示q的参考窗口∈[0,1]5,其中x,y表示其中心位置,wx,wy表示窗口的宽度和高度,θ是bq围绕其中心在归一化坐标上的旋转角度。最终的旋转函数Fr预测窗口旋转角度的偏移量。然后,它在从bq中采样的m×m网格坐标上应用旋转矩阵0F r(b q,q)= b' q = [x,y,w x,w y,θ +∆θ],(6)0其中∆θ是相对于参考窗口角度的偏移量。为了更好地捕捉不同角度的对象,我们为BoxeR编码器特征的每个查询向量分配了多个角度的参考窗口。在每个滑动位置上,基于2D对象检测设置,我们在具有三个角度的多尺度特征图上使用三个参考窗口的4 2特征。03 } .每个注意力头将被分配一个参考窗口的角度。通过这样做,我们的盒子注意力生成的特征对于旋转预测很强(见图5)。在对象提议阶段,对于每个编码器特征,我们针对其三个角度的参考窗口预测类别得分和边界框。训练过程中使用3D匈牙利匹配器。更多细节请参见补充文档。我们注意到,由于参考窗口的均匀分布,我们的系统中只嵌入了关于特定对象类别的最小先验知识,例如车辆的典型尺寸。这与之前的方法[33, 35, 36,44]不同,这些方法使用不同的锚点尺寸、热图或主干网络。我们的网络还消除了对手工制作的模块(如旋转非最大值抑制或3D IoU计算)的需求。06. 实验06.1. 数据集、任务和实现细节0图5.BoxeR-3D预测。左:BoxeR-3D在交叉点的预测(蓝色表示真实框;绿色和红色表示车辆和行人的预测)。右:对应于一个对象查询的Box-Attention行为的可视化。Box-Attention的多个注意力头捕捉到不同角度的框,其中最佳的注意区域与BoxeR-3D的预测很好地对齐。0FLOPs ↓ AP ↑ AP S ↑ AP M ↑ AP L ↑0Self-Attention [40] 187G 36.2 16.3 39.2 53.9 Deformable-Attention†[47] 173G 46.9 29.6 50.1 61.6 Dynamic-Attention [4] - 47.2 28.6 49.359.10Box-Attention(我们的)167G 48.7 31.6 52.3 63.2 w/o(F t和Fs)164G 46.4 29.6 49.8 59.70† 基于作者提供的github,比原始论文中更高。表1.Box-Attention与COCO验证集上端到端目标检测中的其他方法进行比较,使用在ImageNet上预训练的R-50骨干网络。Box-Attention在所有指标上都表现最好,且FLOPs最少。47790AP ↑ AP S ↑ AP M ↑ AP L ↑0Box-Attention 48.7 31.6 52.3 63.2 带提议细化 47.230.4 50.7 62.20(a)目标提议。0AP ↑ AP S ↑ AP M ↑ AP L ↑ AP m ↑ AP m S ↑ AP m M ↑ AP m L ↑0仅Box-Attention 48.7 31.6 52.3 63.2 - - - - 带实例-Attention 50.0 32.4 53.3 64.5 42.722.7 45.9 61.50(b)实例-Attention。0表2.BoxeR-2D在COCO验证集上的消融实验,使用在ImageNet上预训练的R-50骨干网络。(a)我们的参考窗口提高了目标提议的质量,并消除了[47]中的细化阶段的需求。(b)当同时训练2D目标检测和实例分割时,BoxeR-2D显示出强大的结果。0我们使用Adam优化器,权重衰减设置为0.0001。按照之前的工作[36],我们使用余弦学习率衰减,初始学习率设置为5e-4,进行5000个热身步骤,总共进行140K次迭代。注意力模块中的变换函数的学习率乘以0.1。我们使用从PointPillar[18]提取的BEV图像特征进行网络训练,网格大小为(0.32m,0.32m)。检测范围为x和y轴的[-75.0m,75.0m],z轴的[-4m,8m]。对于消融实验,我们只使用训练数据的20%进行网络训练。06.2. 消融实验0Box-Attention与其他方法的比较。我们首先将Box-Attention与Self-Attention[40]、Deformable-Attention[47]和Dynamic-Attention[4]进行比较。表1的结果表明,Box-Attention在所有指标上都有改进,小目标(APS)的提升最大(高达2个点)。此外,与其他注意力机制相比,Box-Attention所需的FLOPs更少。我们还报告了没有采用参考窗口的where-to-attend模块的Box-Attention结果,但没有变换函数(平移和缩放)。从表1可以看出,在所有类别中,where-to-attend模块的贡献超过2个点。这表明了学习关注相关区域时平移和缩放函数的重要性。BoxeR-2D消融实验。由于BoxeR-2D在其编码器中使用了多尺度参考窗口来预测目标提议,因此这些提议在解码器中作为参考窗口。在表2a中,我们通过在解码器层添加目标提议细化来评估我们的目标提议的质量。虽然在[47]中这种细化是有益的,但我们观察到AP下降了超过1个点。这表明,当目标提议由带有参考窗口的BoxeR-2D编码器生成时,BoxeR-2D解码器可以在不需要每个步骤进行细化的情况下预测目标。0车辆 行人 骑车者0AP ↑ APH ↑ AP ↑ APH ↑ AP ↑ APH ↑0F r + 多角度 70.4 70.0 64.7 53.5 50.2 48.90不带F r 69.4 68.7 63.3 52.8 47.4 46.1 不带多角度 70.0 69.3 64.7 53.748.2 47.00表3. BoxeR-3D在Waymo验证集(LEVEL1难度)上的消融实验。添加Fr可以提高检测3D边界框的性能。多角度参考窗口通过利用明确的角度先验进一步改善结果。0对每个步骤进行细化(见图4),我们的BoxeR-2D是灵活的,我们可以轻松地将实例-Attention插入其解码器中,以同时预测目标位置和覆盖。表2b显示了BoxeR-2D从多任务训练(目标检测和实例分割)中获益。请注意,这对于DETR[1]来说并非如此。在我们的设置中,多任务训练除了一个小的掩码预测头之外不需要更多的参数。训练也是稳定的,没有任何超参数的变化。BoxeR-3D消融实验。我们在3D目标检测中对BoxeR-3D设计的有效性进行了消融实验,结果见表3。表中显示了旋转变换在where-to-attend模块中的作用,在所有类别中都有超过1个点的提升,而计算量很小。具体而言,我们发现将旋转变换添加到解码器层的box-attention中最为有效。表3还显示了BoxeR-3D编码器层中多角度与单角度参考窗口的比较。使用多角度参考窗口可以改善车辆和骑车者类别的结果,而对于行人类别则保持稳定。这表明多头注意力中的每个头能够有效地捕捉不同旋转角度的信息。06.3. 与现有方法的比较02D目标检测。表4列出了使用ResNet-50和ResNet-101骨干的以前方法和BoxeR-2D的性能。第一部分包含基于卷积的目标检测器,而第二部分侧重于基于Transformer的方法。在所有骨干网络中,BoxeR-2D在所有指标上都取得了更好的结果。值得注意的是,与DeformableDETR相比,BoxeR-2D在检测小目标方面的性能更好,APS提高了2个百分点以上。此外,我们的网络能够在标准的3×调度设置下快速收敛。0图6. BoxeR-2D在COCO 2017test-dev数据集上生成的实例检测和分割的定性结果(更多定性结果请参见补充文档)。47800方法 骨干 纪元 端到端AP ↑ AP 50 ↑ AP 75 ↑ AP S ↑ AP M ↑ AP L ↑0Faster RCNN-FPN [31] R-101 36 - 36.2 59.1 39.0 18.2 39.0 48.2 ATSS [46] R-101 24 - 43.6 62.1 47.4 26.1 47.0 53.6 Sparse RCNN[37] X-101 36 - 46.9 66.3 51.2 28.6 49.2 58.7 VFNet [45] R-101 24 - 46.7 64.9 50.8 28.4 50.2 57.60Deformable DETR [47] R-50 50 - 46.9 66.4 50.8 27.7 49.7 59.9 Deformable DETR [47] R-101 50 - 48.7 68.1 52.9 29.1 51.5 62.0Dynamic DETR [4] R-50 50 - 47.2 65.9 51.1 28.6 49.3 59.1 TSP-RCNN [38] R-101 96 - 46.6 66.2 51.3 28.4 49.0 58.50BoxeR-2D R-50 50 - 50.0 67.9 54.7 30.9 52.8 62.6 BoxeR-2D(3×调度)R-50 36 - 49.9 68.0 54.4 30.9 52.6 62.5BoxeR-2D(3×调度)R-101 36 - 51.1 68.5 55.8 31.5 54.1 64.60表4. 在COCO 2017test-dev数据集上,使用不同骨干网络的BoxeR-2D在目标检测方面的比较。BoxeR-2D在包括基于Transformer的目标检测器在内的其他方法中表现更好,且训练速度更快。0每个时期的端到端AP ↑ AP S ↑ AP M ↑ AP L ↑ AP m ↑ AP m S ↑ AP m M ↑ AP m L ↑0Mask R-CNN [11] 36 - 43.1 25.1 46.0 54.3 38.8 21.8 41.4 50.5 QueryInst [9] 36 - 48.1 - - - 42.8 24.6 45.0 55.50SOLQ [6] 50 - 48.7 28.6 51.7 63.1 40.9 22.5 43.8 54.60BoxeR-2D(3×调度)36 - 51.1 31.5 54.1 64.6 43.8 25.0 46.5 57.90表5. 在COCO 2017 test-dev数据集上,使用R-101骨干的BoxeR-2D在实例分割方面表现更好,既能检测,又能进行实例分割。0值得指出的是,使用3×调度训练的BoxeR-2D达到了有竞争力的结果。2D实例分割。我们将BoxeR-2D与其他实例分割方法进行比较。在表5中,我们的网络在训练中使用了3×调度。与QueryInst[9]相比,BoxeR-2D在边界框和实例掩膜的所有指标上都有所提升。此外,我们的方法在所有类别上比基于Transformer的方法SOLQ[6]提高了约2个百分点。BoxeR-2D的预测可见于图6。3D目标检测。表6显示了BoxeR-3D和其他3D目标检测器以及我们基线的Deformable DETR[47]的性能。可以看出,BoxeR-3D在所有指标上都持续改进了基线的性能,特别是对于行人等小物体。我们的网络在车辆类别中达到了与高度优化的方法相媲美的结果。然而,在行人类别中,BoxeR-3D与以前的方法之间仍然存在差距。值得注意的是,与其他方法相比,我们只使用了每个类别的最少先验知识。07. 结论和限制0本文提出了一种基于Transformer的端到端目标检测和实例分割器BoxeR。网络的核心是盒子注意力,它通过学习从初始参考窗口到图像区域的变换来进行注意力。由于其灵活性,BoxeR可以同时进行2D和3D端到端目标检测以及实例分割,而无需手工设计的模块。在COCO和WaymoOpen数据集上的实验证实了其有效性。0端到端的车辆行人0AP ↑ APH ↑ AP ↑ APH ↑0PointPillar [18] - 55.2 54.7 60.0 49.1 PV-RCNN [33] - 65.4 64.8 - -RSN S 1f [36] - 63.0 62.6 65.4 60.70Deformable
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功