RoI变换器用于航空图像中的定向目标检测

61 浏览量更新于2023-10-17 收藏 12.9MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Jian Ding, Nan Xue, Yang Long, Gui-Song Xia∗, Qikai LuLIESMARS-CAPTAIN, Wuhan University, Wuhan, 430079, China{jian.ding, xuenan, longyang, guisong.xia, qikai lu}@whu.edu.cn28490学习RoI变换器用于航空图像中的定向目标检测0摘要0航空图像中的目标检测是计算机视觉中一项活跃而具有挑战性的任务，因为它涉及到鸟瞰视角、高度复杂的背景和对象的变体外观。特别是在检测航空图像中密集堆积的对象时，依赖于水平提议的常规目标检测方法通常会导致区域兴趣（RoIs）与对象之间的不匹配。这导致最终的对象分类置信度与定位准确性之间的常见不对齐。在本文中，我们提出了一种RoI变换器来解决这些问题。RoI变换器的核心思想是在RoIs上应用空间变换，并在有方向边界框（OBB）注释的监督下学习变换参数。RoI变换器具有轻量级且可以轻松嵌入到用于定向目标检测的检测器中。将RoI变换器简单应用于Light-HeadRCNN在两个常见且具有挑战性的航空数据集（即DOTA和HRSC2016）上取得了最先进的性能，对检测速度几乎没有影响。当有方向边界框注释可用时，我们的RoI变换器超越了可变形的位置敏感RoI池化。广泛的实验证实了我们的RoI变换器的灵活性和有效性。01. 引言0航空图像中的目标检测旨在定位地面上的感兴趣目标（例如车辆、飞机）并识别它们的类别。随着越来越多的航空图像可用，航空图像中的目标检测已成为计算机视觉中的一个特定但活跃的主题[3, 29, 36,6]。然而，与通常从水平角度拍摄的自然图像不同，航空图像通常是从鸟瞰视角拍摄的，这意味着航空图像中的对象始终是任意方向的。此外，高度复杂的背景和对象的变体外观进一步增加了航空图像中目标检测的难度。这些问题已经0� 通讯作者：guisong.xia@whu.edu.cn。0图1.在具有许多密集对象的图像中，水平（顶部）与旋转的RoI变形（底部）的示意图。一个水平的RoI通常包含几个实例，这给后续的分类和定位任务带来了歧义。相比之下，旋转的RoI变形通常为实例提供更准确的区域，并能更好地提取用于目标检测的判别特征。0通常通过定向和密集堆积的目标检测任务来解决[37, 31,12]，这是一个新的但有着坚实基础并在过去十年中引起了广泛关注的问题[27, 30, 26, 18,1]。最近在航空图像中的目标检测方面取得的许多进展都受益于R-CNN框架[9, 8, 32, 2, 29, 38, 6, 12,16]。这些方法通过使用水平边界框作为区域兴趣（RoIs），然后依赖于区域特征进行类别识别[2, 29,6]，报告了有希望的检测性能。然而，正如[37,28]所观察到的，这些水平RoIs（HROIs）通常导致边界框和对象之间的不对齐。例如，如图1所示，由于航空图像中对象的定向和密集分布特性，一个HROIs通常包含几个实例。因此，训练一个用于提取对象特征和识别对象准确位置的检测器通常变得困难。为了获得更准确的对象位置，已经采用了定向边界框[37, 23, 28]。为了实现28500在RRoI生成阶段需要高召回率，需要大量具有不同角度、尺度和长宽比的锚点。这些方法已经在检测稀疏分布的物体上展示了很大的潜力。然而，由于航空图像中物体的高度多样化的方向，使用有限方向的RRoI往往难以获得准确的RRoI与航空图像中所有物体配对。因此，设计尽可能多方向和尺度的RRoI通常会导致在区域分类和定位阶段的计算复杂性增加。由于常规网络中用于目标检测的常规操作对旋转和尺度变化的泛化能力有限，因此在RoI和相应的特征设计中需要一些方向和尺度不变性。为此，提出了空间变换器[14]和可变形卷积和RoI池化[5]来建模几何变化。然而，它们主要是针对一般的几何变形而设计的，并没有使用有向边界框注释。在航空图像领域，只存在刚性变形，并且有向边界框注释是可用的。因此，可以自然地认为提取旋转不变的区域特征并消除区域特征与物体之间的不对齐对于密集堆积的物体尤为重要。在本文中，我们提出了一个名为RoITransformer的模块，旨在通过监督RRoI学习和基于位置敏感对齐的特征提取实现有向和密集堆积物体的检测，通过一个两阶段的框架[9,8,32,4,10]。它由两部分组成。第一部分是RRoILearner，它学习从HRoI到RRoI的转换。第二部分是旋转位置敏感的RoIAlign，它从RRoI中提取旋转不变的特征，用于后续的物体分类和位置回归。为了进一步提高效率，我们采用了一个轻量级的头部结构用于所有的RoI-wise操作。我们在两个公共数据集上对所提出的RoITransformer进行了广泛的测试和评估，即DOTA[37]和HRSC2016[28]，并将其与最先进的方法进行了比较，如可变形PSRoI池化[5]。总之，我们的贡献有三个方面：0•我们提出了一个受监督的旋转RoI学习器，它是一个可学习的模块，可以将水平RoI转换为RRoI。这种设计不仅可以有效减轻RoI和物体之间的不对齐问题，还可以避免为有向物体检测设计大量的锚点。0•我们设计了一个旋转位置敏感的RoI对齐模块，用于空间不变特征提取，可以有效提升物体分类和位置回归。该模块是一个关键设计。0在使用轻头部的RoI-wise操作时，可以保证效率和低复杂度。0•我们在几个公共大规模数据集上实现了最先进的性能，用于航空图像中有向物体检测。实验证明，所提出的RoITransformer可以轻松嵌入不同的主干网络，显著提高检测性能。02. 相关工作02.1. 有向边界框回归0检测有向物体是一般水平物体检测的扩展。该任务是定位和分类具有方向信息的物体，主要使用基于区域提议的方法来解决。基于HRoI的方法[15,37]通常使用普通的RoIWarping从HRoI中提取特征，并回归相对于真值的位置偏移。基于HRoI的方法存在区域特征与实例之间的不对齐问题。基于RRoI的方法[30,26]通常使用旋转的RoIWarping从RRoI中提取特征，并回归相对于RRoI的位置偏移，可以避免某种程度上的不对齐问题。然而，基于RRoI的方法涉及生成大量旋转的提议。[26]采用了[27]中的方法进行旋转提议。SRBBS[27]难以嵌入神经网络中，会额外消耗旋转提议的时间。[30,43,41,1]在RPN[32]中使用了旋转锚点的设计。然而，由于锚点数量的大幅增加（num scales × num aspect ratios × numangles），该设计仍然耗时。例如，在一个位置上有3×5×6=90个锚点。大量的锚点增加了网络中参数的计算量，同时也降低了提议和真值之间的匹配效率。此外，直接匹配有向边界框（OBBs）比匹配水平边界框（HBBs）更困难，因为存在大量冗余的旋转锚点。因此，在旋转锚点的设计中，[30,24]都采用了一种放松的匹配策略。有一些锚点与任何真值的IoU都不超过0.5，但它们被分配为真正的正样本，这仍然会导致不对齐问题。在这项工作中，我们仍然使用水平锚点。不同的是，在生成HRoI时，我们通过一个轻量级的全连接层将其转换为RRoI。基于这个策略，不需要增加锚点的数量。并且可以获得大量精确的RRoI，这将提升匹配过程。因此，我们直接使用OBB之间的IoU作为匹配准则，可以有效避免不对齐问题。wwrh(1)285102.2. 空间不变特征提取0CNN具有平移不变性的特性，但在旋转和尺度变化上表现较差。对于图像特征提取，提出了空间变换器[14]和可变形卷积[5]来建模任意形变。它们是从目标任务中学习而来，无需额外的监督。对于区域特征提取，提出了可变形RoI池化[5]，通过偏移学习RoI池化的采样网格，它可以更好地建模实例级别的变形，相比于常规的RoI warping[8, 10,4]。STN和可变形模块广泛应用于场景文本和航空图像的识别领域[40, 33, 19, 34,39]。至于航空图像中的目标检测，存在更多的旋转和尺度变化，但几乎没有非刚性变形。因此，我们的RoITransformer只建模刚性空间变换，以(d x, d y, d w, d h, dθ)的格式进行学习。然而，与可变形RoI池化不同，我们的RoITransformer通过使用地面真值的监督来学习偏移量。而且，RRoIs还可以用于进一步的旋转边界框回归，这也有助于目标定位性能。02.3. 轻量级RoI-wise操作0RoI-wise操作是两阶段算法效率的瓶颈，因为计算不是共享的。轻量级R-CNN[17]提出了使用更大的可分离卷积来获得细特征的解决方案。它还采用PSRoI池化[4]进一步降低特征图的维度。在池化特征上应用一个维度为10的全连接层，可以显著提高两阶段算法的速度。在航空图像中，存在实例数量较多的场景。例如，单个1024×1024图像上可能有超过800个实例。我们的方法类似于可变形RoI池化[5]，其中RoI-wise操作进行两次。轻量级设计也用于保证效率。03. RoI Transformer0在本节中，我们介绍了我们提出的RoITransformer的细节，它包含两个部分，RRoI学习器和RRoIWarping。RRoI学习器是一个PS RoIAlign，后面跟着一个维度为5的全连接层，用于回归相对于HRoIs的旋转地面真值（RGTs）的偏移量。RRoIWarping将旋转的区域特征进行变换，以保持旋转不变性。这两个层都可以进行端到端的可微训练。架构如图2所示。03.1. RRoI学习器0图2. RoITransformer的架构。对于每个HRoI，它会经过一个RRoI学习器。我们网络中的RRoI学习器是一个PS RoIAlign，后面跟着一个维度为5的全连接层，用于回归相对于HRoI的旋转地面真值（RGTs）的偏移量。Box解码器位于RRoI学习器的末尾，它以HRoI和偏移量作为输入，并输出解码后的RRoIs。然后，特征图和RRoI被传递给RRoIwarping进行几何鲁棒特征提取。RRoI学习器和RRoIwarping的组合形成了RoI Transformer。RoITransformer中的几何鲁棒池化特征随后用于分类和RRoI回归。0我们已经得到了用{H i}表示的n个HRoIs，其格式为(x, y, w,h)，对于预测的2D位置、宽度和高度的HRoIs，相应的特征图可以表示为{Fi}。由于每个HRoI在理想情况下都是一个RRoI的外接矩形，我们试图通过使用全连接层从每个特征图F i推断出RRoIs的几何形状。我们首先给出相对于一般RRoIs的偏移量的回归目标，如下所示：0t*x = 1/wr * (x* - xr) * cos(θr) + (y* - yr) *0t*y = 1/hr * (y* - yr) * cos(θr) - (x* - xr) *sin(θr),0hr,0t*θ = 1/(2π) * (θ* - θr) mod2π,0其中(xr, yr, wr, hr, θr)是表示RRoI位置、宽度、高度和方向的堆叠向量，(x*, y*, w*, h*,θ*)是定向边界框（OBB）的真值参数。mod用于调整角度偏移目标t*θ在[0,2π)范围内以方便计算。实际上，相对于HRoI的回归偏移目标是公式（1）的特殊情况，如果θ* = 3π02.通用的相对偏移如图3所示。为了推导公式（1），需要将OBB的坐标从全局坐标系转换为局部坐标系（例如x1O1y1）。数学上，全连接层通过以下方式为每个特征图Fi输出一个向量(t x, t y, t w, t h, t θ)0t = G(F; Θ), (2)0其中G表示全连接层，Θ是G的权重参数，F是每个HRoI的特征图。Yc(i, j) =�(x,y)∈bin(i,j)Di,j,c(Tθ(x, y))/n,(3)where the Di,j,c is a feature map out of the K × K × Cfeature maps. The channel mapping from the input to out-put is the same as the original Position Sensitive RoI pool-ing [4]. The n × n is the number of sampling locations inthe bin. The bin(i,j) denote the coordinates set {i wrk +(sx+0.5) wrk×n; sx = 0, 1, ...n−1}×{j hrk +(sy +0.5) hrk×n; sy =0, 1, ...n − 1}. And for each (x, y) ∈ bin(i, j), it is con-verted to (x′, y′) by Tθ, where�x′y′�=�cosθ−sinθsinθcosθ� �x − wr/2y − hr/2�+�xryr�(4)rgt(5)28520图3.解释相对偏移的示例。有三个坐标系。XOY是绑定在图像上的全局坐标系。x1O1y1和x2O2y2分别是绑定在两个RRoIs（蓝色矩形）上的局部坐标系。 (∆x,∆y)表示RRoI中心与RGT之间的偏移量。黄色矩形表示旋转的真实值（RGT）。右侧的两个矩形是通过平移和旋转获得的，同时保持相对位置不变。如果我们在坐标系XOY中观察， (∆x1, ∆y1)不等于(∆x2, ∆y2)。如果我们在x1O1y1中观察 (∆x1,∆y1)和在x2O2y2中观察 (∆x2,∆y2)，它们是相同的。α1和α2分别表示两个RRoIs的角度。0图4. 旋转RoIWarping。变形特征的形状是一个水平矩形（这里以3×3为例）。RoI Warping的采样网格由RRoI(xr, yr, w, h,θ)确定。我们使用图像而不是特征图进行更好的解释。经过RRoIWarping后，提取的特征具有几何鲁棒性。（所有车辆的方向相同）。0在训练过程中，我们需要匹配输入的HRoIs和定向边界框（OBBs）的真值。为了提高效率，匹配过程是在原始真值上的轴对齐边界框和HRoI之间进行的。一旦HRoI与OBB的真值匹配上，我们直接根据公式（1）的定义设置t*。我们使用平滑L1损失[9]函数进行回归损失。对于每次前向传递中的预测t，我们将其从偏移量解码为RRoI的参数。也就是说，我们提出的RRoI学习器可以从HRoI特征图F中学习RRoI的参数。03.2. RRoI Warping0一旦我们有了RRoI的参数，我们可以通过RRoIWarping提取旋转不变的定向目标检测深度特征。在这里，我们提出了模块0作为具体的RRoIWarping，我们采用了旋转位置敏感（RPS）RoIAlign，因为我们的基线（更多细节见第2.3节）是Light-Head R-CNN [17]。给定形状为(H, W, K × K ×C)的输入特征图D和RRoI(xr, yr, wr, hr, θr)，其中(xr,yr)表示RRoI的中心，(wr,hr)表示RRoI的宽度和高度，θr给出RRoI的方向。RPS RoIAlign将旋转的RoI分成K×K个bin，并输出形状为(K, K,C)的特征图Y。对于输出通道c（0 ≤ c < C）的索引为(i,j)（0 ≤ i, j < K）的bin，我们有0通常，公式（3）是通过双线性插值来实现的。03.3. 用于有向目标检测的RoI变换器0RRoI学习器和RRoI变换的组合形成了RoI变换器（RT）。它可以用来替代正常的RoI变换操作。从RT中汇集的特征是旋转不变的。此外，RRoI为后续的回归提供了更好的初始化，因为匹配的RRoI比匹配的HRoI更接近RGT。如前所述，RRoI是一个包含5个元素（x r，y r，w r，h r，θr）的元组。为了消除歧义，我们使用h表示RRoI的短边，w表示长边。选择垂直于h并落在[0，π]之间的方向作为RRoI的最终方向。通过这些操作，消除了歧义。此外，还需要进行这些操作以减少旋转变化。0多边形之间的IoU在RRoI和RGT之间的匹配中，我们仍然使用IoU作为标准。如果RRoI与任何RGT的IoU超过0.5的阈值，则被视为真正的正样本（TP）。对于RRoI和RGT之间的IoU计算，我们使用以下公式（5）。它与水平边界框之间的IoU计算具有类似的形式。唯一的区别是RRoI的IoU计算是在多边形内执行的。B r 表示RRoI的边界框。B gt表示真实值的边界框。area是计算任意多边形面积的函数。0IoU = 面积 ( B r ∩ B gt )1http://captain.whu.edu.cn/DOTAweb/evaluation.html28530RRoI变换后，得到了旋转不变的特征。然后我们添加了一个2048维的全连接层（fc），后面跟着两个兄弟fc，用于最终的分类和回归（见图2）。分类目标与之前的工作相同。然而，回归目标是不同的。为了保持一致性，偏移量也需要是旋转不变的。为了实现这个目标，我们使用相对偏移量，如图3所示。主要思想是使用与RRoI绑定的坐标系而不是图像来计算偏移量。公式（1）是相对偏移量的推导公式。04. 实验与分析04.1. 数据集0在实验中，我们选择了两个数据集，即DOTA[37]和HRSC2016 [28]，用于航拍图像中的有向目标检测。0• DOTA [ 37 ].这是最大的航拍图像目标检测数据集，带有有向边界框注释。它包含2806个大尺寸图像。其中有15个类别，包括棒球场（BD），田径场（GTF），小型车辆（SV），大型车辆（LV），网球场（TC），篮球场（BC），储罐（ST），足球场（SBF），环形交叉路口（RA），游泳池（SP）和直升机（HC）。完全注释的DOTA图像包含188,282个实例。该数据集中的实例在尺度、方向和长宽比方面差异很大。如[37]所示，为常规水平目标检测设计的算法在该数据集上的性能一般。与PASCAL VOC [7]和COCO[21]一样，DOTA提供了评估服务器1。0我们同时使用训练集和验证集进行训练，使用测试集进行测试。我们进行了有限的数据增强。具体来说，我们将图像缩放到两个尺度（1.0和0.4）进行训练，（1.0和0.5）进行测试。图像缩放后，我们从原始图像中以步长824裁剪一系列1024×1024的补丁。对于样本数量较少的类别，我们随机进行4个角度（0，90，180，270）的旋转增强，以简单地避免不同类别之间的不平衡影响。通过所有这些过程，我们获得了37373个补丁，远少于官方基准实现（150,342个补丁）[37]。对于测试实验，也使用1024×1024的补丁。除了图像采样的步长设置为512之外，没有使用其他技巧。0• HRSC2016 [28]. HRSC2016[28]是一个用于船只在航空图像中检测的具有挑战性的数据集。0图像是从GoogleEarth收集的。它包含1061张图像和20多个类别的各种外观的船只。图像尺寸范围从300×300到1500×900。训练集、验证集和测试集分别包括436张图像、181张图像和444张图像。我们只采用水平翻转进行数据增强。图像被调整为(512,800)，其中512表示短边的长度，800表示图像的最大长度。04.2. 实现细节0基准框架。在实验中，我们构建了受Light-Head R-CNN[17]启发的基准网络，使用ResNet101[11]作为骨干网络。我们的最终检测性能基于FPN[22]网络，而在消融实验中为了简单起见没有使用它。0• Light-Head R-CNN OBB:我们修改了第二阶段全连接层的回归，使其能够预测OBB，类似于DOTA [37]中的工作。唯一的区别是我们用(x, y,w, h, θ)代替了((xi, yi), i = 1, 2, 3,4)来表示OBB。由于有额外的参数θ，我们不像原始的Light-Head R-CNN[17]那样将回归损失加倍。我们设置的大型可分离卷积的超参数是k = 15，Cmid = 256，Cout =490。在训练阶段，不使用OHEM[35]进行采样。对于RPN，我们使用了15个锚点，与原始的Light-Head R-CNN[17]相同。RPN的批量大小设置为512。最后，RPN在NMS之前生成6000个RoIs，在使用NMS之后剩下800个RoIs。然后从中采样512个RoIs进行R-CNN的训练。学习率在前14个epoch设置为0.0005，然后除以10进行最后四个epoch的训练。在测试阶段，我们使用NMS之前的6000个RoIs和NMS处理后的1000个RoIs。0• Light-Head R-CNN OBB with FPN: Light-HeadR-CNN OBB with FPN使用FPN[22]作为骨干网络。由于没有公开可用的基于FPN的Light-HeadR-CNN的源代码，我们的实现细节可能不同。我们只是在每个级别的特征P2，P3，P4，P5上添加了大型可分离卷积。我们设置的大型可分离卷积的超参数是k =15，Cmid = 64，Cout =490。RPN的批量大小设置为512。在NMS之前，RPN产生6000个RoIs，NMS处理后剩下600个RoIs。然后从中采样512个RoIs进行R-CNN的训练。学习率在前五个epoch设置为0.005，最后两个epoch除以10。mAP58.363.1763.3966.2567.74mAP55.769.675.775.779.684.386.228540图5. 在存在许多密集实例的场景中的检测可视化。我们选择得分大于0.1的预测边界框，并应用阈值为0.1的NMS进行重复移除。0表1. 消融研究结果。我们使用Light-Head R-CNN OBB检测器作为基准。最左列表示RoITransformer的可选设置。在右侧的四个实验中，我们探索了RoI Transformer的适当设置。0Light RRoI Learner? � � � 上下文区域扩大? � � RRoIS上的NMS? � � �0表2. 与HRSC2016上最先进方法的比较。0方法CP [26] BL2 [26] RC1 [26] RC2 [26] R2PN [43] RRD [20] RoI Trans.04.3. 与可变形PS RoI池的比较0为了验证性能不是来自额外的计算，我们将我们的方法与可变形PSRoI池（DPSRP）进行了比较，因为它们都是一种改进的RoIWarping操作，用于建模几何变化。在实验中，我们使用Light-Head R-CNN OBB作为基准。分别使用可变形PS RoI池和RoITransformer替换Light-Head R-CNN中的PS RoI Align。0复杂度。RoITransformer和可变形RoI池化都有一个轻量级的定位网络，它是一个标准的池化特征，后面跟着一个全连接层。在我们的RoITransformer中，只学习了5个参数（tx，ty，tw，th，tθ）。可变形PSRoI池化为每个bin学习了偏移量，参数数量为7×7×2。因此，我们的模块比可变形PSRoI池化设计更轻量级。如表4所示，我们的RoITransformer模型几乎使用相同的内存（273MB相比于273.2MB），并且在推理阶段运行速度更快（每张图像0.17秒相比于0.206秒）。然而，在训练时间上，RoI Transformer比可变形PSRoI池化运行更慢（0.475秒相比于0.445秒），因为在训练中需要额外的匹配过程来匹配RRoIs和RGTs。0检测准确性。比较结果如表4所示。可变形PSRoI池化的性能优于Light-Head R-CNNOBB基准5.6个点。而0正如[5]所指出的，在Pascal VOC [7]上，R-FCN[4]只有1.4个点的改进。这表明几何建模对于航空图像中的目标检测更为重要。然而，可变形PS RoI池化比我们的RoITransformer低3.85个点。我们认为有两个原因：1）我们的RoITransformer可以更好地模拟航空图像中的几何变化。2）可变形PSRoI池化的回归目标仍然相对于HRoI，而不是使用偏移量的边界。我们的回归目标相对于RRoI，为回归提供了更好的初始化。我们在图5中可视化了一些检测密集实例的结果。结果显示，我们提出的方法可以精确地定位场景中密集实例。而Light-Head R-CNNOBB基准和可变形RoI池化在实例的分类和定位上表现较差。具体来说，卡车的头部被错误地分类为小型车辆（蓝色边界框），如图5所示。然而，我们提出的RoITransformer的误分类实例数量最少。04.4. 消融研究0我们在DOTA上进行了一系列消融实验，以找到我们提出的RoITransformer的适当设置。我们使用Light-Head R-CNNOBB作为基准，然后逐渐改变设置。当应用简单设置的RoITransformer时，mAP提高了4.87个点。我们将在接下来讨论其他设置。methodbackboneW/FPNtest scalesPlaneBDBridgeGTFSVLVShipTCBCSTSBFRAHarborSPHCmAPFR-O [37]resnet101179.4277.1317.764.0535.338.0237.1689.4169.6459.2850.352.9147.8947.446.354.13RRPN [30]resnet101180.9465.7535.3467.4459.9250.9155.8190.6766.9272.3955.0652.2355.1453.3548.2261.01R2CNN [15]resnet101188.5271.231.6659.351.8556.1957.2590.8172.8467.3856.6952.8453.0851.9453.5860.67R-DFPN [41]resnet101✓180.9265.8233.7758.9455.7750.9454.7890.3366.3468.6648.7351.7655.151.3235.8857.94Yang et al. [42]resnet101✓181.2571.4136.5367.4461.1650.9156.690.6768.0972.3955.0655.662.4453.3551.4762.29ICN [1]dresnet101✓481.3674.347.770.3264.8967.8269.9890.7679.0678.253.6462.967.0264.1750.2368.16Baselineresnet101281.0676.8127.2269.7538.9939.0738.389.9775.5365.7463.4859.3748.1156.8644.4658.31DPSRPresnet101281.1877.4235.4870.4156.7450.4253.5689.9779.6876.4861.9959.9453.3464.0447.7663.89RoITransformerresnet101288.5377.9137.6374.0866.5362.9766.5790.579.4676.7559.0456.7362.5461.2955.5667.74Baselineresnet101✓288.0276.9936.772.5470.1561.7975.7790.1473.8185.0456.5762.6353.359.5441.9166.95RoITransformerresnet101✓288.6478.5243.4475.9268.8173.6883.5990.7477.2781.4658.3953.5462.8358.9347.6769.56LR-O58.30.403 s0.141s273MBDPSRP63.890.445s0.206s273.2MBRT67.740.475s0.17s273MB28550表3. 在DOTA [37]上与最先进的检测器进行比较。每个类别的简称可以在第4.1节中找到。ICN[1]中的dresnet101表示可变形卷积resnet101。FR-O表示Faster R-CNN OBB检测器，这是DOTA[37]提供的官方基准。RRPN表示旋转区域提议网络，它使用了旋转锚的设计。R2CNN表示旋转区域CNN，它是一种基于HRoI的方法，不使用RRoI扭曲操作。RDFPN表示旋转密集特征金字塔网络。它还使用了旋转锚的设计，并使用了FPN的变体。Yang等人的工作[42]是R-DFPN的扩展。0图6. RoI Transformer在DOTA中的结果可视化。0图7. 失败案例。 (a) 将船只的长尾迹误检为港口。 (b)错误地将港口误检为飞机。0当使用简单设置的RoITransformer时，mAP提高了4.87个点。我们将在接下来讨论其他设置。0表4. 我们的RoI Transformer与可变形PS RoI池化和Light-HeadR-CNNOBB在准确性、速度和内存方面的比较。所有速度都是在单个TITANX（Pascal）上测试的，图像大小为1024×1024。后处理时间（即NMS）未包括在内。LR-O、DPSRP和RT分别表示Light-HeadR0方法 mAP 训练速度测试速度参数2https://github.com/DetectionTeamUCAS/RRPN_Faster-RCNN_Tensorflowstate-of-the-art without FPN (61.01) by 6.71 points. Andthere is only 0.42 point lower than the previous state-of-the-art with FPN (68.16). When we add RoI Transformeron the stronger baseline of Light-Head OBB FPN, it stillhas improvement by 2.6 points in mAP reaching the peakat 69.56. This indicates that the proposed RoI Transformeris valid for different backbones. Besides, there is a signiﬁ-cant improvement in densely packed small instances. (e.g.,the small vehicles, large vehicles, and ships). For exam-ple, the detection performance for the ship category gainsan improvement of 13.61 points compared to the previousbest result (69.98) achieved by ICN [1]. We give some qual-itative results of RoI Transformer on DOTA in Fig. 6. Thefailure cases are given in Fig. 7. From the failure cases, wecan see the model do not learn the context, which is whatwe do not consider yet.28560图8. 三种特征提取区域的比较。(a) 水平区域。(b)RRoI变形后的矫正区域。(c) RRoI变形后适当上下文的矫正区域。0轻量级RRoI学习器。为了保证效率，我们直接在从HRoI变形的池化特征上应用一个输出维度为5的全连接层。作为对比，我们还尝试了更多的全连接层用于RRoI学习器，如表1中的第一列和第二列所示。当我们为RRoI学习器添加一个输出维度为2048的额外全连接层时，mAP仅下降了0.22个点。原因可能是具有更高维度的额外全连接层需要更长的收敛时间。0上下文RRoI。正如[13,30]所指出的，适当扩大RoI将提高性能。水平RoI包含大量背景，而精确的RRoI几乎不包含冗余背景，如图8所解释的那样。完全放弃上下文信息将使得即使对于人类来说也很难对实例进行分类和定位。因此，有必要以适当的程度扩大特征的区域。在这里，我们将RRoI的长边扩大1.2倍，短边扩大1.4倍。RRoI的扩大使得AP提高了2.86个点，如表1所示。0RRoIs上的NMS。由于得到的RoIs是旋转的，我们可以灵活地决定是否对从HRoIs转换而来的RRoIs进行另一次NMS。这个比较显示在表1的最后两列中。我们发现，如果我们去除NMS，mAP会提高1.5个点。这是合理的，因为没有额外NMS的RoIs更多，这可以增加召回率。04.5. 与最先进方法的比较0我们在两个数据集DOTA [37]和HRSC2016[28]上与最先进的算法进行了性能比较。设置如4.2节所述，我们只是用我们提出的RoI Transformer替换了PositionSensitive RoI Align。我们的基准和RoITransformer的结果是在训练阶段没有使用ohem[35]获得的。0DOTA上的结果。请注意，RRPN [30]和R2CNN[15]最初用于文本场景检测。这些结果是第三方重新实现的DOTA版本。如表3所示，没有FPN的RoITransformer在DOTA上达到了67.74的mAP，比之前的最先进方法（61.01）提高了6.71个点。与使用FPN的先进方法（68.16）相比，只有0.42个点的差距。当我们在Light-Head OBB FPN这个更强的基准上添加RoITransformer时，mAP仍然提高了2.6个点，达到了69.56的峰值。这表明提出的RoITransformer对不同的骨干网络有效。此外，对于密集堆积的小实例（例如小型车辆、大型车辆和船只），性能有显著提升。例如，与ICN [1]达到的69.98的先前最佳结果相比，船只类别的检测性能提高了13.61个点。我们在图6中给出了RoITransformer在DOTA上的一些定性结果。图7中给出了一些失败案例。从失败案例中，我们可以看到模型没有学习到上下文信息，这是我们尚未考虑的。0HRSC2016上的结果。HRSC2016包含许多具有任意方向的细长船只实例。我们使用4个尺度{64^2, 128^2, 256^2,512^2}和5个长宽比{1/3, 1/2, 1, 2,3}，得到了20个RPN初始化的锚点。这是因为HRSC中存在更多的长宽比变化，但相对较少的尺度变化。其他设置与4.2节中的设置相同。我们在没有FPN的情况下进行实验，仍然达到了最佳mAP性能。具体而言，基于我们提出的方法，mAP可以达到86.16，比RRD[20]高出1.86。RRD采用SSD[25]作为用于定向目标检测的架构。请注意，它利用多层进行特征提取，并使用13个不同长宽比的默认框{1, 2, 3, 5, 7,9, 15, 1/2, 1/3, 1/5, 1/7, 1/9,1/15}。而我们提出的框架仅使用具有五个长宽比的最终输出特征。05. 结论0在本文中，我们提出了一个名为RoITransformer的模块，用于建模几何变换，可以有效避免区域特征和目标之间的错位问题。这种设计在具有可忽略计算成本增加的情况下，显著改善了挑战性的DOTA和HRSC上的定向目标检测。此外，与可变形RoI池化的全面比较验证了我们的模型在存在定向边界框注释时更加合理。0致谢0这项工作得到了NSFC合同号61771350和61842102的支持。Nan Xue得到了中国国家留

下载后可阅读完整内容，剩余1页未读，立即下载