旋转增强方法改善对象检测的性能

53 浏览量更新于2023-10-14 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3530目标检测Agastya Kalra1，Guy Stoppi1，Bradley Brown1，Rishav Agarwal1和AchutaKadambi1，21 Akasha Imaging，Palo Alto CA2UCLA，Los Angeles CA{agastya，guy.stoppi，bradley.brown，rishav} @ akasha.im，{achuta} @ ee.ucla.edu摘要旋转增强通常改善模型在对象检测中，形状是未知的，因此旋转产生标签歧义。我们发现，事实上的方法，包围盒标签旋转，最大的框方法，创建非常大的标签，导致性能差我们提出了一种新的方法，可以在几行代码中实现的旋转增强。首先，我们创建一个可微近似的标签精度和轴对齐的包围盒周围的椭圆是最佳的。然后，我们引入旋转不确定性（RU）损失，使模型能够适应标签的不确定性。在五个不同的数据集（包括 COCO 、 PascalVOC 和 Transparent Object BinPicking）上，当使用AP、AP50和AP75测量时，该方法提高了一阶段和两阶段架构的旋转不变性。1. 介绍期望对象检测器在场景旋转时工作。但有一个问题：像卷积神经网络（CNN）这样的方法可以是尺度和平移不变的，但是CNN不是旋转不变的[15]。为了克服这个问题，训练数据集可以扩展为包括新旋转角度的数据这被称为旋转增强。在对象检测中，旋转增强可以抽象如下：给定一个原始的边界框和任何所需的旋转角度，我们应该如何确定轴对齐的旋转边界框标签？如果物体的形状是已知的，这是相当简单的：我们旋转对象形状并重新计算边界框。然而，在对象检测的情况下，形状是未知的。社区中流行的民间智慧是选择一个足够大的标签，以完全覆盖旋转框[45]。在研究这个问题时，我们发现图1：提出了一种方法来正确旋转边界框以进行旋转增强。最大框的先前解决方案是对旋转场景的完美边界框的过高估计。有关旋转增强的选择如何影响对象检测性能，请参见表。这种方法可能会损害性能，并且在COCO [22]上，我们发现我们尝试的其他先验更好。然而，不知何故，这种的确，最近的分析发现，最大的盒子只对大约3◦[16]的旋转具有鲁棒性。<在本文中，我们提出了一个最大盒该解决方案在五个对象检测数据集上实现了显著更好的性能;同时保留了几行代码实现的简单性。1.1. 贡献简而言之，我们的解决方案有两个方面。首先，我们从第一原理推导出一个椭圆形状，以确定旋转的盒子标签。我们将其与许多其他3531新的先验，并表明这是最佳的。其次，我们引入了一个新的旋转不确定性（RU）损失函数，它允许网络使用先验知识在更高的旋转中调整标签，这些先验知识来自基于标签确定性的较低旋转我们通过改进旋转很重要的性能数据集（如Pascal VOC [14]和TransparentObject Bin Picking [18]）以及推广到MS COCO [22]上的新测试时间旋转来证明该解决方案的有效性（图1）。1.2. 范围物体检测中的旋转数据增强并不是什么新鲜事。本文不是关于找到使用旋转数据增强的最佳总体方法。对于这一点-蛮力搜索或AutoAugment [45]等论文可能是更好的例子。本文只专注于对轴对齐的边界框执行旋转增强的方法。当实现时，这些建议的修改可以归结为几行代码，并且几乎没有理由使用当前的LargestBox方法。2. 相关工作数据增强是提高目标检测性能的一种有效方法数据扩充增加了数据的数量并提高了数据的多样性。数据扩充有两种类型。光度量变换修改颜色通道，使得检测器对于照明和颜色的改变是不变的。经典的光度技术包括添加高斯模糊或添加颜色抖动。现代照片度量增强，如Cutout [11]和CutMix [44]，随机删除图像的补丁。另一方面，几何变换修改图像的几何形状，使得检测器对位置和取向不变。几何修改也需要对标签进行相应的更改。几何变换很难实现[5]，并且对精度改进贡献更大[38]。我们专注于旋转增强和对象检测。对象检测中的旋转增强目前通过用于主要存储库（例如，[5，7，1，17，6，40]）和出版物（例如：[43，4，45，37，28，26]），其进行边界框旋转以用于深度学习对象检测。最大框方法在保证包容性方面做得很好，但在大角度时，它严重高估了边界框的大小。图2示出了这些过大的边界框的示例。因此，FastAI [16]建议旋转不超过3度。最近的一些工作，如AutoAugment [45，37]，使用旋转作为复杂的学习数据增强方案的一部分虽然直接学习旋转增强是有趣的，但它需要大量的计算资源。我们旋转法AP50（粗）AP75（精细）图形标签没有旋转MedMed没有最大包装盒（例如[1、17、5]）Med低没有椭圆+ RU损失（我们的）非常高高没有完美盒子（金色标准）非常高非常高是的图2：我们的方法和其他方法之间的比较。我们展示了使用上述每个旋转增强训练我们的方法具有相当的性能，使用完美的分割标签，而不需要额外的形状信息。寻求实现最大盒子的简单性，并针对较大角度改进性能。定向边界框是对象检测的姐妹，是预测非轴对齐边界框的任务，也称为定向边界框。像[12，8，25]这样的几种方法旨在在预测旋转边界框时实现旋转不变性。然而，这些方法已经将旋转的框标记为输入，并且当输入图像旋转时不会以松散的框结束由于这是一项不同的任务，因此不在本文的范围之内。我们的论文只关注轴对齐的边界框。旋转不变性是目标检测中需要解决的一个重要问题经典的计算机视觉方法通过从图像中提取特征来实现旋转不变性[41，23，24，34]。随着神经网络的兴起，更新的方法试图修改架构以实现旋转不变性[10，9，43]。这些方法旋转输入图像并添加特殊层，以了解图像中对象我们的通用方法也可以帮助这些方法。3. 背景3.1. 用于目标检测的图像由X和y坐标参数化假设图像包含具有形状S的对象。让S表示描述对象中的所有点的形状集S={（x，y）|（x，y）∈ object}。（一）在对象检测中，边界框被定义为围绕形状的最紧密拟合轴对齐框。因此形状确定边界框的坐标，3532BBPR^∈完美不超过--b=[x最小值，y最小值，x最大值，y最大值]T。边界框的四个边缘中的每一个与形状集合的至少一个元素让运算符表示形状到边界框的完美转换：bB（S）。（二）算子通过取形状的最小值/最大值（x，y）坐标来提取S的边界框b（最紧密拟合轴对齐框）因为S不是没有形状先验的后旋转框是最大框方法。最大箱法是非常普遍的（例如[28，26，5，7，1，17，6，40，20，19，27，33，36，39]）。只是与我们提出的方法类似，最大框仅将原始边界框b0和θ作为输入。从等式3中可以清楚地看出，几种形状可以定义b0。这就产生了歧义问题。最大框方法选择这些可能形状中面积最大的一个，S最大。这个形状就是盒子本身（表1）。将其视为对象形状，等式4可以适于获得唯一的，相同的边界框可以由多个形状. 例如，边长为d的正方形和一个圆θ角最大 B（Rθ（S最大））。（五）直径为d的形状仅仅是产生相同边界框的许多独特形状中的两个。更正式地，令Vb表示可能生成边界框b的形状集合，使得Vb={S i|B（Si）=b，Si ∈ P}.（三）其中是特定于数据集的形状分布。让我们考虑旋转增强的问题，其中图像和对应的框标签b旋转角度θ。如果物体的形状是已知的，那么我们可以使用旋转操作器将原始形状旋转角度θ：θ（S）。类似于等式2，我们可以使用完美的方法来获得旋转图像的轴对齐边界框，如下所示：这种方法的好处是它产生了一个保证包含原始对象的盒子[45]，并且很容易实现。缺点是该方法会产生过大的框[16，45，35，2，29，3]，如果广泛使用，对性能的损害大于其帮助（表9）。令人惊讶的是，据我们所知，包括与从业者的个人沟通和互联网论坛上的帖子，没有采取任何替代方案。我们希望我们的方法能改变这一点。4. 提出的解决方案我们现在描述我们对问题的解决方案：给定b0和所需旋转角θ，求bθ。简而言之，我们的解决方案通过假设原始形状是椭圆（表1，图3）并旋转来θ角完美B（Rθ（S完全）），（4）因此（第4.1节）。然后，我们调整损失函数以考虑标签中的错误（第4.3节）。我们称这种方法为完美标签，其中S完美是给定边界框b的对象的实际形状。然而，这需要形状标签，而这对于对象检测是不可用的。在对象检测中，人类通过隐式分割形状来标记框。在不知道形状标签的情况下，任何形状S Vb都可以是S完美的，从而导致许多可能的盒bθ。本文寻求一种在形状未知的情况下对旋转包围盒进行估计的方法。我们只提供了原始的边界框b，我们将在下文中通过明确θ=0而将其写为b0。问题陈述如下。问题陈述：仅给定输入边界框b0和图像应旋转的角度θ找到轴对齐的边界框b^θ，其：带bθ的;和（2）提高模型性能4.1. 椭圆法在本节中，我们首先通过尝试找到最有可能与潜在的地面真值框具有高度重叠然后讨论了椭圆法的实现和直观性最后，我们提到我们开发的其他新方法。4.1.1最大化期望IoU我们从一个简单的假设开始：用于确定边界框旋转后增强的最佳方法应当最大化标记准确度，在对象检测的情况下，标记准确度是以IoU来测量的。我们将b（θ）定义为最佳旋转边界框。We提供输入角θ和框b0。关于Equa-视觉数据集的旋转版本。3.2.最大有效框方法没有形状知识的旋转增强不是新的问题陈述。在物体检测领域中用于确定边界的实际在图3中，该框可以由任何数量的形状生成：Vb0=Sii=1，2，…N. 对于每个形状，我们可以使用公式4中的由于多个形状可以导致相同的旋转框，我们得到M N个可能的边界框，我们将其写为集合：BB3533θ角B完美完美^b=ar gmaxKΣ^IoU（b，b）.（十二）不超过Q0=unique{b=B（R（Si）），Si∈Vb0}（6）BJj=1，…M.b^θ∈QθJJb^=a r gmax Σp（b）IoU（b^，b）。（十一）^θ θθKKKK图3：我们的Ellipse方法产生了良好的初始训练标签，而Largest Box高估了标签。从左到右：（1）旋转之前的原始边界框。（2）旋转后的地面实况标签的过大的最大框估计(3)更严格的Ellipse估计（第4.1节）。(4)我们从分割形状标签中获得的实际地面实况。(5)给定旋转和初始框的所有可能的地面真值框的集合。BJ{} （7）在下文中，并且不失一般性，本文将假设b0是允许简化符号的输入Q θQ θ0。（八）形状域中的长方体。实现上的差异是一行代码。由数据集中的多个对象形状生成。去-记p（bθ）为盒子bθ=bθ的概率。然后现在的任务变成在Q θ中选择M个可能的边界框中的回想一下，事实上的解决方案是选择Qθ中最大的盒子。这个最大的盒子是J J等式10可以重新公式化为：M完美保证包含对象。然而，针对遏制进行优化似乎不是直接解决AP指标的好选择，因为AP使用IoU来确定真阳性，而不是遏制。对象检测的更相关的目标是选择最大化以下各项的框：θ θJ Jbθ∈Qθi=1读者可能会认识到这个等式类似于期望。我们在论文中将其称为预期IoU。预期的IoU不是直接可处理的：我们不知道p（bθ）先验。但是，如果我们能取样b^θ=a r gmaxIoU（b^θ，bθ）。（九）JK个随机形状，来自形状上的数据集分布b^θ∈Qθ其中bθ=B（Rθ（S）），我们得到以下运算：在这种情况下，b^θ=bθ。当然，我们不是givenBθ角完美 . 所以现在，让我们假设-优化目标：在Qθ中的ing盒有相等的机会成为完美的盒子然后，优化以下内容是有意义的：θ1b^θ∈Qθθ θKk=1b^θ=a r gmaxA vg{IoU（b^θ，bθ）|bθ∈Q θ}。（十）由于所有对象检测数据集都不具有形状标签，因此我们通过生成接触的随机形状来对P进行现在，让我们打破Qθ中的每个候选框都同样可能成为完美框的假设事实上，我们知道许多形状可以产生相同的盒子（因为M N），所以某些盒子比其他盒子更有可能。例如，唯一能产生最大长方体的形状是原始长方体本身，而其他旋转后的长方体可以显示性能极其相似。上面的方程是完全可微的，所以我们可以用梯度上升法求解。这里的问题是，我们必须对每个θ和每个盒子b求解这个方程，这是不切实际的。因此，我们进一步推广到一个典型的形状。方法最大的S椭圆（我们形定义{（x1，y1），（x2，y1），（x2，y2），（x1，y2）}、（x，y）. （x-x）（y-yc）22.C（/B0+=1W（二）2（/B0H（二）2、表1：我们的方法可以与最大=b的每一边各一次。这样我们就不是特定于数据集的。我们分析使用COCO形状的补充和3534^--^ ^您的位置：P^WH^RBKK. （x −x c）2生成具有高IoU的增强边界框是b的宽度和高度分别^ ^您的位置：KS=（x，y）+ （y−yc）2、（十六）S（我们的）图4：最大化具有潜在地面实况框的预期IoU的最佳形状收敛到椭圆形。曲线显示从最大的盒子开始并收敛到椭圆形的梯度上升的进展。S的最终收敛的预期IoU匹配最大内切椭圆S椭圆的IoU。经由规范形状优化等式12：我们不是针对b0和θ的每个可能组合求解方程12，而是尝试找到跨不同输入边界框的最佳形状。这样，我们可以求解一些最佳形状S∈Vb0，并求解bθ如下：bθB（Rθ（S）），（13）为了获得可能的形状，我们组合等式12和13以优化数量：S^=a r gmaxΣ1ΣΣIoU（B（Rθ（S）），bθ）Σ.（十四）b0的θ角k=1AP50AP7510o20o30o40o10o20o30o40o最大包装盒98.293.7986.3182.959.225.619.917.3椭圆（我们的）99.698.697.096.586.856.247.246.5图5：在15°30°旋转增强下，比较两种方法在不同IOU阈值下的标签AP（假设一致置信度）。我们的在AP50和AP75上明显更好。的各种测试分布，包括前一段中描述的随机模型。4.1.2椭圆法当我们将形状建模为椭圆时，我们可以找到估计的边界框：bθ=B（Rθ（S椭圆）），（15）其中S椭圆是b0内部的最大内接椭圆，表示为：请注意，我们现在优化所有旋转角度和高宽比同时这增加了足够的约束椭圆.（b0/2）2（b0/2）2其中（x，y）是b0和b0，b0的中心的位置找到一个独特的形状。我们的目标是找到c0WH有可能的地面实况框。由于和是可微分算子，因此可以通过梯度上升来优化方程14以求解S。我们在补充中提供了细节和伪代码以及一些分析。由梯度上升法得到的稳定我们在图4中示出了从最大的盒形到圆形的梯度上升的进展如果我们改变纵横比，它只会收敛到最大的内接椭圆。同样在图4中，我们显示了最大盒子形状的预期IoU远低于椭圆形，并且在图5中，我们显示了椭圆形标签的最终AP要好得多椭圆解与优化形状该方程是快速的，易于实现的，并且在现代视觉数据集上具有高性能。椭圆近似可以在与最大盒方法相同的代码行中实现（参见图10）。附录A），但它大大提高了性能。我们在图5中看到，椭圆标签比最大的框标签精确得多。然而，所提出的椭圆框方法的一个缺点是椭圆框可能低估对象大小或纵横比。这仍然会在标签中产生一些噪声，特别是在大旋转时。我们通过允许模型基于第4.3节中较低旋转的先验来适应较高旋转的标签来缓解这一点。S∈V、=1，标记方法最大的S椭圆（我们的）预期IoU60.872.9^72.93535C（θ）= max 0。5、 1 +.1−cos（4θ）2 cos（4δ）−2Σ图6：RU Loss使用的旋转确定性作为针对不同超参数δ绘制的θ函数，其中δ是C（θ）= 0的角度。五、4.2. 其他方法我们的分析不限于椭圆方法。为了进行完整的研究，我们提出了另外4种方法。为了节省空间，这些新方法的完整细节和结果可在附录B中获得，我们在这里提供了这些方法的快速总结。• 缩放八边形：我们使用具有缩放因子的八边形在最大的盒形和菱形之间插值• 随机框：我们对随机有效的盒子进行采样，并将其用作地面真值标签。• RotIoU：我们选择具有最大IoU的标签，其具有旋转的地面实况框，而不是预期的轴对齐的地面实况框。• COCO Shape：我们使用COCO数据集中的形状，而不是使用随机形状进行优化。我们将结果保留到补充，因为这与椭圆方法之间的性能可以忽略不计，我们希望本文独立于数据集并且易于实现。4.3. 旋转不确定性损失如图4所示，具有随机形状的预期IoU为72.9。这意味着仅使用这些标签很难在较高AP（如AP75）上获得良好的性能。为了解决这个问题，我们创建了一个自定义的损失函数，该函数适应回归损失以考虑旋转的不确定性。这个想法很简单-如果我们不确定标签，如果模型足够接近，我们就关闭回归损失。标签更加不确定图7：旋转方法的预期IoU与性能高度相关。我们的最终椭圆是最佳的，为两者。COCO val2017消融0◦10o20o30o(a)先前方法最大包装盒（例如[4、45、37]）35.2028.3722.3418.47(b)我们的旋转标签方法（第4.2节）随机37.3935.5932.2228.33八角形s = 0。135.8231.6427.1623.54八角形s = 0。236.5234.5731.6528.15八角形s = 0。5（钻石）38.3635.3928.7622.92RotIoU38.3236.4832.6828.94椭圆（第4.1.2节）38.2136.8333.5929.95(c)我们的损失（第4.3节）椭圆+RU损耗δ=45◦38.5437.4534.5631.26椭圆+RU损耗δ=30◦39.0937.9935.4532.25椭圆+RU损耗δ=15◦39.1438.1935.7832.50椭圆+RU损耗δ=10◦（最终）39.3338.3136.0032.72表2：不同方法在COCO val2017上不同测试旋转下的AP。（a）先前的最大框的方法导致最差的性能-每隔一个我们的想法更好(b)椭圆是所有标签生成方法中最好的。(c)我们的RU损失δ=10◦导致所有旋转中的最佳AP，因此我们将其用作最终方法。注：我们在最佳结果的0.2以内加粗。当旋转接近45◦、135◦、225◦、315◦时。在0◦、90◦、180◦和270◦处完全确定。我们将确定性的概念（图6）形式化为θ的函数：α=2 cos（4δ），（17）1C（θ）= 1 + α − 2（1 − cos（4θ））。（十八）该函数将旋转θ映射到IoU阈值C（θ）。我们使用此IoU阈值作为应用回归损失的指标。如果预测框大于3536图8：所有5个数据集的最大框模型（顶行）和椭圆模型（底行）的边界框预测示例。我们可以看到，我们的算法总体上产生了更紧密的边界框。数据集（0时◦测试旋转）Pascal VOC [14][18]第十八话合成水果数据集[13]牛津宠物[30]方法APAP50AP75APAP50AP75APAP50AP75APAP50AP75没有旋转51.9480.9156.5448.5379.1454.384.395.0792.680.7092.8088.76最大包装盒（例如[4、45、37]）（相对改善）50.23-3.29%81.310.49%54.3-3.96%37.49-22.7%79.09负百分之零点零六28.45-47.6%83.47-0.98%95.05-0.02%的百分比92.24-0.39%79.54-1.43%94.201.56%90.031.43%椭圆+ RU损失（我们的）（相对改善）52.89百分之一点八四81.570.82%57.972.53%50.363.78%81.783.35%56.764.53%84.831.05%95.83百分之零点八93.170.62%81.280.72%94.371.69%91.092.63%表3：在四个单独的数据集中，我们表明我们的旋转增强方法导致性能改善，而之前的方法会损害性能。特别是在透明物体箱拾取的情况下，最大的箱子几乎差50%，而我们的好4.5% AP75。max（0. 5，C（θ）），则它使用回归损失，否则，它不使用回归损失并且假设模型我们用δ参数化C。δ是C（θ）= 0的角度。五、我们在图6中可视化C。我们将其限制为0.5，因为这是标准对象检测架构中锚点匹配的阈值[21]。该函数允许模型获取它在置信旋转时学习的先验，并将其应用于更高的旋转，防止其过度拟合不良标签。如表2所示。5. 结果5.1. 设置我们的硬件设置只包含一个用于训练的P100 GPU，我们所有的代码都是在Detectron2 [42]中使用Pytorch[31]实现的我们使用Faster-RCNN [32]和RetinaNet [21]的默认训练管道。我们在标准COCO基准上进行大部分实验，因为它包含具有许多不同形状的各种对象-使其成为具有挑战性的测试集。训练由于我们只有一个GPU，因此只能容纳3个批次。为了解决这个问题，我们将训练时间从默认配置增加了大约5倍。这允许我们在线匹配RetinaNet [21]和Faster-RCNN [32]的可用预训练基线。由于大多数由于数据集是正面朝上的图像，我们使用正态分布进行训练，所有实验的平均值为0，标准差为15度由于本文的目的是找到最佳的旋转增强方法，而不是应用旋转增强的策略，因此我们不尝试其他组合。这可以留待今后的工作。测试：对于除COCO之外的所有数据集，我们没有完整的分割标签，因此我们只在标准上进行测试。标准测试集（0◦）。对于COCO，我们通过获取COCOval 2017集并将其从0◦-40◦旋转来生成我们的测试集，以模拟分布外旋转。然后我们把这些以10的间隔旋转，并使用分割标签进行评估以生成地面实况。我们将COCO结果留给Faster-RCNN进行补充，因为它们与下面显示的RetinaNet结果相似5.2. 消融研究在图7和附表中，我们对选择标签的方法和RU损失函数的影响进行了全面的消融研究。EIoU优化的理由：在第4.1.1节中，我们假设标签旋转的最佳方法应最大化标签准确性，我们将其近似为预期IoU（等式10）。第14段）。在图7中，我们展示了预期IoU和性能3537--AP AP50 AP75图9：我们的Ellipse + RU Loss方法对于AP 50执行接近完美的标记，并且对于AP和AP 75执行优于无旋转和最大框-证明了没有形状标记的第一个可靠的旋转增强在所有方法中，在10◦的COCO上，证明了我们的第一原理推导的我们在其他角度也看到了类似的对正椭圆：在第4.1节中，我们介绍了许多旋转盒子标签的潜在方法。在消融表2b中，我们表明椭圆在所有旋转中均具有最佳性能，但0◦除外，因为它在小噪声容差范围内。还需要注意的是我们尝试的所有方法都明显优于最大框-显示了解决这个问题的重要性RU消融损失：在第4.3节中，我们在最终方法中引入超参数δ。我们在表2中对此进行了消融，并证明10◦是最佳值。我们发现这在COCO上是正确的，但是，在更简单的数据集上，我们使用更大的δ值以获得最佳性能。5.3. 整体性能我们的最佳执行方法包括使用基于椭圆的标签旋转和RU损失。在本节中，我们展示了它在多个数据集上产生了更好的性能，并在COCO上近似基于分割的旋转增强。5.3.1目标检测数据集在表3中，我们提供了四个数据集，其中我们的旋转增强方法提高了性能，而先前的方法（最大框）损害了性能。我们注意到这一点在更高的AP处尤其糟糕，例如AP75。在复杂的数据集中，差距也更大，例如透明对象箱拾取，其中最大的盒子会降低近50%的性能，而我们的盒子会提高4.5%。5.3.2泛化到新的旋转角度我们的方法显著优于原始的最大框方法，并且在图1和图9中，在COCO上从[0o30o]的所有新角度上，对于AP，AP50和AP75，也优于不使用旋转。在AP50的情况下，与使用基于分割的标签相比，我们显示出非常类似的改进。这是一个巨大的改进，因为最大框方法损害了旋转性能。6. 结论广泛使用的最大盒方法（例如[43，4，45，37，28，26]）是基于最大化重叠的民间智慧。相反，我们表明，通过最大化预期IoU并考虑损失中的标签确定性，我们可以完全匹配AP50处的完美“基于分割”标签的性能这些结果代表了一个步骤，实现旋转不变性的对象检测模型，同时只增加了几行复杂的对象检测代码库。鸣谢：我们感谢 Yuri Boykov 、 Tomas Ger- lich 、Abhijit Ghosh、Olga Veksler和Kartik Venkataraman对本文进行了有益的讨论和编辑COCO val2017结果0◦10o20o30o0◦10o20o30o0◦10o20o30o没有旋转39.2637.5433.6829.1959.6856.8851.3545.3741.6940.1435.6330.39最大包装盒（例如[4、45、37]）35.2028.3722.3418.4758.7956.3151.4946.3036.0025.3714.9510.91（相对改善）-10.3%-24.4%-33.7%-36.7%-1.48%-1.01%0.27%2.04%-13.6%-36.8%-58.1%-64.1%椭圆+ RU损失（我们的）39.3338.3136.0032.7260.0858.6655.7351.6041.7440.7138.0533.97（相对改善）百分之零点一七2.05%6.88%12.1%0.67%百分之三点一二8.54%百分之十三点七百分之零点一三百分之一点四二6.79%百分之十一点八3538----引用[1] Mart´ın Abadi ， Paul Barham ， Jianmin Chen ，Zhifeng Chen ， Andy Davis ， Jeffrey Dean ，Matthieu Devin ， Sanjay Ghemawat ， GeoffreyIrving，Michael Isard，et al. Tensorflow：一个大规模机器学习系统。在第12届USENIX操作系统设计和实现研讨会（OSDI 16）中，第265-283页[2] 相册-团队。为什么旋转数据后绑定框变得如此松散？是那里更好方式？·问题746·蛋白质-团队/蛋白质。https：//github. com/albumentations-team/albumentations/issues/746.[3] 阿莱朱使边界框更紧对于图像旋转后的对象 · 问题 90 · aleju/imgaug. https ： //github.com/aleju/ imgaug/issues/90。[4] Alexey Bochkovskiy ， Chien-Yao Wang ， andHong-Yuan Mark Liao.Yolov4：目标检测的最佳速度和arXiv预印本arXiv：2004.10934，2020。[5] Alexander Buslaev、Vladimir I Iglovikov、EugeneKhvedchenya、Alex Parinov、Mikhail Druzhinin和Alexandr A Kalinin。Albumentations：快速灵活的信息，11（2）：125，2020.[6] A'ngelaCasado-Garc' ıa 、 Ce'sarDom' ınguez 、 ManuelGarc'ıa-Dom'ınguez、Jo' nathanHeras、Adria' nIne' s、Eloy Mata和Vico Pascual。Clodsa：一种用于增强分类、定位、检测、语义分割和实例分割任务的工具。 BMC bioinformatics ， 20 （ 1 ）： 323 ，2019。[7] Kai Chen，Jiaqi Wang，Jiangmiao Pang，YuhangCao ， Yu Xiong ， Xiaoxiao Li ， Shuyang Sun ，Wansen Feng，Ziwei Liu，Jiarui Xu，et al.检测：打开mm- lab检测工具箱和基准。arXiv预印本arXiv：1906.07155，2019。[8] 宫丞、韩俊伟、周沛成、董旭。学习旋转不变和Fisher判别卷积神经网络进行目标检测。IEEETransactions on Image Processing，28（1）：265[9] 龚成，周培成，韩俊伟学习-ING旋转不变卷积神经网络的目标检测在vhr光学遥感图像。IEEETransactions on Geoscience and Remote Sensing，54（12）：7405[10] 龚成，周培成，韩俊伟。Rifd-cnn：用于对象检测的旋转不变和Fisher判别卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第2884-2893页，2016年。[11] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的裁剪正则化。arXiv预印本arXiv：1708.04552，2017。[12] 丁健，薛南，杨龙，夏桂松，陆启凯。用于航空图像中定向目标检测的学习 roi Transformer 在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[13] 布拉德·德怀尔如何创建合成数据集为计算机视野https：//blog. roboflow。com/how-to-create-a-synthetic-dataset-for-computer-vision/，2020年8月。[14] Mark Everingham，Luc Van Gool，Christopher KIWilliams ， John Winn ， and Andrew Zisserman.pascal视觉对象类（voc）的挑战。国际计算机视觉杂志，88（2）：303-338，2010。[15] Ian Goodfellow Yoshua Bengio和Aaron Courville深度学习麻省理工学院出版社， 2016. 网址：http：//www. 深度学习手册org.[16] 杰里米·霍华德第9课：深度学习第2部分2018 -多对象检测-快速人工智能。https：//youtu. 是KXR-2 PBY吗？t=554。[17] Alexander B Jung，K Wada，J Crall，S Tanaka，JGraving ， S Yadav ， J Banerjee ， G Vecsei ， AKraft，J Borovec，et al. imgaug，2018.[18] Agastya Kalra、 Vage Taamazyan1 、 Supreeth Kr-ishna Raol、Kartik Venkataraman、Ramesh Raskar和Achuta Kadambi。用于透明对象分割的深度偏振提示。在IEEE计算机视觉和模式识别会议（CVPR）上，2020年6月。[19] Ayoosh Kathuria。边界框的数据增强：重新思考对象检测的图像变换。网址：//www.kdnuggets。com/2018/09/data-augmentation-bounding-boxes-image-transforms. HTML.[20] Ayoosh Kathuria。对象检测的数据增强：如何旋转边界框。https：//blog. 图纸空间。com/data-augmentation-for-object-detection-rotation-and-shearing/，2018年9月。[21] 林宗义，普里亚·戈亚尔，罗斯·格希克，何开明，和彼得·多尔。密集物体检测的焦面损失。在IEEE计算机视觉国际会议论文集，第2980-2988页[22] Tsung-Yi Lin，Michael Maire，Serge Belongie，JamesHays ， PietroPerona ， DevaRamanan ，PiotrDolla'r，and3539C劳伦斯·齐特尼克。微软coco：上下文中的常见对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[23] Baozhen Liu，Hang Wu，Weihua Su，WenchangZhang，and Jinggong Sun.旋转不变的目标检测使用扇形环猪和提升随机蕨类植物。The VisualComputer，34（5）：707[24] Kun Liu ， Henrik Skibbe ， Thorsten Schmidt ，Thomas Blein，Klaus Palme，Thomas Brox，andOlaf Ron-neberger.在极坐标和球坐标中使用傅立叶分析的国际计算机视觉杂志，106（3）：342[25] 刘磊，潘宗旭，雷斌。学习具有可旋转边界框的arXiv预印本arXiv：1711.09405，2017。[26] 刘洋，黄磊，刘祥龙，勃郎。一种新的基于对Hough模型的旋转自适应目标检测方法神经计算，194：246[27] 罗德里戈 · 洛祖瓦洛祖瓦 https ： //github.com/lozuwa/impy，2019年3月。[28] Daniel Mas Montserrat，Qian Lin，Jan Allebach，and Edward J Delp.使用数据增强训练目标检测和电子成像，2017（10）：27[29] Open-Mmlab。为什么在旋转数据aug之后边界框变得如此松散？是否有更好方法·发出4070 ·打开mmlab/mmdetection。https：//github. com/open-mmlab/mmdetection/issues/4070。[30] 奥姆卡湾Parkhi、Andrea Vedaldi、Andrew Zisser-man和C.诉贾瓦哈猫和狗。在IEEE计算机视觉和模式识别上，2012年。[31] Adam Paszke ， Sam Gross ， Francisco Massa ，Adam Lerer，James Bradbury，Gregory Chanan，Trevor Killeen，Zeming Lin，Natalia Gimelshein，Luca Antiga，et al. Pytorch：一个命令式风格的高性能深度学习库。神经信息处理系统的进展，第8026- 8037页，2019年[32] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。在神经信息处理系统的进展，第91-99页[33] Pranjal Saxena用于自定义对象检测的数据增强：哟https：//medium. com/ predict/data-augmentation-for-custom-object-detection-15674966e0 c8，2020年9月。[34] Uwe Schmidt和Stefan Roth学习旋转感知功能：从不变先验到等变描述符。2012年IEEE计算机视觉和模式识别会议，第 2050-2057 页。 IEEE ，2012。[35] 丹尼斯·索默斯。旋转等数据增强如何影响检测质量？https：//a. stackexchange. com/questions/9935/how-data-augmentation-like-rotation-affects-the-quality-of-detection，2018年3月。[36] 雅各布·索拉维茨为什么以及如何实现随机旋转数据增强。https：//blog. roboflow。com/why-and-how-to-implement-random-rotate-data-a

下载后可阅读完整内容，剩余1页未读，立即下载