无关结构航空目标检测平衡算法ARUBA的评估与性能改善

173 浏览量更新于2023-10-15 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3719ARUBA：一种与结构无关的空中目标检测平衡损耗算法Rebbapragada V C Sairam Monish Keswani Uttaran Sinha NishitShah Vineeth N Balasubramanian印度理工学院海得拉巴{ai20resch13001，monish.keswani，cs17mtech11003，cs18mtech11020，vineethnb} @ iith.ac.in摘要深度神经网络倾向于对其训练数据集的偏差进行交互。在目标检测中，偏差以各种不平衡的形式存在，例如类别，背景-前景和目标大小。在本文中，我们将对象的大小我们的目标是解决基于无人机的航空图像数据集的大小不平衡的问题。用于解决尺寸不平衡的示例性方法基于利用图像或特征图的多个尺度来检测不同尺寸的对象的架构变化另一方面，我们提出了一种新的ARchitectUre-agnosticBAlancedLoss（ARUBA），它可以作为任何对象检测模型的插件。它遵循邻里驱动的方法，灵感来自对象大小的序数我们通过对 HRSC2016 、 DOTAv1.0 、 DOTAv1.5 和VisDrone等航空数据集的综合实验来评估我们的方法的有效性，并获得了一致的性能改善。1. 介绍近年来，无人机在许多学科中显示出巨大的潜力在军事战争中，它们可以用作作战任务的目标诱饵在农业方面，无人机为农民提供实时数据，以做出明智的收获决策。在搜索和救援方面，它们可以到达人类无法到达的地方。或者，它们也用于灭火、运送必需品和航空摄影。在各个领域对无人机的需求不断增加，最近鼓励计算机视觉界广泛研究无人机的视觉[3]。十年来，深度神经网络在语义分割、对象检测/跟踪以及图像分类等多个识别问题上引领了计算机视觉的在对象检测中，FasterRCNN [27]，YOLO [25]，Reti-naNet [15]及其变体等方法在许多具有挑战性的数据集上取得了不错的性能。随着越来越多的...图1：VisDrone数据集的图像预测[6] [14]《我的烦恼》。顶部：焦点丢失失败来探测很多物体底部：我们的能够识别额外的对象，包括小的，因为我们的 ARchitectU re-agnosticBA lanced（ARUBA）损失。黄色框表示另外检测到的物体。在基于无人机的图像中测试和创建数据集，空中物体检测[34，6]已经引起了研究界的极大兴趣。尽管上述方法在流行的一般对象检测数据集（如MSCOCO[16]）上表现出出色的性能，但空中对象数据集[34，6]甚至对最先进的对象检测模型提出了更多挑战。航空数据集中物体的尺度和方向变化很大，特别是来自无人机图像的物体，使得检测这些物体非常具有挑战性。已经提出了专门的方法[8，37空中数据集[34，6，19]的另一个困难是，除了类分布外，它们的物体大小分布也高度偏斜（如图2所示）。注意，在图2b中，x轴示出了对象区域仓，其中对象的大小从左到右增加我们还观察到，与更通用的对象检测数据集相比，空中对象数据集的大小不平衡是严重的（参见图3），这促使我们在这项工作中解决基于无人机的空中数据集的这种不平衡问题。3720±±250200144867150100500类2001006040208区域箱20080604020区域箱2001006040208区域箱(a) 类不平衡(b) 大小不平衡(a) 尺寸不平衡-COCO(b) 尺寸不平衡-VisDrone图2：Vis- Drone数据集中高度偏斜的类别和大小分布大小不平衡是对象检测数据集中的常见问题，并且已经提出了许多方法来解决这个问题，如[20]中所总结的。现有方法[13，18，28]在很大程度上提出了架构修改，以增强模型在然而，这种多尺度方法来自于仔细设计的架构，以适应特定的领域或环境。在这项工作中，我们建议从架构不可知的平衡损失的角度来解决大小不平衡的问题。人们也可以将我们的方法视为对大小平衡问题的长尾观点，不像通常在长尾检测/识别问题中研究的类不平衡设置。长尾目标检测方法通常关注具有偏斜类分布的数据集，以提高对少数类的检测和分类性能。已经提出了许多方法[10，2，32，31，5，30，24从阶级不平衡的角度来解决这个问题（在第2节中总结）。我们专注于使用损失重新加权的想法[5，30，24]，其中将更高的权重分配给尾部类。与类标签不同，大小（当区分为大到小时）是一个有序变量，这使得将现有的类不平衡解决方案应用于大小变得非常重要。此外，如图2b所示，小尺寸的物体在基于无人机的航空数据集中占主导地位，而大尺寸的物体是稀疏的。虽然大尺寸的物体是尾巴，但它们具有更大的空间支持，与小物体相比，可以提供更丰富和更有用的特征，这有助于检测它们。另一方面，学习小尺寸的对象，虽然在这样的数据集中占大多数，是具有挑战性的，即使是最先进的检测模型[27，25，15]。越来越多地使用无人机图像以及缺乏一致的方法来检测此类数据集中不同大小的对象，促使我们解决此类航空数据集中严重的总之，我们解决了基于无人机的航空数据集中的长尾大小不平衡问题，而不是在早期相关工作中通常解决的长尾类不平衡问题。为此，我们提出了一种新的架构不可知的损失重新加权的策略，认为在其设计的大小变量对象检测模型在给定大小的实例上的性能将具有来自相邻大小的对象实例例如，给定一个特定的类，图3：一般和基于无人机的空中物体数据集之间大小不平衡严重程度的比较。请注意，y轴是频率的对数，因此影响在发生方面是指数的。区域X的实例更可能识别区域X δ的实例而不是X kδ，其中k是大整数。因此，我们在尺寸分布上应用高斯放大来考虑这种邻域情况的影响（如第3节所述）。随后，我们使用聚类的方法来分配权重的对象实例的大小为基础。最后，受以前平衡损失工作的启发，这些工作专注于类不平衡[5]，我们根据大小集群重新加权损失以适应我们的问题。与现有的长尾类不平衡方法不同，该方法将较低的权重分配给头部类别，我们的方法将较高的权重分配给头部类别（小尺寸对象），以确保模型能够更好地学习它们。我们表明，大小不平衡的问题，可以使用这种基于损失的方法，而不需要耗时的架构工程。概括而言，我们的主要贡献如下：• 我们提出了一种新的架构不可知的损失重新加权策略，以解决严重的大小不平衡的问题，在无人机为基础的航空图像数据集。我们称之为ARchitectUre-agnosticBAlancedLoss（ARUBA），它可以在训练任何对象检测模型时应用。• 据我们所知，这是第一个基于损失的方法来处理这个领域的大小不平衡。我们围绕所考虑的类别的有序性以及这种排序与模型性能的联系的关键观察可能在其他具有有序类别的设置中有用（例如，疾病的类别标签，其严重程度逐渐增加）。• 我们提出了一个简单而有效的管道的基础上，众所周知的模块，以实现我们的损失重新加权策略的目标。我们广泛的实验结果证实了这种管道的实用性。• 我们在多个基于无人机的航空图像数据集上进行了一系列全面的实验，包括HRSC 2016，DOTA-v1.0，DOTA-v1.5和VisDrone，以验证我们提出的方法的有效性。我们还提供了额外的消融研究和定性结果，以说明所提出的方法来处理在这个领域的大小不平衡的有用性7933729647 2705924956128751048059264812 3246半导体级一种垃圾桶一种垃圾桶一种垃圾桶3721LL2. 相关工作我们从不同的相关角度分别描述了先前的工作。空中目标检测。与一般物体检测[17]相比，空中物体检测需要特别注意，因为存在额外的挑战，如物体方向的高度专门的方法[35，7，8]已经被设计用于检测这样的航空图像数据集中的定向边界框。R3Det [35]提出了一个用于精确特征的特征细化模块，从而提高了性能。S2aNet通过提出特征对齐模块和有向检测模块解决了锚盒与轴对齐卷积特征之间最近，ReDet [8]通过对旋转等变网络进行编码来编码旋转等变和旋转不变性然而，所有这些方法都使用基于架构的方法，如前所述。相反，我们提出了一个基于损失的方法来解决这个问题。事实上，我们利用上述方法作为基线，并表明我们的损失重新加权策略在应用于它们之上时实现了性能的改善。大小不平衡。如[20]中所总结的，在对象检测中明确解决尺寸不平衡的努力较少。这些方法通常依赖于使用多尺度的图像、特征图或两者来检测不同大小的对象。像SSD [18]和Scale-aware Fast-RCNN [11]这样的方法从多层特征图中进行预测并将它们组合起来。特征金字塔网络[13]及其变体在执行预测之前聚合来自多个层的特征。像SNIP [28]和SNIPER [29]这样的基于图像的方法使用多个尺度的图像而不是特征来检测不同大小的对象。[23，12]结合了特征金字塔和图像金字塔的优点。这些方法背后的想法是通过在多个尺度上处理来提高性能另一方面，我们利用规模分布的长尾不平衡，提出了一个损失重新加权策略，以应对这一挑战。长尾目标检测。现有的关于长尾不平衡的努力一般集中在类不平衡上，分为三类：基于采样、数据生成和基于重新加权的方法。我们在下面描述它们中的每一个。基于采样的方法：基于采样的方法依赖于数据操作技术，例如欠采样和过采样。[10，22，2]等作品利用基于采样的方法来平衡数据集中的背景-前景和类别标签。数据生成方法：这些方法产生了ob-综合使用数据生成方法（如生成对抗网络和数据增强）来识别少数类[32，31]。与过采样不同，这种方法不会重复数据样本，从而减少了过拟合。然而，这些方法的性能取决于所产生的样品的质量。基于重新加权的方法：重新加权方法基于类不平衡数据集的统计来模拟模型的训练目标[5]根据每个类的有效实例数平衡损失。[30]忽略少数类别与多数类别之间令人沮丧的梯度。[24]通过将其视为排名问题来缓解这些方法从类的角度解决了长尾不平衡问题然而，我们从规模的角度来解决这个回归不平衡最接近目前工作的作品之一是《自然》[36]，它关注的是一般连续目标的不平衡，而不是分类目标。我们专注于特定于对象检测的连续目标，并提出了一个框架，以减轻对象大小不平衡的问题，这是不同于他们的重点。3. 与架构无关的平衡损耗如前所述，所提出的 ARUBA （ ARchitectU re-agnosticBA lanced）损失被设计为解决基于无人机的空中对象数据集中的严重大小不平衡的问题。为了制定ARUBA，我们首先讨论在一般长尾类不平衡方法中使用的损失重新加权策略[14，5，30]：CB（p，y）=wyLcls（p，y）（1）其中wy是类别y的权重，p是预测的类别概率，cls是分类损失。相反，我们在此提出了基于类内对象大小的大小平衡损失，如下所示：Lours=wys<$Lreg（b′，b）（2）其中，wys是属于类别y的大小为s的对象的权重;b'和b是预测边界框和地面实况边界框，reg是回归损失。我们重新加权策略的想法是为小尺寸的对象分配更高的权重，因为它们的空间支持较差，难以检测到它们。注意，作为一个有序变量，size不像class categories那样有严格的分区学习检测给定大小的对象确实使模型具有检测类似大小的对象的能力（至少部分地，也如表1所示并在下一段中解释）。此外，数据集中的对象可能具有各种各样的大小，这与固定数量的类不同。分类和序数词3722图4：拟定方法概述：（a）上图显示了我们的方法是如何与架构无关的。独立于对象检测架构，ARUBA根据对象的大小计算对象的权重（b）下图详细说明了ARUBA管道，包括四个阶段。我们使用DOTA v1.5数据集的大小分布进行可视化。尺寸.表1总结了最近的空中物体检测方法ReDet [8]的结果（平均精度值），该方法在这些类别的物体上进行了训练和测试。我们注意到，在小训练箱（包含小尺寸对象的箱）上训练的模型在小测试箱上表现良好，并且其性能随着我们从小测试箱移动而降低。表1：基线对HRSC2016数据集不同大小箱的性能。训练集和测试集分为三个箱-小、中、大。ALL bin意味着我们考虑整个训练数据。变量使得直接应用长尾类重新加权策略来解决大小不平衡变得不平凡。为了解决这些差异，我们提出了一系列简单而众所周知的步骤来解决大小不平衡：类隔离，然后高斯放大，然后聚类。每个模块的详细信息将在后续章节中提供。图4列出了我们的整个管道。邻居的影响在描述我们的管道中的每个组件之前，我们首先通过研究显示尺寸变量的正常性的影响。特别是，我们通过在只有一个类Ship的HRSC2016数据集上进行实验，讨论了邻域对相邻大小箱的影响。我们将训练和测试数据分为三种：小型、中型和大型，基于对象bin大同样，训练过当我们从大测试箱移动到小测试箱时，大训练箱上的测试结果会减少。在这些结果中，尺寸类别的有序性对模型性能的影响是明显的我们通过使用高斯放大过程来利用这种邻域效应，我们将在本节后面描述。阶级隔离。如图4所示，整个管道的第一阶段是类隔离。我们在补充部分中提出的实证研究表明，邻居的影响应考虑在一个类内，而不是跨类。因此，我们将大小分布分类，并分别处理每个类别内的大小不平衡（如图4b中的第一阶段所示）。高斯放大我们对每个类的大小分布应用高斯放大，以添加大小邻域的与[36]中的标签分布平滑类似对于每个类，我们将一维高斯核与大小分布进行卷积，以获得培训测试小介质大小中大号33.7826.8746.0123.531.8115.2649.217.012.56所有17.9329.5838.913723∈−LLYS12M平滑和放大的分布。我们将类c的大小分布表示为Bc，将窗口大小为w的离散高斯核表示为Kw。其定义如下：B c=（b c，b c，.（b）（c）（3）损失函数我们现在描述实际的规模平衡损失本身。如前所述，纵向变量和分类变量之间的差异使得在解决规模不平衡时应用用于长尾类不平衡的现有损失重加权策略是我们把这个K w=（k-w/2，. k−1，k0，k+1，.（k+w/2）（4）我们设计具有某些属性的上述离散高斯核：1.一、它是一个奇对称核。2. 核的峰值k0总是1。我们将内核除以它的最大值来实现这一点。3.第三章。它有两个hyperparame-通过考虑相邻大小的对象实例的影响并基于它们的大小形成对象聚类，这使我们能够根据大小聚类频率获得权重。受[5]的启发，我们将属于大小聚类s的类y的对象实例的有效数量定义为：1 −βGA（nys）ters，即窗口大小w和方差σ。w是宽度高斯核，即它指定条数Eys=1 −β（六）（b−w/2tobw/2），我们要从近邻考虑。σ指定我们在考虑邻域时给予每个bin的重要性。通过增加σ，我们增加了赋予每个相邻bin的权重。因此，我们定义高斯放大，GA，如下：W/2其中GA指的是如等式5中的高斯放大过程，n ys是大小为s的聚类中的类别y的对象的数量，并且β[0，1）是一个超参数，定义如下：在[5]中，它控制Eys随着簇大小s的增加而增长的速度。根据数据集的大小，GA（nys）的值可能非常大，这确实是GA（bk）=i=−w/2kibk+i（5）航空数据集。较大的值会导致数值不稳定，这是[5]的缺点。我们通过使用n次根来缓解这个问题，如下所示：其中bk是指所考虑的尺寸仓，并且ki是高斯核的对应条目。对于极值，卷积相应地被零填充。Un-Ey=1β-nGA（nys）（七）1 −β像高斯平滑（Gaussian smoothing）（其有时会导致仓值的减小）一样，我们的过程总是通过高斯滤波器的设计而导致放大。因此，我们称之为高斯放大。为了更好地了解其运作，请参阅补充部分提供的例子。集群。数据集中的对象通常可以具有各种各样的大小。对尺寸分布进行分类的一种方法是简单地将每个尺寸视为不同的类别。但是，这可能会导致太多的尺寸类别。我们把物体分成多个大小相等的箱子，使用n次根稳定了有效数，而不改变计算的方式。在我们的整体对象检测框架中，对于属于类别y和大小聚类s的对象实例，我们的损失函数L_ours因此由下式给出：Lours=LC+wysLR（8）其中，C和R分别表示分类和回归损失项，并且wys是基于Ewys的重新加权因子，如下所示：1应用高斯放大以适应邻域效应然而，由于数量众多，wys=1−E（九）空中物体数据集[34，6]中的物体实例，这会导致大量的bin。这使得对每个仓的损失项进行加权的步骤冗长乏味。为了使损失重新加权步骤更可行，我们将实例区域分布（高斯放大后）聚类到固定数量的聚类中，然后我们可以重新加权。在这项工作中，我们使用一个简单的k-均值方法聚类的分布到k个集群。图4b显示了聚类数据后的尺寸分布的图示。正如我们所观察到的，物体是根据它们的大小分组的。小尺寸的对象被聚集在一起，大尺寸的对象被聚集在一起，中间有一些中等尺寸的集群。我们在实证研究中发现，这一步骤比仅仅使用相等大小的箱对重新加权策略提供了显著的控制将上述权重wys添加到对象检测损失是我们的框架中针对任何对象检测架构所需的唯一实现步骤，从而使我们的方法易于实现且有效。4. 实验和结果数据集：我们对几个流行的基于无人机的航空图像数据集进行了广泛的实验，即DOTA- v1.0 [34]，DOTA-v1.5 [1]，HRSC 2016 [19]和VisDrone[6]的文件。这些数据集的详细信息在下文中分享。DOTA-v1.0[34]：这是2018年发布的最大的航空图像数据集之一，包含2，806张图像和188，282个对象实3724例。数据集分别以1/2、1/6和1/3的比例分为train、val和test的3725∗∗航空图像广泛分布在15个不同的类别中，即飞机（PL）、棒球-钻石（BD）、桥梁（BR）、地面田径场（GTF）、小型车辆（SV）、大型车辆（LV）、船舶（SH）、网球场（TC）、棒球场（BC）、坦克（ST）、足球场（SBF）、环形交叉路口（RA）、港口（HA）、游泳池（SP）和直升机（HC）。小型车类是大多数类，而地面田径（GTF）是少数类。DOTA-v1.5：[1]：这是在2019年发布的DOTA-v1.0的后续版本，其中添加了额外的类别集装箱起重机（CC）。虽然它是由相同的图像作为DOTA-v1.0，许多额外的注释非常小的对象实例（小于10像素）被添加。它总共有403，318个对象实例，是DOTA-v1.0中实例的两倍多，使其非常独特。DOTA-v1.5上的目标检测比v1.0更具挑战性，因为新添加的实例非常小。小型车类为主要类，新增集装箱起重机类为次要类。HRSC2016[19]：这是一个航空图像数据集，专注于船舶检测。它的数量相对较少，但对象大小不同它有1061张图像，分为436、181和444张图像，分别用于训练、验证和测试。VisDrone[6]：该数据集作为2019年Vis- Drone物体检测挑战赛的一部分发布。它包含了一个总的10209图像分为6471，548和3190分别为训练，验证和测试。Train和validation集总共有近382，000个对象实例，分布在10个不同的类别中。评估指标：对于HRSC 2016和VisDrone数据集，我们在标准COCO for- mat中呈现结果，mAP作为AP @ [的平均值。五点。05：95]。对于DOTA-v1. 0和DOTA-v1.5，在[33，35，7，8]之后，我们将类AP@50和mAP作为类AP的平均值实施详情：我们的方法是架构不可知的，可以应用于任何架构提出的对象检测。由于我们的目标是解决基于无人机的空中物体数据集中的大小不平衡问题，因此对于我们的实验，我们选择了两种最新的最先进的空中物体检测架构[7，8]作为我们的基线。我们使用mmdetection库实现我们的方法。为了进行公平比较，我们使用与基线方法相同的骨干、训练时间表、优化器、学习率、动量、权重衰减、历元数和数据集更新策略[7，8]。对于训练，我们使用4个GTX 1080 TiGPU，对于推理，我们使用单个GTX 1080 Ti GPU。结果如下：HRSC2016. 在我们的实验中，我们使用ReResNet50作为主干，ReFPN作为颈部，这是我们提出的方法地图表2：与HRSC2016基线的比较。在[8]中。我们将HRSC2016数据集中的所有图像裁剪为800 512并执行水平翻转增强。表2显示了我们的结果我们的方法比基线方法获得了2.01%mAP的显著性能改进[8]。DOTAv1.0。对于DOTA-v1.0和v1.5，图像被裁剪为1024 × 1024，并使用水平翻转进行增强。表3总结了DOTA-v1.0 OBB任务的最新方法的结果。我们将我们的方法应用于两个基线S2 aNet [7]和Redet [8]。正如所观察到的，我们的方法在两个基线之上都得到了改进，这表明我们的方法具有与架构无关的性质。Redet获得了76分的成绩。15%mAP，我们的方法获得77。14%的平均值。我们的模型比所有现有的最先进的方法表现得更好。与Redet相比，我们的方法提高了15个类中12个类的性能具体而言，在类我们观察到，这些类有严重的大小不平衡，这表明我们的方法的有效性。DOTAv1.5. 表4提供了与DOTA-v1.5 OBB任务的最新结果的比较。ReDet [8]获得了66的性能。86%mAP，而我们的方法获得68。71%的mAP。我们的方法实现了1.85%mAP的增益。我们还获得了这个数据集上的大多数类的改进。具体而言，对于对象大小严重不平衡的类尽管与DOTA-v1.0相比，DOTA-v1.5包含了大量新添加的小实例，但我们的方法在DOTA-v1. 5上取得了更好的结果，这支持了我们的说法，即我们的方法提高了小对象的性能。无人机我们使用与DOTA数据集相同的图像裁剪和增强技术。表5中给出了最先进模型与我们的模型之间的性能比较。由于这个挑战数据集的评估服务器是关闭的，我们在验证集上呈现我们的模型的我们的模型在基线上实现了1.5%mAP小型、中型和大型物体的结果。表6显示了基线[7，8]和我们的模型在不同大小对象上的性能比较对于这些实验，我们使用HRSC 2016的测试集和DOTA-v1.0和DOTA-v1.5的验证集。请注意，ReDet [8]70.41[8]第十八话72.423726方法骨干PLBDBRGTFSVLVSHTCBCStSBFRAHASPHC地图DRN [21]H-10488.9180.2243.5263.3573.4870.6984.9490.1483.8584.1150.1258.4167.6268.6052.5070.70[33]第三十三话R50-FPN88.8881.2453.1560.6578.6266.5578.1088.8377.8083.6149.3666.1972.1072.3658.7071.74[35]第三十五话R50-FPN88.9277.7046.4971.2472.7077.8179.7590.8681.4683.9657.5359.1065.2470.5951.3871.63S2aNet [7]R50-FPN89.0080.7751.7770.9178.5278.0187.1990.8684.9984.6458.4563.6066.3967.9057.9274.06Ours + S2 aNet [7]R50-FPN89.2381.0751.9270.9178.6878.9787.3390.8986.0785.4163.2066.2266.9069.8259.8175.20ReDet [8]ReR50-ReFPN89.3483.0353.8374.3577.4583.4187.8690.8787.7785.0662.8962.1075.7670.5857.9376.15[8]第十八话ReR50-ReFPN89.3483.1754.1676.2478.2283.4287.9790.9087.8685.3565.3966.5976.1770.6361.6977.14表3：我们的方法与DOTA-v1.0 OBB任务的最新方法的比较粗体显示的结果指定每列的最佳结果。方法PLBDBRGTFSVLVSHTCBCStSBFRAHASPHCCC地图[14]第十四话71.4377.6442.1264.6544.5356.7973.3190.8476.0259.9646.9569.2459.6564.5248.060.8359.16FR-O [26]71.8974.4744.4559.8751.2868.9879.3790.7877.3867.5047.7569.7261.2265.2860.471.5462.00Mask R-CNN [9]76.8473.5149.9057.8051.3171.3479.7590.4674.2166.0746.2170.6163.0764.4657.819.4262.67HTC [4]77.8073.6751.4063.9951.5473.3180.3190.4875.1267.3448.5170.6364.8464.4855.875.1563.40ReDet [8]79.2082.8151.9271.4152.3875.7380.9290.8375.8168.6449.2972.0373.3670.5563.3311.5366.86[8]第十八话79.8583.0252.8672.7352.3575.7487.1890.8781.7868.6856.9073.1673.4170.4965.9614.3468.71表4：我们的方法与DOTA-v1.5测试集OBB任务上的最新方法的比较方法骨干AP@50AP@75地图[第14话]R5027.712.713.9DSHNet [38]R5030.215.516.1ReDet [8]ReR50-ReFPN30.8619.5018.80[8]第十八话ReR50-ReFPN32.8421.620.32方法FPNAP@50AP@75地图S2aNet [7]✗56.2723.7227.85Ours + S2 aNet [7]✗57.6825.2228.78S2aNet [7]✓74.0636.8840.28Ours + S2 aNet [7]✓75.2038.7641.04表5：我们的方法与VisDrone验证集上最先进方法的测试表6：我们的模型和基线模型在小型，中型和大型物体上的性能比较。DOTA数据集的测试集的注释不是公开可用的，因此，我们使用验证集。我们遵循第节中提到的相同评估指标4. 当在ReDet [8]之上应用时，我们的方法在HRSC2016、DOTA-v1.0和DOTA-v1. 5数据集的小尺寸对象上分别实现了2.86%、2.07%和2.33%的mAP改进（表6的前三行）。我们还提供了应用于不同架构的方法的性能增益[7]（表6的最后一行）。在所有的数据集上，我们的模型在中型和大型对象上也保持了性能，这表明了我们方法的有效性。表7：我们的模型在有和没有FPN的情况下的性能。5. 讨论及分析5.1. 消融研究为了清楚地评估我们提出的方法的有效性，我们使用两个基线S2 aNet [7]和ReDet [8]对DOTA-v1.0数据集进行消融研究。我们使用ResNet 50-FPN和ReResNet50-ReFPN主干分别对基线方法[7]和[8]进行实验。表8显示了结果，并表明相对于基线方法的一致改进。方法GAAP@50AP@75地图S2aNet [7]✗74.0636.8840.28Ours + S2 aNet [7]✗74.3237.1240.35Ours + S2 aNet [7]✓75.2038.7641.04ReDet [8]✗76.1550.7547.05[8]第十八话✗76.4751.1547.42[8]第十八话✓77.1452.9348.13表8：我们的模型在有和没有高斯放大的情况下的性能比较。GA是Gaussian Amplification。高斯放大效果：表8显示了我们的模型在采用和不采用高斯放大步骤的情况下的性能。如所观察到的，当不应用高斯放大时，结果显示两个基线的改善最小[7，8]，而当应用高斯放大时，改善良好由此可见…的重要性培训方法小介质大HRSC2016Redet我们的+Redet17.9320.7929.5829.9738.9138.01DOTA-v1.0Redet我们的+Redet09.7411.8123.4823.3452.4452.24DOTA-v1.5Redet我们的+Redet8.3210.6524.8524.7643.5643.52DOTA-v1.0S2aNetOurs +S2 aNet10.6412.4824.9325.5747.4347.853727(mAP)百在处理对象大小等序变量时考虑了邻域的影响。7373727271717031050100150聚类数（K）700.90.990.9990.99999 0.99999均衡参数(a) 聚类数（K）737271701 2 4 6高斯方差(c)高斯方差σ(b) 平衡参数（β）737271707 11 15 21高斯核大小(d)高斯宽度/核大小图6：HRSC2016数据集的图像预测[19]第19话我的上图：基线方法无法检测小尺寸物体。下图：我们的机器人能够识别额外的小物体。黄色框表示另外检测到的物体。5.3.进一步分析功能金字塔网络[13]是主要的图5：各种超参数对模型性能的影响5.2. 超参数灵敏度分析分析k：k是与k-Means聚类相关的超参数。它决定了集群的数量。我们在HRSC2016上实验了不同的k值，k=50给出了最佳结果，如图5a所示。我们注意到这也与其他数据集一致。对β的分析：β是计算有效权重时使用的超参数为了确定β的最佳值，我们在范围[0. 九比零。99，0。999，0。9999，0。99999]。图5b显示了HRSC2016数据集的性能。我们观察到，通过增加β的值，从0开始。9，性能增加，直到β=0。9999，达到最佳效果。β值较低，例如0.5、0.6和0.7使有效权重均匀。这个问题也在[5]中提到。在对较小的βs进行实验时，我们观察到结果接近基线。对σ的分析：σ指定了当将高斯放大应用于给定箱时要给予相邻箱它也可以被视为一个放大因子。图5c显示了当我们改变σ值时模型的性能。当σ被设置为2时，我们获得了最好的结果。对w的分析：该超参数指定在将高斯放大应用于给定bin时要考虑的相邻bin的数量。我们通过改变w对HRSC2016数据集进行了实验，参见图5d。我们发现，宽度为11给出了最佳结果。我们注意到，这些超参数值在所考虑的所有四个数据集上都表现良好，而不需要在不同的数据集上单独微调模型。开发的方法来解决对象检测数据集中实例大小变化大的问题基于FPN的思想，已经提出了许多方法[23，12我们在DOTA v1.0数据集上进行了实验，以证明我们的方法在应用于FPN时可以提高检测性能。表7总结了这些实验的结果。如观察到的，当不应用FPN时，我们的模型将mAP从27.85提高到28.78。此外，当使用FPN时，我们的模型通过将mAP从40.28提高到41.04来实现最佳性能。FPN增强了模型因此，当我们的方法应用于这种架构设计的方法之上时，可以获得最好的结果6. 结论和未来工作在这项工作中，我们提出了一个框架，以减轻对象大小分布的不平衡。我们提出一种新的简单实现的架构不可知的损失重新加权方法，用于基于无人机的空中目标检测。我们通过考虑邻域实例对预测的影响和基于大小对对象实例进行聚类来处理大小的有序性。我们表明，需要增加小物体的贡献，尽管它们属于长尾大小分布的头部。我们证明了我们的方法在HRSC2016，DOTAv1.0 DOTAv1.5和VisDrone等流行数据集上的性能有所提高在未来，我们计划通过减轻类和大小的不平衡来扩展这项工作。鸣谢。我们感谢印度政府电子和信息技术部、教育部以及IIT海得拉巴通过其MoE-DRDO奖学金计划对该项目的支持我们还要感谢匿名审稿人和地区主席，感谢他们在改进本文的表述方面提供的宝贵反馈。(mAP)百(mAP)百(mAP)百3728引用[1] Dota1.5数据集：航空图像中的目标检测。https://captain-whu.github.io/DOAI2019/www.example.com 五、六[2] Y. Cao，K.Chen，Chen Change Loy，and D.是林书目标检测中的主要2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），第11580-11588页，2020年。二、三[3] Dario Cazzato ， Claudio Cimarelli ， Jose Luis Sanchez-Lopez，Holger Voos，and Marco Leo.无人机二维目标检测的计算机视觉方法综述。 Journal of Imaging ， 6（8）：78，2020。1[4] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu XiaoLi，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，et al.实例分段的混合任务级联。第4974-4983页，2019年。7[5] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge J. Belongie.基于有效样本数的类平衡损耗。2019IEEE/CVF计算机视觉和模式识别会议（CVPR），第9260-9269页，2019年。二、三、五、八[6] Dawei Du，Pengfei Zhu，Longyin Wen，Xiao Bian，Haibin Lin ， Qinghua Hu ， Tao Peng ， Jiayu Zheng ，Xinyao Wang，Yue Zhang，Liefeng Bo，Hailin Shi，Rui Zhu ， Aashish Kumar ， Ai- jin Li ， AlmazZinollayev ， Anuar Askergaliyev ， Arne Schu mann ，Binjie Mao ， Byeongwon Lee ， Chang Liu ， ChangruiChen，Chunhong Pan，Chunlei Huo，Da Yu，DeChunCong ， Dening Zeng ， Dheeraj Reddy Pailla ， Di Li ，Dong Wang ， Donghyeon Cho ， Dongyu Zhang ， FuruiBai ， George Jose ， Guangyu Gao ， Guizhong Liu ，Haitao Xiong，Hao Qi，Hao-ran Wang，Heqian Qiu，HongLiang Li ， Huchuan Lu ， Ildoo Kim ， JaekyumKim，Jane Shen，Jihoon Lee，Jing Ge，Jingjing Xu，Jingkai Zhou ， Jonas Meier ， Jun Won Choi ， JunhaoHu ， Junyi Zhang ， Junying Huang ， Kaiqi Huang ，Keyang Wang ， Lars Sommer ， Lei Jin ，还有雷张某Visdrone-det2019：该视觉在图像挑战结果中满足无人机目标检测。在 IEEE/CVF 计算机视觉国际会议（ICCV）研讨会，2019年10月一、五、六[7] J. Han，J. Ding，J. Li和G. S.夏对齐深度特征以进行定向对象检测。 IEEE Transactions on Geoscience andRemote Sensing，第1-11页，2021年。三六七[8] 韩家明，丁健，薛楠，夏桂松。Redet：用于空

下载后可阅读完整内容，剩余1页未读，立即下载