无人机图像中的目标检测：一种鲁棒的深度神经元分解方法

18 浏览量更新于2023-10-12 收藏 2.18MB PDF 举报

深度学习

干扰因素

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1201无人机鲁棒目标检测研究：一种深度神经元分解方法Zhenyu Wu1，Karthik Suresh1，Priya Narayanan2，Hongyu Xu3，Heesung Kwon2，ZhangyangWang11德克萨斯A M大学2美国陆军研究实验室3马里兰大学摘要从由无人飞行器（UAV）捕获的图像中检测对象正变得越来越有用。尽管在地对地图像上训练的通用目标检测方法取得了巨大成功，但当它们直接应用于无人机捕获的图像时，观察到性能不令人满意是由于许多UAV特有的干扰，例如飞行高度变化、恶劣天气条件、动态改变视角等。这些干扰构成了大量的细粒度域，检测模型必须保持鲁棒性。幸运的是，无人机将记录描述这些不同属性的元数据，这些元数据可以与无人机图像一起免费获得，也可以很容易地获得。我们建议利用这些免费的元数据结合相关的无人机图像学习域鲁棒功能，通过对抗训练框架被称为NuestructiveDisentangledFeatureTrans-form（NDFT），为特定的挑战性问题的对象检测无人机图像，实现对这些滋扰的鲁棒性的实质性增益。我们证明了我们所提出的算法的有效性，通过显示最先进的性能（单一模型）在两个现有的无人机为基础的目标检测基准。该代码可在 https ： github.com/ TAMU-VITA/UAV-NDFT上获得。1. 介绍几十年来，物体检测已经被广泛研究。虽然大多数有前途的探测器都能够在清晰的图像中探测到感兴趣的物体，但这些图像通常是从地面摄像机捕获的。随着机械技术的快速发展，配备摄像头的无人机（UAV）越来越多地部署在许多工业应用中，在安全监视、维和、农业、交付、航空摄影、灾难援助等方面开辟了计算机视觉应用的新前沿[40，25，3，14，44]。基于UAV的应用的核心特征之一是检测感兴趣的对象（例如，行人或车辆）。前两位作者对本文的贡献相等†目前就职于Apple Inc.尽管有很高的要求，但无人机的目标检测还没有得到充分的研究。与此同时，无人机安装的摄像机的大移动性带来了比传统目标检测（使用监视或其他地面摄像机）更大的挑战，例如但不限于：• 高度和物体比例的变化：图像中捕获的物体的比例受到无人机飞行高度的密切影响例如图像在500米高空飞行的DJI Mixire 2系列[2]将包含非常小的物体，这对探测和跟踪非常具有挑战性。此外，UAV可以在各种高度下操作，同时捕获图像。当在较低海拔拍摄时，它的相机可以捕捉到更多感兴趣物体的细节当它飞到更高的高度时，相机可以观察更大的区域，并且在图像中捕获更多的物体因此，同一个物体在整个拍摄视频中的尺度可能会有很大变化，在一次飞行中飞行高度也会不同。• 视角的变化：无人机的机动性导致从不同和自由的角度拍摄视频，在广告中，根据不同的海拔高度。例如，无人机可以在很短的时间内从正视图、侧视图、鸟瞰图观察一个物体不同的视角导致物体的任意取向和宽高比在传统的地面目标检测中，有些视角（如因此，基于无人机的检测模型必须处理同一目标的更多不同视觉外观。请注意，更多的视角，可以目前sented当海拔增长更高。此外，更宽的视角通常会导致视图中的对象更密集。• 天气和光照的变化：在不受控制的室外环境中操作的UAV可能在各种天气和光照条件下飞行。的照明（白天与夜间）和天气（例如，晴天、多云、有雾或下雨），将严重影响物体的可见度和外观。大多数现成的检测器通常是用变化较小、视图受限的数据训练的相比之下，大量的无人机特有的滋扰将导致1202(a)基线F-RCNN（b）NDFT-Faster-RCNN（A）(c)NDFT-Faster-RCNN（A+V）（d）NDFT-Faster-RCNN（A+V+W）图1：示例显示了所提出的NDFT框架在UAVDT数据集上用于对象（车辆）检测的好处：从（a）Faster-RCNN [39]基线开始，逐渐（b）解开高度（A）的干扰;（c）消除高度（A）和视角（V）的干扰;以及（d）解开高度（A）、视角（V）和天气（W）的所有干扰。检测性能从（a）到（d）逐渐提高，其中在更多干扰上解除纠缠（红色矩形框表示超出基线的新的正确检测）。基于无人机的检测模型可以在大量不同的细粒度域中运行。在这里，域可以被解释为滋扰的特定组合：例如，在低海拔和白天拍摄的图像以及在高海拔和夜间区域拍摄的图像构成两个不同的区域。因此，我们的目标是训练一个跨域对象检测模型，该模型对这些大量的细粒度域保持鲁棒性。现有的潜在解决方案包括数据增强[1，13]，主适应[34，8]和专家模型的集成[26]。然而，这两种方法都不容易推广到多个和/或看不见的领域[34，8]，并且它们可能导致不适合UAV机载部署的过度参数化模型[1，13，26]。一顿（几乎）免费的午餐：细粒度营养标注。鉴于上述情况，我们将基于无人机的目标检测问题转化为具有细粒度域的跨域目标检测问题。兴趣客体类型具有跨领域性;应保留和提取这些与任务相关的特征。上述UAV特定的干扰构成域特定的干扰，其应当被消除以用于可转移特征学习。对于无人机，主要的滋扰类型是公认的，例如，高度、角度和天气。更重要的是，在特定情况下，无人机，这些滋扰注释可以很容易地获得，甚至免费提供。例如，UAV可以通过GPS或更准确地通过气压传感器将其飞行高度记录为元数据。对于另一个示例，天气信息易于检索，因为利用每个UAV飞行受这些观察的启发，我们提出学习一种对象检测模型，该模型在提取任务相关特征的同时保持其有效性高度/角度/天气）。我们利用免费（或轻松）访问讨厌的注释。在此基础上，我们首次采用了对抗性学习框架，通过以一种超监督的方式明确地分离特定于任务的特征和讨厌的特征来学习特定于任务的、域不变的特征。该框架被称为 Nuvid Disentang- gled FeatureTransform（NDFT），产生了高度鲁棒的基于UAV的对象检测模型，其不仅可以直接应用于训练中的域，而且可以直接应用于更多的在两个真实的无人机目标检测基准上的实验表明了NDFT的最新有效性。12032. 相关作品2.1. 目标检测：通用和无人机专用物体检测已经取得了巨大的进步，部分归功于建立的基准（即MS COCO [29]和PASCAL VOC [15]）。主要有两种主要的方法：两级检测器和单级检测器，取决于检测器是否具有提议驱动机构。两阶段检测器[18，23，17，39，10，51，52]包含区域建议网络（RPN），首先生成区域建议，然后提取基于区域的特征以预测对象类别及其对应位置。单级检测器[36，37，38，31]在对象位置和尺度上应用密集采样窗口，并且通常比两级检测器实现更高的速度，尽管通常以（边际）精度降低为代价。最近提出了一些航空图像数据集（即DOTA [49]，NWPU VHR-10 [9]和VEDAI [35]）。然而，上述数据集仅包含地理空间图像（例如，卫星）与鸟瞰小物体，这是不一样的，因为无人机捕获的图像具有更大的变化的高度，姿势和天气。此外，从航空图像中检测物体的常见做法仍然是部署现成的地面物体检测模型[21，33]。直到最近，公共基准才可用于专门基于无人机的目标检测。发布了两个数据集， UAVDT [12] 和VisDrone2018 [54]，以弥补这一差距。UAVDT由复杂场景下从无人机捕获的100个视频序列（约80k帧）组成。此外，它还提供了完整的注释，天气条件，飞行高度，和相机的意见，除了地面实况边界框的目标对象。VisDrone2018 [54]是一个大规模的基于无人机的目标检测和跟踪基准，由10，209张静态图像和来自263个视频剪辑的179，264帧组成检测微小物体检测微小物体的典型自组织方法是通过学习所有物体在多个尺度上的表示。然而，这种方法效率非常低，性能增益有限。[7]提出了一种使用耦合字典学习的超分辨率算法[47，27，30]提出在内部超分辨小物体的特征图，使它们与大物体的特征SNIP[42]表明，CNN对对象尺度的变化并不自然鲁棒。它提出在图像金字塔的相同尺度上训练和测试检测器，并在训练阶段选择性地反向传播不同大小的对象实例的梯度作为图像尺度的函数。SNIPER [43]在不同的适当尺度上进一步处理了地面实况实例周围的上下文区域，以有效地在多个尺度上训练检测器，从而更好地检测微小物体。2.2. 处理域差异通过对抗性训练的领域自适应对抗性领域自适应[16]被提出来通过仅使用来自源领域的标记数据加上来自目标领域的大量未标记数据进行学习来减少领域差距。这种方法最近在检测领域也得到了越来越多的关注[46]通过对抗性网络生成的硬阳性示例，学习了对遮挡和变形的鲁棒检测模型。[8]通过在图像和实例级别上强制对抗域自适应，提高了对象检测的跨域鲁棒性。[5]引入了Siamese-GAN来学习来自两个不同领域的标记和未标记航空图像的不变特征表示。CyCADA[24]将循环一致性与对抗性损失统一起来，以学习域不变性。然而，这些域自适应方法通常假定一个（理想）源域和一个（非理想）目标域。将这些方法推广到处理许多细粒度领域的可能性一旦出现新的不可见领域，领域适应就需要明确的再训练。相比之下，我们提出的框架不假设任何理想的参考（源）域，而是试图提取不变的功能共享许多不同的“非理想”的目标域（包括看到和看不见的），通过解开特定领域的因此，该设置不同于典型的域适应，并自然地推广到看不见的域中的特定任务的特征提取。数据增强和模型扩展与大量的分类数据增强研究[16]相比，对检测等其他任务的关注较少[1]。经典的数据增强依赖于一组有限的预先已知的因素（如缩放，旋转，翻转），这些因素很容易调用，并采用不太可能改变标签的临时小扰动，以获得对这些变化的鲁棒性。然而，无人机图像将涉及更多种类的滋扰，其中许多难以不同角度的图像。[13，53]提出了基于学习的方法来合成用于检测的新训练样本。但他们专注于重新组合前景物体和背景环境，而不是重新组合特定的讨厌的属性。此外，（大得多）的增强数据集增加了训练负担，并可能导致过度参数化的模型。在[26]中提出了另一种方法。为了捕捉由不同形状姿势和视角引起的外观变化，它提出了一个由三个专家组成的多专家R-CNN，每个专家负责具有特定形状的对象：水平伸长的、方形的和垂直伸长的。这种方法具有局限性，因为随着涉及更多不同的域，模型集成很快变得过于昂贵。它还不能推广到未知或看不见的领域。1204NN生成模型中的特征解纠缠特征解纠缠[50]导致非重叠的因子分解潜在表示组，每个组都将正确地描述特定感兴趣属性的相应信息。它主要应用于生成模型[11，41]，以便从潜在特征空间的内容中解开变化因素。在图像到图像的翻译中，最近的工作[19]将图像表示分解为两个域的共享部分和任一域的独占部分。NDFT将特征分解的思想扩展到学习跨域鲁棒判别模型。由于与生成模型的应用范围不同，我们没有将分解后的分量加回以重构原始输入。3. 我们的方法3.1. NDFT公式我们提出的基于无人机的跨域目标检测可以被描述为一个对抗性训练框架。假设我们的训练数据X与对象检测任务O和UAV特定的对象预测任务N相关联。我们在数学上将跨域目标检测的目标表达为交替优化两个目标如下（γ是权重系数）：minLO（fO（fT（X）），YO）−γLN（fN（fT（X）），YN），fT、fO和f is都可以通过深度网络实现。解释为三方博弈NDFT可以从三个竞争者的博弈优化中得出：max minLO（fO（fT（X）），YO）−γLN（fN（fT（X）），YN）fN fO，fT其中fT是混淆器，fN是攻击者，fO是利用者（采用ML安全术语）。事实上，（1）中的两个子优化表示求解该统一形式的迭代例程（执行{fT，f0}和fN）。这种形式可以很容易地捕获许多其他设置或场景，例如，隐私保护视觉识别其中fT编码特征以避免来自f N的窥视，同时保留f O的效用。3.2. 实施和培训体系结构概述：NDFT-Faster-RCNN作为一般NDFT框架（2）的示例，图2显示了使用更快的RCNN主干[39]，而稍后我们将演示NDFT可以与其他更复杂的对象检测网络（例如，FPN）。在训练过程中，输入数据X首先通过NDFT模块fT，其输出fT（X）同时通过两个后续分支。上面的物体fO，fTminLN（fN（fT（X）），YN）fN（一）检测分支f0使用fT（X）来检测对象，而较低的滋扰预测模型fN从相同的 fT（X）预测滋扰标签。最后，网络迷你在（1）中，f0表示执行对象检测的模型任务O的输入数据。标签集YO是在X上提供的对象边界框坐标和类标签。L0是被定义为评估对象检测的成本函数在O.另一方面，UAV特定干扰YN的标签来自元数据以及X（例如，飞行高度、相机视野或天气状况），以及标准成本函数LN（例如，softmax）被定义来评估N上的任务性能。在这里，我们公式化的滋扰鲁棒性的滋扰预测精度的抑制从学习功能。我们寻求一种新的解纠缠特征变换（NDFT）fT通过求解（1），使得• 与使用X相比，目标检测任务性能LO在fT（X）上受到的影响最小。• 与使用X相比，滋扰预测任务性能LN在fT（X）上得到最大抑制。为了处理多重滋扰案，我们执行-倾向于（1）多个预测任务。在这里，我们作为与标签集Y1，.，Y K。 γ1，…γk是相应的权重系数。最大化fT的预测惩罚（错误率），而最大-最小化fN的预测惩罚，如（2）所示通过在上述对抗设置中联合训练fT、fO和fis，NDFT模块将找到保留对象检测相关特征同时去除UAV特定干扰预测相关特征的最佳变换，从而实现对UAV特定干扰鲁棒的跨域对象检测的目标。fT、fO和fN的选择在这个NDFT-Faster-RCNN示例中，fT包括Faster-RCNN的ResNet 101部分的conv 1x、conv 2 x、conv 3 x和conv 4 x。 fOin-包括conv5 x层，附加有用于检测的分类我们进一步使用与f O相同的架构实现f N（除了用于预测的类的数量）。f T的输出在经过RoIAlign [22]层之后被馈送到f O，而它在经过空间金字塔池化层之后被馈送到fN [23]。L0和LNL0的选择是边界框分类（例如，softmax）和回归损失（例如，平滑滤波器1），如在传统的两级检测器中广泛使用的。但是，我们-ing −L因为（2）第一行中的对抗性损失不是N Nn修改后的目标自然变为：ΣkminLO（fO（fT（X）），YO）− γiLN（fi（fT（X）），Yi），直截了当如果我们选择LN作为一些典型的分类损失，如softmax，则直接fO，fTNi=1N容易发生梯度爆炸。在试验了minLN（fi（fT（X）），Yi）（2）f1，...，fkN N几种解决方案，如梯度反转技巧[16]，我们[32]第33话选择一个人，N N1205NONNNNNNNΣΣ目标检测分支conv1conv2conv3conv4NUCLEAR去纠缠特征变换海拔视图天气营养预测分支图2：我们提出的NDFT-Faster-RCNN网络。算法1通过对抗训练给定预先训练的NDFT模块fT、对象检测任务模块fO和干扰预测模块fis，对于训练迭代的次数对n个示例{X1，···，Xn}用随机梯度更新NDFT模块fT（权重wT）和对象检测模块fO（权重wO）阿格夫·T1乌夫昂Σnj=1ΣLO（fO（fT（Xj）），Yj）+Σki=1ΣγiLne（fi（fT（Xj）））而至少一个干扰预测任务具有≤0的训练精度。9、防止f is变得太弱。更新干扰预测模块fi，. . . ，fk（权重w1，. . . ，wk）的随机梯度：无无无无无无无n k1i jjwi nj=1i =1LN（fN（fT（X）），YN）重新启动f i，。. . ，fk，并从一开始重复算法1。减轻过度拟合。N N将预测的类向量作为对抗性损失，使用标准随机梯度下降（SGD）在（3）中定义记为Lne。最小化Lne将鼓励模型同时，我们将继续分支：作为fT做出如果f中的至少一个变得太弱（即，形成随机猜测）的滋扰。由于我们在（2）中的第一个目标中用Lne替换LN，因此它不再需要YN。同时，LN和YN的使用在（2）的第二目标中保持不受影响LN和YN用于在初始化时预训练fis，并且在相同的小批量上显示出较差的预测精度），则通过使用SGD最小化（3）中的第二目标目标是此外，我们还发现了一个经验技巧，通过周期性地重新设置电流，N我租了f 1的权重，...，f k随机初始化，然后保持fNs作为对抗性训练，为了学习有意义的fT，更好地概括我们的最终框架在以下两种情况之间交替Σk在fT（X）上重新训练它们（fT固定），使它们变得强壮在我们重新开始上述工作之前，fT，fO和fis的交互过程这个重新开始的把戏是最小LOfO，fT（fO（fT（X））、Y（O）+i=1γiLne（fi（fT（X），N也发现有利于学习fT的推广[48]，这可能是因为帮助摆脱了一些糟糕的局部最小值。minLN（fi（fT（X）），Yi）（3）f1，...，fkN NN N4. 实验结果训练策略就像训练GAN [20]一样，我们的训练容易崩溃和/或局部极小值。因此，我们提出了一个精心设计的交替更新策略的训练算法。训练过程在算法1中总结并在下面解释。对于每个小批量，我们首先联合优化fT和fO权重（fis冻结），通过最小化第一个目标1206由于公共的基于无人机的目标检测数据集（特别是那些具有滋扰注释的数据集）目前的可用性非常有限，我们设计了三组实验来验证NDFT的有效性，鲁棒性和通用性。首先，我们在UAVDT基准测试[12]上进行了主要的实验，该基准测试提供了所有三种无人机特有的滋扰注释（高度、天气、1207(a) DE-FPN（b）NDFT-DE-FPN图3：一个示例显示了所提出的NDFT方法在VisDrone2018数据集上进行对象检测的好处。蓝色和绿色矩形框分别表示行人和汽车。红色矩形框表示NDFT-DE-FPN在DE-FPN基线之外正确检测到的新对象。视角）。我们证明了清晰的观察，即更多的变化是通过NDFT解开，更大的AP改善，我们将获得对无人机的AVDT;并最终实现了无人机机载显示终端的最新性能。然后我们转向另一个公共基准，Vis-Drone 2018。最初，滋扰注释没有在VisDrone2018上发布。我们手动注释nui-每张图片上的sances：这些注释将被公开发布，并有望成为Vis- Drone的一部分。学习NDFT比最好的单个模型提供了性能提升，并使我们在Vis-Drone 2018验证集2上获得了（单个模型）最先进的平均精度（mAP）1。此外，我们还研究了从UAVDT上学习的NDFT到VisDrone2018的迁移学习设置。探索迁移的目标是因为无人机经常遇到看不见的场景，并且学习特征的良好可迁移性促进了更一般的可用性。在检测（共享）车辆类别时， fT 表现出较强的可转移性，优于VisDrone2018排行榜上目前报道的最佳单模型方法[4]。4.1. UAVDT：结果和消融研究UAVDT上的图像目标检测轨迹由大约41k帧和840k边界框组成它有三个类别：汽车，卡车和公共汽车，但类分布是高度不平衡的（后两个占用小于5%的边界框）。因此，按照作者在[12]中的约定，我们将这三种车辆合并为一个车辆类别，并在此基础上报告AP。所有帧还标注了三种类别的无人机特有的滋扰：飞行高度（低、中、高）、摄像机视图（前视图、侧视图和鸟瞰图）和天气10类物体的1mAP是VisDrone2018的标准评估标准。条件3（白天，夜晚）。我们将这三个数分别简称为A、V和W。实施细节我们首先做了最好的尽职调查改善基线（不考虑滋扰因素），dling），以确保NDFT有足够坚实的基础。作者使用具有VGG-16主干的Faster-RCNN模型报告了1020的AP。我们用ResNet-101替换了主干，并微调了锚标度等超参数（16，32，64，128，256）。之间能发生45.64的改进AP（使用相同的IoU阈值=0.7作为我们的基准性能。我们还亲自与[12]的作者进行了沟通，他们承认这一改进的基线。然后，我们使用图2中描述的架构实现NDFT-Faster-RCNN，也使用ResNet-101主干。我们将γ1、γ2和γ3分别表示为（1）中的系数，分别用于高度、景观和天气干扰的Lne损失项。结果和分析我们以渐进的方式展开了对无人机的全面消融研究：首先，我们研究去除每个单独的滋扰类型（A、V和W）的影响。然后，我们逐渐着手消除两个和三个滋扰类型，并显示由此产生的一致收益。表1、表2和表3分别示出了去除飞行高度（A）、摄像机视野（V）和天气条件（W）干扰的益处。这可以被视为学习NDFT-Faster-CNN（图2），只有对应的一个γi（i= 1，2，3）是非零的。无干扰解缠的基线模型具有γi= 0，i = 1，2，3。从表1可以看出，与基线（γ1= 0）相比，在γ1= 0处获得总AP增益。03，其中我们实现了0.28的AP改善表2显示了通过移除相机视图（V）干扰而获得的性能增益。在γ2=0时。01，获得了0.52的总体AP改善。当天气（W）2. UAVDT排行榜上的前2名是模型集合。为了公平起见，我们只与单一模型的解决方案进行比较3我们放弃了另一个“模糊”类，因为它太小了。1208N表 1 ：仅在高度滋扰上学习 NDFT-Faster-RCNN，在UAVDT数据集上具有不同的γ1表 2 ：仅在视角干扰上学习 NDFT-Faster-RCNN，其中在UAVDT数据集上具有不同的γ2表 3 ：仅在天气干扰下学习NDFT-Faster- RCNN，具有不同的γ3值一γ1低Med高整体0.068.1449.7118.7045.640.0169.0150.4614.6345.310.0266.9746.9116.6944.170.0366.3853.0015.6945.920.0565.4648.4316.5844.36Wγ3天晚上整体0.045.6352.1445.640.0145.1859.6646.620.02543.7257.4144.430.0543.8950.2543.790.144.2848.7843.60Vγ2前侧鸟整体0.053.3468.0227.0545.640.0157.4567.6125.6046.160.0261.4966.8524.9345.730.0354.5568.2223.0745.420.0464.9366.8324.9646.10滋扰被消除：γ3=0。01导致整体AP比基线提高0.98，更具挑战性的夜间课程AP增加了7.52。表4显示了在训练中逐步增加更多对抗性损失的完整结果。例如，A+V+W代表同时解开飞行高度，相机视图和天气滋扰。当使用两个或三个损失时，除非另有说明，我们应用γi= 0.01，如表1-3中所示，可给出最佳的单一滋扰结果。作为整个表中一致的观察结果，通过NDFT去除的滋扰越多，我们获得的AP值越好（例如，A+V 性能优于三个单一模型中的任何一个，A+V+W进一步实现了所有AP中的最佳AP）。总之，使用NDFT去除干扰显然有助于解决高机动性无人机平台上目标检测的难题此外，最终表现最好的A+V+W在一些最具挑战性的滋扰类（如高海拔、鸟瞰和夜间）上显著改善了类AP在这些情况下，改进目标检测对于以更好的可靠性和鲁棒性将安装有相机的UAV部署到不受控制的、潜在不利的视觉环境是重要的表 4 ：具有多个属性解缠的 UAVDT NDFT- 更快 -RCNN。基线一VWA+VA+WV+WA+V+W飞行高度低68.1466.3871.0975.3266.0568.6166.8974.84Med49.7153.0052.2951.5954.0749.1856.0756.24高18.7015.6916.6216.0818.6019.1915.4220.55相机视图前53.3453.9057.4562.3661.2351.0556.6764.88侧68.0267.4167.6168.4768.8268.7167.6267.50鸟27.0524.5625.6023.9724.4327.9624.4128.79天气状况天45.6347.3245.3045.1846.2645.1945.9045.91晚上52.1445.8256.7059.6659.1659.7853.3564.16整体45.6445.9246.1646.6246.8846.6446.0347.91采用更强的FPN骨干我们证明了NDFT的性能增益不会随着我们采用更复杂的骨干而消失，例如。FPN [28].对FPN进行UAVDT训练后，基线性能从45.64提高到49.05.通过替换Faster-RCNN在NDFT训练管道中使用FPN，所得到的模型学习同时解开A+V+W干扰（γi= 0.005，i= 1，2，3）。我们能够进一步将总体AP增加到52.03，显示了NDFT的总体优势，无论主干选择如何。基于NDFT跟踪的概念验证以目标检测为主要焦点，我们还评估了NDFT对无人机跟踪的概念验证。我们选择SORT[6] （一个流行的在线和实时跟踪器）和评估的多目标跟踪（MOT）任务定义的无人机。我们遵循[12]中采用的检测跟踪框架，并分别比较基于vanilla Faster-RCNN和NDFT-Faster- RCNN（A+V+W）的检测输入的跟踪结果。所有的评价原型都继承自[12]。如表5所示，NDFT-FRCNN在11个指标中的10个指标上大大优于vanilla基线，显示出其甚至超出检测的前景。表5：MOT任务的NDFT与普通基线IDFIDPIDRMotaMOTPMT[%]ML[%]FPFNIDsFMFRCNN43.758.934.839.074.333.928.033,037172,6282,3505,787NDFT-FRCNN52.966.844.538.476.539.827.332,581152,3791,5505,026利用滋扰注释的另一个合理的选择是联合预测Y0和Yis作为标准的多任务学习。为了与NDFT公平地进行比较，我们将符号从-（2）第一行，通过它，滋扰预测-在多任务学习中，任务成为三个辅助损失（AL）。我们最小化这个新的优化，并通过执行网格搜索来仔细地重新调整AL的γi s。如被看见从如表6所示，虽然AL也能够在基线上略有改善（如预期的那样这些实验客观地确定了对抗性损失与标准辅助性损失的作用表6：比较基线Faster-RCNN，添加辅助损失，以及我们提出的NDFT方法。海拔视图天气整体低Med高前侧鸟天晚上基线45.6468.1449.7118.7053.3468.0227.0545.6352.14AL45.6966.5850.8018.2861.4966.8524.9345.6253.64NDFT46.8170.4855.0616.1257.0668.0727.5946.0559.561209(a) DE-FPN（b）NDFT-DE-FPN（r）图4：显示NDFT-DE-FPN（r）优于DE-FPN的Vis-Drone 2018数据集上对象检测性能的示例。红色框突出显示NDFT-DE-FPN（r）能够检测到比DE-FPN（VisDrone 2018上最先进的单模型方法）更多车辆的局部区域。4.2. VisDrone2018：结果和分析VisDrone2018上的图像对象检测轨道提供了一个包含10，209张图像的数据集，其中包含10类行人、车辆和其他交通对象的注释。我们手动注释无人机特定的滋扰，与无人机上相同的三个类别根据排行榜[4]和研讨会报告[55]，性能最好的单一模型是DE-FPN，它利用FPN（去除P6）和ResNeXt-101 64-4d主干。作为我们的比较主题，我们通过完全遵循[55]中的方法描述来实现DE-FPN采用 DE-FPN 主干， NDFT 通过同时解开三个干扰（A+V+W）来学习。我们使用NDFT建立了DE-FPN模型，称为NDFT-DE-FPN。DE-FPN和NDFT-DE-FPN的性能使用VisDrone 2018验证集上的10个对象类别的mAP进行评估，因为测试集不可公开访问。表7：VisDrone2018验证集上的mAP比较DE-FPNNDFT-DE-FPNγi（i= 1，2，3）00.0010.0030.0040.0050.010.02地图48.4148.9749.7551.6652.7751.6750.42结果和分析如表7所示，NDFT-DE-FPN比DE-FPN提高了4.36 mAP，使其成为VisDrone 2018上最先进的新单机型图3显示了一个直观的比较示例。4.3. 从无人机转移到VisDrone2018问题设置我们使用VisDrone2018作为测试平台，展示从UAVDT学习的NDFT功能的可移植性。我们选择DE-FPN作为比较对象。DE-FPN在VisDrone 2018训练集上进行训练，并在验证集的车辆类别上进行测试。然后我们训练相同的DE-FPN骨干在无人驾驶飞机上，三个滋扰（A+V+W）被解开（γ1=γ2=γ3=0. 005）。然后，通过仅重新训练分类/回归层，同时保持其他特征提取层全部固定，将学习到的f T转移到VisDrone 2018。通过这种方式，我们专注于使用NDFT评估学习的特征可转移性。此外，我们用γ1=γ2=γ3=0重复上述程序，以创建传输的DE-FPN基线，而不会产生干扰解缠。我们将这两个转移模型分别表示为NDFT-DE-FPN（r）和DE-FPN（r）。由于车辆是UAVDT和VisDrone2018之间唯一共享的类别，因此我们仅比较车辆类别的平均精度，以确保公平的传输设置。在VisDrone 2018验证集上比较了DE-FPN、NDFT-DE-FPN（r）和DE-FPN（r）的性能（因为测试集不可公开访问）。结果与分析DE-FPN、DE-FPN（r）和NDFT-DE-FPN（r）的AP分别为76.80、75.27和79.50，在车辆类别上。将 DE-FPN 从 UAVDT 直接传输到VisDrone 2018（后者进行了微调）不会产生竞争性性能，这表明两个数据集之间存在大量的域不匹配。然而，将学习的NDFT传输到VisDrone 2018会导致性能提升，在没有解缠的情况下，传输基线的AP裕度为4.23，DE-FPN为2.70它表明，NDFT可能有助于更普遍的可转移的无人机目标检测器，处理更多的看不见的场景（域）。VisDrone2018上的可视化COM示例如图4所示。5. 结论本文研究了从无人机安装的摄像机，一个非常有用的，但研究不足的问题，lem的目标检测。由于许多无人机特有的干扰，这个问题似乎比标准物体检测更具挑战性我们建议通过显式地学习一个NUTRIBUTION解纠缠特征变换（NDFT），利用“免费”的元数据来获得对这些干扰的鲁棒性真实无人机图像上的大量结果证实了其有效性。1210引用[1] 边界框的数据增强：重新思考对象检测的图像变换https://www.kdnuggets.com/2018/09/data-augmentation-bounding-boxes-image-transforms. html，2018. 二、三[2] Dji inspire 2 specs.https://www.dji.com/inspire-2/info#specs，2018.1[3] 无人机送货。https://scet.berkeley.edu/wp-content/uploads/ConnCarProjectReport-1.pdf，2018.1[4] Visdrone2018图像中的物体检测排行榜。网址：//aiskyeye.com/views/getInfo? loc=13，2018. 六、八[5] Laila Bashmal ， Yakoub Bazi ， Haikel AlHichri ，Mohamad M AlRahhal ， Nassim Ammour ， and NaifAlajlan.暹罗人：飞行器图像分类的学习不变表示。遥感，10（2）：351，2018年。3[6] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。2016年IEEE图像处理国际会议（ICIP），第3464-3468页。IEEE，2016. 7[7] Liujuan Cao，Rongrong Ji，Cheng Wang，and JonathanLi. 基于监督超分辨率变换的卫星图像区域自适应车辆检测2016. 3[8] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在IEEE计算机视觉和模式识别会议论文集，第3339- 3348页，2018年。二、三[9] 宫成、韩俊伟、周沛城、雷郭。基于部分检测器集合的多类地理空间目标检测与地理图像分类。ISPRS Journalof Photogrammetry and Remote Sensing，98：119-132，2014。3[10] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年。3[11] Guillaume Desjardins ， Aaron Courville ， and YoshuaBengio. 通过生成纠缠解开变异因素。 arXiv预印本arXiv：1210.5474，2012。4[12] Dawei Du，Yuankai Qi，Hongyang Yu，Yifan Yang，Kaiwen Duan，Guorong Li，Weigang Zhang，QingmingHuang，and Qi Tian.无人机基准：目标检测和跟踪。arXiv预印本arXiv：1804.00518，2018。三五六七[13] 尼基塔·德沃尔尼克朱利安·麦拉尔和科迪莉亚·施密德建模视觉上下文是增强对象检测数据集的关键。欧洲计算机视觉会议，第375-391页Springer，2018. 二、三[14] 米兰·埃德尔和恩里科·纳塔利齐奥。无人机辅助灾害管理：应用程序和开放问题。在计算，网络和通信（ICNC），2016年国际会议上，第1-5页。IEEE，2016.1[15] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010。3[16] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督域自适应。arXiv预印本arXiv ： 1409.7495，2014。三、四[17] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。3[18] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conferen

下载后可阅读完整内容，剩余1页未读，立即下载