补丁排列加速千兆像素级别图像上的对象检测

110 浏览量更新于2023-10-25 收藏 20.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

46530使用补丁排列加速千兆像素级别图像上的对象检测0Jiahao Fan 1，Huabin Liu 1，Wenjie Yang 1，John See 2，Aixin Zhang 1，Weiyao Lin 101 上海交通大学，中国，2 Heriot-Watt大学，马来西亚0{ jiahaofan，huabinliu，13633491388 } @sjtu.edu.cn，J.See@hw.ac.uk，{ axzhang，wylin } @sjtu.edu.cn0摘要0随着超高分辨率（例如，千兆像素级别）图像的出现，对这些图像进行高效的对象检测变得非常重要。大多数现有的高分辨率图像上的高效对象检测方法都专注于生成可能存在对象的局部补丁，然后独立地对每个补丁进行检测。然而，当图像分辨率达到千兆像素级别时，它们将面临检测大量补丁的巨大时间成本。与它们不同，我们设计了一种新颖的用于千兆像素级别图像上快速对象检测的补丁排列框架。在这个框架下，我们提出了一个补丁排列网络（PAN），通过确定哪些补丁可以组合成一个紧凑的画布来加速检测。具体而言，PAN包括（1）补丁过滤模块（PFM）（2）补丁打包模块（PPM）。PFM通过学习选择两个粒度之间的补丁来过滤补丁候选项。随后，PPM确定如何将所有剩余的补丁打包在一起形成较少数量的画布，并在画布上生成理想的补丁布局。这些画布被输入到检测器中以获得最终结果。实验证明，我们的方法可以在千兆像素级别图像上提高推理速度5倍，同时保持良好的性能。01. 引言0随着超高分辨率相机的广泛使用，图像分辨率迅速增加，最近已经达到了千兆像素级别（例如，25,000×14,000像素）[20]。因此，高效地分析这样的图像是一个巨大的挑战。最近，一些用于高分辨率图像上高效对象检测的方法[8,23]已经被提出。如图1a所示，为了加速对象检测，它们专注于从高分辨率图像中生成可能包含对象候选项的局部区域（称为“补丁”）。然后，只对补丁进行检测。0*对应作者。0图1. 流程比较。（a）之前的方法：首先生成可能包含对象候选项的补丁，然后对所有补丁分别进行检测。（b）我们的方法：基于多粒度补丁树，选择并将某些补丁组合成较少数量的紧凑画布。只对画布进行检测。0在超高分辨率图像（例如，千兆像素级别图像）上执行对象检测时，为了实现加速，通常会对这些调整大小的补丁进行操作，而不是对整个图像进行操作。因此，它们的时间成本取决于补丁的数量。然而，当应用于超高分辨率图像时，这些方法可能需要大量的补丁来确保性能。因此，在千兆像素级别图像上，它们仍然可能面临巨大的时间成本。在千兆像素级别图像中，我们观察到没有必要也不理想地对每个生成的补丁单独执行检测。如图1b所示，一些补丁可以组合在一起形成一个新的紧凑补丁（称为“画布”）。通过这种方式，处理较少数量的画布而不是大量补丁可以显著加快检测速度。基于上述直觉，我们提出了一种新颖的用于千兆像素级别图像上的对象检测的框架。在这种检测框架下，一个补丁排列网络（PAN）以局部到全局的视角将补丁排列成紧凑的画布，用于最终的检测。46540因此，它在千兆像素级别图像中显著加快了对象检测速度，同时保持了理想的性能。首先，我们为输入的千兆像素级别图像建立了一个多粒度补丁树，其中包括细粒度补丁（叶层节点）及其对应的粗粒度补丁（中间层节点）。为了嵌入补丁的信息并探索它们之间的关系，我们应用了基于LSTM的树结构编码器。随后，基于该树中的多粒度补丁候选项进行排列。其次，我们提出了一个补丁过滤模块（PFM），它学习在两个粒度之间进行自适应的补丁选择，即将一些相邻的细粒度补丁排列到它们对应的粗粒度补丁中。通过这种方式，可以通过用较少的粗粒度补丁替换一些补丁候选项来加速检测。第三，我们进一步开发了一个补丁打包模块（PPM）。它确定如何将所有剩余的补丁打包在一起形成较少数量的画布，并在画布上生成紧凑的补丁布局。PFM在相邻补丁（局部视图）上进行排列，而PPM则考虑所有补丁进行排列（全局视图）。最后，整个框架与基于策略的强化学习一起进行训练。请注意，我们的理论加速比可以通过设置每个画布中可以打包的最大补丁数量来进行控制。我们在千兆像素级别的PANDA[20]数据集和各种检测器上评估了我们的方法。PAN在提高推理速度5倍的同时保持理想的检测性能。我们的工作的主要贡献有三个方面：0•我们设计了一种新颖的框架，用于在千兆像素级别图像上进行高效的目标检测，该框架将补丁自适应地打包到紧凑的画布中，并为该画布中的选定补丁生成理想布局。0•在这个框架下，我们提出了一种新颖的多粒度补丁树来探索补丁之间的关系。基于这棵树，提出了补丁过滤模块和补丁打包模块，分别在局部和全局视图中安排补丁候选。0•大量实验证明，PAN可以在保持高检测性能的同时，将对千兆像素图像的检测推理速度提高5倍。02. 相关工作0高分辨率图像上的目标检测随着高分辨率（HR）相机的广泛应用，对在HR图像上进行目标检测的需求不断增加。通常，航空和遥感图像的分辨率相对较高。例如，VisDrone[24]数据集中的图像可以达到2000×1500像素。最近，引入了PANDA [20]，它是0第一个千兆像素级（25,000×14,000）人类中心视频和图像数据集。它进一步扩展了高分辨率图像分析的前沿[10,11]，并对在这样大的图像上加速目标检测仍然是一个巨大的挑战。加速目标检测的主要方法之一是设计高效的网络架构（例如Faster R-CNN [15]，YOLO [14]和SSD[12]）。然而，它们大多数是在MSCOCO等一般图像上开发的。直接将它们应用于HR图像可能仍然会导致巨大的时间成本。同时，HR图像的特定方法在之前并没有得到很好的研究。因此，最近一些工作已经提出了在相对HR图像上加速目标检测的方法。[4]提出了一种图像级解决方案，它自适应地为每个输入图像选择分辨率。人们认识到，我们只能在一些局部区域上进行必要的计算，而不是整个HR图像上进行计算。基于这个直觉，大多数现有的工作都集中在寻找可能存在对象的局部空间补丁上。[16]将在低分辨率上获得的检测框视为补丁，并在精细分辨率上对这些补丁进行最终检测。类似地，CRENet[21]将粗略的检测结果聚类形成补丁。ClusDet[23]遵循RPN[15]的思想，使用神经网络估计准确的补丁。AutoFocus[13]和GLSAN [5]基于图像特征生成补丁。DMNet[8]在密度图的指导下获得补丁。此外，强化学习（RL）也被采用来找到有价值的补丁[6,18]。然而，上述方法通常需要更多的补丁来确保性能，随着图像分辨率的增加，补丁的数量将会很多（可能超过12,000）。因此，它们对应的时间成本在实际应用中仍然无法承受。03. 提出的方法0图2a说明了我们框架的概述。在接下来的章节中，我们首先描述了我们的多粒度补丁树的构建。基于这棵树，我们详细介绍了我们方法中涉及的主要模块：补丁过滤模块（PFM）和补丁打包模块（PPM）。最后，我们描述了如何优化我们的框架。03.1. 补丁树生成0为了学习如何安排来自同一高分辨率图像的补丁，我们认为表示和学习它们的内在关系至关重要。我们不是单独使用每个补丁，而是通过首先构建一棵多粒度补丁树来充分探索它们的内在关系。初始补丁生成。按照CRENet[21]的方法，我们首先基于聚类获得初始补丁。具体来说，152 3 4 62 5 4 3LayoutGroup25 43234502 5 4 30123 4 5 6 767234510Patch Generation0152 3 4 6 72 5 4 3LayoutGroup25 43234502 5 4 30123 4 5 6 767234510Patch Generation)hk(1)46550丁打0R filter0R pack0(a)0补丁过滤模块0补丁打包模块0补丁树生成02 5 4 3 E D0E D 补丁过滤0补丁打包0R filter0R pack0(b)0图2. (a) 两阶段补丁排列模块的架构。 (b)联合训练策略。补丁排列策略分为两个子策略：补丁过滤策略（蓝色）和补丁打包策略（绿色）。在每个策略完成后给予不同的奖励。0采用均值漂移[3]根据位置对目标框进行聚类，然后合并这些聚类的框以生成补丁。训练时，我们直接使用真实框进行聚类。对于推断，我们对缩小尺寸的输入图像应用粗略检测器以获取聚类的粗略检测结果。多粒度补丁树。基于初始补丁，我们从叶子到根构建了一个多粒度补丁树G = (V,E)，如图3所示。首先，初始补丁形成了补丁树中的叶子节点；它们被视为细粒度补丁。其次，我们通过均值漂移[3]对这些叶子补丁进行聚类，以在树的中间层获得新的粗粒度补丁。最后，根节点由完整图像表示。它与Vmid中的所有节点相连。通过这种方式，多粒度补丁之间的空间包含关系通过树中节点之间的父子关系来反映。节点集V被分为叶子节点集Vleaf和中间节点集Vmid。每个节点vi ∈V对应一个补丁，当补丁vi在空间上覆盖补丁vj时，节点vi和vj相连。Vleaf和Vmid中的所有补丁节点构成了下一步排列的补丁候选集{vi}Ni=1，其中N = |Vleaf| + |Vmid|。03.2. 树结构编码器0为了探索树中补丁节点之间的关系，我们引入了一种新颖的树结构编码器，用于嵌入（1）每个补丁节点的对象信息和（2）树中补丁节点之间的层间和层内关系。具体来说，我们首先用vi = (xi, yi, wi, hi, ri, ai, oi,ni)表示每个补丁节点vi，其中xi和yi是补丁的中心坐标，wi、hi、ri分别表示其宽度、高度和宽高比。ai是补丁的面积。oi、ni分别表示该补丁中的平均对象面积和对象数量。我们可以通过粗略检测结果估计oi和ni。0（用于初始补丁生成）。接下来，通过可学习的全连接层将这个8维特征嵌入到高维表示中。为了探索树中补丁节点之间的关系，我们应用了一个基于LSTM的模型，由Tree-LSTM[17]和Chain-LSTM（标准LSTM）组成。首先，利用Child-Sum Tree-LSTM[17]来编码树中的层间关系。类似于标准LSTM，每个Tree-LSTM单元（由j索引）都有其隐藏状态hj。在Child-Sum风格下，Tree-LSTM的隐藏状态hj取决于其子节点隐藏状态的总和：0hj =0其中C(j)表示节点vj的子节点集。通过这种方式，树中不同层次的信息可以以自下而上的方式很好地聚合（如图3中的实线所示）。为了进一步学习层内关系，我们首先以链式风格展开Tree-LSTM的隐藏状态。为了灵活实现，我们以先序遍历的方式构建节点链（如图3中的虚线所示）。然后，将展开的隐藏状态顺序输入Chain-LSTM。整体的树结构编码器可以表示为：0zi = LSTM Chain (LSTM Tree (FC (vi))) (2)0其中zi是补丁vi的编码表示。03.3. 补丁过滤模块0在多粒度补丁树中，一个粗粒度补丁在空间上覆盖其对应的细粒度补丁（如图3所示）。直观地说，我们只能保留粗粒度的补丁以显著减少数量。……p(S|G) =m�i=1p(S(i)|S(< i), G)(3)46560Tree-LSTM0Chain-LSTM0中间层0（粗粒度）0叶子层0（细粒度）0图3.多粒度补丁树和编码数据流的示例。实线显示了Tree-LSTM的数据流。虚线显示了Chain-LSTM的数据流。0图4.过滤解码器的机制。解码器以树结构编码器的输出作为输入，并在每个时间步骤上指向树上的特定补丁。0对于检测的补丁候选对象，考虑到对象尺度的差异，不是所有对象都能以较粗的粒度进行良好的检测。基于这个动机，我们引入了补丁过滤模块（PFM），它学习在两个粒度之间自适应地选择补丁候选对象（如图2a顶部所示）。我们将这个过程形式化为一个树到集合的问题。由于树已经被很好地编码，我们应用一个过滤解码器从树中选择补丁。具体来说，过滤模块旨在从补丁节点候选集合{vi}Ni =1中生成一个子集S = {vj}Mi = 0，其中|S| = M 288×288像素）对象的AP。此外，我们还报告了检测器的运行次数#Pass，以反映在吉比像素图像上的推理成本。04.2. 实现细节0为了方便测试图像的补丁生成，我们使用Faster R-CNN[15]和ResNet50[7]骨干网络作为粗略检测器来获得初始结果。为了准备粗略检测器的训练数据，我们将原始吉比像素图像降采样4倍。然后，使用2,048×1,024像素的滑动窗口对降采样后的图像进行分解。在评估我们方法的检测结果时，我们使用相同的检测器和滑动窗口设置（如上所述），但降采样因子为2。对于补丁过滤器和补丁打包模块中的编码器，我们使用大小为64的全连接层，而Tree-LSTM和Chain-LSTM的隐藏层大小为128。对于过滤器解码器和打包解码器，我们应用具有隐藏大小为128的LSTM。我们的方法使用PyTorch库实现。对于训练，我们使用初始学习率为0.001的Adam优化器。MonteCarlo采样的批量大小为64。所有实验都是在单个GeForceGTX 1080Ti GPU上进行的。05. 结果与讨论05.1. PANDA吉比像素数据集上的结果0比较方法。我们将我们提出的框架与PANDA上的三个强基线进行比较。它们都遵循相同的流程，但采用不同的方法生成补丁。0• DS+SW [20]:它是两种策略的组合：降采样（DS）和滑动窗口（SW）。46580过滤器打包 #Pass AP 50 FPS 粗略细化多尺度总体小型中型大型0� - - � 8,979 0.722 0.270 0.711 0.783 0.11 � - - � 2,838 0.687 0.144 0.641 0.788 0.34 -� - � 15,019 0.715 0.388 0.766 0.716 0.07 - � - � 3,862 0.717 0.259 0.731 0.766 0.23 -- � � 14,193 0.717 0.390 0.766 0.725 0.07 - - � � 3,671 0.715 0.256 0.719 0.768 0.230表2. 我们框架中不同模块的消融研究。注意FPS = 1 /（每张图像的运行时间）。0图5. 不同最先进方法之间的时间性能权衡比较。0首先对图像进行降采样，然后使用固定大小的滑动窗口将整个图像分割成规则的补丁。0• ClusDet [23]:它使用神经网络来估计高分辨率图像中的准确补丁。0• DMNet [8]:它首先使用训练好的CNN模型预测目标密度图。然后将密度图中的八个相邻连接区域合并为一个大的候选区域。最后，将候选区域的外接矩形作为补丁。0定量结果。定量结果在表1和图5中呈现。为了公平比较，我们将他们的性能与我们的性能在相同的检测器FasterR-CNN和ResNet50骨干网络下进行比较。总体上，我们观察到我们的方法在吉比像素级图像目标检测中在速度和准确性之间取得了很好的平衡。与DS+SW（FR）相比，PAN（6×）可以在保持检测性能的同时提高推理速度5倍。PAN能够在约2.7秒内检测到一个吉比像素级图像（即FPS=0.37）。当将DS+SW和DMNet应用于吉比像素级图像时，目标检测的时间成本非常高（甚至超过13,000次通过DS+SW）。尽管DMNet提出了一种密度图引导的方法来生成补丁，但它不能很好地处理如此极高的分辨率。DMNet利用目标密度图获取补丁候选区。然而，基于密度图的方案存在严重的问题0Tree-LSTM Chain-LSTM #Pass AP 500总计小中大0� � 3,283 0.692 0.137 0.678 0.778 � � 3,561 0.690 0.140 0.678 0.769 � �3,671 0.715 0.256 0.719 0.7680表3. 树编码器的效果。0在千兆像素级图像中的速度和性能之间的权衡限制。在他们的方法中，对象更有可能在密度图中连接在一起，而连接区域反过来又会形成更大的补丁。因此，尽管它可以通过使用更少的补丁来达到更快的速度，但其性能会迅速下降，因为许多对象在太大的补丁中无法被很好地检测到。图5进一步证明了我们的PAN在千兆像素图像目标检测中在速度和性能之间取得了良好的平衡。对其他方法的扩展。将其他方法集成到我们提出的框架中是灵活的。为了验证这一点，我们将我们的框架扩展到现有的ClusDet工作。具体而言，由ClusDet生成的补丁可以作为初始补丁。我们进一步使用我们的策略对这些补丁进行过滤和打包，以实现更高的速度。结果在表1的底部行呈现。可以观察到，与ClusDet的原始版本相比，我们的框架在保持检测性能的同时，将速度提高了近2倍。可视化结果。为了进一步说明我们方法的有效性，我们在图9中呈现了千兆像素级图像上的检测结果。05.2. PAN的消融研究0树编码器的设计。由于补丁之间的关系对于学习良好的排列至关重要，我们首先分析了树结构编码器的设计。分别使用Tree-LSTM和/或Chain-LSTM作为编码器的结果如表3所示。表3中显示的三行分别表示Tree-LSTM编码器、Chain-LSTM编码器和Mixed-LSTM编码器，从上到下。我们可以观察到，与Chain-LSTM编码器相比，Tree-LSTM编码器使用更少的补丁来实现可比较的结果。我们注意到，Tree-LSTM编码器编码了粗粒度补丁与其之间的关系0.0538920.6900.1460.6830.7670.1036710.7150.2560.7190.7680.2031270.6720.1020.6260.78546590图6. PANDA数据集的两个示例。红色框表示网络过滤的补丁。0图7. 使用不同容量的补丁打包结果的示例。0检测器 DS+SW 我们（6倍）0YOLOv3 [14] 0.518 2.115 SSD [12]0.515 2.0880表4. 对不同检测器的扩展。给出使用不同目标检测算法的FPS（即每张图像的运行时间的倒数）。0λ #Pass AP 500总计小中大0表5. 使用不同λ值的消融研究。0对应的细粒度补丁（即层间关系），这不是Chain-LSTM所示范的。因此，它可以利用这种关系来鼓励更多的细粒度补丁被更粗糙的补丁替换和过滤，以实现更高的速度。然而，即使与Mixed-LSTM编码器相比，Tree-LSTM编码器的检测性能在缺乏关键的层内关系时也会下降。因此，通过考虑层间和层内关系（即Mixed-LSTM），我们可以在速度和性能之间取得更好的平衡。补丁过滤的效果。我们研究了补丁的粒度对检测速度和准确性的影响。表2显示了在PANDA数据集上的结果。我们通过选择来自三个粒度的补丁来评估我们的方法：粗粒度、细粒度和多粒度。选择粗粒度补丁意味着只关注树的中间层补丁。我们可以看到它使用的补丁较少，但检测准确性降低。选择细粒度补丁等同于只关注叶子节点0图8. 不同最大容量的消融研究。0通过在树上选择多粒度的补丁，我们可以获得更高的准确性，但需要更多的补丁。通过选择多粒度的补丁，我们使用相对较少的补丁同时保持检测性能。图6显示了PANDA数据集中的两个示例图像。PFM选择的补丁用红色突出显示。我们可以观察到它们分布在树的中间层和叶层，这表明我们的方法会自适应地从不同的粒度选择补丁。补丁打包的效果。我们还研究了补丁打包的效果。画布的默认最大容量C设置为4。如表2所示，我们根据三种过滤策略评估了我们的PPM。补丁打包模块可以大大减少补丁数量，以实现高时间效率。同时，图7显示了在使用不同画布最大容量值时的几个补丁打包结果。在大多数情况下，网络会尝试达到每个画布的最大容量，以减少图像中存在的画布数量。最大容量C的影响。正如我们在第3.4节中提到的，理论加速比可以通过设置最大画布容量C来控制。46600图9. 使用我们的方法进行检测的示例结果。0通过设置最大画布容量C，即画布可以容纳的最大补丁数量，可以影响检测速度和准确性。图8展示了画布容量对检测速度和准确性的影响。如图所示，预期中的时间成本显著降低，但同时也观察到了轻微的性能下降。然而，这是有利的，因为检测速度可以通过8倍提升（即C=8），对性能影响最小，突出了其在实际应用中的可行性。理解速度和性能的权衡。方程（6）中的因子λ起到调整检测速度和性能平衡的作用。表5展示了不同因子设置下的结果。随着λ的增加，更细粒度的补丁被更粗粒度的补丁替代的比例增加，因此#Pass也减少。当λ达到最大值0.2时，性能退化。有趣的是，PAN在λ=0.1时在检测速度和性能之间取得了良好的平衡。扩展到轻量级检测器。由于我们的方法只修改输入图像，因此可以插入任何目标检测算法，除了FastR-CNN。为了验证在千兆像素场景下目标检测器的加速效果，我们进一步将我们的方法扩展到两种广泛使用的轻量级检测器：YOLOv3 [14]和SSD[12]。表4的结果明确表明我们的方法确实可以增加这些检测器的效率。0将这些检测器的效率提高约四倍。06. 结论0本文介绍了一种用于在千兆像素级图像上进行快速目标检测的新的补丁排列框架。在这个框架下，我们设计了一个补丁排列网络（PAN），通过学习排列补丁来提高检测效率。我们提出了两个排列模块：补丁过滤模块（PFM）在不同粒度上选择和过滤补丁候选项，然后补丁打包模块（PPM）将剩余的补丁顺序打包到画布中。整个框架通过基于策略的强化学习进行联合优化。在PANDA千兆像素级图像数据集上进行的大量实验突出了我们方法的优点-在千兆像素图像上推理速度提高了5倍，同时保持了理想的性能。致谢。本文部分得到以下资助：中国国家重点研发计划（No.2018AAA0100400），中国国家自然科学基金（No.U21B2013，61971277），HWUM JWS2021（项目AVALON）。我们感谢PANDA数据集组提供测试集和他们方法的实现细节。46610参考文献0[1] Irwan Bello，Hieu Pham，Quoc V Le，MohammadNorouzi和SamyBengio。使用强化学习的神经组合优化。arXiv预印本arXiv：1611.09940，2016年。40[2] Zhaowei Cai和NunoVasconcelos。级联R-CNN：深入研究高质量目标检测。在IEEE计算机视觉和模式识别会议论文集上，第6154-6162页，2018年。50[3] YizongCheng。均值漂移，模式寻找和聚类。IEEE模式分析和机器智能杂志，17（8）：790-799，1995年。30[4] Ting-Wu Chin，Ruizhou Ding和DianaMarculescu。Adascale：使用自适应缩放实现实时视频目标检测。机器学习和系统会议论文集，1：431-441，2019年。20[5] Sutao Deng，Shuai Li，Ke Xie，Wenfeng Song，XiaoLiao，Aimin Hao和HongQin。用于无人机视角目标检测的全局局部自适应网络。IEEE图像处理交易，30：1556-1569，2020年。20[6] Mingfei Gao，Ruichi Yu，Ang Li，Vlad I Morariu和Larry SDavis。用于大图像快速目标检测的动态缩放网络。在IEEE计算机视觉和模式识别会议论文集上，第6926-6935页，2018年。2，50[7] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在IEEE计算机视觉和模式识别会议论文集上，第770-778页，2016年。50[8] Changlin Li，Taojiannan Yang，Sijie Zhu，ChenChen和ShanyueGuan。密度图引导的航空图像目标检测。在IEEE /CVF计算机视觉和模式识别会议论文集上，第190-191页，2020年。1，2，60[9] Tsung-Yi Lin，Priya Goyal，Ross Girshick，KaimingHe和PiotrDoll´ar。密集目标检测的焦点损失。在IEEE国际计算机视觉会议上，第2980-2988页，2017年。50[10] Weiyao Lin，Xiaoyi He，Wenrui Dai，John See，TusharShinde，Hongkai Xiong和LingyuDuan。用于智能视频分析的关键点序列无损压缩。IEEE多媒体，27（3）：12-22，2020年。20[11] Weiyao Lin，Huabin Liu，Shizhan Liu，Yuxi Li，RuiQian，Tao Wang，Ning Xu，Hongkai Xiong，Guo-JunQi和NicuSebe。人类在事件中：人类中心视频分析复杂事件的大规模基准。arXiv预印本arXiv：2005.04490，2020年。20[12] Wei Liu，Dragomir Anguelov，Dumitru Erhan，ChristianSzegedy，Scott Reed，Cheng-Yang Fu和Alexander CBerg。SSD：单次多框检测器。在欧洲计算机视觉会议上，第21-37页。Springer，2016年。2，7，80[13] Mahyar Najibi，Bharat Singh和Larry SDavis。自动对焦：高效的多尺度推理。在IEEE /CVF国际计算机视觉会议上，第9745-9755页，2019年。20[14] Joseph Redmon，Santosh Divvala，Ross Girshick和AliFarhadi。你只需要一次看：统一的实时目标检测。在IEEE计算机视觉和模式识别会议论文集上，第779-788页，2016年。2，7，80[15] Shaoqing Ren，Kaiming He，Ross Girshick和JianSun。更快的R-CNN：使用区域建议网络进行实时目标检测。神经信息处理系统的进展，28：91-99，2015年。2，50[16] V´ıt Rˇziˇcka和FranzFranchetti。使用GPU在高分辨率4K和8K视频中快速准确地进行目标检测。在2018年IEEE高性能极限计算会议（HPEC）上，第1-7页。IEEE，2018年。20[17] Kai Sheng Tai，Richard Socher和Christopher D Man-ning。树状长短期记忆网络的改进语义表示。arXiv预印本arXiv：1503.00075，2015年。30[18] Burak Uzkent，Christopher Yeh和StefanoErmon。使用深度强化学习在大图像中进行高效的目标检测。在IEEE/CVF冬季计算机视觉应用会议论文集中，页1824-1833，2020年。20[19] Oriol Vinyals，Meire Fortunato和NavdeepJaitly。指针网络。arXiv预印本arXiv:1506.03134，2015年。40[20]王学阳，张夕亚，朱银恒，郭宇琛，袁晓云，向留宇，王泽润，丁贵光，大千海，等。熊猫：一个千亿像素级的以人为中心的视频数据集。在IEEE/CVF计算机视觉和模式识别会议论文集中，页3268-3278，2020年。1，2，50[21]王毅，杨友龙和赵曦。使用聚类算法自适应搜索区域进行航空图像中的目标检测。在欧洲计算机视觉会议上，页651-664。Springer，2020年。20[22] Ronald J Williams.简单的统计梯度跟随算法用于连接主义强化学习。机器学习，8(3)：229-256，1992年。50[23] Fan Yang，Heng Fan，Peng Chu，ErikBlasch和凌海滨。航空图像中的聚类目标检测。在IEEE/CVF国际计算机视觉会议论文集中，页8311-8320，2019年。1，2，5，60[24]朱鹏飞，温龙寅，边晓，凌海滨和胡庆华。视觉遇见无人机：一个挑战。arXiv预印本arXiv:1804.07437，2018年。2

下载后可阅读完整内容，剩余1页未读，立即下载