FOVEA：自主导航中央凹图像放大

181 浏览量更新于2023-10-13 收藏 1.82MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

15539FOVEA：用于自主导航的中央凹图像放大3*Karteli摘要高分辨率视频流的高效处理对于自动驾驶等许多机器人应用来说是安全关键的。图像下采样是确保满足延迟约束的常用技术。然而，这种幼稚的方法极大地限制了对象检测器在本文中，我们提出了一个注意力的方法，弹性mag-均匀标准二次抽样非均匀子采样均匀标度0.5当地比例尺1.6本地比例0.4在保持小的输入范围的同时优化某些区域。放大区域是被认为具有包含对象的高概率的区域，其信号可以来自根据最近对象预测计算的数据集范围先验或帧级通过基于KDE的映射将边界框转换为扭曲参数来实现放大，然后将其馈送到具有抗裁剪正则化的图像采样器中。然后，检测器被馈送扭曲的图像，我们应用可微向后映射来获得原始空间中的边界框输出。我们的区域放大，灰允许算法，以更好地利用高分辨率的输入，而不会产生高分辨率处理的成本在自动驾驶数据集Argoverse-HD和BDD 100 K上，我们展示了我们提出的方法在有和没有微调的情况下，比标准的Faster R-CNN提高了检测AP。此外，在流媒体检测中，我们的方法建立在先前最先进的基础上，为Argoverse-HD上的流媒体AP设定了新的记录（在GTX 1080 Ti GPU上从17.8到23.0），这表明它已经实现了卓越的准确性-延迟权衡。1. 介绍安全关键型机器人智能体（如自动驾驶汽车）利用大量高分辨率感知传感器套件，目标是最小化盲点，最大化感知范围并确保冗余[5，4，37]。我们认为，而*表示相等贡献。图1：标准图像下采样（右上角）限制了对象检测器查找小对象的能力在本文中，我们提出了一种注意力扭曲方法（右下），扩大显着的对象在图像中，同时保持一个小的输入分辨率。当扭曲也改变输出标签时（例如，边界框）。存在许多技术来使特定模型快速运行，例如量化[40]、模型压缩[8]和推理优化[30]。在一天结束时，对传感器数据进行二次采样（空间上通过帧下采样和时间上通过帧丢弃）的简单方法对于满足延迟约束仍然是最有效的[19]。然而，子采样显然会丢弃信息，首先否定高分辨率传感的目标！这种现状要求新的视觉算法。为了应对这一挑战，我们从人类视觉系统中获取灵感;生物视觉从根本上利用注意力处理。虽然电流感测堆叠利用规则网格采样，但是由于视网膜神经节细胞对来自视网膜受体的信息的汇集，外围中的人类视觉系统具有比中心（中央凹）中低得多的分辨率这种可变分辨率通常被称为中央凹视觉[18]。在本文中，我们提出了FOVEAted图像放大的目标检测（FOVEA），它保留了高分辨率的目标，同时保持一个小的can- vas大小。我们利用检测数据集的稀疏性-感兴趣的对象通常只覆盖图像的一部分。关键思想是重新采样，以便背景像素可以为感兴趣的对象腾出空间输入图像被下采样和扭曲，使得扭曲图像中的显著区域具有更高的分辨率。当图像扭曲时-1.0级15540L尽管已经针对图像分类[16，31]和回归[31]进行了探索，但是对于对象检测仍然存在主要挑战。首先，处理变形空间中的图像将在变形空间中产生边界框输出。我们使用可微向后映射来展开边界框坐标。其次，识别放大区域要困难得多。从经验上讲，我们发现端到端训练的显着性网络在图像分类中表现良好，但在对象检测中失败。然而，与凝视估计和细粒度图像分类不同，[31]评估的任务，我们具有对象检测的显着性的显式信号-具体而言，我们使用来自前一帧的全帧先验和对象位置（用于视频流）。我们训练了一个函数，该函数将边界框位置映射到扭曲参数。第三，对象检测对裁剪的容忍度比图像分类低得多，因为对象不仅出现在图像的中心，而且出现在边缘附近。我们发现，以前的图像变形方法是非常容易受到这个问题，所以我们引入了一个反裁剪修改的翘曲制定。我们在两个用于2D对象检测的自动驾驶数据集上验证了我们的方法： Argoverse-HD [19]和 BDD 100 K[42]。首先，我们表明，即使没有学习，我们的手动编码的边界框引导放大也提高了现成的Faster R-CNN的平均精度（AP）[33]，这表明这些数据集的输入空间中存在相当大的稀疏性。接下来，我们用可微分图像扭曲和向后标签映射来微调检测器，这进一步提高了AP。在这两种情况下，对于小物体的改进是最显著的。最后，为了证明这种准确性的提高是值得的延迟成本，我们在流式感知框架[19]下评估了我们的算法，并且我们在流式AP方面实现了最先进的2. 相关工作目标检测是计算机视觉中最基本的问题之一。许多方法已经推动了检测准确性的最新发展[11，33，23，6，29]，并且许多其他方法旨在提高检测准确性。检测器的效率[26，32，38，3]。全卷积处理[36]和空间金字塔池化[13]的介绍允许我们以其原始大小和形状处理输入图像。但是依然为了效率的目的，通常的做法是对输入图像进行下采样。当人们转向视频领域时，效率成为一个更加突出的问题。在视频对象检测中，重点是如何利用时间信息来减少调用的检测器的数量[44，43，27]。这些方法在ImageNet VID [35]等简单数据集上运行良好，但可能不适合自动驾驶汽车senarios，其中多个新的对象几乎出现在每一帧。此外，这些方法通常被设计为以离线方式工作，即，从而允许访问未来帧。检测方法是我们的框架的基石，我们提出的方法在很大程度上是不可知的任何特定的检测器。在线/流式感知在在线设置中，算法必须在没有未来知识的情况下工作。[22]提出了时间移位模块，其通过频道移位实现视频理解，并且在在线设置中，移位被限制为单向的。[2]提出了一种多对象跟踪方法，其将输入的先前帧检测作为当前帧的添加建议我们的方法也将先前的帧检测作为输入，但我们使用它来指导图像变形。流准确性[19]是最近提出的一种度量标准，用于评估感知算法在所有时刻的输出，迫使算法考虑在计算发生时必须忽略的流数据量。[19]证明了通过调整输入帧分辨率和帧速率可以显著提高流式对象检测精度。在这项工作中，我们证明，自适应注意处理是一个正交维度，以提高流媒体性能。自适应视觉注意注意力处理在视觉界已经得到了很好的研究，并且它以不同的形式出现[9，15，17，25，21，41]。特别是在在本文中，我们专注于动态分辨率。对于图像分类，[39]设计了一种算法来选择高分辨率补丁，假设每个补丁与数据采集成本相关联。[28]将非均匀下采样应用于语义分割，并依赖于网络来学习前向和后向映射，其一致性不能得到保证。对于对象检测，提出了一种动态放大算法，该算法顺序处理高分辨率补丁[10]。然而，顺序执行可能无法满足实时应用程序的延迟要求与我们的工作最相似的是，[31]提出了一种自适应图像采样策略，该策略为显著区域分配更多的像素，从而允许更好的下游任务性能。但该方法仅适用于图像分类和回归，其中输出对输入变换是不可知的3. 方法假设我们被给出图像标签对（I，L）的训练集。我们希望学习产生低损失（f（I），L）的非线性深度预测器f。受过去工作[31，16]的启发，我们观察到某些标记任务可以通过扭曲/重采样输入图像来更有效地执行。然而，当标签L本身在空间上是15541不W不不W不θ不θS不TT不先前帧预测（或数据集先验）显著性图原始空间中的最终输出反向映射检测器空间Transformer高分辨率输入帧智能二次采样输入扭曲空间中的预测图2：我们提出的对象检测方法。给定来自前一帧的边界框预测（如果输入是视频）或训练集中所有真实边界框的集合，显着性生成器创建显着性图，并将其馈送到空间Transformer（改编自[31，16]）中，以在放大显着区域的同时对高分辨率输入帧进行下采样然后，我们将下采样的输入馈送到常规对象检测器中，它在扭曲空间中产生边界框输出，然后将其转换回原始图像空间作为最终输出。定义的（例如，边界框坐标或语义像素标签），则标签本身可能需要被扭曲，或者可替换地，深度预测器的输出可能需要被逆扭曲。在本节中，我们首先介绍了相关工作中的显着性引导的空间变换作为我们的方法的基础。接下来，我们将介绍我们的解决方案，以解决图像变形的目标检测的挑战。我们的方法FOVEA的概述如图2所示。3.1. 背景：显著性引导的空间变换空间Transformer网络（STN）的开创性工作为输入图像和特征图引入了可微扭曲层[16]。它后来被扩展到包含显着图来指导扭曲[31]。在这里，我们提供了对我们的方法至关重要的实现细节。请参阅原始文件[16，31]了解更多细节。2D变换可以写为：T：（x，y）-（x’，y’），⑴其中（x，y）和（x′，y′）是输入和输出坐标。由于图像像素通常是离散的，因此需要插值来对非整数坐标处的值进行采样图像扭曲T输入图像I，根据给定变换对像素值进行采样，并输出扭曲图像I’：I′（T（x，y））=I（x，y）（2）来自输入I的离散像素位置的朴素前向扭曲可导致需要产生诸如孔的伪像。相反，图像扭曲通常通过反向映射[1]实现：迭代每个输出像素网格位置，计算其逆映射- ping-1以找到其对应的输入坐标（可能是非整数），并从相邻的输入像素网格点双线性插值其颜色：I′（x，y）=I（T−1（x，y））（3）换句话说，T的实现只需要逆变换-1的知识。通过使用网格生成器，像素迭代可以用批处理操作代替，并在整个网格上应用变换-1。该算法使用−1的可微公式（参数为θ）和一个可微且无参数的双线性网格采样器。[31]提出了一种特殊的形式-1由显著图S参数化：-1=-1。这种变换具有卷积形式（因此速度很快）使用输入空间（x，y）中的每个像素以力S（x，y）吸引从原始图像获取的样本的直觉，导致在扭曲期间在显著区域处的更多采样。我们指出[16]和[31]都忽略了扭曲对相应标签空间的影响，并且它们跳过了转换某些标签类型所需的前向变换的建模。3.2. 基于图像变形的目标检测在本节中，我们首先解释我们的高级推理公式，然后是我们的特定形式的扭曲，最后是训练任务网络的一些调整。我们在图3中直观地布置了图像和标签扭曲的空间，这表明我们有显著性发生器15542不T T W·不不不∫x′，y′S（x′，y′）k（（x，y），（x′，y′））x′Xyx′XySy（y′）k（y，y′）图4：通过限制扭曲的一般类别（左，图改编自[31]）为可分离的（右），我们确保扭曲图像中的边界框（红色的示例）保持轴对齐。我们证明了这样的正则化（令人惊讶地）提高了性能，即使这样做理论上限制了可表达的扭曲的范围（详见第4.1.2节）。Tx−1（x，y）= ∫x′，y′、S（x′，y′）k（（x，y），（x′，y′））（四）图3：图像扭曲WT通常通过后向映射T-1，然后进行（双线性）插值来实现y−1∫x′，y′S（x′，y′）k（（x，y），（x′，y′））y′（五）附近的源像素网格值，因为前向映射TT（x，y）=∫x′，y′、S（x′，y′）k（（x，y），（x′，y′））可导致目标像素位置不位于像素上网格（未示出）。虽然图像扭曲是一个广泛研究的主题（特别是由[16，31]在可区分的神经扭曲的上下文中），但其对标签的影响很少被探索，因为许多现有技术关注于对扭曲不变的全局标签（例如：图像类标签）。我们探索空间预测任务的扭曲，其输出必须转换返回到原始图像空间以生成一致的其中k是距离核（我们使用高斯核在我们的实验中）。然而，在这种一般形式中，轴对齐的边界框在原始空间和扭曲空间中可能具有不同的内涵。为了确保在映射期间保持轴对齐，我们将扭曲限制为沿两个维度可分离，即T−1（x，y）=（T−1（x），T−1（y））。对于每一个维度，我们调整预-输出. 有趣的是，使用扭曲WT−1转换像素级标签需要反转T−1，这可能很困难对1D的可接受制剂：∫−1S（x′）k（x′，x）x′（六）取决于其参数化[1]。在本文中，我们将-cus关于变换边界框的像素坐标Tx（x）=∫x′、Sx（x′）k（x，x′）它只需要已经计算的反向映射T-1（红色箭头）。T−1（y）=∫∫y′Sy（y′）k（y′，y）y′。（七）以在扭曲之后相应地变换边界框输出非常方便的是，因为标准图像扭曲是通过反向映射-1实现的，所以反向映射已经在网络中计算，因此可以直接应用于预测边界框的像素坐标。我们的方法f可以写成f（I，）=的1（1）A（T（I）。其中f（）是返回边界框坐标的非线性函数。预测检测的国家重要的是，当扭曲像素级值时，这种便利性并不存在;例如当将分割掩模扭曲回原始图像输入空间时（图3中的第三路径）。在这里，我们需要求T-1的倒数来显式计算前向扭曲T。我们采用来自[31]的显著性引导的翘曲公式：我们称这种形式为可分的，一般形式为不可分的。注意，不可分离公式具有2D显著性图参数，而可分离公式具有两个1D显著性图，每个轴一个。图4示出了每种类型的经纱的示例。-1的一个很好的特性是它是可微的，因此可以用反向传播来训练。但一个限制是，它的逆没有封闭形式的解决方案，也没有其衍生物。缺少的情况并不理想，我们提出了一些解决方案，如以下小节所示。反裁剪正则化我们发现显着性引导的空间变换的卷积形式倾向于裁剪图像，这对于边界周围存在大余量的图像分类可能是可以接受的。然而，对象检测中的任何裁剪都有可能错过对象。我们通过在显著性上使用反射填充来解决这个问题使用反向映射实现的扭曲插值1.不变量的恒等式（类标签）2.中的标签原始空间用于坐标（边界框）中的标签扭曲空间3.用于图像（分割）y′15543不TT长Q宽QQ T WTST-根据等式6。不·−·图，同时应用等式6中的吸引力核。这引入了关于显著图的每个边缘的对称性，消除了沿着垂直图像边缘的所有水平偏移，反之亦然。因此，在该配方下不可能进行修剪。图5中示出了1D图示以解释问题和解决方案。一旦我们有了推断公式，训练也是简单的，因为我们需要在原始空间中计算损失L ：（（f（ T（I）），L），其中是如图3所示的标签类型特定的反向映射，并且在我们的情况下，=-1。注意T、f和−1都是可微的。虽然推理本身不需要的知识，但对于使用区域建议网络（RPN）训练检测器的情况并非如此[33]。当训练RPN [33]时，回归目标是锚和地面实况之间的增量，并且增量稍后用于RoI池化/对齐[13，12]。前者应在原始空间中计算（地面实况在原始空间中），而后者在扭曲空间中（RoI Pool/Align在扭曲图像上这意味着首先需要在原始空间中学习增量，将其应用于边界框，然后使用RoI池化/对齐将其映射到扭曲但如前所述，不能轻易计算。作为一种解决方案，我们省略了delta编码，并采用广义IoU（GIoU）损失[34]来解释失去的稳定性。GIoU的主要思想是在零交集的情况下更好地反映预测和地面实况边界框的相似性;这已被证明可以改善结果。3.3. KDE显着性生成器在现有技术[16，31]中，显着性由最终任务损失来监督，而没有中间监督。我们在第4.1.2节中探索了这一点，但发现由于对象的局部结构，用于对象检测的显着性在流式传输设置中，来自先前帧的预测可以充当用于上下文启动的强中间信号。要学习一个单一的注意力系统，可以概括为帧级或数据集级的先验，我们描述了一种算法方法，用于转换边界框（无论是从数据集或前一帧）显着图。为此，我们使用核密度估计（KDE）与边界框作为数据点。更确切地说，给定具有中心ci、高度hi和宽度wi的一组边界框B，我们将显著性图SB建模为正态分布的总和：(a) 默认，σ ≈ 5。5（b）抗作物，σ≈5。5（c）抗作物，σ ≈1。7图5：以1D示出的显著性引导的变换。红色曲线是显着图S。最下面的一行点是输出点（以均匀的间隔），最上面的一行点是我们从原始“图像”中采样每个输出点的位置-1至输出点。 (a)默认转换可以应理解为输出点上的加权平均值，因此忽略具有接近零权重的点，诸如边界处的那些点。(b)注意引入抗裁剪反射填充的效果，以及（c）减小吸引核k的std devσ如何导致每个峰值周围的更多局部翘曲（对于多模态显著性分布更好）。其中a和b分别是幅度和带宽的超参数，K是等式6中吸引核k的大小。添加小常数是为了防止极端扭曲。然后，我们将2D显著性图归一化，使得其总和为1，并且如果使用可分离公式1，则沿着两个轴边缘化。如前一节所述，这将用于生成图像变换1S一旦我们定义了显着性生成器，就可以将SB应用于先前帧预测以获得帧特定的时间先验（表示为SI），或者应用于训练集中的所有边界框的集合以获得数据集范围的先验（表示为SD）。在前一种情况下，我们注意到KDE公式有效地在前一帧的检测中的每一个处对图像进行凹视。对于每个视频序列中的第一帧，这通常默认为均匀显著性图。在后一种情况下，我们注意到，对于像Argoverse-HD这样的数据集，地平线往往位于图像的中心，因此物体更有可能出现在那里。我们也尝试结合这些信号来捕捉这两种偏见。由此产生的显着性图是SC=αSI+（1α）SD，其中α是我们信任时间偏差的程度的超参数。上述所有显著性生成器都是可微的，因此我们可以使用最终的任务损失来学习我们的超参数a和b。4. 实验在本节中，我们首先在自动驾驶数据集Argoverse-HD上展示了FOVEA极大地改善了Sa，b=1+aΣN.c、bΣwi0ΣΣ（八）1当使用可分离公式时，我们可以替代地跳过中间2D显著性图表示。但我们选择不这样做，因为BK2（ci，wi，hi）∈Bi0hi中间2D显著图产生更多可解释的可视化，并且运行时间的差异可以忽略不计。15544×准确性优于朴素下采样。接下来，我们在流感知下进行最后，我们提出的结果BDD100K显示我们的方法的generalization能力。我们包括额外的结果，诊断实验，并在附录中的实施细节。4.1. 自主导航中的目标检测Argoverse-HD[19]是我们评估我们的方法的主要数据集，是在具体的自动驾驶汽车设置中捕获的对象检测数据集。数据包含30 FPS视频序列和密集的2D边界框注释。作为检测的常见做法，我们采用AP作为我们的主要评估指标。我们还报告了在单个GTX1080TiGPU上测量的端到端延迟（包括图像预处理、网络推断和边界框后处理）。该数据集的图像分辨率为1920 - 1200，比COCO的分辨率高得多由于本文中使用的所有模型都是完全卷积的，因此我们使用不同的输入尺度来运行它们，这些尺度由与原始分辨率的比率表示，例如，0的情况。5x表示输入分辨率为960×600。4.1.1基线和设置我们在整个实验中比较的基线是更快的RCNN [33]，具有ResNet-50骨干[14]和FPN [23]。基线和我们的方法的默认输入标度都是0。5x.然而，对于基线，我们额外地在0进行训练和测试。75x和1x比例尺，以推导使用该模型的延迟-准确性折衷的感觉。我们的贡献与基线检测器的选择正交，并且我们使用包括RetinaNet[24]和YOLOF [7]的其他检测器获得了类似的结果（如附录B所示）。此外，我们在附录C中与其他基于缩放的方法[31，10]进行了比较。值得注意的是，Argoverse-HD对于所有实验，除非另有说明，否则我们使用伪地面实况注释在火车分裂上训练，并使用真实注释在val分裂上进行评估。采取附加措施来防止对有偏注释的过拟合。我们在Argoverse-HD 上微调 COCO 预训练模型仅 3 个时期（即，早期停止）。我们使用momentum SGD，批量大小为8，学习率为0。02，0。9动量，10- 4权重衰减，以及对于这个短时间表的逐步线性学习率衰减[20]。此外，当训练具有扭曲输入的检测器时，我们将我们的修改应用于RPN和损失函数，如第3.2节所述。图6：学习到的直接可分离（左）和不可分离（右）数据集范围的扭曲。尽管不可分离的线程束具有更大的灵活性，但学习的线程束几乎是可分离的。4.1.2习得显著性我们的第一个实验直接尝试学习显着性，而不使用边界框先验，并在监督下，从最后的任务损失。这作为我们后面使用KDE显着性生成器公式的实验的对照，在3.3节中介绍。在我们的第一个公式中，显着图是我们网络的一个参数，通过反向传播学习，产生一个学习的数据集范围的固定偏差。我们测试了可分离和不可分离的版本，并在表1中报告结果。培训配置和实施细节见附录F。我们发现，可分离和不可分离的方法显着提高整体AP的基线，由于小对象的性能提升。然而，在大型物体上AP也有小幅下降。有趣的是，尽管不可分离的公式比可分离的公式更灵活，但它的表现更差，这表明模型在这个参数空间中很难学习。此外，如图6所示，最终学习的不可分离经线实际上不可思议地接近可分离，这表明可分离经线类无论如何都可能是优选的。因此，继续前进，我们在后面的实验中选择可分离的翘曲公式。在[31]的引导下，我们还尝试学习一个在这个意义上，学习的显著性图将适应每个图像。然而，我们发现这种方法不能很好地从我们的实验中，即使显着性网络的学习率为10- 5，模型也会学习到退化，其中极端扭曲导致没有建议与RoI边界框头部中的地面实况边界框匹配，导致回归损失为0。4.1.3KDE显着性生成器在本节中，我们尝试使用边界框检测来指导我们的显着性，使用第3.3节中介绍的KDE公式。15545||·||我们首先尝试手动调谐振幅a和带宽b以获得期望的放大率。我们发现，振幅a=1和带宽b=64的效果最好，配对的吸引内核的标准。dev.约17。8%的图像高度，这允许如图5所示的更多局部翘曲。我们使用与基线相同的配置来微调我们的模型，唯一的区别是添加了边界框和显著性引导的空间变换层。为了简化训练，我们使用来自当前帧的抖动地面实况边界框，而不是来自前一帧的检测。我们实现了SI公式，其仅使用来自前一帧的边界框检测，S D公式，其使用训练集中的所有边界框来生成固定的数据集范围的先验，以及α = 0的SC公式。五、然后，我们尝试通过反向传播学习超参数a和b，因为我们的KDE公式是不同的。在构造a = 1 +a ′ + 0的条件下，我们将参数a′和b′初始化为0。1，b=641+b′+0. 1 .一、a′和b′的学习率设置为10−4，权重衰减为零。除此之外，我们使用与基线相同的配置来训练学习的KDE（LKDE）模型我们实现S1公式化。所有结果示于表1中。即使没有微调我们的检测器，使用一个简单的固定的数据集范围的翘曲SD，我们发现在AP的显着改善。当我们切换到时间偏差和微调，我们看到更多的改善。如在学习的显著性情况下，总体AP的这些改进是由于APS的大幅提升，超过了APL的小幅降低。组合我们的显著性信号（SC）也许如果我们有一个替代的显着性来源，如地图覆盖，结合显着性可能会有所帮助。我们最好的方法是LKDE，它学习了最佳值a=1。07，b=71。六、学习不可分离的显着性表现优于我们手工构建的数据集范围的翘曲SD;然而，它们最后，我们注意到，我们提高的性能是以仅约2ms的延迟为代价的。4.2. 用于成本-性能评估的流准确性流式传输准确性是将延迟连贯地集成到标准准确性评估中的度量，因此能够定量测量具体感知的准确性-延迟权衡[19]。在这里，我们采用他们的评估协议，我们的成本性能分析。在我们的流式对象检测的情况下，流式准确度指的是流式AP。我们使用相同的GPU（GTX 1080 Ti）和他们的公共可用代码库与他们提出的解决方案进行公平的比较。他们提出的解决方案包括一个尺度调谐检测器（Faster R-CNN）、动态基线-0.5x基线-1xKDE（SD）-0.5xKDE（SD）- 0.5x -显著性图KDE（SI）-0.5xKDE（SI）- 0.5x -显著性图KDE（SC）-0.5xKDE（SC）- 0.5x -显着图图7：在Argoverse-HD上微调后我们的方法的定性结果。远处的汽车（虚线框中），在0时未被发现。5倍规模，在1倍规模检测，并部分检测到我们的方法。不同的行显示了我们的方法中基于注意力来源的变化。调度器（缩尾）和卡尔曼滤波预测器。我们的实验集中在改进检测器，我们保持固定的调度器和预测器。表2显示了我们在全栈设置下的评估（附录E中包含了仅检测设置的表格。我们看到FOVEA大大改进了先前的最新技术水平。改进首先来自于更快和更精确地实施基线（请参阅附录F了解实施细节）。注意，在流式传输感知下，更快的算法同时保持相同的离线准确性转化为具有更高流式传输准确性的算法第二个改进是由于对伪地面实况的训练（在第4.1.1节中讨论）。重要的是，我们的KDE图像扭曲进一步提高了流媒体的准确性，大大超过了这些改进。总的来说，这些结果表明，图像扭曲是一种具有成本效益的方式来提高精度。4.3. 跨数据集概化到目前为止，我们的实验都是在Argoverse-HD数据集上进行的。在本节中，我们在另一个自动驾驶数据集BDD100K [42]上交叉验证了我们提出的方法。注意，BDD100K和15546KDE（SI）表1：在Argoverse-HD上微调之前和之后的结果在没有再训练的情况下，处理扭曲图像（KDESI，顶部表格）将总体AP提高2.6分，并使APS增加三倍。在微调之后可以观察到甚至更大的增益，使得我们的最终解决方案（LKDE S I）的性能接近0。75x上限。更详细的讨论请参阅正文2+更好的实施19.34.118.334.93+伪GT21.23.723.943.84 2 +我们的（SI）19.35.218.539.05 3 +我们的（SI）23.07.023.744.9表2：在Argoverse-HD上的全栈（具有预测）设置中的流评估。我们表明，我们提出的方法显着提高了以前的国家的最先进的5.2，其中1.5是从更好的实现，1.9是从利用伪地面真相和1.8是从我们提出的KDE翘曲。Argoverse-HD在不同的城市收集。为了简单，我们只测试了现成的泛化，没有任何微调。我们对MOT2020子集的验证分割进行了实验，该子集包含200个视频，其中2D边界框以5 FPS（总计40K帧）进行注释。此外，我们只评估BDD 100 K和Argoverse-HD之间的常见类别：人、自行车、汽车、摩托车、公共汽车和卡车。结果总结在表3中，这证明了我们提出的方法的泛化能力5. 结论我们提出了FOVEA，一个高效的注意力模型的对象检测。我们的模型放大了2Ours SD（0. 5x）13.7 1.3 10.0 34.73Ours SI（0. 5x）16.4 2.1 12.838.64基线（0. 75x）19.7 3.0 16.144.25Ours SD（0. 75x）18.2 3.4 15.4 40.06Ours SI（0. 75x）20.1 5.2 17.042.57上界（1. 0x）22.6 5.7 20.1 45.7表3：BDD 100K的跨数据集泛化[42]。行2和5是在Argoverse-HD训练集上计算的显著性，正如预期的那样，它们未能推广到新的尽管在一个更大的时间跨度（5 FPS与30 FPS）操作，我们提出的图像自适应KDE 扭曲- ING 概括到一个新的数据集（行3 -6）。请注意，这里的图像原始分辨率较小，为1280×720。以包含对象，利用从数据集或从时间上下文学习的自上而下的显着性先验。为此，我们利用可微分图像扭曲，确保边界框预测可以映射回原始图像空间。所提出的方法显着改善，证明了在Argoverse-HD和BDD100 K的基线对于未来的工作，利用轨迹预测模型来提供用于在线处理的甚至更准确的显著性图将是自然的。鸣谢：这项工作得到了CMU Argo AI自动驾驶汽车研究中心的支持。微调前的Argoverse-HD方法APAP50AP75APSAPMAPL人姆比凯tffclight自行车总线停止车卡车延迟（ms）基线21.535.822.32.822.450.620.89.113.97.148.016.137.220.249.4± 1.0KDE（SD）23.324.140.040.722.924.35.48.525.524.548.948.320.923.013.717.712.215.19.310.050.649.520.117.540.041.019.519.452.0± 1.0KDE（SC）24.040.524.32019 - 04 - 26 10： 00：0020.641.019.951.2± 0.752.0± 1.2好了绑定（0.75x）27.645.128.27.9 30.8 51.9 29.7 14.3 21.5 6.6 54.425.644.7 23.7 86.9±1.6好了 Bound（1.0x）32.751.934.314.435.6Argo51.8诗-33.7 21.1 33.1微调后的HD5.757.236.749.524.6133.9± 2.2方法APAP50AP75APSAPMAPL人姆比凯tffclight自行车总线停止车卡车延迟（ms）基线24.238.926.14.929.050.922.87.523.35.944.619.343.726.650.9± 0.9学习Sep.学了不分离。27.225.944.842.928.326.512.210.029.128.446.648.524.225.214.011.922.620.97.77.139.539.531.825.150.049.427.828.151.5± 1.050.0± 0.8KDE（SD）26.743.327.88.229.754.125.413.522.08.045.921.348.1 29.3 50.8±1.2KDE（SI）28.045.529.210.431.0 54.527.3 16.924.3 9.044.523.250.528.4 52.2±0.9KDE（SC）27.244.728.42019 - 04 - 25 10：00：0021.949.929.5 52.1±0.9LKDE（SI）28.145.928.910.3 30.9 54.127.5 17.9 23.6 8.1 45.423.150.2 28.7 50.5±0.8ID方法APAPSAPMAPLID方法APAPSAPMAPL1现有技术[19]17.83.216.333.31基线（0. 5x）15.11.010.639.015547引用[1] Thaddeus Beier和Shawn Neely 基于照片的图像变形。ACM SIGGRAPH计算机图形学，26（2）：35-42，1992。三、四[2] PhilippBe r gmann，TimM e inhardt，andLauraLeal-T aix e´.没有铃铛和哨子的跟踪。在ICCV，2019年。2[3] Alexey Bochkovskiy，Chien-Yao Wang，and Hong-YuanMark Liao. Yolov4：目标检测的最佳速度和准确性。arXiv预印本arXiv：2004.10934，2020。2[4] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Giancarlo Baldan，and OscarBeijbom.nuscenes：用于自动驾驶的多模态数据集。arXiv预印本arXiv：1903.11027，2019。1[5] Ming-FangChang ， JohnWLambert ， PatsornSangkloy ， Jag-jeet Singh ， Slawomir Bak ， AndrewHartnett，De Wang，Peter Carr，Simon Lucey，DevaRamanan，and James Hays.Argo- verse：3D跟踪和预测与丰富的地图。在CVPR，2019年。1[6] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu XiaoLi，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，et al.实例分段的混合任务级联。在CVPR中，第4974-4983页，2019年。二、六[7] Qiang Chen ， Yingming Wang ， Tong Yang ， XiangyuZhang，Jian Cheng，and Jian Sun.你只看一个层次的功能。CVPR，2021年。6[8] Yu Cheng，D. Wang，Pan Zhou，and Tao Zhang.深度神经网络的模型压缩和加速综述。 ArXiv ，abs/1710.09282，2017。1[9] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在ICCV，第764-773页，2017年。2[10] Mingfei Gao，Ruichi Yu，Ang Li，Vlad I Morariu，andLarry S Davis.动态放大网络，用于快速检测大图像中的对象。在CVPR中，第6926-6935页，2018年。二、六[11] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在CVPR中，第5802[12] Kai m ingHe ， Geo r giaGkioxari ， PiotrDol la'r ，andRossB.娘娘腔。面罩R-CNN。InICCV，2017. 5[13] 何开明、X.Zhang，Shaoqing Ren，and Jian Sun.用于视觉识别的深度卷积网络中的空间金字塔池。TPAMI，37：1904-1916，2015。二、五[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。6[15] 陈煌，西蒙·露西，德瓦·拉曼南。深度特征级联自适应跟踪的学习策略。在ICCV，第105-114页，2017年。2[16] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。NIPS，2015年。二三四五[17] 亚历山大·基里洛夫，吴宇新，何开明，罗斯·吉尔希克.点趋势：图像分割作为渲染。在CVPR中，第9799-9808页，2020年。215548[18] Adam M. Larson和Lester C.洛斯基中心视觉与周边视觉对场景要点识别的贡献。视觉杂志，9 10：6.1-16，2009。1[19] Mengtian Li，Yuxiong Wang，and Deva Ramanan.对感知流的研究。在ECCV，2020年。一二六七八[20] Mengtian Li，Ersin Yumer，and Deva Ramanan.预算内培训：资源约束下深度神经网络训练的再思考。在ICLR，2020年。6[21] 李晓晓，刘紫薇，罗平，陈昌来，唐晓鸥。并非所有像素都相等：通过深层级联的难度感知语义分割。在CVPR中，第31932[22] 纪林、闯乾、宋涵。Tsm：用于高效视频理解的时间移位模块。在ICCV，第7083-7093页，2019年。2[23] 林宗义、彼得·多尔、罗斯·格希克、何嘉明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR中，第2117-2125页二、六[24] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。InICCV，2017.6[25] 刘兰兰和邓佳。动态深度神经网络：通过选择性执行优化精度-效率权衡。在AAAI，第32卷，2018年。2[26] 刘伟，Dragomir Anguelov，Dumitru Erhan，Christia

下载后可阅读完整内容，剩余1页未读，立即下载