基于自回归网络相位的行人检测框架

133 浏览量更新于2023-10-19 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于自回归网络相位的Garrick Brazil，Xiaoming Liu密歇根州立大学，East Lansing，MI{brazilga，liuxm}@ msu.edu摘要我们提出了一个自回归行人检测框架，旨在逐步提高精度的级联阶段。所提出的框架利用了一种新型的轻量级可堆叠解码器-编码器模块，该模块使用卷积重采样层来改进功能，同时保持有效的内存和运行时成本。与先前的级联检测系统不同，我们提出的框架是在区域建议网络中设计的，因此与独立处理的ROI系统相比，保留了附近检测的更大背景我们明确鼓励通过为每个连续阶段分配严格的标签策略来提高精度水平，以便早期阶段开发主要专注于实现高召回率的功能因此，最终的特征图形成更多的峰值径向梯度，从独特的行人的质心模仿。使用我们提出的自回归框架，在加州理工学院行人数据集的合理和遮挡设置上产生了新的最先进的性能，并在KITTI数据集上实现了具有1. 介绍在城市场景中检测行人仍然是计算机视觉的挑战，尽管最近的快速进步[1，15，21，26，32，36，40使用ensem-ble [7，34，37]和recurrent [26，33]网络在行人/物体检测的最佳性能方法中表现循环网络对自己的特征进行细化，而集成网络通过分离的深度分类器收集特征这两种技术都提供了一种获得更强大和更鲁棒的特征的方法，从而更好地检测。然而，集合网络和递归网络的特征是不同的。包围网络假设独立的网络将学习多样化的特征，当这些特征组合在一起时，它们将变得更加健壮。相比之下，递归网络继承了以前的特征作为输入，同时在连续的网络之间进一步共享权重。因此，回流网络更能够细化而不是多样化。IMCNN解码器通路编码器路径标签策略：IoU>0.4标签策略：IoU>0.5标签策略：IoU>0.6图1.我们提出的自回归框架与样本阶段（P1 →3）分类预测图和加州理工学院[5]数据集下的框可视化的说明。我们的方法迭代地重新评分预测下递增更精确的标签政策，使用一系列的解码器和编码器的路径组成的解码器模块。请注意，随着阶段的进展，假阳性（红色）大幅减少，而真阳性（绿色）则得到保留。fying。直觉上，我们预计这两个功能多样化和细化是重要的组成部分。因此，我们探索如何使用可堆叠的轻量级解码器-编码器模块来近似网络的集合，并结合自回归1流来对它们进行比较，如图所示。1.一、我们将我们的框架制定为一系列阶段，其中每个阶段都是前一阶段特征图和分类预测的函数。我们的解码器-编码器模块由类似于[16，19，20，23]的自下而上和自上而下的路径组成然而，不是使用双线性或最近邻重采样，然后是传统的卷积，我们提出了内存高效的卷积重采样层，以在单个步骤中同时1我们采用自回归（与递归）的命名区别作为以先前预测为条件的网络，而没有重复共享权重的约束，受WaveNet [35]中术语的启发，该术语使用因果卷积而不是传统的递归。72317232从本质上讲，我们的方法旨在采用集成和循环方法的最佳世界。例如，由于过去的预测和特征被重用，我们的网络能够在必要时改进特征。其次，由于我们的阶段包含内-侧卷积并且不共享权重，因此它们也能够学习新的和多样化的特征。此外，我们能够设计具有有效开销的网络，这是由于为每个阶段使用非共享网络权重以及使用内存高效的卷积重采样层增加了灵活性。因此，我们能够在效率和准确性方面选择最佳的通道设置。为了充分利用我们网络的自回归特性，我们进一步为每个阶段分配了一个不同的标签策略，随着阶段的进展，该策略迭代地变得更加严格。通过这种方式，我们期望每个连续阶段的预测将变得更少噪音，并产生更紧密和更可聚类的预测图。在我们提出的自回归区域建议网络（RPN）在最后阶段获得高召回率的情况下，我们还将一个简单的硬抑制策略纳入到我们的第二阶段R-CNN分类器的训练和测试中这样的政策大大缩小了提案的子集，在第二阶段流水线中进行处理（约65%），并相应地大大提高了运行时效率我们在具有挑战性的遮挡设置下对加州理工学院[5]行人检测数据集评估了我们的框架，使用了原始和新提出的注释[39]，并进一步在KITTI [9]基准上进行了评估。我们在每个测试设置下实现了最先进的性能，并报告了运行时效率的边际开销成本。总之，我们的贡献如下：• 我们提出了一个RPN内的多阶段自回归行人检测系统，其中每个阶段都使用越来越精确的标签策略进行训练。• 我们提出了一个轻量级的解码器-编码器模块，以促进特征映射的细化和消息传递使用卷积重采样层用于存储高效的特征路径。• 我们在各种具有挑战性的环境下在加州理工学院[5]实现了最先进的性能，并在KITTI [9]行人基准上实现了具有竞争力的性能。2. 相关工作包围网：最近在检测方面表现最好的方法[7，34，37]采用了基于集成的技术，其中融合了来自多个深度卷积神经网络（CNN）的预测。例如，[7]提出了一种使用独立检测器集合的软加权方案，该方案具有融合分数的高精度。然而，一个缺点是在内存中有多个CNN，并且每个CNN都是并行处理的。因此，在本发明中，共享权重(a) 自回归流（b）包络（c）循环图2.我们的自回归网络（a）的预测直接以过去的特征图为条件，作为递归网络（c），并且不像集成网络（b）那样在阶段之间共享权重与两者不同的是，我们的网络进一步取决于过去的预测。随着网络变得更大的可扩展性和存储器受限系统中的可用性都降低了。此外，[1]通过将RPN分数与R-CNN检测器的分数融合形成一个小的集合与这些方法相比，我们的单个RPN函数作为一个相互连接的小网络的集合，可以在不严重阻碍运行时间或内存效率的情况下提高精度级联网络：集成网络的类似线路采用级联检测系统的形式[3，24，25]，其建立在一系列R-CNN检测器上，并在静态建议网络生成的裁剪感兴趣区域（RoI）上运行。相比之下，我们的工作重点是提案网络中的完全卷积级联。因此，我们的网络更有能力利用周围检测的上下文线索来通知对延迟检测的抑制，而裁剪的ROI独立于其他建议进行处理。Liu等人。 [21]提出使用类似于我们方法的增量标签策略进行监督。然而，我们不是仅仅根据以前的预测来立即预测，而是通过我们的解码器-编码器途径来开发新循环网络：递归网络在许多具有挑战性的程序[11，22]和时间[4，29，31]计算机视觉问题中是一种强大的技术。最近，它已在城市目标检测[26]和人头检测[33]中得到进一步证明例如，[33]使用递归LSTM一次迭代地检测一个人，直到达到结束条件，从而避免了在后期执行非最大抑制（NMS）的需要。相比之下，[26]提出了一种滚动递归卷积（RRC）模型，该模型细化特征图并在每一步产生新的检测。从这方面来看，我们提出的方法类似于RRC，但有两个关键的区别。首先，我们的阶段的网络不共享。这使我们能够在每个阶段学习专门的（集成类）其次，我们将每个阶段的条件建立在以前的特征图和预测上，这形成了一个更有效的自回归基础。我们在图中展示了自回归网络、增强网络和递归网络的高级比较。二、7233IM解码器模块骨干VGG-16图3. 概述我们提出的AR-RPN框架（左）和详细说明我们的解码器模块（右）。解编码器模块由自上而下和自下而上的路径组成，路径之间具有内侧卷积以产生多样化的特征，以及卷积重采样层（s表示卷积步幅）ei和di，用于存储高效的特征生成。我们进一步通过fk（·）内的级联来对先前的相位预测进行条件预测。编码器-解码器网络：最近的许多作品[16，19，20，28]已经探索了计算机视觉中的多步幅特征图重用架构的每个变体利用一系列卷积、特征聚合（concat、residual）和上采样/池化层，以便形成编码器-解码器结构。类似于[23]中用于人体姿势估计的网络结构，我们结合了可堆叠的自上而下和自下而上的路径。然而，与以前的工作相比，我们设计的去编码器模块没有明确使用双线性或最近邻重采样。相反，我们独特地混合了功能生成和重新-使用分数步幅（↑）或步幅卷积（↓）采样到单个卷积层，使流中的旅行节点尽可能紧凑我们在消融中表明，与传统的卷积重采样层相比，单个卷积重采样层消耗的以前使用的两步技术。3. 自回归检测器我们提出的框架由两个阶段组成：自回归RPN因此被称为AR-RPN，以及第二级R-CNN检测器，每个检测器都建立在[27，38]上。我们将这两个阶段统称为AR-Ped。如图AR-RPN由多个阶段组成，每个阶段预测分类得分并将这些预测及其特征传递到下一阶段。每个阶段通过自底向上和自顶向下的路径连接到最后一个阶段，形成轻量级的解码器-编码器模块。该模块可堆叠到主干RPN上，并可堆叠到自身重复上。我们监督每个阶段，通过对连续阶段实施更严格的标签政策，共同学习越来越精确的预测，从而产生在最后阶段中有更多的峰值和可聚类的分类我们将箱变换、NMS和硬抑制策略应用于最终预测，剩余子集用于训练专用的R-CNN检测器。3.1. 去编码器模块为了在单个模型中执行自回归检测，我们设计了一个可堆叠的解码器-编码器模块，称为解码器，其中其自顶向下的路径利用过去的特征图，其自底向上的路径编码更强的语义。在[19]之后，我们为每条路径提供了从骨干网络多个深度的特征图重要的是，我们的设计鼓励最高级别的功能，以保持在最低的分辨率，对象检测功能最有效。直观地说，解码器使网络能够回顾以前的特征，并在重新编码期间学习更高级的特征让我们回顾一下典型的网络架构，例如，VGG-16 [30]和ResNet-50 [12]使用一系列卷积和池化层从低到高步幅水平运行。我们将骨干网络的跨距集表示为S，其中2i−1是池化操作之前的第i个跨距级别行人在检测中，通常具有n= 5个唯一步幅级别，使得S={1，2，4，8，16}。解编码器模块的超参数包括指定的目标步幅t，通道宽度C1是每个步距所特有的，其分别控制相位应当在分辨率上向上解码多远以及应当学习每个步距处的多少通道。解编码器模块的主要目标是在从目标步幅t到f1的每个级别产生更精细的特征。网络的最终跨距n 表示Ck={Ck，. . . ，Ck}t n7234t...n我我我nn′nt +1...n2i−12i−1作为每个步幅处的第k个相位的细化特征，gk（·）作为卷积层和ReLU层的集合，Φk是相应的权重，tk是特征映射的目标步幅。编码和细化，特征生成的自回归性质可以表示为：Ck=g k（Ck−1|Φk，t k）。（一）因此，网络的每个阶段都将复杂的阶段特征图作为输入，并产生更高级的特征。初始特征C1是在距主干的对应步幅处从最顶层给出的（例如，在VGG-16中，C1=conv 4 3，C1=conv 5 3，依此类推）。3.2. 自回归RPN我们使用[10]中提出的标准RPN头和多任务损失，遵循[38]中的实践。我们预先定义了一组锚形状，作为描述目标行人尺度的超参数。RPN头由连接到两个兄弟层的建议特征提取（PFE）层组成，这两个兄弟层分别预测一个 chor 分类（ cls ）和边界框回归（bbox）输出映射，从而形成多任务学习问题。多相网络：我们的RPN包括其中，Nk= 3个相位。第一阶段是简单的骨干4 5自上而下的途径：我们通过将具有BN [ 13 ]的卷积层附加到{Ck−1}特征映射，其产生具有相应通道宽度c i的内侧卷积Li。而不是使用由双线性/最近邻上采样和随后的卷积组成的两步过程，如在先前的工作中所做的，我们将di（·）表示为卷积上采样同时执行2倍上采样的层，特征减少到沟道宽度ci，跨步卷积组合操作在内存和运行时间方面都更有效。从最高特征步幅n开始，我们使用di（·）来迭代解码特征，然后通过逐元素加法将特征与解码步幅L1处的横向特征融合，表示为：Di=di（Di+1）+Li。（二）我们从Dn=Ln的基本情况开始，重复这个过程，直到达到目标步幅特征图Dt理论上，自上而下的路径使得高级语义能够通过解码项di（Di+1）向下传递，并且低级特征能够使用Li重新检查。自下而上途径：我们以与解码器相反的方式设计自底向上编码器。我们首先将具有BN的卷积层附加到每个{Dk−1}，每个卷积层产生具有ci个通道的新的侧向特征Li与解码器路径w a y类似，我们将ei（·）表示为单个卷积下采样层，该卷积下采样层使用步幅卷积同时执行2倍下采样和特征扩展到通道宽度ci，而不是先前工作中使用的传统两步过程。我们使用ei（·）迭代地编码每个步幅处的特征，然后将其与编码步幅L '的横向特征融合。通过逐元素加法，表示为：Ei=e i（Ei−1）+L′。（三）顾名思义，自下而上编码器从最低步幅t开始，并重复直到达到第n 个步幅，使得t处的横向特征为Et=Dt。自下而上的路径使网络能够从最低步长到ei（Ei−1）项编码低级特征，并使用L′重新检查高级特征。网络从修改后的VGG-16开始，步长为S={1，2，4，8，16}。第二阶段是具有目标步幅t= 3和信道宽度c3=128、c4= 256、c5= 512的解编码器模块。最后一个阶段是另一个解码器模块的堆栈，通道设置，但是使用存储器保守的T= 4的较低目标步幅。第i步的空间分辨率可以表示为wi×hi=W×H，其中W×H是输入图像分辨率。因此，最终建议的网络架构形成了如图1所示的阶梯状形状3 .第三章。自回归流：为了实现相位之间的自回归流，我们在每个相位编码器的末尾放置PFE层和分类层。对于除第一阶段之外的所有阶段，我们将先前的阶段预测连接到相应阶段PFE层的输入特征在这样做时，每个阶段都能够通过直接利用其先前的阶段预测来以强紧凑的特征开始。此外，最终阶段Nk的PFE层产生边界框回归输出图，因为这些特征在网络中是最精确和最高的通常，我们将函数fk（·）和pk（·）分别表示为第k我们将f（·）构建为具有3×3内核和512个输出通道的卷积层，随后是ReLU层，而p（·）是具有1×1内核的卷积层，输出通道是锚点数量（A）的2倍。因此，pk（·）形成先前相位预测的自回归函数，输出维度为w5×h5×2A，通过：Pk=pk（fk（Pk−1<$Ck）），（4）其中Pk-1是前一阶段的分类特征图，也就是过去的预测，k是级联运算符，Ck是第k阶段的最后编码特征图。如所定义的，PFEfk（·）和分类层pk（·）以过去的预测为条件自回归，这些预测对在语义上充当紧凑但强大的语义特征。这样，每个阶段都可以更自由地学习新的特征Ck，以直接补充过去的预测。从本质上讲，自回归流可以被看作是网络中最紧凑和最强特征的运行内存。7235分类任务：处理PFE层的每个分类层如[ 27 ]中所提出的那样在[ 1 ]的实验设置之后制定。形式上，给定尺寸为w×h的PFE层，层预测IM的每个空间位置的得分age（x，y）∈Rw×h对每个预定义的锚形状a∈A和每个目标类。因此，预测图的每个空间位置被视为具有其拥有相应的分类得分。为了产生每个框的标签，使用超参数h来采用标签策略，该超参数h控制具有地面实况的交集大于并集（IoU）的框准则，以便被认为是前景。在每个盒子都被分配了一个标签之后，而不是立即连续应用因此，我们的分类得分地图被监督，逐渐变得更加峰值和聚类。损失公式：除了分类和边界框回归损失之外，我们还以弱语义分割的形式进一步添加辅助损失，如[1]所示。具体来说，在训练过程中，我们向第一个自上而下路径的每个步幅添加一个二进制语义分割层，以作为辅助损失并加速训练。我们通常将结合相位分类softmax损耗Lcls、最终相位定位平滑L1损耗Lbbox和每个softmax辅助损耗Lseg的联合损耗项定义为：对于标签策略，每个分类层都使用多项交叉熵逻辑损失进行监督，如[10]所示。本地化任务：本地化任务是使用ΣNkL=k=1λkLcls+λbLbbox+λs Σ5I=3左分段，（5）分类任务中描述的同一组锚框定位任务旨在执行边界框回归，预测每个前景框朝向最近行人的边界框变换。如果在两个框之间的并集上存在至少h个交集，则认为邻近行人地面实况的亲-行人框。框变换由4个变量定义，包括平移（tx，ty）和缩放因子（tw，th），使得当应用时将源框变换为目标地面实况。我们使用SmoothL1 loss [10]训练边界框回归值。增量监督：为了更好地利用AR-RPN的自回归和解编码器特性，我们选择为每个连续阶段分配不同的分类标记策略。我们强调，解码器模块使网络能够适应并成为一个更强大的分类器，当使用越来越严格的标签策略进行监督时，可以利用它来产生更准确和更紧密的分类集群让我们简要讨论一下不同标签政策的权衡。考虑使用h= 1的标记策略，这近似等于要求网络为每个行人输出单个相比之下，当h = 0时，标记策略变得更宽松。5，分类变得更加平衡，但产生许多作为重复检测的假阳性。从理论上讲，边界框回归将通过将框转换为可以被NMS抑制的聚类来减少双重检测的影响。理想情况下，网络具有高性能的边界框回归和/或紧密的可聚类分类图，因为两者都使NMS能够聚类重复检测。因此，不是使用h = 0的单个离散标记策略。5，我们分配宽松-严格策略h1= 0。4，h2= 0. 5，h3= 0. 6、分别对各相分类层进行分类。与[21]相比，我们在解码器模块之间实施增量监督，而不是其中k对应于全网的相位1→Nk工作，并且i表示每个辅助分段a的步幅。骨干网的层在我们的培训中，我们使用Caffe [14]和SGD，遵循[38]中的设置设λ1= λ2= 0。1，λ3= 1，λb= 5，λs= 1。3.3. R CNN检测器大多数行人检测框架都是Faster R-CNN的衍生物[27]，因此包含了称为R-CNN的第二阶段尺度不变区域分类器。在[1]之后，我们利用修改后的VGG-16作为R-CNN，其作用于AR-RPN提出的裁剪RGB区域，利用严格的标记策略，并将其分数与RPN融合。然而，与过去的方法不同，我们施加了一个简单的硬抑制策略，抑制所有得分小于超参数z的盒子建议。这有两个优点。首先，它大大提高了运行时间，因为只有一个子集的建议需要处理。其次，通过只关注RPN剩余的硬样本，R-CNN学习类似于AR-RPN动机的专门分类。损失公式：与AR-RPN一样，我们也使用soft-maxloss来训练R-CNN。我们使用严格的标签策略，要求h ≥ 0。7前景的IoU，弱分割辅助损失Lseg，以及高度敏感加权方案如[1]中所详述。我们设置z= 0。005来对RPN建议施加分数抑制，并从被重新处理中消除可信的背景建议。在实践中，这种抑制极大地减少了搜索空间，效率和准确性，同时严格保持召回不受影响因此，我们将R-CNN损失表示为：ΣL=wjLcls（cj，cj）+Lseg，如果cj≥z，（6）J其中j对应于AR-RPN的每个建议，c是R-CNN的分类结果，c是类别标签。我们使用Caffe按照[1]的设置训练R-CNN7236−2合理的加州理工学院闭塞KITTIMRO MRO−2 −4MrN−2MrN−4偏O重ORT（ms）容易Mod.硬美国有线电视新闻网[2]9 .第九条。9522. 458. 08十七岁4219号。24五十九946483岁92七十三。7068岁31[第26话]- -−−−−75−75.33−RPN+BF [38]9 .第九条。5818. 607 .第一次会议。28十六岁76二十四岁2374岁368875. 5861岁29五十六08F-DNN [7]8. 6519. 92六、89十四岁75十五岁4155. 13−−−−TLL（MRF）+LSTM[32]7 .第一次会议。40 −−−−−−−−−ALFNet [21]- -六、10−−−−−−−SDS-RCNN [1]7 .第一次会议。3617. 82六、44十五岁76十四岁86五十八5595−63岁05−[36]第三十六话- -五、00−−−−−−−[41]第四十一话10个。33 −−−−四十五18−−−−[42]第四十二话7 .第一次会议。60 −−−十三岁3044. 40−−−−广东外语外贸大学[18]7 .第一次会议。8519. 86−−十六岁74四十三18−84. 6168岁6266岁。86[15]第八届全国政协副主席10个。85 18. 20−−二十四岁28四十二42−−−−AR-RPN（我们的）AR-Ped（我们的）8.0121.62六、4515. 54五、784.第一章36十五岁8611个国家。39十六岁3011个国家。93五十八06四十八808691−83岁66−七十三。44−68岁12表1.在准确性和运行时间（RT）方面，我们的框架与加州理工学院和KITTI基准测试中最先进的框架进行了全面比较。我们显示了在多个具有挑战性的设置下的Caltech错过率，包括原始（O）和新（N）注释，以及在闭塞设置下的原始注释和FPPI范围MRO。此外，我们评估了KITTI行人类在简单，中等和硬设置下，平均平均精度（mAP）[9]。粗体/斜体表示最佳/次佳性能。4. 实验我们在两个具有挑战性的数据集上评估了我们提出的AR-Ped框架：Caltech [5，6]和KITTI [9]。我们从设计选择和超参数的角度进行了实验。我们进一步检查了质的变化，并分析了定量峰在检测跨阶段。4.1. 加州理工加州理工学院[5，6]数据集是一个广泛使用的行人检测基准，包含10个小时的视频，从城市驾驶环境中拍摄，有1350，000个绑定框注释和2，300个独特的行人。我们使用Caltech10×用于培训，Caltech合理设置[6]用于测试，除非另有说明。评价-该方法使用在[10-2，100]的每图像假阳性（FPPI）范围上平均的未命中率（MR）度量，以及在[10-4，100]范围上的更具挑战性的度量，分别称为MR-2和MR-4。最近，发布了新的注释[39]，以纠正官方注释的一致性和框对齐。为了完整性，我们对原始注释和新注释进行了评价，分别标记为MRO和MRN。我们将我们的工作与加州理工学院最先进的行人检测方法进行比较，这些方法涉及使用原始/FPPI设置的每种组合的核心实验配置，以及[5]中定义的原始注释空间内的部分/严重遮挡。我们将比较限制在任何子类别的前2个方法使用Caltech10×数据集进行训练，因为这些数据集包括最具竞争力的方法。我们还强调7237−2−2我们是为数不多的全面评估和报告每个设置的方法之一，并在 www.example.com 上发布我们的源代码http://github.com/garrickbrazil/AR-Ped。我们的方法在除一个评估设置之外的所有评估设置上都是最先进的，如表1所示。在最常见的基准合理设置下，我们实现了6. 45%（↓0. 91）和4。36%（↓0. 64）在官方注释MR O 和新注释MR N 分别此外，我们的方法提高了对部分遮挡的鲁棒性（↓1.37%未命中率）。与没有明确解决遮挡问题的方法相比[1，2，7，38]，我们的方法还改善了严重遮挡（↓6. 33%未命中率）。然而，我们的方法在严重遮挡的情况下表现不佳-我们的工作是专门针对阻塞问题[15，18，36，42]设计的，与我们的工作正交我们进一步使用NVIDIA1080 Ti GPU对具有公共代码的最先进作品进行了运行时分析，如表1所示。我们的方法保留了一个有竞争力的运行时效率，由于我们的解码器模块的轻开销设计，同时仍然提高精度，但在所有设置。4.2. KITTIKITTI是一个流行的城市目标检测数据集，为汽车，行人和骑自行车的人提供注释我们使用7481张图片的官方训练集，并在7518张标准测试图片上进行评估我们采用[2]中的设置和核心训练代码来初始化好的起始超参数。然而，由于GPU内存限制，我们将输入图像比例设置为576高度分辨率，并在行人类上实现了有竞争力的性能，如表1所示。如[1]所述，高性能7238−2−2−22−2表2.在不同参数和不同数量下，根据合理的MRO设置.根据加州理工学院合理的MRO设置. 我们进一步详细介绍了效率的每一个设置方面的乘法累加（MAC）和运行时间的NVIDIA1080钛。加州理工学院和KITTI的行人探测器[1，17，38]通常不具有高相关性。我们强调，我们的AR- Ped是第一个报告这两个数据集的高性能的，这表明我们的模型推广到行人检测，而不是特定的数据集。4.3. 消融所有消融实验均在合理的MROFPPI设置下使用我们的AR-RPN和Cal- tech测试集，因为这是Cal-tech上最广泛测试的设置。什么是最佳解码器设置？为了分析去编码模块，我们在每个阶段消融了它的参数，涉及每个特征步幅和目标步幅的信道宽度去编码。我们的AR-RPN的主要方法使用我们所称的中通道宽度设置cM={128，256，512}。我们进一步表示小和大通道设置，使得cS={64，128，256}和cL={256，512，512}，然后在其他设置保持一致的情况下训练我们的AR-RPN。令人惊讶的是，大通道宽度的功能类似，但都不如中等通道，其大致遵循VGG-16 [30]中概述的经验通道设置规则例如，cL和cS达到8。33%（↑0. 32%，8。62%（↑0. 61%）的未命中率，详见表2。这表明了一个困难当与CC1中源特征映射的宽度。我们进一步分析了在表2中的每个建议设置下的解码器模块的运行时复杂度。总的来说，我们观察到通道宽度设置对AR-RPN的乘法累积（MAC）和运行时效率都有很大的影响。具体而言，与Nk= 1基线相比，通道宽度设置cS、cM和cL分别减慢8%、26%和69%卷积重采样的效果是什么？不像以前的解码器-编码器工作[16，19，20，23，28]，我们的模块使用2或分数1步幅的步幅将其重采样和特征生成组合成单个卷积重采样层。为了更好地理解这种组合操作的重要性，我们将每个卷积重采样层e（·）和d（·）分成2个单独的层：双线性重采样层和卷积fea。真实生成层。我们观察到这种分离导致性能从8.01%→9。45%的失误率这种退化表明，为网络提供更多的重新采样自由度，而不是将核固定为双线性（或最近邻），有利于检测。第此外，将操作分成2步在内存使用和运行时方面效率自然较低具体而言，与使用2步双线性/卷积过程相比，在AR-RPN中使用建议的卷积重采样层消耗的GPU内存减少了41%，并且在推理时保持了16%要叠加多少个自回归阶段？自回归阶段的使用显然是我们框架的关键组成部分因此，为了理解它的影响，我们通过改变阶段的数量来消除我们的框架，同时保持所有其他设置不变。我们在表2中报告了每个设置的性能。毫不奇怪，由于使用较少的相，性能急剧降低。例如，回想一下我们的3阶段方法实现了8。01%的失误率。通过去除单个相位，未命中率增加↑ 0。32%，而运行时效率仅获得6ms。当另一个相被移除时，15%被观察到。因此，附加阶段的效果似乎减少与Nk，使第一个额外的阶段具有最高的影响，如图所示4.第一章我们进一步添加第4阶段，遵循增量标记中的相同趋势（h4= 0）。7）并观察性能开始恶化。我们怀疑使用更密集的锚点采样可能有助于训练非常高的IoU阈值。如何选择增量标签策略？标记策略是我们的自回归框架的重要组成部分。我们展示了使用各种增量标签政策时的敏感性和重要性。由于高价值的IoU标签策略只允许非常好地定位的盒子作为前景，我们参考h ≥ 0的IoU标签策略。4为宽大，h ≥ 0. 5为中度，h≥0。六是严格。我们训练AR-RPN使用严格到宽松，适度到宽松的标签技术，适度，严格到严格，以及我们的宽松到严格的主要设置，如表3所示。严格到宽松的方法在所有设置中表现最差，降低1。02% MR。中度至中度表现相似，降级0。如图所示，MR为80%。4、由宽到严的一级标签政策使网络启动标识政策O先生−2无自回归严格→宽松适度→适度严格→严格宽→严9 .第九条。069 .第九条。038.948.438.01Nkc尺寸O先生MAC（G）运行时间（ms）1M10个。16217 9682M8. 32429 3803S8. 62255 3743M8. 01321 3863L8. 33429 31157239RGB检测图4. 我们通过在每个空间位置处跨所有A锚点获取地面得分的最大值来可视化每个阶段的预测图P_k，即，记Pk={Pbg，Pfg}，我们定义Pk=maxAPfg. 我们使用缩放的蓝色→黄色来可视化Pk，其中k k k黄色表示高检测置信度。各相的检测越来越严格，更适合于非最大值由于每个阶段的增量监督而产生的抑制（第3.2）。我们进一步分析了预测阶段之间的分歧右栏中显示的“1”→“3”，其中绿色表示前景的一致性，洋红色表示抑制的区域。图5. 我们分析了平均预测得分（P<0.05），00 2020（一）20个单位-为了完整起见，我们进一步评估了极端情况，即网络中没有增量监督或自回归流，如表3所示。在这种情况下，核心3阶段网络架构保持不变，除了预测层和级联已经从阶段1→2和2→3中移除，因此不存在要决定的增量标记策略这样做检测性能下降了相当大的2. 百分之十四沿X方向中心线的正式采样点（左）和Y方向（右）在加州理工学院测试数据集中的所有地面实况行人上平均，必要时使用双线性插值。我们注意到，连续的相位分数形成从行人中心辐射的更多峰值倾斜线。具有大的行人框检测集群，并且迭代地抑制，导致更紧密和峰值的预测图。相比之下，严格到严格并没有缓解这种过渡，以及导致退化为0。42% MR。我们通过分析Caltech测试数据集X/Y方向上所有行人的分数分布来进一步验证效果，如图所示。五、我们在两个方向上观察到一致的趋势，其中每个连续的阶段导致相对于其平均得分的更尖锐的峰值。每个其他标签政策鼓励相反或鼓励相同的预测，但更准确。在一个相关的点上，我们进一步研究了相位之间的不一致（图1）。4）重新确认相位在逻辑上一致于行人的质心。该分析进一步表明，大多数抑制似乎是由于主要在Y方向上的不良局部化盒偏离行人的腿或头）。未命中率，这进一步表明，使用AR-RPN进行中间预测是我们提出的框架的分类能力的关键组成部分。5. 结论在这项工作中，我们提出了一个自回归行人检测框架，该框架利用了一个新的可堆叠的解码器模块与卷积重采样层。所提出的AR-Ped框架能够自回归地产生和细化特征和分类预测。因此，集体阶段近似于越来越精确的分类决策的集合，并且导致用于足部检测的总体改进的分类器我们使用越来越严格的标签策略来监督每个阶段，这样网络的每个阶段都具有与上一个阶段相似的召回率，但具有更紧密和更可聚类的预测图。我们提供了全面的消融实验，以更好地理解和支持我们的框架的每个拟议组成部分我们通过许多具有挑战性的实验设置，在加州理工学院数据集上获得了最先进的新结果，并在KITTI基准测试中获得了极具竞争力的准确性。7240引用[1] G.巴西，X. Yin和X。刘某通过同时检测分割照亮行人。在ICCV。IEEE，2017年。一、二、五、六、七[2] Z.蔡角，澳-地范河，巴西-地S. Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络在ECCV。施普林格，2016年。6[3] Z. Cai和N.瓦斯康塞洛斯级联R-CNN：深入研究高质量的物体检测。在CVPR中。IEEE，2018年。2[4] J. Carreira和A.齐瑟曼。你好，动作识别？新模型和动力学数据集。在CVPR中。IEEE，2017年。2[5] P. 多尔阿尔角沃杰克湾Schiele和P. 佩洛娜行人检测：一个基准。在CVPR中。IEEE，2009年。一、二、六[6] P. 多尔阿尔角沃杰克湾Schiele 和P. 佩洛娜行人检测：对最先进技术的评估。PAMI，34（4）：743-761，2012. 6[7] X.杜，M。哈米Lee和L.戴维斯融合DNN：一种深度神经网络融合方法，用于快速和鲁棒的行人检测。在WACV。IEEE，2017年。一、二、六[8] C.- Y.傅，W. Liu，中国粘蝇A. Ranga、黑腹拟步行虫A.Tyagi和A. C.伯格。DSSD：Deconvolutional Single ShotDetector。arXiv预印本arXiv：1701.06659，2017。6[9] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？ KITTI 视觉基准套件。在 CVPR 中。 IEEE ，2012。二、六[10] R.娘娘腔。快速R-CNN。在ICCV。IEEE，2015年。四、五[11] A. Graves和J.施密特胡博基于多维递归神经网络的脱机手写体识别。NIPS，第545-552页，2009年。2[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR中。IEEE，2016. 3[13] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。4[14] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。5[15] J. N. S. L. B. Kim和G. Kim.改进单级行人检测器的遮挡和硬负处理。在CVPR中。IEEE，2018年。1、6[16] T.孔氏F.太阳，W。Huang和H.刘某用于目标检测的深度特征金字塔重配置在ECCV。Springer，2018. 一、三、七[17] J. Li，X. Liang，S.沈，T. Xu，J. Feng，and S.燕.用于行人检测的尺度感知快速R-CNN。arXiv预印本arXiv：1510.08160，2015年。7[18] C. Lin，J. Lu，G. Wang和J.舟用于行人检测的粒度感知深度特征学习在ECCV。Springer，2018. 6[19] T.- Y. Lin，P.多尔河格希克角他，B.Hariharan和S.贝隆吉用于对象检测的特征金字塔网络。在CVPR中。IEEE，2017年。一、三、七[20] S.柳湖，加-地Qi，H. Qin，J. Shi，and J.贾用于实例分段的路径聚合网络。在CVPR中。IEEE，2018年。一、三、七7241[21] W. Liu，S.廖，W. Hu，X. Liang和X.尘通过渐近局部化拟合学习有效的单阶段行人检测器。在ECCV，2018。一、二、五、六[22] B. McCann，J. Bradbury，C. Xiong，和R.索彻在翻译中学习：语境化的词向量。在NIPS，2017年。2[23] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在ECCV。施普林格，2016年。一、三、七[24] W. Ouyang，K. Wang，X. Zhu，和X.王.用于目标检测的链式级联网络。在ICCV。IEEE，2017年。2[25] H. Qin，J. Yan，X. Li和X.胡级联CNN的联合训练用于人脸检测。在CVPR中。IEEE，2016. 2[26] J. Ren，X.陈，J.Liu，W.孙，J.庞角，澳-地严，Y.-W.Tai和L.徐使用循环滚动卷积的精确单级检测器。在CVPR中。IEEE，2017年。一、二、六[27] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：用区域建议网络进行实时目标检测。2015年，在NIPS中。三、五[28] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络在MIC-菜施普林格，2015年。三、七[29] B. Shi，X. Bai和C.耀基于图像序列识别的端到端可训练神经网络及其在场景文本识别中的 PAMI ， 39（11）：2298-2304，2017。2[30] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。三、四、七[31] S. 宋角，澳-地兰，J。邢，W.Ze

下载后可阅读完整内容，剩余1页未读，立即下载