严重遮挡行人情况下的时间背景增强行人检测器

30 浏览量更新于2023-10-25 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1时间背景增强的严重遮挡行人吴家莲1周春鸾2杨明3张倩3李元3袁俊松11纽约州立大学布法罗分校2Wormpex AI Research3地平线机器人公司@buffalo.educzhou002@e.ntu.edu.sgm-yang4@u.northwestern.edu{qian01.zhang，yuanli}@ horizon.ai摘要国家的最先进的行人检测器上的非闭塞的行人，但他们仍然面临着严重的闭塞。虽然许多以前的作品都试图减轻行人遮挡问题，他们中的大多数都停留在静态图像。本文利用视频中行人的局部时间背景，提出了一种管状特征聚合网络（TFAN），旨在增强行人检测器在严重遮挡情况下的检测能力。具体而言，对于当前帧中的被遮挡行人，我们沿着时间轴迭代地然后，根据自适应权重聚合来自管的特征以增强被遮挡足的特征表示。此外，我们设计了一个时间判别嵌入模块（TDEM）和基于部分的关系模块（PRM），分别，这使我们的方法更好地处理管漂移和严重的闭塞。在Caltech、NightOwls和KAIST三个数据集上进行的大量实验表明，该方法对严重遮挡的行人检测具有显著的效果此外，我们在加州理工学院和NightOwls数据集上实现了最先进的1. 介绍检测严重遮挡的行人对于现实世界的应用至关重要，例如。自动驾驶系统，并且仍然是大多数最先进的行人检测器的棘手问题[27，28，10，26，24，23，19，17，54，47，46，15，16]。这一挑战可归结为两个方面：（i）由于缺少/不完整的观察，严重遮挡的行人难以从背景中区分出来;（ii）探测器很少知道如何聚焦于部分被遮挡的行人的可见部分。已经做出了许多巨大的努力来解决闭塞问题，例如，、注意力机制[29，9]、特征转换[11]和基于部分的检测[22，19，13]。虽然这些遮挡处理方法减轻了静态图像中的部分遮挡行人检测，但它们可能不会带来额外的信息。t t-1 t-2t+2t+1单帧检测器分类器0.35特征？特点我们的探测器分类器0.91步行��+1步行-1！��+2Pedestrian Tube��−2图1.顶行：由于观察不完整和较弱，严重遮挡的行人通常会导致单帧检测器检测失败。底行：在我们的方法中，我们利用严重遮挡的行人的局部时间背景，即。，类似于附近帧中较少遮挡的行人，以增强其特征表示。在将这些行人样本暂时链接到管之后，我们通过可见部分之间的匹配使用自适应权重方案来聚合它们的特征，这实质上有助于将严重遮挡的行人与背景区分开来。这使得检测器能够在本质上可靠地推断被遮挡的行人。在本文中，我们认为，时间背景可以从根本上提高了严重遮挡行人的特征的可区分性，这在以前的工作中没有得到深入的研究。我们的关键思想是沿着时间轴搜索具有区别性特征的非/较少遮挡的行人示例（我们称其为可靠行人），并且如果它们存在，则利用它们来补偿当前帧中严重遮挡的行人的丢失信息，如图1B所示1.一、具体来说，我们的方法是有两个主要步骤。（i）管道链接：从当前帧中的一个pedes-trian提议开始，我们迭代地在相邻帧中搜索其相关对应物（不一定是同一个人）以形成管道;（ii）特征聚合：来自所形成的管的建议特征被聚合，通过它们与当前建议候选的语义相似性来加权，增强当前帧中行人的特征表示。使用增强特征，分类器倾向于更自信地将严重遮挡的行人与背景区分开。我们执行-1343013431通过管状特征聚合网络（TFAN）对此进行分割将严重遮挡的行人与非/较少遮挡的行人联系起来并不简单，因为它们的外观基本上不同，否则大多数行人检测器将很好地处理遮挡。我们采用一种新的时间区分嵌入模块（ TDEM）和基于部分的关系模块（PRM），借助局部时空背景来匹配具有不同遮挡程度的行人。由判别损失监督的TDEM模块学习跨帧的每个建议的嵌入，其中行人和背景示例在嵌入特征空间中变得容易分离。因此，我们利用这些嵌入功能的propos- als搜索其对应的连续帧和衡量其语义相似性的权重，聚集他们的功能。当聚合来自管的特征时，如果行人建议被严重遮挡，则我们偏好匹配的可靠行人并为其分配更大的权重，而不是背景。然而，严重遮挡的行人可能会因为缺少观测而不同于可靠相应地，PRM模块被设计为更多地关注当前行人候选者的可见区域，并为相似可见部分的对应部分分配更大的权重，以解决上述特征聚合期间的不一致问题。TFAN利用邻近帧中相似的行人样本，利用局部时间时间线索在视频对象检测中得到了广泛的应用。例如，光流已被用于实现特征校准[30，31，38]，而当对象被严重遮挡时，流量估计可能会有噪声。可替代地，检测框[33，34，37，32]被关联以作为后处理步骤对分类分数进行重新排序，但是这些方法不是端到端优化的，或者需要track-id注释来训练跟踪器。相比之下，我们的方法集成了功能增强和行人框关联到一个统一的框架中，在一个端到端的方式，而不需要track-id注释。此外，我们的方法是专门设计用于处理严重遮挡的行人检测。总之，我们的主要贡献有三方面：（i）我们提出了一个管道特征聚合网络（TFAN），它主要利用局部时间背景来增强严重遮挡行人的表示;（ii）我们设计了一个时间判别嵌入模块（TDEM），连接管可靠，并分配一个强大的和自适应的权重聚合管功能;（iii）我们设计了一个基于部分的关系模块（PRM），它专注于可见的行人区域时，聚合功能。3个基准的实验：Caltech [20]、NightOwls [59]和KAIST [60]验证了我们的方法对于严重遮挡的行人检测是非常有效的。2. 相关工作行人检测。随着卷积神经网络的复兴，许多基于深度学习的方法行人检测[27，28，10，26，24，23，19，17，25，18，48，36]显著优于手工制作的功能基于方法[55，61，21，14]。不管对非遮挡行人的性能如何，大多数检测器对严重遮挡的行人的准确性有限。为了缓解遮挡问题，最近的方法是通过利用注意力机制[29，9]，特征变换[11]和基于部分的检测[22，19，13]来设计的。然而，这些工作很少考虑到时间-poral上下文，这可能基本上有助于补偿严重遮挡行人的缺失信息据我们所知，TLL [23]是唯一一个也利用时间线索进行行人检测的近期TLL简单地将现成的LSTM [52]应用于检测模型。相比之下，我们的方法彻底研究了如何利用局部时间背景来增强严重遮挡行人的表示。视频对象检测。视频中的对象检测最近已被积极研究[50，51，38，39，40，41，42，43，30，31，38]，探索不同的方式来利用时间线索。一些工作集中在利用光流来实现特征校准[30，31，38]。然而，在快速运动的情况下，流量估计可能是不准确的。为了解决这个问题，[44，45，49]提出在实例级聚合特征，这可以更好地捕捉具有快速运动的对象。另一个方向是将建议或检测框与试管分类和检测重新评分相关联[34，35，33，37，32]。尽管如此，这些方法并没有优化端到端或require track-id注释。相比之下，我们提出了一种端到端的方法，将提案框关联和特征增强集成到一个统一的框架中，而不需要track-id注释。由于在链接管中可能存在不匹配，因此我们的方法对跨帧的每个建议执行时间区分嵌入。当聚合管特征时，仅选择来自相关对应项的特征，以便过滤掉不相关的不匹配。此外，我们的方法是dedi-cated处理行人检测中的严重遮挡，这在以前的方法中没有得到彻底的研究。3. 方法在本节中，我们首先描述§3.1.然后，我们提出的方法在§3.2中介绍。最后，我们在§3.3中介绍实现细节。3.1. 基线探测器对于基线检测器，我们采用了现成的单帧检测器来单独处理每个帧13432我不t−1t−1我}不ii−1、2）特征聚合：来自所获得的管的建议特征通过它们与当前建议候选的语义相似性而被加权聚合。接下来，我们将详细介绍这两个步骤。管连接。为了简单起见，我们只对从t到t−τ的管连接过程进行公式化，而从t到t+τ的管连接也以类似的方式实现形式上，令bki表示帧I中的第k个提案。从bkt开始，我们i it行人可见率首先在相邻空间在帧It-1中的区域，并且bkt基于它们的语义和空间相似性被链接到最佳匹配对应物bkt-1。图2.加州公路上行人的可见比率统计数字技术数据集。对于当前帧中的每个行人Pt，我们使用地面真值框来链接从t−τ帧到t+τ帧的管。的X轴表示P的可见比率。对于每个P，它都有一个Vmaxlaries。在帧It-1中找到b k t-1之后，我们将其用作参考来搜索最佳匹配对应物bkt−2在帧It−2中。链接过程是迭代的t tt−2其通过在其相应的管中的那些足的最大可见比率来计算。y轴表示直到帧It−τ。具体地，给定帧i中的第ki个提议，对于那些可见光比率为Vt的P t，Vmax。可见光比率低于0的行人。2没有考虑。帧IKi−1 是通过以下方式发现的：=argmaxs（xki，xki））+l（bki，bk），（1）输入视频。具体来说，我们采用vanilla Faster R-i−1k∈Qki−1ii−1ii−1CNN [56]通常用于行人检测和特征步幅16的ResNet-101 [57]作为基础网络。其中Qki−1 ={k}| IoU(bki,bkˆ）> ε}是以下项的集合：工作3.2. 管特征聚合网络在真实场景中，大多数行人都在主动移动，并且严重遮挡的行人并不总是被其他物体遮挡。为了验证这一点，我们进行对加州理工学院数据集的定量分析，如图所示。二、从图中我们可以看到，在框架Ii-1中的建议的索引，其位于在b k i的相邻空间区域中，并且ε是被设置为0的小常数。1.实验中。 s（·）和l（·）分别是用于测量两个提议之间的语义和空间相似性的函数。给定两个建议b1、b2和它们对应的建议特征x1、x2，语义相似性通过它们的建议特征之间的余弦相似性来测量：在当前帧中被严重遮挡的图像在附近帧中变得出于这一观察，我们的目标是利用当地的时间背景，从邻近的s（x1，x2）=1|R|Σp∈Rx1（p）·x2（p）|x2（p）||、（二）|,(2)帧来补偿严重遮挡行人的缺失信息。3.2.1初步模型其中R={（x，y）|1≤x≤7，1≤y≤7}是建议特征中的空间坐标集。语义相似性反映了两个提案属于属于同一类别。对于空间相似性，我们考虑到给定视频帧序列{1，RW×H×3t+τi=t−τ考虑尺度和相对位置信息：l（b1，b2）=scale（b1，b2）+location（b1，b2），其中It是当前帧，我们首先将基本网络Nfeat应用于每个帧以产生特征图fi=宽×高×256scale（b1，b2）=min（w1w2h 1h 2）×min（，），Nfeat（I），其中fi ∈R1616.让我们用w2w1h2h1B= {bki∈R4}M第一框中的提案方框一般的，一般的¨ ¨1 1 2 2ii ki=1i1 2 <$（dx，dy）−（dx，dy）<$2由区域建议网络[56]和Xi={xki∈location（b，b）=exp（−2）、iσR7×7×256}Mki=1对应的建议特征，其中M（默认值= 300）是每项frame. xki由xki=φ（fi，bki）获得，其中φ是（三）其中，w和h是建议的宽度和高度，re-req。 dx和dy由边界框我我我RoI对齐操作[58]。在本文中，我们的目标是-增强当前帧中的建议特征Xt，这通过两个步骤实现：1）管链接：从行人建议bkt开始，我们迭代地搜索其关系，= 1= 6= 10基线重度闭塞区域平均价格13433在相邻的框架evant同行，形成一个建议管，我们的目标是包括可靠的行人在这一点上，Faster R-CNN的回归分支，表示一个建议的中心到其回归目标。项scal（·）用于惩罚两个连续帧中的两个提议之间的较大尺度变化，而项local（·）用于惩罚两个提议之间的较大未对准13434x，τt−τ不t−τ我x，τ不不不我不我我我我��− 6��− 4��− 2+ 2 + 4 + 6图3.建议管、自适应权重和最终检测结果的可视化示例，其中图中的w表示自适应权重。三个代表性的情况下，目前的建议是一个严重闭塞的行人，背景区域和可靠的行人，分别提供。为了清晰的可视化，每行中仅显示一个管。最后，对于当前帧中的第k个提案，我们（见图1）。（3）第三章。此外，我们强调，该功能ag-获得建议管Tkt={bkt−τ，.，bkt，.，bkt+τ}隔离不仅可以增强行人b，τt−τtt+τk以及其相应的管特征Tkt也包括那些背景。如果btt是个幕后黑手-{xkt−τ，.，xkt，.，xkt+τ}。注意，如果bkt是一个沉重的-但是，通过管连接，我们可以看到更多的参考文献t−τ tt+τ在附近的时空区域，因此，bkt−τ是未被遮挡的行人，则由于时间相干性，在帧It−τ< i< t中很可能存在较少被遮挡的行人。因此，在这样的链接过程中，较少被遮挡的行人可以用作建立bkt和bkt−τ之间的连接的中间步骤，即使直接语义和使分类器做出更好的决定并抑制假警报。3.2.2时间判别嵌入模块在我们的初步模型（§3.2.1）中，管连接和特征聚合主要由语义决定bkt和bkt−τ之间的空间相似性可能不高。t t−τ功能聚合。根据图中的分析。2，当前帧中最严重被遮挡的行人可能与一些可靠的（即，未被遮挡/较少被遮挡的）相邻帧中的相互部分。通过应用迭代管连接，我们能够将当前帧中严重遮挡的行人连接到附近帧中的可靠行人有鉴于此，我们将建议书的特征提案特征之间的相似性一个问题是在建议特征空间中，跨帧的行人和背景示例可能不是足够有区别的，因为没有提供明确的监督来强制行人和背景示例的建议特征是可分离的。为了解决这个问题，我们学习了一个歧视性的EM-床上用品 =φ（NTDEM（fi），bki），其中eki ∈R7×7×256，NTDEM是建议的节奏。从Tkt通过加权求和，旨在增强集合判别嵌入模块（TDEM），如图所示目前的建议的特点是xkt。具体地，对于建议特征xkt，增强特征xkt′通过以下公式计算图第4（b）段。 NTDEM由一个DIS-TDEM显式地监督，犯罪损失LTDEM，强制行人不xkt′= Σt+τ不wkixki，（4）和跨帧的背景示例更加分离，在嵌入特征空间中是有效的鉴于当前帧ti iI和附近的框架I，让我们表示为O={ek<$}Ui=t−τt itk=1其中，wki是自适应权重，并计算为：exp（λ×s（xkt，xki））框架中地面真值盒的嵌入特征其中U是地面实况框的数量用于ground truth box bk在当前帧中，我们将bk表示为wki=我不是t i，（5）tiit+τexp（λ×s（xkt，xkl））作为其在帧Ii中的对应的地面真值框，l=t−τtl其中λ是缩放因子。因为s（·）的输出值受余弦相似度的限制，其范围从-1到1，通过贪婪方案获得（如第3.3节所述）。的LTDEM定义为：λ被设置为大于1，以扩大前-后之间的间隙L1 Σ1=l（en，ep，ek样本考虑到链接中可能存在不匹配，tube，我们采用xki和xkt之间的语义相似度TDEM|O|ket∈O| ×|Z|Z|tten∈Y， ep∈Zitt以确定自适应权重wki，使得一旦管漂移，它可以自动地建议管检测13435我我（六）其中Z和Y是在bk附近采样的行人和背景建议的嵌入特征的集合，13436ROIAlignROIAlignROIAlign+ROIAlignROIAlignROIAlign（一）（b）第（1）款权重共享+逐元素和标量乘建议书功能嵌入功能TDEM模块PRM模块相邻搜索区域建议SNETReSNETRe分类器SNETReSNETReSNETRet+τ不t+τ3×3，5123×3，5123×3，256图4.（a）粮食安全网的总体框架首先，给定输入视频序列，基于建议之间的语义和空间相似性形成建议管其次，根据PRM模块生成的自适应权重，从所获得的管道中聚合建议特征最后，增强的建议特征被馈送到两个完全连接的网络层，以获得更好的分类。（b）所提出的TDEM模块，其中通过检测损失和辨别损失来学习N TDEM。200- 4- 10检测10+ 4个检测10+ 6个检测图5. TDEM模块的定性示例，其中图中的w表示自适应权重。通过对每个建议应用时间判别嵌入，不仅可以减轻连接管中的漂移问题，而且可以通过自适应权重更有效地过滤掉不相关并且lt（·）通过三重态损失来实现进入：基基基基l（en，ep，ek）= max（0，s（en，ek）-s（ep，ek）+α），（7）ki−1= argmaxs（ei，ei−1）+l（bi，bi−1），（8）t t ttt t t t tk∈QKki−1exp（λ×s（ekt，eki））其中，保证金项α被设置为0。五是实验。从学习到的区别性嵌入特征wii=特岛（九）exp（λ×s（ekt，ekl））然后在连接管道时使用N 个 TDEM来度量语义相似度，这使得TFAN更有可能以减轻漂移问题（如表3所示）。此外，这种区别性的嵌入特征被进一步应用于所形成的管中的每个建议以用于计算自适应权重，使得它可以更有效地执行。l=t−τtl3.2.3基于部件的关系模块虽然一个严重闭塞的行人bkt 可以连接到可靠的行人Bkt+τ，的相似性s（ekt，ekt+τ）可以很小，因为嵌入fea-t t+τ从相关的对应物中吸收有利的特征，并过滤掉不相关的不匹配（见图1）。（五）。自适应权重也可以从N个TDEM中隐式地学习。与区分嵌入功能，我们重写方程。1和等式5严重闭塞的行人的照片被污染背景杂乱。因此，当聚合特征时，xkt+τ将被其他示例的建议特征所压倒。为了更好地利用那些可靠判别损失不含TDEM带TDEM检测损失t+τ13437的13438中文第2信道可见可见不i=t−τi=t+1不不i=t−τ不b，τ我不是不来增加xkt 只要他们有明显的中国+3联系我们输入序列嵌入特征空间（全身）嵌入特征空间（上身）（一）特征表达。此外，我们的模型还享有背景特征的增强的可辨别性。对于行人检测，特别是在夜间，一些模糊的负面例子，例如。树和杆通常被单帧检测器误分类为具有高置信度分数。在我们的方法中，我们能够利用附近时空区域周围的更多样本，因此这些硬负样本被分类器自信地抑制（如补充材料中所示）。3.3. 执行PRM模块（b）第（1）款训练所提出的TFAN是完全可区分的，并且可以端到端地进行训练。与[30]类似，我们选择3图6.（a）说明PRM模块的动机（b）拟议的PRM模块。行人，我们设计了一个部分为基础的关系模块（PRM）如图所示。第6（b）段。对于当前的行人候选人，PRM模块将支持其具有相似可见部分的对应物，并在聚合特征时为其分配大的自适应权重。对于图中的示例。6（a），我们希望使用上半身的嵌入特征来表示-确定b k t之间的语义相似性和bkt+τ，因为由于存储器有限，用于训练的Ibef、It、Iaft帧，其中Ibef和Iaft是从{Ii}t-1和{Ii}t+τ中，尊重我。TFAN的总体损失函数L=Ldet+Lseg+LTDEM，（11）其中L det是如[56]中的Faster R-CNN的检测损失，Lseg是N seg的分割损失，L TDEM是N TDEM的判别损失。使用交叉熵损失对于L - 是的由于可见足的像素级注释t t+τseg它们的上部都是可见的。为此，鉴于A对bkt 并且bki，PRM模块首先应用分段，在现有的行人检测数据集，我们使用可见的边界框作为弱su，我不是分段子网N段到xkt来预测可见的如[29]中所示的N段。对于LTDEM，我们需要找到对于当前行人候选，在帧Ibef和Iaft中的那些地面实况框，不kk其中vkt ∈ [0，1]7×7×1. 接下来，使用改进的语义相似性函数sPRM（·）来计算自适应权重w i i，其根据vkt来定义：响应帧I t中的地面真值框btt。由于track-id注释在一些行人检测数据集中不可用，我们采用贪婪方案来获得它们。具体地说，从bk开始，我们迭代地找到cor-kk1 ekt（p）·eki（p）tsPRM（et，ei）=|V|t i，（10）|ekt（p）||eki（p）|使用IoU作为匹配分数在下一帧中响应一个直到我或我联系上。p∈Vtibef后其中，V={p|vkt（p）>min{0. 5，γ}}，γ是由vkt自适应确定的阈值。对于背景，vkt中的值趋于零。为了保留足够的像素，用于计算背景提议的语义相似度，γ被设置为使得嵌入特征中的至少20%百分位数20%是根据前行人数据集中严重遮挡的定义选择的：如果行人的身体只有20%-65%可见，则认为行人被严重遮挡。3.2.4 讨论TFAN的整体架构如图所示第4（a）段。TFAN的目的是利用当地的时空背景严重闭塞的行人，以提高他们在当前帧的表示。与个人跟踪不同，TFAN不一定要求提案-感染。Giv输入视频帧{Ii}t+t（默认情况下τ=6），我们的方法输出帧It中的检测框。在我们的实现中，我们解耦了分类和边界框回归的分支对于分类，我们使用增强的特征xkt′。对于边界框回归，使用原始xkt4. 实验4.1. 数据集和实验设置数据集。为了在我们的方法中利用时间线索，我们在三个大规模的足部检测数据集上进行实验：Caltech[20]，NightOwls [59]和KAIST [60]，其中视频序列是公开可用的。在加州理工学院的数据集上，报告了三个子集的结果：合理（R）、重度闭塞（HO）和连接管中的alsTkt具有相同的行人身份，合理+重度闭塞（R+HO），其中可见并且来自不同人的实例也可以贡献行人的比率在[0. 65，1]，[0. 2，0。65]=5时，per-pixel趋于稳定，这表明我们的方法不需要长管，并且11帧足以支持当前帧中的检测。超参数。在所提出的方法中有几个超参数，例如。，σ，λ，γ.在Supplementary Material中可以找到不同超参数下的结果，这表明我们的方法对这些超参数不4.3. 与最新技术加州理工数据集。我们在表6中列出了不使用额外数据的最新方法。我们的方法在R+HO和HO子集上分别实现了显着的性能改进，比第二好的结果高出1。5和6. 4分。这表明我们的探测器是专门用来探测关于合理子集的信息是公开的。如表4所示，所提出的方法比第二好的结果好1。合理子集上的3分，验证我们的方法可以很好地推广到夜间场景。5. 结论这项工作提出了一种新的模型，TFAN，旨在利用当地的空间和时间背景的严重闭塞的行人，以提高其功能表示。TFAN通过两个主要步骤进行：管道连接和特征聚合，其被设计为在视频中搜索时间上相关的对应物，并利用它们来增强当前行人候选者的特征表示。此外，TFAN与TDEM和PRM模块一起能够处理漂移和严重闭塞问题。大量的实验验证了该方法的有效性和优越性。谢谢。这项工作部分得到了Horizon Robotics的赠款和纽约州立大学布法罗分校的启动资金的支持。v日本+4日本语+4平均��(∙)=0.66平均��0.52平均��(∙)=0.85v��−6 ��−6平均��0.69日本语+4+4v平均v日本+5日本语+5��(∙)=0.73平均��0.55平均平均值为0.67��0.50余弦相似映射余弦相似映射余弦相似映射余弦相似映射方法OCCR+HO何RCompACT-Deep [1]24.665.811.7RPN+BF [2]24.074.49.6DeepParts [3]C22.860.411.9SAF-RCNN [4]21.964.49.7美国有线电视新闻网[5]21.559.910.0A-FRCNN [6]20.057.69.2SDS-RCNN [7]19.758.57.4F-DNN [8]19.355.18.6ATT-部分[9]C18.245.210.3[第10话]16.148.86.5双盒[12]C16.144.47.6DSSD+Grid [19]C-42.4210.9广东外语外贸大学[17]C15.643.27.8[11]第十一届全国人大代表C15.237.98.013441引用[1]Z.蔡，M. Saberian和N.瓦斯康塞洛斯学习复杂性感知级联用于深度行人检测。在ICCV，2015年。8[2]L.张丽Lin，X. Liang和K.他外更快的r-cnn在行人检测方面做得好吗？在ECCV，2016年。8[3]Y. Tian，P. Luo，X. Wang和X.唐用于行人检测的深度学习在ICCV，2015年。8[4]J. Li，X. Liang，S.沈，T. Xu，J. Feng，and S.燕.用于行人检测的尺度感知快速r-cnn。 IEEE TMM，2017. 8[5]Z.蔡角，澳-地范河，巴西-地S. Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络。在ECCV，2016年。8[6]S.张河，巴西-地Benenson和B.席勒城市居民：用于行人检测的多样数据集。在CVPR，2017年。8[7]G.巴西，X. Yin和X。刘某通过同时检测和分割照亮行人。InICCV，2017. 8[8]X. 杜，M。哈米Lee和L.戴维斯Fused dnn：A deep neuralnetwork fusion approach to fast and robust pedestriandetection.在WACV，2017年。8[9]S. Zhang，J. Yang，and B.席勒cnns中通过引导注意的遮挡行人检测。在CVPR，2018年。一、二、八[10] G.巴西和X。刘某行人检测与自回归网络阶段。在CVPR，2019年。一、二、八[11] C. Zhou，M.Yang和J.元用于遮挡行人检测的鉴别特征在ICCV，2019年。一、二、八[12] C. Zhou和J.元用于行人检测和遮挡估计的双箱回归。在ECCV，2018。8[13] C. Zhou和J.元部分检测器的多标记学习用于严重遮挡的行人检测。InICCV，2017. 一、二[14] C. Zhou和J.元学习集成特定于遮挡的检测器来检测严重遮挡的行人。InACCV，2016. 2[15] C. Zhou和J.元基于多标记学习的部分检测器在遮挡行人检测中的应用。PR，2019年。1[16] C. Zhou和J.元部分遮挡目标检测的遮挡模式发现。IEEE TCSVT，2020。1[17] C. Lin，J. Lu，G. Wang和J.舟用于行人检测的粒度感知深度特征学习。在ECCV，2018。一、二、八[18] J. Mao，T.肖氏Y. Jiang和Z.曹什么可以帮助pedes-trian检测？在CVPR，2017年。2[19] J. Noh，S.李湾Kim和G. Kim.改进单级行人探测器的遮挡和硬负处理。在CVPR，2018年。一、二、八[20] P. 多尔阿尔角沃杰克湾Schiele和P. 我是罗娜。行人检测：对最先进技术的评估。IEEE TPAMI，2012年。二、六[21] S.张河，巴西-地Benenson和B.席勒用于行人检测的过滤通道特征。CVPR，2015。二、八[22] S.张丽文，X.卞氏Z. Lei和S. Z.李遮挡感知r-cnn：检测人群中的行人在ECCV，2018。一、二[23] T.松湖，澳-地Sun，D. Xie，H. Sun和S. PU.基于人体拓扑定位和时间特征聚合的小规模行人检测。在ECCV，2018。一、二[24] W. Liu，S.廖，W. Hu，X. Liang和X.尘通过渐近局部化拟合学习有效的单阶段行人检测器。在ECCV，2018。一、二[25] W. 欧阳和X.王. 联合深度学习用于行人检测。InICCV，2013. 2[26] X. Wang，T.肖氏Y. Jiang，S. Shao，J. Sun，and C.沈斥力损失：在人群中检测行人。在CVPR，2018年。一、二[27] S. Liu，L. Huang和Y.王.自适应nms：改进人群中的行人检测。在CVPR，2019年。一、二[28] W. Liu，S.廖，W.任，W。Hu和Y. Yu.高级语义特征检测：行人检测的新视角。在CVPR，2019年。一、二[29] Y. Pang，J.Xie，M.H. 汗河M. Anwer，F.S. Khan和L.邵学习遮蔽可见区域以进行遮挡行人检测。在ICCV，2019年。一、二、六、八[30] X. Zhu，Y.Wang，J.戴湖，澳-地Yuan和Y.伟. 用于视频对象检测的流引导特征聚合。InICCV，2017. 二六七[31] X. Zhu，Y.Xiong，J.戴湖，澳-地Yuan和Y.伟. 用于视频识别的深度在CVPR，2017年。2[32] C. Feichtenhofer、A.Pinz和A.齐瑟曼。检测跟踪和跟踪检测。InICCV，2017. 2[33] K. 康，H.Li，J.Yan，X.曾湾，澳-地Yang，T.肖氏C.张先生，Z.王河，巴西-地Wang，X. Wang和W.欧阳。T-cnn：基于卷积神经网络的 tubelets，用于视频对象检测。 IEEETCSVT，2017年。2[34] K.康，W。欧阳，H. Li和X.王.用卷积神经网络从视频tubelets中检测目标在CVPR，2016年。2[35] K. 康，W。欧阳，H.Li和X.王. K. 康，H.李鹏说，T.肖，W. Ouyang，J. Yan，X.刘，和X。王.视频中的对象检测与tubelet提议网络。在CVPR，2017年。2[36] J. Cao，Y.庞氏S.赵，和X。李用于多尺度对象检测的高级语义网络。IEEE TCSVT，2019。2[37] W. 阿憨，P. 霍拉米T. 潘恩P. 拉玛钱德朗M. Ba

下载后可阅读完整内容，剩余1页未读，立即下载