3050基于记忆学习的线索回忆鲁棒小规模行人检测Jung Uk Kim*Sungjune Park*Yong ManRo†图像和视频系统实验室,KAIST,韩国{jukim0701,sungjune-p,ymro}@ kaist.ac.kr摘要虽然小尺度物体的视觉外观没有被很好地观察到,但是人类可以通过将小物体的视觉线索与它们的记忆化外观相关联来识别它们。它被称为线索回忆。在本文中,出于人类的记忆过程中,我们介绍了一种新的行人检测框架,模仿线索回忆检测小规模的行人。我们提出了一个大规模的嵌入式学习与大规模pedes-trian召回记忆(LPR记忆)。所提出的大规模嵌入学习的目的是通过LPR记忆器来记忆和回忆大规模行人外观。为此,我们采用了大规模的可见模态(一):大型行人:小型行人:背景大型行人小型行人热模态(b)第(1)款行人样本集,使得LPR存储器能够从小范围行人中重新调用大范围行人的信息。综合定量和定性的实验结果验证了所提出的框架与LPR记忆的有效性1. 介绍行人检测是计算机视觉领域的重要研究课题之一[21,28,42,60]。它在现实世界的应用中引起了相当大的关注,如视频监控[3,56]和自动驾驶系统[12,23]。为了检测行人,已经使用了各种模态。最常用的模态是可见模态(例如,人的眼睛是雪亮的[13]。此外,热模态最近已被用于行人检测[17,24,25]。热模态的优点在于,它对光照变化[32]和天气条件[22]是鲁棒的。尽管两种模式都有优势,但行人检测在检测小规模行人方面仍然存在问题[41,49]。尽管已经做出了一些努力来减轻小规模问题[29,53],但是小规模的行人检测具有固有的问题。如图1顶部所示,与大尺度行人不同,小尺度行人的视觉外观往往*两位作者对这项工作做出了同等贡献。†通讯作者图1.小规模和大规模的比较以及(a)可见模态和(b)热模态中它们的潜在特征(底部)的t-SNE可视化。小尺度行人由于缺乏视觉信息,其潜在的特征很难从背景中分离出来。在两种模式中模糊和模糊(我们根据[22]划分小尺度和大尺度我们进一步使用t-SNE在特征空间中可视化具有背景的小规模和大规模行人[51]。如图1的底部所示,大尺度行人(蓝色)和背景(红色)可以容易地彼此分离然而,小规模行人(绿色)和背景(红色)的特征分布是不可区分的,使得难以区分小规模行人和背景。由于小规模行人的视觉外观不足,深度网络更有可能错过小规模行人[41,49,55]。为了解决小规模行人检测中的上述问题,我们考虑人类如何区分小规模行人。如图1中所观察到的,深度网络可能错过小规模的行人,因为他们缺乏视觉信息。然而,即使在视觉信息不足的情况下,人类也能够识别小规模的行人。在认知心理学中,人类通过基于所获得的线索从记忆中回忆大尺度物体来:大型行人:小型行人:背景大型行人小型行人3051在小规模的物体中使用[5,38]。它被称为线索回忆。这样,尽管小尺度行人的视觉信息不足,但人类可以基于他们的视觉线索(例如,头部、身体等)将他们识别基于我们的动机,我们提出了一种新的行人检测框架,以解决小规模的问题,通过模仿人类如何识别小规模的行人通过线索回忆。为此,我们设计了一个大规模的行人回忆(LPR)的记忆,记忆和回忆的视觉外观的大规模行人,即使在不足的小规模行人trian外观。为了使LPR记忆器能够有效地记忆和回忆关于大规模行人的先验知识,我们设计了一种大规模嵌入学习。通过大规模的嵌入学习,本文提出的车牌识别记忆器能够有效应对小规模行人,解决大规模行人的相关信息,起到提示回忆的作用。综合实验和可视化结果与每一个模态(热和可见)验证LPR记忆的有效性。综上所述,本文的主要贡献归纳如下:• 出于线索回忆的过程中,我们设计的LPR内存来解决固有的小规模行人检测问题。据我们所知,这是第一次尝试处理小规模的行人检测与线索回忆的记忆。• 为了引导车牌识别记忆器从小规模行人中记忆和回忆大规模行人的外貌,我们设计了一种大规模嵌入学习。因此,我们的检测框架与LPR内存可以执行鲁棒的小规模行人检测。2. 相关作品2.1. 可见光环境由于行人检测与人类生活密切相关,因此受到越来越多的关注[21,60]。通常,行人检测框架采用可见模态(例如RGB)。除了各种手工方法[2,9,11]之外,最近还引入了深度学习方法来进行稳健的行人检测[41,42,49,55]。已经提出了许多深度学习方法来处理各种问题,例如遮挡[35,40,57,58]。和规模变化[33,53,59]。2.2. 热模态最近,基于热的行人检测已经被积极地采用[14,17,24,25],因为已知其是热的。对不规则照明[32]和天气条件[22]具有鲁棒性。Guo等人[17]采用生成式对抗网络(GANs)从可见光图像生成合成热图像。然后,利用真实和合成的热图像来丰富行人的视觉特征。在[24]中,域自适应方法被用于基于热的行人检测,同时利用可见模态。Kieu等人[25]介绍了一种带有辅助网络的任务条件域自适应方法。这些方法的共同点是,它们利用可见模态信息来改善热模态的视觉特征[25]。2.3. 小尺度目标检测检测小尺度物体是物体检测任务中的一个基本问题[8,27,29,34,39,45]。在[29]中,提出了尺度归一化方法,通过将各种尺度的特征映射到尺度不变子空间来解决尺度变化问题Noh等人。[39]使用GAN进行对抗训练,以获得小规模对象的超分辨率特征图Kim等人[27]提出了类不确定性感知(CUA)损失,以引导检测框架专注于小尺度对象。当小规模问题扩展到足部检测任务时,提出了RPN+BF [55] , 以 用 用 于 聚 合 特 征 图 的 增 强 搜 索(BF)替换更快R-CNN [46在MS-CNN [7]中,更快的R-CNN用于多尺度检测网络以检测小尺度行人。在[53]中,提出了自模仿学习(SML)方法,通过模仿大规模行人的特征图来减少类内特征方差。虽然该方法试图学习大规模行人的特征图,为小规模的行人,没有明确的指导,在推理时间。相比之下,我们的LPR记忆可以提供明确的指导,以线索回忆的动机,回忆大规模行人的外观。2.4. 存储器网络最近,记忆增强神经网络已被引入各种计算机视觉领域[6,10,15,18,30、31、37、43、50、52、61]。 例如,MeGA-CDA[52]的目的是指导领域自适应对象检测的类别特定的注意力地图Deng等人[10]提出了一种用于视频对象检测的长期记忆,以记忆对象的各种外观。在各种存储器架构中,键值存储器已被用于问答和轨迹预测[4,37]。在本文中,小规模行人检测,我们介绍了一种新的LPR存储器与大规模嵌入学习的基础上的键值存储器结构。然后,LPR记忆器可以从小尺度行人特征记忆和回忆大尺度3052定位头网分类×⊕i=1NL≤SS--我i=1我i=1SSIJ1×WHC大型行人示范集随机选择骨干网FE输入图像权重共享骨干网(VGG16,ResNet)1≤高度