深度表示学习用于鲁棒行人检测

197 浏览量更新于2023-10-15 收藏 1.91MB PDF 举报

跨模态学习

卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15363学习跨模态深度表示用于鲁棒行人检测徐丹1，欧阳万里2，3，利玛窦4，5，王晓刚2，Nicu Sebe11特伦托大学2，香港中文大学3悉尼大学4布鲁诺·凯斯勒基金会5佩鲁贾大学{dan.xu，niculae.sebe}@ unitn.it，eliricci@fbk.eu，{wlouyang，xgwang}@ ee.cuhk.edu.hk摘要本文提出了一种新的方法来检测在不利的光照条件下的行人我们的方法依赖于一个新的跨模态学习框架，它是基于两个主要阶段。首先，给定多模态数据集，使用深度卷积网络来学习非线性映射，对RGB和热数据之间的关系进行然后，将学习的特征表示转移到第二深度网络，该第二深度网络接收RGB图像作为输入并输出检测结果。以这种方式，学习对不良照明条件具有区分性和鲁棒性的特征重要的是，在测试时，只考虑第二个管道，不需要热数据。我们广泛的评估表明，所提出的方法在具有挑战性的KAIST多光谱行人数据集上的性能优于最先进的方法，并且在流行的加州理工学院数据集上与以前的方法具有竞争力。1. 介绍行人检测的研究[3]已经取得了很大的进展，具有挑战性的情况下，如杂乱的背景，大量的遮挡和微小的目标出现。至于许多其他计算机视觉任务，在过去几年中，由于基于深度网络的方法，已经实现了显着的性能提升[21，1，17，32]。此外，采用新型传感器，例如热成像和深度摄像机，提供了新的操作，通过解决诸如不利的照明条件和遮挡等问题，推进了行人检测的最新技术水平[15，11，24]。然而，监控系统中的绝大多数宽相机网络仍然采用传统的RGB传感器，并且在照明变化、阴影和低外部光的情况下检测行人仍然是具有挑战性的公开问题。本文介绍了一种基于卷积神经网络（CNN）的新方法来解决这个问题。我们的方法是受最近的作品demonstrat-图1.概述我们的框架。我们的方法依赖于两个网络。第一个网络，命名为区域重建网络（RRN）是用来学习RGB和热图像对之间的非线性特征映射然后，将学习的模型转移到目标域，其中热输入不再可用，并且第二个网络，多尺度检测网络（MDN），用于学习基于RGB的行人检测器。从跨模态数据中学习深度表示对于检测和识别任务非常有益[12，13]。然而，大多数方法都假设有大型注释数据集。在行人检测的特定情况因此，受最近无监督深度学习技术的成功的激励，我们引入了一种用于学习用于行人检测的跨模态表示的方法，其不需要行人边界框注释。更具体地说，我们建议利用来自多光谱数据的信息，并使用深度卷积网络来学习从RGB到热图像的非线性映射，而然后，通过将学习的表示集成到第二深度架构中，对RGB数据进行操作并有效地对多尺度信息进行建模，来利用这种跨模态映射。重要的是，在测试时，不需要热数据，行人检测只在彩色图像上进行图1描绘了所提出的方法的概述。我们的直觉，如图2所示，是通过利用多光谱数据与所提出的方法，它是更容易区分硬负样本的彩色图像（例如。、电动跨模态转移深度重建深度检测RGB数据热数据RGB数据RRNMSDN15364硬性阳性样本硬性阴性样本图2. 这项工作的动机。通过利用除了RGB样本之外的热数据，更容易区分足三角形和背景杂波。具有与行人相似外观的杆或树），从而提高检测精度。在公开的数据集上的实验结果表明，该方法比以前的方法具有更大的优势。概括起来，这项工作的主要贡献是：• 我们介绍了一种新的方法，学习和transferring跨模态特征表示行人检测。利用所提出的框架，来自辅助模态的数据（即热数据）被用作从RGB图像学习CNN特征的监督形式。我们的战略有两个基本优势。首先，在测试阶段不使用多光谱数据。在部署机器人和监控系统时，这一点至关重要，因为只需要传统的摄像头，大大降低了成本。第二，在热域中不需要足部注释这大大减少了人类标记的努力，并允许exploit RGB热图像对的大数据集合。• 据我们所知，这是第一个工作，专门广告的问题，在不利的照明条件下，卷积神经网络的行人检测。以前的工作大多采用手工制作的描述符，并通过使用额外的输入功能集成热模态[15，28]。我们的方法基于两种新型的深度网络架构，专门设计用于无监督的跨模态特征学习和有效地传输学习的表示。• 通过广泛的实验评估，我们证明了我们的框架在新的KAIST多光谱行人数据集[15]上优于最先进的方法，并且与流行的加州理工学院数据集[9]上的先前方法相比具有竞争力。本文的组织结构如下。第2节概述了行人检测和跨模态特征学习的相关工作。第3节描述了拟议的框架，学习功能强大的照明变化的背景下，行人检测。第4节中给出了实验结果，以证明我们的方法的好处。我们在第5节中以关键评论结束。2. 相关工作与这项工作密切相关的研究主题是从监控视频中检测出行人，以及在多模态数据上操作的深度学习方法。下面，我们将对这些主题的最新作品进行回顾。行人检测。由于行人检测在机器人技术、视频监控等领域的重要性，行人检测问题受到了广泛的关注在研究界。多年来，已经提出了各种各样的功能和算法来改进检测系统，无论是在速度方面[34，2，1，17]准确性[39，22，44，45，10，32]。最近，通过采用强大的深度网络[21，1]实现了显着的性能提升，这要归功于它们能够直接从原始像素中学习区分特征在[26]中，提出了一种基于卷积稀疏编码的非监督方法预训练的CNN。遮挡问题在[19]中得到了解决，其中采用了深度信念网络来学习不同身体部位的可见性掩码。这项工作在2000年得到了扩展。[20] 建立多个目标之间的关系模型。最近，在[31]DeepParts中，提出了一种用于处理严重闭塞的强大框架。与解决遮挡问题的复杂深度学习模型不同，DeepParts不依赖于单个检测器，而是基于多个部分检测器。Tian等人。[32]通过考虑人和场景的语义属性来学习行人检测的判别表示。Cai等人[4]引入了复杂性感知级联训练（CompACT），成功地集成了许多手工制作和从CNN衍生的异构特征。Zhanget al.[43]提出了一种基于区域保护网络（RPN）[25]的方法，并促进了森林的发展。其他工作集中在改善基于CNN的行人检测器的计算时间。例如，Angelova等人[1]提出了DeepCascade方法，即深度神经网络的级联，并证明了在检测速度方面的可观增益。在[14]中提供了对用于行人检测的不同深度网络架构选择的深入分析。据我们所知，这些以前的作品都没有考虑多模态数据或解决不利照明条件下的行人检测问题。以前的工作已经考虑从其他领域转移Wang等人。[35]提出了一种无监督的方法，其中通过利用上下文线索（如运动和场景几何形状）来收集目标样本。然后，行人检测器是通过重新加权标记的源样本，即。通过对与目标数据更相似的样本赋予更高的重要性。这种方法后来在[42]学习深度特征表示。同样，在[5]中，减少差异的样本选择方案是-RGB热15365前端卷积层7506412875050256512151264512最大池化反卷积ROI特征图输出ROI池化ROI池化L2损失50L2损失L2损失图3. 区域重建网络的架构：深度卷积网络，其被训练用于从相关联的RGB数据重建热图像。最好用彩色观看。给出了源分布和靶分布之间的关系。我们的方法有很大的不同，因为我们不限制我们的注意力，以适应一个通用的模型，以一个特定的场景，我们解决的问题，不同的方式之间的知识转移学习跨模态深度表示。在过去的几年里，深度网络已经成功地应用于从多模态数据中学习特征表示[16，38，37]。然而，学习和转移跨模态特征的问题很少被研究。值得注意的例外是[6，30，29，12，13]。其中，与我们最相似的是[6，30，13]。在[6，30]中，还利用了从其他模态中产生幻觉数据的想法然而，我们基于CNN的方法有很大的不同，因为[30]中的工作考虑了深度玻尔兹曼机，而在[6]中，不同模态之间的映射是用高斯过程学习的。在[13]中，解决了从RGB数据中检测对象的问题，并将深度图像用作仅在训练时可用的附加信息。与[13]类似，我们的检测网络同时使用从源域和特定于目标场景的表示中学习的跨模态特征。然而，在[13]中，标记数据在原始域中可用。相反，在我们的框架中，我们在无监督设置中学习跨模态特征，即我们不需要在热域中进行任何注释。通过这种方式，可以利用巨大的多光谱数据集。3. 学习和迁移跨模态深度表征在本节中，我们提出了拟议的框架。我们首先概述了我们的方法，并详细描述了我们设计的CNN架构，以从RGB输入重建3.1. 概述如第1节所述，所提出的框架（图1）基于两个不同的卷积神经网络，分别与重建和检测任务相关。第一深度模型，即区域重构网络（RRN），是在以无监督方式从RGB-热图像对收集的行人建议上训练的完全卷积网络。RRN用于学习从RGB通道到热通道的非线性映射。在目标域中，仅RGB数据可用，并且第二深度网络，嵌入从RRN传输的参数的多尺度检测网络（MSDN），用于鲁棒的行人检测。MSDN将整个RGB图像和一些行人建议作为输入，并输出检测到的边界框和相关分数。在测试阶段，使用MSDN执行检测，仅需要RGB输入。在下文中，我们描述了所提出的深度网络框架的细节。3.2. 区域重建网络RRN的目的是从相关的RGB图像重建热数据。RRN架构的设计主要由两个需求驱动。首先，为了避免人工注释工作，热信息应该用无监督的方法来恢复。虽然我们的方法使用热图像作为重建任务的深度监督，但它本质上只需要非常弱的监督信息（即，成对信息）。然而，在RGB-T数据收集阶段，我们很容易获得成对信息。就人力而言，最昂贵的部分是注释行人绑定框。所提出的方法不需要这些额外的人工注释。其次，由于多光谱数据预计对硬阳性和阴性样本特别有用（图2），因此，与其试图重建整个热图像，不如指定……………………15366ROI池化ROI池化ROI池化ROI池化C1， 2C2， 2子网AC3， 3C四、三333C5， 333512333512512256512641281024C01 2、C02 2子网B、了c0512三、三C04 3、C05 3、77333351233333737特征连接特征融合输入图像和建议51225651212864FC33ROI池化ROI池化ROI池化ROI池化Bbox回归量82SoftmaxFC4096 4096图4. 多尺度探测网络的体系结构。在MSDN中使用具有相同结构的两个子网（子网A和子网B）。子网B（以黄色突出显示）的所有卷积层的参数都是从区域重建网络传输的。通常集中在可能包含行人的边界框上。因此，在本文中，我们建议利用预训练的通用行人检测器（例如ACF[8]）从RGB数据中提取一组行人建议（包含真阳性和假阳性），并设计一个重建相关热信息的深度所提出的RRN网络如图3所示。RRN的输入是三通道RGB图像和一组相关的行人建议。RRN由前端卷积子网络和后端卷积子网络组成。虽然在我们的实现中，前端卷积层利用VGG-13网络结构[27]，但RRN也支持其他架构。在前端子网工作的最后一个卷积层之后，添加了ROI池化层[10]对于每个ROI，生成尺寸为512×7×7的特征图。考虑到ROI特征图的尺寸较小，为了有效地重建与行人相关的热图像区域，我们应用去卷积层对 ROI 特征图进行上采样（输出大小为50×50），并重新输出通道数减少到64个，保证流畅在训练中收敛与许多以前的作品（例如[36]）不同，这些作品只是考虑双线性上采样算子，在反卷积层中，我们学习上采样内核（内核大小4，步幅8和填充1）。在去卷积层之后，应用整流线性单元（ReLU）层。然后，使用卷积层（核大小3，填充1）生成与每个提议相对应的重构图。最后，考虑平方损失来计算每个重建映射，并使用反向传播来优化整个网络在广泛使用的Fast-或Faster-RCNN框架中，地面实况行人边界框用于确定真阳性和假阳性样本的比例，然后构造固定大小的训练小批次。为了避免使用仔细注释的groundtruth边界框，我们使用由阈值通用ACF生成的pedes-trian建议构建每个训练小批量，一个随机选择的训练图像，由于对应于每个训练图像的建议的数量动态地改变，因此我们的方法在训练期间实现了动态的最小批量大小。3.3. 多尺度检测网络MSDN是专门设计来执行行人检测，从RGB图像，利用跨模态表示学习RRN。受先前工作的启发，这些工作证明了在行人检测中考虑多尺度信息的重要性[43]，我们引入了一种检测网络，该网络融合了从ROI池化层导出的多个特征图。MSDN架构无缝集成两个子网（子网A和子网B），如图所示。4.第一章子网A有13个卷积层，分为5个块。如图4所示，Cm，n表示具有相同大小滤波器的n个卷积层的第m个在卷积层之后添加最大池化层，并将ReLU非线性应用于每个卷积层的输出。RoI（感兴趣区域）池化层[10]应用于最后两个卷积块，为每个行人建议提取大小为512×7×7的特征图我们认为这两个街区，实验表明，该策略代表了计算复杂度和准确度之间的最佳折衷。子网B具有与子网A相同的结构，但是由于其主要目标是传输跨模态中级表示，因此13个卷积层（C′1，2至C′5，3）的参数是从RRN的相关联层导出的。事实上，来自RRN的卷积块产生了一个紧凑的特征表示，它捕获了RGB和热域之间的复杂关系因此，它们被嵌入在MSDN中，以允许所需的知识转移。然后，从两个子网络的RoI池化层导出的特征图与关联层和具有1024的另一卷积层15367渠道应用。由于RoI特征图的大小很小，我们在卷积层中将内核大小设置为1。然后，两个大小为4096的全连接层跟随。最后，使用两个兄弟层，一个输出行人和背景类的软最大概率估计，另一个提供行人定位的相关边界框偏移值。3.4. 优化如上所述，所提出的跨模态框架基于两个不同的深度网络。因此，培训过程也包括两个主要阶段。在第一阶段，RRN在多光谱数据上进行训练。RRN的前端卷积层使用在ImageNet数据集上预训练的VGG-16模型[27]的13个卷积层的参数进行初始化。其余参数随机初始化。随机梯度下降（SGD）用于学习网络参数。在第二阶段中，使用RGB数据和目标域中的行人边界框注释来优化我们首先通过添加MSDN的公共部分（即从特征级联层到两个兄弟层）来训练子网A。在这种情况下，连接中的特征图的大小和在下面的卷积层中，分别为1024×7×7和512×7×7。预训练的VGG-16模型也用于初始化子网A。卷积子网B的层用RRN的相应参数初始化。然后，使用目标域的RGB数据整个MSDN优化是基于SGD的反向传播。3.5. 行人检测在检测阶段，给定测试RGB图像，我们采用标准协议。首先，提取区域建议，类似于训练阶段。然后，输入图像和建议被馈送到MSDN中。softmax层输出类得分，边界框回归指示估计的图像坐标。为了减少建议的冗余，基于每个建议的预测得分采用非最大值抑制，设置交集大于并集（IoU）阈值δ。4. 实验为了评估所提出的框架的有效性，我们对两个公开可用的数据集进行了实验：最近KAIST多光谱行人数据集[15]和流行的加州理工学院行人数据集[9]。在下文中，我们描述了我们评估的细节。4.1. 数据集KAIST多光谱行人数据集[15]包含在不同交通场景下捕获的图像，图5. KAIST数据集。与ACF检测到的前九个行人窗户相关的热图像（50×50像素）的不同的照明条件（即在白天和夜晚记录的数据）。该数据集由95，000个对齐的RGB-热图像对组成，其中50，200个样本用于训练，其余用于测试。共有103，128个密集注释，对应于1，182个独特的行人。我们在实验中遵循[15]中概述的方案在三个不同的测试集上评估性能，表示为合理的所有，合理的白天和合理的夜晚。合理表示在超过55像素高度的情况下，脚踏板未被遮挡/部分被遮挡。白天和夜晚集合是根据捕获时间从合理的所有加州理工学院的行人数据集[9]由大约10小时的30Hz视频组成，这些视频是从城市交通中行驶的车辆中收集的。该数据集包含250，000帧，其中350，000个边界框手动注释并与大约2，300个独特的行人相关联。根据之前的工作[32，17]，我们严格采用[9]中的评估协议，测量9个点的对数平均未命中率，范围从10−2到100假阳性每图像（FPPI）。我们的评估是在Caltech-All和Caltech-Reasonable设置上进行的。我们的方法使用RGB热数据进行训练，但在测试阶段只需要RGB图像作为输入。在我们所有的实验中，KAIST训练数据集被用来学习RRN。然后，在Caltech测试集和KAIST的RGB测试框架上评估MSDN的性能。这两个数据集的训练和测试图像的大小调整（800像素的高度），以生成ROI特征图，具有更高的分辨率，对我们的重建和检测任务有用。153684.2. 实验装置我们的框架是在Caffe下实现的，我们的评估是在英特尔（R）至强（R）CPU E5- 2630上进行的，该CPUE5- 2630具有单个CPU核心（2.40GHz）、64 GB RAM和NVIDIA Tesla K40 GPU。我们采用ACF[8]来生成行人建议，用于训练重建和检测网络，其中低检测阈值为-70，如[17]中所示，以获得行人区域的高回忆。在测试阶段，我们也使用ACF，并考虑在线1的测试建议.值得一提的是，当我们专注于ACF时，我们的跨模态学习方法可以与任意建议方法结合使用。为了训练重建网络，我们使用KAIST数据集的整个训练集针对红外热像对比度低、噪声大的特点，本文对红外热像进行了自适应直方图均衡化和去噪等基本处理通过应用ACF计算行人建议，我们结束了图6. KAIST多光谱行人数据集上不同照明条件下的行人检测结果示例：（顶部）ACF检测器，（中间）CMT-CNN-SA，（底部）CMT-CNN。创建一个大约20K帧的数据集来训练区域重建网络所有的帧然后hor- izontally翻转数据扩增。我们从随机选择的两幅图像中生成小批量的重建ROI，并使用固定的学习率λr= 10−9我们训练RRN大约10方法全天时代为了在加州理工学院数据集上训练检测网络，我们遵循[45]，并且我们构建了一个训练集，其中使用每3帧相反，对于KAIST数据集，我们采用标准训练协议，每20帧考虑一次。对于这两个数据集，我们使用相同的协议来训练MSDN。与RRN训练类似，为了数据扩充的目的，数据被水平翻转。每个小批由从一个训练图像中随机选择的25%比例的阳性样本来自与地面真实值重叠超过0的建议。当IoU重叠在[0，0.5]范围内时，获得负样本。随机梯度下降用于优化MSDN，动量和权重衰减参数分别设置为0.9和0.0005 该网络使用初始学习率0训练8个epoch。001，并在第5个时期下降10倍。4.3. KAIST多光谱数据集上的结果分析提出的方法。第一系列实验旨在证明所提出的跨模态转移CNN（CMT-CNN）框架的有效性。我们在四种不同的设置下评估我们的方法的性能：（i）CMT-CNN-SA。我们只1http：//www.vision.caltech.edu/Image $_$Datasets/CaltechPedestrians/表1. 不同方法在KAIST多路复用光谱数据集，包括合理的所有，合理的白天和合理的夜间设置。CMT-CNN-SA百分之十三点七六CMT-CNN-SA-SB（随机）百分之十五点八九CMT-CNN-SA-SB（ImageNet）百分之十三点零一CMT-CNN-SA-SB（RGB-KAIST）12.51%CMT-CNN10.69%表2.在Caltech-Reasonable数据集上比较我们方法的不同变体。性能评估的对数平均失误率。使用子网A。这两个ROI特征图被合并并作为卷积融合层的输入给出。此层输出的特征图大小为512，而不是1024。最后，输出被馈送到全连接层;(ii) CMT-CNN-SA-SB（ImageNet）.我们考虑两个子网络，但从ImageNet上预训练的VGG 16模型初始化子网B的卷积层;（iii）CMT-CNN-SA-SB （随机）：与（ii）相同，但子网B随机初始化;（v）如第3节中所述的CMT-CNN，即从经训练的RRN初始化子网B的卷积层。表1显示了我们的比较结果。使用对数平均漏失率（MR）评价性能。从表中可以清楚地看出，CMT-CNN在所有三个测试集上的表现都明显优于其所有变体，确认-方法未命中率CMT-CNN-SA54.26%52.44%百分之五十八点九七CMT-CNN-SA-SB（随机）56.76%54.83%61.24%CMT-CNN-SA-SB（ImageNet）52.15%50.71%57.65%1536976.16%ACF-RGB73.85%ACF-RGBT61.99%ACF-RGBT+TM+TO54.82%ACF-RGBT+THOG49.55%CMT-CNN71.90%ACF-RGB70.74%ACF-RGBT59.38%ACF-RGBT+TM+TO52.13%ACF-RGBT+THOG47.30%CMT-CNN111.80.80.80.64.64.64.50.50.50.40.40.40.30.30.30.2010- 210- 1100101每个图像的假阳性(a) 合理的所有.2010- 210- 1100101每个图像的假阳性(b) 合理日.2010- 210- 1100101每个图像的假阳性(c) 合理的夜晚图7.KAIST多光谱数据集上的定量评估结果（每幅图像的误检率与假事实上，所提出的跨模态框架提高了检测精度。我们还观察到CMT-CNN提供比CMT-CNN-SA-SB更低的MR，这表明CMT-CNN的性能增益不仅是由于参数数量的增加。批量3264128256加州理工学院65.97%65.68%65.32%65.42%Caltech-合理百分之十三点五二百分之十三点零一12.51%百分之十二点三五表3.在CMT-CNN-SA- SB（RGB-KAIST）实验中使用不同批量的性能图5描绘了重建的一些示例。结果与建议的RRN。对于两个给定的测试帧，示出了与用ACF计算的前九个检测窗口相关联的重建的热区域。从图中，很容易观察到，所提出的网络能够有效地学习从RGB数据到热数据的映射。图6显示了一些质量-方法硬件未命中率测试时间（s/f）使用MSDN获得的结果。比较CMT-CNN-SA和CMT-CNN的检测边界框，我们观察到我们的方法可以正确地例如，树叶从树上（图。6-第一列和第二列）被CMT-CNN-SA错误地检测为行人。这证实了我们的直觉，即利用多光谱数据的信息与我们的跨模态表示转移方法允许提高检测精度。与最先进方法的比较。我们还将我们的方法与KAIST多光谱数据集上的最新方法进行了比较。这些方法包括：(i)ACF-RGB [8]，即在 RGB 数据上使用ACF; （ ii ）ACF-RGBT [15]，即在RGB热数据上使用ACF;(iii)ACF-RGBT+TM+TO [15]，即在RGB上使用ACF-具有额外梯度幅度的热数据和热图像的HOG;（iv）ACF-RGBT+HOG [15]，即在RGB热数据上使用ACF，HOG特征具有比（iii）更多的梯度方向。与这些方法相关的结果直接取自原始论文[15]。与基线方法类似，我们也使用ACF在训练和测试时生成建议。观察图7，很明显，CMT-CNN比KAIST数据集上的最佳基线ACF-RGBT+HOG好几个点。重要的是，CMT-CNN 在测试阶段只使用彩色图像，而 ACF-RGBT+HOG利用了90.14%ACF-RGB85.13%ACF-RGBT69.05%ACF-RGBT+TM+TO61.15%ACF-RGBT+THOG54.78%CMT-CNN未命中率未命中率未命中率[44]第四十四话CPU75.85%1.59[22]第二十二话CPU74.04%7.69[18]CPU71.25%0.60[第40话]Titan Z GPU66.73%13.0RPN + BF[43]Tesla K40 GPU64.66%0.51[4]第四话Tesla K40 GPU64.44%0.50CMT-CNNTesla K40 GPU64.01%0.5915370表4. 不同方法的比较（对数平均误检率与检测时间）。在Caltech-All上评估对数平均误检率。s/f表示每帧的秒数。RGB和热数据。我们还观察到，在合理的夜间设置，我们的方法获得了更显着的改善比在合理的白天实验。这表明CMT-CNN特别适用于黑暗照明条件下的行人检测，从而证实了我们最初的直觉。4.4. 加州理工学院行人数据集上的结果CMT-CNN分析与KAIST数据集上的实验类似，我们首先分析了子网B使用不同初始化策略时在这种情况下，我们还考虑另一个基线 CMT-CNN-SA-SB（RGB-KAIST），即我们使用在ImageNet上预训练的VGG 16初始化子网B，并使用KAIST的RGB数据进一步训练它。计算结果如表2所示，证实了我们框架的有效性。我们观察到CMT-CNN-SA- SB（RGB-KAIST）击败了CMT-CNN-SA-SB（ImageNet），这表明，用KAIST RGB数据微调CMT-CNN-SB为提高加州理工学院的检测性能提供了有效的表示。通过使用来自热模态的补充数据，CMT-CNN进一步153711.80.64.50.40.30.20.1010.90.80.70.60.50.40.30.20.11.80.64.50.40.30.20.1010-310-210-1100101每个图像的假阳性（一）10-310-210-1100101每个图像的假阳性（b）第（1）款10-310-210-1100101每个图像的假阳性（c）第（1）款图8.加州理工学院行人数据集的定量评估结果：与（a）以前使用ACF的方法进行比较（VJ和HOG方法不使用ACF，但作为参考点）（b）Caltech-All的最新方法（c）Caltech-Reasonable的最新方法。提高其准确性，并优于 CMT-CNN-SA-SB （ RGB-KAIST）。我们观察到，由于知识转移对加州理工学院的数据的改善是不太明显的KAIST数据集上获得的。我们认为，这主要是由于加州理工学院的框架通常比KAIST的框架具有更好的照明条件，而热信息在照明不良的情况下特别有益为了进一步证明所提出的CMT-CNN获得的性能增益不仅仅是由于组合不同的模型，我们考虑基线CMT-CNN-SA-SB（RGB-KAIST），并且我们使用范围从32到256的四个不同的小批量大小来训练具有KAISTRGB图像的子网B。对于每个实验，训练样本被随机打乱。表3显示了Caltech-All和Caltech-Reasonable的四个试验的结果：对子网B使用不同的批量大小会略微影响最终性能，并且表中报告的最佳MR仍然比使用CMT-CNN获得的MR差。这证实了我们的跨模态学习方法的有效性。我们还比较了建议的CMT-CNN，它使用ACF生成区域建议与以前的方法也基于ACF建议。图8（a）显示了我们的比较结果：我们的模型优于所有基线。此外，与我们在KAIST实验中观察到的类似，CMT-CNN比CMT-CNN-SA更准确，证实了我们方法的优势。与最先进方法的比较。与现有技术方法的比较见图1。8（b）. 我们考虑了Viola-Jones（VJ）[33]，定向干扰源直方图（ HOG ） [7] ， DeepCascade+[1] ，LDCF[18]，SCF+AlexNet[14]，Katamari[3]，SpatialPooling+[23]，SCCPriors[41]， TA-CNN[32]， CCF和CCF+CF[40]，[45] ， DeepParts[31] ， CompACT-Deep[4] 和RPN+BF[43]。我们的方法在Caltech-Reasonable上的失误率为10.69%，这与最先进的方法相比非常有竞争力，94.73%越南记者68.48%HOG51.36%ACF44.22%加州理工学院37.34%ACF+SDt29.76%ACF-Caltech+20.86%TA-CNN13.76%CMT-CNN-SA10.69% CMT-CNN94.73%越南记者68.48%HOG74.39% ACF-Caltech+71.94%DeepCascade71.27%片马里最不发达国家基金71.22% TA-CNN71.11%空间合并+67.70%纸板+64.78% DeepParts64.66%RPN+BF64.44%CompACT-DeepCMT-CNN未命中率94.73%越南记者68.48%HOG29.76% ACF-Caltech+26.21%DeepCascade最不发达国家基金22.49%片马里21.89%空间合并+20.86% TA-CNN17.10%纸板+11.89% DeepParts11.75%CompACT-Deep10.69% CMT-CNN9.58% RPN+BF未命中率未命中率15372Caltech-All的失误率为64.01%，这是一个新的最先进的结果。重要的是，我们的方法可以被视为对大多数以前的作品的补充。事实上，我们相信我们对跨模态表示的无监督学习也可以集成到其他CNN架构中，以提高它们在应对恶劣光照条件时的鲁棒性。在表4中，我们报告了我们的框架和最近的行人检测方法在计算效率方面的比较（与以前的方法相关的时间取自原始论文）。在测试时，我们的网络只需要0.59秒来处理一张图像，这与以前的方法非常有竞争力。5. 结论提出了一种在恶劣光照条件下进行行人检测的新方法受先前多尺度行人检测工作的启发[43]，引入了一种新的深度模型来从原始RGB图像中学习区分特征表示。与以前的方法不同，所提出的架构集成了一个子网络，该子网络在RGB和热图像对上进行预训练通过这种方式，实现了多光谱数据的知识转移，即使在具有挑战性的照明条件下也可以进行准确的检测。所提出的方法的有效性是通过对公开基准的广泛实验来证明的：KAIST多光谱和加州理工学院行人检测数据集。虽然这项工作专门解决了行人检测的问题，但我们的跨模态学习框架背后的想法在其他应用中也很有用（例如，考虑用于RGBD对象/动作检测和识别的深度图像因此，未来研究的自然方向包括进一步调查这种可能性。15373引用[1] A. Angelova，A.克里热夫斯基河Vanhoucke，A.奥加尔，还有D. 弗格森使用深层网络级联的实时行人检测。在BMVC，2015年。[2] R. Benenson，M.马蒂亚斯河Timofte和L.范古尔每秒100帧的行人检测。CVPR，2012。[3] R. Benenson，M. Omran，J. Hosang，and B.席勒行人检测十年，我们学到了什么？ECCVW，2014年。[4] Z.蔡，M. Saberian和N.瓦斯康塞洛斯学习复杂性感知级联用于深度行人检测。在ICCV，2015年。[5] X.曹，Z. Wang，P. Yan，and X.李迁移学习用于行人检测。神经计算，100：51[6] C. M. 克里斯图迪亚斯河Urtasun，M.Salzmann和T.达雷尔。学习从看不见的形态中识别物体。ECCV，2010年。[7] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，2005年。[8] P. 多尔河Appel，S. Belongie和P. 佩洛娜用于对象检测的最后特征金字塔。TPAMI，36（8）：1532[9] P. 多尔阿尔角沃杰克湾Schiele和P. 佩洛娜行人检测：一个基准。CVPR，2009。[10] R.娘娘腔。快速R-CNN。在ICCV，2015年。[11] A. 去吧Z。 Fang，Y. Socarras ，J. Serrat ，D. 去死吧，J. Xu和A. M. 洛佩兹。白天/夜间使用可见光和红外摄像机检测行人：一个比较。Sensors，16（6）：820，2016。[12] S. Gupta，J. Hoffman，and J.马利克监督转移的交叉模态提取。在CVPR，2016年。[13] J. Hoffman，S. Gupta和T.达雷尔。通过模态幻觉学习附带信息在CVPR，2016年。[14] J. Hosang，M.奥姆兰河Benenson和B.席勒仔细观察行人。CVPR，2015。[15] S. Hwang，J. Park，N.金，Y。崔和我所以奎恩。多光谱行人检测：基准数据集和基线.CVPR，2015。[16] A.卡帕西A. Joulin和F. F.李用于双向图像句子映射的深度片段嵌入。在NIPS，2014。[17] J. Li，X. Liang，S.沈，T. Xu和S. 燕. 用于行人检测的尺度感知快速r-cnn。arXiv预印本arXiv：1510.08160，2015年。[18] W. Nam，P. Dol la'r和J. H. 韩改进行人检测的局部去相关在NIPS，2014。[19] W. Ouyang和X.王. 一种用于行人检测和遮挡处理的判别式深度模型。CVPR，2012。[20] W. Ouyang和X.王.多行人检测辅助下的单行人检测。CVPR，2013。[21] W.欧阳X. Zeng和X.王.行人检测中的互视关系建模。CVPR，2013。[22] S.派西特克良格赖角Shen和A.范登亨格尔。利用空间汇集特征加强行人检测的有效性。2014年，在ECCV[23] S.派西特克良格赖角Shen和A.范登亨格尔。基于空间集合特征和结构化集成学习的足类检测. TPAMI，PP（99）：1[24] C. Premebida，J. Carreira，J.巴蒂斯塔和U.努内斯结合rgb和密集激光雷达数据的pedes-trian检测。InIROS，2014.[25] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-timeobjectdetectionwithregionproposalnetworks.2015年，在NIPS[26] P. Sermanet，K. Kavukcuoglu，S. Chintala和Y.乐存。基于无监督多阶段特征学习的行人检测。CVPR，2013。[27] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，国际会议[28] Y. Socar ra's，S. 拉莫斯D. V a'zquez，A. M. Lopez，以及T. Gevers从合成图像到远红外图像的行人检测。载于ICCVW，2011年。[29] R. Socher，M.甘朱角D. Manning和A.Ng. 通过跨模式迁移实现零镜头学习。在NIPS，2013年。[30] N. Srivastava和R.R. 萨拉赫季诺夫利用深度玻尔兹曼机进行多模态学习NIPS，2012年。[31] Y. 田，P.Luo，X.Wang和X.唐用于行人检测的深度学习强在ICCV，2015年。[32] Y. 田，P.Luo，X.Wang和X.唐深度学习语义任务辅助的行人检测CVPR，2015。[33] P. Viola和M.J. 琼斯鲁棒的实时人脸检测。IJCV，57（2）：137[34] P. Viola，M. J. Jones和D.雪使用运动和外观模式检测行人。IJCV，63（2）：153[35] M. Wang，W.Li和X.王. 把一个普通的探测器转移到特定的场景。CVPR，2012。[36] S. Xie和Z.涂。整体嵌套边缘检测。在ICCV，2015年。[37] D. Xu，E. Ricci，Y. Yan，J. Song，and N. Sebe学习用于异常事件检测的外观和运动的深度表示。在BMVC，2015年。[38] D. Xu，Y. Yan，E. Ricci和N. Sebe通过学习

下载后可阅读完整内容，剩余1页未读，立即下载