半监督行人实例合成与相互强化模型

108 浏览量更新于2023-10-12 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5057半监督的行人实例合成与相互强化吴思12林思浩1吴文浩1Mohamed Azzam2黄孝新21华南理工大学计算机科学与工程学院2香港城市大学计算机科学系cswusi@scut.edu.cn，linsihao6@gmail.com，wenhaowu. gmail.comm. my.cityu.edu.hk，cshswong@cityu.edu.hk摘要我们提出了一个基于GAN的场景特定的实例合成和分类模型，用于半监督的行人检测。我们采用类条件GAN来合成行人实例，而不是从未标记的数据中收集不可靠的检测结果，以缓解标记数据不足的问题。在一个基本检测器的帮助下，我们通过将一个后细化分类器（PRC）集成到一个极大极小化博弈中来集成行人实例合成和检测生成器和PRC可以通过合成高保真的pedestri实例并提供更准确的分类信息来相互增强。它们都与类条件神经网络和类特定神经网络竞争，这样我们模型中的四个基本网络就可以联合训练。在我们的实验中，我们验证了所提出的模型显着提高了基础检测器的性能，并在多个基准测试中取得了最先进的结果如图1所示，结果表明使用廉价的合成实例来改进半监督检测模型的可能性。1. 介绍行人检测是许多实际应用的基础和关键步骤，例如监控和自动驾驶。行人检测的最新进展[1] [48]主要归功于使深度卷积神经网络（CNN）适应这项任务。然而，仍然存在各种挑战。为监督学习收集和手动在本文中，我们限制我们的讨论，半监督行人检测。在我们的设置中，有有限数量的标记数据和大量的未标记数据。我们的任务是利用未标记的数据来促进对图1. CUHK-Square数据集上的行人实例合成和检测。在半监督设置（5%的标记数据），该模型生成高保真的行人的立场。当在PRC的训练中包括合成实例时，即使有完全监督，最终的PRC也超过了基本检测器，如右图所示（越低越好）。标记数据。虽然最先进的检测性能是有希望的，但我们发现，随着标记数据量的减少，它会显着下降。例如，在Caltech1X基准测试[7]上，模型“RPN+BF”[47]在FPPI（每幅图像的假阳性）范围[10 −2，10 0 ]内实现了在许多实际应用中，经常会出现标记数据不足与此同时，半监督行人检测的性能虽然已经做出了一些努力来解决标记数据不足的问题，例如，[38][40] [41]，他们中的大多数应用当前检测器从未标记的数据中收集新的实例，然后重新训练检测器。这些方法的主要缺点是不能保证收集实例的正确性。解决同一问题的其他工作是通过渲染3D人体模型来合成行人实例- s [15][4][19]。然而，合成的行人在-5058图2.说明我们提出的基于GAN的方法的半监督行人实例合成和检测机制姿态看起来不切实际和不自然。根据[48]中的研究，行人检测方法的性能在很大程度上取决于训练数据的质量和多样性。如何有效地利用现有的未标记数据是半监督行人检测的关键问题之一。或者，有希望采用生成对抗网络（GAN）[13]来合成照片般逼真的行人实例。这使我们考虑，er行人实例合成和检测是否可以同时考虑，如果我们要执行半监督行人检测。本文的核心思想是行人实例合成与行人检测之间的相互强化。具体来说，我们采用更快的R-CNN [34]作为我们的基础检测器。为了开发具有更好泛化能力的检测模型，我们在Faster R-CNN之后引入了一个额外的后细化分类器（PRC）受Triple-GAN [23]的启发，PRC与生成器合并以处理标记数据不足的问题。此外，类条件博弈者在极大极小博弈中与生成者和PRC竞争为了欺骗这个判别器，生成器尝试为每个类别合成高保真为了鼓励生成器合成更真实的行人实例，在我们的框架中包括一个额外的类特定的分类器，以专注于区分真实的和合成的行人实例。我们还采用了一个类平均特征匹配步骤来正则化生成器并减轻域偏移，使得合成实例的类条件分布可以与PRC学习的潜在空间中的真实行人实例的类条件分布相匹配。更好的分类反过来可以为生成器提供因此，所提出的模型是能够提高行人实例合成和检测在半监督设置。为了保证测试效率，最终采用PRC来执行测试。在未标记的数据上进行伪标记。我们的目标是在伪标记数据上重新训练我们的基础检测器，这样得到的检测器预计将具有与PRC相似的性能。超出我们的预期，我们发现重新训练的检测器可以达到相当甚至更好的结果。图2显示了所提出方法的概述。1.1. 贡献所提议的方法的主要贡献可归纳如下：(1) 我们开发了一种新的基于半监督GAN的框架，该框架有效地利用未标记的数据进行高保真的场景特定实例合成。这项工作为半监督行人检测提供了新的见解。(2) 在我们的框架中，PRC，生成器和两种鉴别器可以联合训练，以促进行人合成和检测之间的相互加强。(3) 我们进一步探讨了如何使用PRC提供的伪标记数据重新训练基本检测器所得到的模型可以用作独立的检测器，其能够与PRC竞争甚至优于PRC而不影响效率。(4) 我们进行了充分的实验，以验证所提出的方法的有效性。我们表明，我们的方法是有效的半监督pedestri-实例合成。我们还证明了我们的方法显着提高了半监督行人检测的性能。据我们所知，这项工作是第一次尝试将场景特定的行人实例合成到整体检测框架中的半监督设置。50592. 相关工作近年来，随着CNN的发展，行人检测领域取得了显著的进展。由于我们采用了更快的R-CNN [34]作为我们的基本行人检测器，我们主要回顾了最近基于CNN的行人检测方法的工作。许多广泛使用的 CNN[21][16][36]已被应用于对象检测，并取得了显着的性能改善，如以前的工作[34] [12] [6] [29]所报告的。更快的R-CNN在一般对象检测方面表现出令人印象深刻的能力。在此基础上，人们提出了许多行人例如，Zhang et al.[47]用增强的for-est模型替换了Faster R-CNN的下游分类器。当结合硬示例挖掘策略时，他们的模型显著提高了检测性能。类似地，Hu et al.[18]将从CNN的卷积特征图中提取的特征合并到提升决策模型中。Youet al.[45]研究了过滤通道特征的机制，并通过使用两个或多个具有设计的核的卷积层对HOG+LUV特征图进行扩展。扩展的滤波通道特征较原特征提高了检测性能。为了解决在pedestri- an规模和闭塞的大的变化的问题，蔡等人。[3]提出了一种多尺度CNN来对多个输出层进行检测-S.在[24]中，Li et al.提出了一种尺度感知的快速R-CNN（SA-FastRCNN）模型，其中多个子网络联合训练以检测具有不同范围尺度的行人。主动检测模型（ADM）[50]还可以通过采用一组具有多层特征表示的坐标变换来提供对多尺度行人的更准确预测为了同时处理这两个问题，Lin et al.[25]联合训练了一个多尺度网络和一个人类解析网络。前一个网络学习多粒度的特征，这是有用的检测小尺寸的行人，和后一个网络学习细粒度的注意力地图，以提高检测被遮挡的行人根据可见部分。另一方面，Wang et al.[39]提出了一种局部和上下文网络（PCN），它集成了捕获身体部位语义信息和上下文信息的互补分支，另一种策略是应用引导注意力机制来关注被遮挡行人的可见部分。Zhang 等人 [49] 将 Faster R-CNN 与附加注意力网络（FasterRCNN+ATT）合并。跨CN-N通道的注意机制有助于揭示各种遮挡模式，从而提高了遮挡行人检测的性能。相比之下，Wang et al.[42]集中于优化检测边界框定位。在他们的模型中，边界框回归损失被包括在整体Faster R-CNN的损失函数，以增强人群场景中的行人为了改进对硬行人/背景实例的分类为了获得上下文信息，辅助分割任务已被包括在行人检测模型中。例如，Fidler et al.[10]应用学习的分段掩码以促进检测任务。此外，分割结果可用于指导行人检测，如[14]所示。在[2]中，提出了一种同时检测和分割的R-CNN（SDS-R-CNN），通过包括语义分割的辅助任务来改进行人检测此外，Costea et al.[5]在通道特征图上执行语义分割以构建语义通道，其可以被视为附加的视觉线索。因此，这导致性能增益。此外，Ouyang等人。[30]将特征提取、变形处理、遮挡处理和分类集成到联合深度学习框架中。除了增强行人检测性能外，还做出了很多努力来加快检测速度。YOLO [32] [33]、SSD [26]和DSSD [11]被提议将区域建议生成和分类阶段结合起来。虽然已经投入了大量的努力来提高全监督设置中的检测性能，但所得到的改进是以所需的大量标记数据为代价的同时，现有的研究中，只有少数的工作集中在研究半监督的行人检测。为了解决这个问题，在[44]中提出了一种变体半监督提升模型。他们在训练Boosted模型的过程另一个相关的工作是在[43]中采用两阶段检测方法。作者应用自定进度的学习范式来逐步训练AlexNet，以评分由初始检测器生成的建议。显着不同的是，这些方法，我们的工作是应用于半监督pedestri-实例合成和检测。我们没有从未标记的数据中收集可能不可靠的实例来构建额外的标记数据，而是通过利用具有高确定性的合成实例来改进模型训练。为了相互加强行人实例合成和检测，我们在极大极小博弈中共同训练相应的基本网络。3. 方法为了促进半监督行人检测，我们的策略是利用基于类条件GAN的数据增强来解决场景特定标记数据不足的问题。我们采用更快的R-CNN作为我们的基础检测器，并最初仅在标记数据上训练它。输入的图像经过主干网络，5060AdvAdvAdv¨¨，+ F然后由区域建议网络（RPN）在所得到的特征图上生成建议。为了对提案进行更准确的分类，我们构建了一个基于半监督GAN的模型，该模型由4个基本网络组成：PRC C、类条件生成器G、类条件CRDCON和类特定CRDSPE。这些网络在一个四人极大极小博弈中竞争。3.1. 半监督环境优化发电机。令pl和pu分别表示标记数据和未标记数据的分布。（x，y）表示标记的数据对，其中y是层的PRC。最小化该项鼓励G生成与潜在空间中的真实实例的统计数据相匹配的行人实例，使得合成实例的合并对于分类器训练是有效的优化PRC。拟议模式的目标不仅可以合成更真实的行人实例，而且可以提高行人检测的准确性。为了达到这个目的，真实和合成的实例都用于训练PRC。除了方程中的平均特征(3)PRC的总体损失函数包括对抗训练项Ckc和分类评价项CkclaEva。相应的优化公式如下：样本的类标签x。同样，如果x≠p，这意味着最小温度+λffeMat+λcclaEva，（4）ux代表未标记的样本。为了使合成大小的行人实例具有与真实实例相似的背景环境，我们提出训练类条件生成器G，其将从先验分布中采样的随机向量和类标签（z，y）对新的场景特定实例。除了有对抗性训练项BLOG，我们包括一个均值特征θCadv其中λ f和λ c是用于控制总体损失函数中相应项的相对重要性的加权因子。F或未标记的样本，让y表示根据预测对其类别标签的估计p（x|θ C），其中PRC由θ C参数化。为了与中国竞争，中国需要采取措施，将项RffeMat匹配到G尽可能准确。因此，对抗训练为了减轻真实和合成之间的域转移，数据因此，发电机的优化可以术语CQC定义如下：Σ。Σ Σ公式如下：最小值+微处理器feMat，（1）CAdv=Expup（x|θC）log1−Dcon（x，y）.（五）哪里GθGadvΣ。.ΣΣΣ由于合成的实例与指定的类别标签相关联，因此它们可以用于监督学习（即，以与所使用的手动标记实例相同的方式）。此外，中国还可以借鉴联合国的经验，adv=E（z，y）+E日志Σ1 −Dcon.G（z，y），y.ΣΣΣ（二）通过将关于后验概率分布的条件熵项包括到后验概率分布中，（z，y）psy=y+日志一维空间G（z，y），整体损失函数因此，术语“无”定义如下：y+表示行人类别的标签，而权重-调整因子μ用于调整相对重要性，ΣE（x，y）=E（x，y）Σ-ylogp（x|θ C）对抗训练和分布匹配之间的关系到Σ+E− p（x|θΣ）log p（x|θ）傻瓜D，G学习合成两个pedestri的实例xpuCΣ。中国（6）con和背景类。为了与Dspe竞争，G需要更多地关注行人实例合成。如将+E（z，y）y=y+-ylogp G（z，y）|θ C。通过4.2节中的实验（图4和表1）证明，结合Dcon和Dspe确实会导致行人实例的合成质量更高。此外，如下定义平均特征匹配项MfeaMat最小化等式中的整体损失函数。(6)迫使PRC正确地对标记的真实数据和合成数据进行分类，同时对未标记的真实数据进行置信预测。随着高保真合成实例的加入，PRC可以学习生成-联系我们¨=¨E（x，y）xlΣ1{y=y+}fΣ（x）很好地适应了其他看不见的情况。对抗训练。我们跟随敌对的列车--E（z，y）psΣ1{y=y}C.G（ z，y）ΣΣ¨2¨2（三）一般来说，三重GAN模型的计算方案。那个...犯罪者Dcon在极小极大博弈中通过区分标记的da与生成者和PRC竞争ℓC5061其中，如果输入为真，则函数1{·}返回1，否则返回0，并且fC（·）表示最后隐藏的ta对{（x，y）|（x，y）p l}从两种伪数据对：{（G（z，y），y）|（z，y）p s}和{（x，y）p s}|xpu}。We5062德特河12+可以将相应的优化问题公式化如下：从这两种数据中选择图像。为了更新模型，训练样本以范围的形式存在最大EθDcon（x，y）xlΣlogD conΣ（x，y）从特定特征层上每个样本x可以Σ+E（z，y）21Σ日志.ΣΣ1−Dcon（G（z，y），y）Σ（七）由相应的边界框坐标表示。nateb=（bx，by，bw，bh），其中（bx，by）表示左上角，bw表示宽度，bh表示高度。+Expu2lo g（1−Dcon（x，y））.对应的标签y指示b是否是足三角形边界框。如果样本呈阳性，同时，另一个CSDspc学习进一步判断行人实例是真是假。其优化公式可表示如下：所述对应的边界框和所述最接近的地面实况边界框的交并比（IoU）大于0。5、负，否则。检测最大EθDspe（x，y）xly=y+ΣlogD SPEΣ（x，y）用于每个训练样本的损失函数RSDET由以下组成：类别预测分量和位置回归分量，定义如下：Σ+E（z，y）y=y+日志.ΣΣ1-D spe（G（z，y），y）.（八）（x，y）= −ylogp（x|θ）+ν1{y=y+}locReg（b，（九）D con和D spe在我们的模型中扮演不同的角色。因为-mer使G学习背景信息以及行人，后者迫使G合成具有更好形状和细节的更真实的行人实例。S.当我们联合训练这四个网络时，生成器和PRC能够以生成更真实的行人实例的形式相互加强，以进行数据增强，同时生成更准确的类别信息指导。因此，所提出的模型是能够促进行人实例合成和检测在半监督设置。3.2. 基础检测器的增强可以合理地预期，中国将有一个更好的条件-其中θR表示检测模型的参数b表示最接近建议b的真实边界框，vr是回归项的加权因子，定义如下：ΣlocReg（b，n∈{x，y，w，h}其中，R表示Fast R-CNN中使用的鲁棒L1损失函数。请注意，在这种情况下，该术语仅适用于正训练样本，如y=y+。在真实标记数据和伪标记数据上重新训练基础检测器可以通过以下优化公式表示：从后面辨别看不见的行人的能力最小E（x，y）xlΣΣ最大值（x，y）+vE（x，y）pΣ拉施德（x，y）地上然而，PRC不能单独应用于per-θR在全图像上形成有效的行人检测。这是因为有大量的边界框在+νcEx′∈N（x）（x，y）<$pl，y=y+orL∗y=yp（x|θ R）−p（x′|θ R）2，∗∗+背景，它可以快速过滤掉的前，训练有素的基地探测器为了提高测试效率，我们的目标是（x，y）y=y（十一）在伪标记数据上重新训练检测器，使得新模型能够在分类性能上近似PRC而为此，我们应用预训练的基本检测器和PRC来扫描未标记的图像。检测边界框和行人在相应区域中的位置被视为未标记图像的伪地面真值这些图像与自动生成的符号相结合，用于重新训练基础检测器。注意，伪标记图像被部分标记，因为检测器可能会错过在下文中，我们将详细描述如何在部分标记的数据上重新训练检测模型训练集包含有限数量的手动标记图像和大量的伪标记图像。在每一次迭代中，小批量保存两个随机的-其中，y表示从伪标记数据收集的实例x的伪标记，并且p表示对应的分布。第三项在Eq。(11)包含的目的是鼓励检测模型为位于邻域中的样本x′生成一致的预测以 x 为中心的 N （ x ）（例如， IoU （ x ，x′）>0.7）。vc和vc是用于调整相对贡献的的伪标记样本和一致性正则化项。4. 实验在本节中，我们将重点验证我们提出的行人实例合成模型是否显著提高了半监督环境下行人检测的准确性。为了进行这种验证，我们5063(a) 真实行人实例（b）合成行人实例图3.真实行人实例和由所提出的模型在中大广场（顶行），麻省理工学院交通（中间行）和Caltech1X（底行）上产生的合成行人实例的示例使用三个基准数据集：麻省理工学院-交通[38]，香港中文大学-广场[37]和加州理工学院-美国[7]。在实验中，我们成功地实现了对基线检测器的显著改进，并且在所有测试数据集上优于先前的最先进的方法。特别是，我们的方法的性能与MIT-Traffic和CUHK-Square上的完全监督模型相当/优于完全监督模型。4.1.实验环境在所有的实验中，我们的半监督设置是只有5%的训练图像是完全注释的，其余95%的图像被视为未标记的数据，在训练过程中不包括任何注释。我们遵循[8]中的评价标准，其中行人的高度至少为50像素，视觉水平至少为使用Caltech-USA数据集的官方度量标准对数平均未命中率（MR）平均值是在对数空间范围[10−1，100]（Caltech 1X为[10−2，100]）内以9个FPPI速率计算的，这与主要竞争方法相同。对于我们的基础检测器Faster R-CNN，我们直接使用作者提供的源代码。我们使用TensorFlow实现了所提出的基于半监督GAN的模型。该模型通过使用Adam求解器进行训练[20]。为了重新训练基本检测器，我们使用随机梯度下降优化器，其动量为0.9.我们从10−3的初始学习率开始，然后在2000年之后将其降低10倍（Caltech 1X为迭代4.2. 综合质量评价首先，我们研究了所提出的基于半监督GAN的模型在行人姿态合成中的有效性。图3显示了三个测试数据集上的合成实例的示例。合成的脚-表1.在Caltech 1X上的合成质量方面比较所提出的模型及其变体。方法ISFID，真实值3.05±0.35-SN-GAN[28] 1.89±0.05 216.66我们的模型w/oDspe2.39±0.13 103.60我们的模型2.74±0.08 44.18(a) SN-GAN(b)Ours w/oDspe（c）Ours图4.在Caltech1X上比较所提出的模型及其变体在行人实例合成中的作用。Trian实例具有完整的身体结构，并且看起来自然，具有令人满意的质量。与真实的pedes-trian实例相比这表明我们的模型中的生成器可以有效地捕获场景信息，并生成合理的场景特定的实例。合成质量。为了突出结合类的条件约束和类特定的约束的优点，我们比较了所提出的模型使用最先进的GAN模型SN-GAN [28]，仅在标记数据上训练。我们还通过从我们的模型中删除类特定的判别器来与变体“Our Model w/o D spe”进行比较图4显示了在Caltech1X上比较这三种模型的其他合成结果。我们可以做以下观察：合成的5064图5.由Caltech1X上的模型和变体产生的合成行人实例的“专家”分类器的分数分布“我们的模型w/o D spe”和“我们的模型”的实例都此外，此外，我们在表1中根据初始得分（IS）[35]和Fre'chet初始距离（FID）[17]评估了这些模型。我们可以清楚地观察到，专家评价。我们的最终目标是通过包含合成的行人实例来改进半监督行人检测。IS和FID无法保证-分析合成实例的语义。为了解决这个问题，我们建议采用一个完全监督的分类网络作为“专家”来对合成的行人实例进行评分。我们认为，“专家”的置信度S-核可以指示合成图像中的行人是否被很好地表示。图5显示了SN-GAN、“Our model w/o D spe”和“Our model”在Caltech 1X上生成的合成实例的分数分布与SN-GAN和“我们的模型w/o D spe”相比另一方面，我们应用主成分分析的SN-GAN和“我们的模型”的合成行人实例每个实例由从“专家”网络的最后隐藏层提取的特征表示。如图6所示，我们可以注意到，与SN-GAN的合成行人实例相比，“Our mod-el”的合成行人实例与真实行人实例匹配得更好。这对于行人实例增强是重要的。当我们在训练过程中加入我们的合成数据时，行人实例的数量和多样性都可以显著增加，同时降低误导中国的风险。4.3. 最新技术水平比较在本小节中，我们在测试数据集上与最先进的半监督行人检测方法进行了比较。我们的基础检测器是一个更快的R-CNN，VGG-16 [36]作为骨干网络，(a) SN-GAN（b）我们的模型图6.在Caltech1X上嵌入真实行人实例和采用主成分分析将前一层隐层提取的特征表2. 我们的模型和竞争方法在CUHK-Square和MIT-Traffic上的FPPI范围[10−1，100]内的对数平均未命中率。方法中大广场MIT交通通用探测器适配[38]0.82400.7915[31]第31话0.69360.6770置信度编码SVM [41]0.63520.6475[51]第五十一话0.6249-数据重构CNN [46]0.53610.5327SMC Faster R-CNN [27]0.43260.4703[44]第四十四话0.42900.3647[22]第二十二话0.28200.4494美国有线电视新闻网（CNN）[43]0.27420.2687我们的基础检测器（初始）0.34670.3458我们的基地探测器（重新培训）0.19240.1509相应超参数的设置与[47]相同我们最初只在标记数据上训练基本检测器我们还报告了通过伪标记未标记数据在增强标记数据上重新训练的基础检测器的结果。表2显示了我们提出的方法和竞争方法在CUHK-Square和MIT-Traffic上的检测结果。“我们的基础检测器（重新训练）”的性能远远优于“我们的基础检测器（初始检测）”。CUHK-Square的性能提升约为15个百分点，MIT-Traffic的性能提升约为19个百分点。在这两个数据集上，所提出的方法分别比第二好的方法此外，我们还在一个更复杂的数据集Caltech1X上测试了我们的方法。以前的工作专注于在这个数据集上执行完全监督学习。最后，与典型的行人检测模型进行了比较，原始的 Faster R-CNN ， RPN+BF和 SDS-RPN。这些模型仅在标记数据上进行训练。与其他竞争方法不同的是，5065图7.比较所提出的方法与其变体在中大广场，麻省理工学院交通和Caltech1X上的半监督行人检测。对数平均未命中率在FPPI范围[10−1，100]（Caltech 1X为[10−2，100]表3.我们的模型和竞争方法在Caltech1X上的FPPI范围[10−2，100]内的对数平均未命中率方法Caltech1X更快的R-CNN [34]0.6098RPN+BF [47]0.3916SDS-RPN [2]0.3566SDS-R-CNN [2]0.3403[44]第四十四话0.5253我们的基础检测器（初始）0.4565我们的基地探测器（重新培训）0.2379建议的方法。表3显示了我们的方法和竞争方法的检测结果。“变体半增强”表现不佳。建议的方法将基线提高了约22个百分点，达到了最佳效果。考虑到标记图像的数量有限，这种改进是值得注意的。4.4. 讨论为了更好地了解半监督行人实例合成和检测的效果，我们在这一小节中进行了更多的实验。具体来说，我们展示了PRC在我们的模型中的性能，在测试数据集上，以说明合成大小的行人实例的好处。我们还基于完全监督来训练我们的基础检测器，作为我们的模型及其变体的检测误差权衡曲线PRC在所有情况下都明显优于“我们的基础检测器（初始）”，这表明合成实例确实对行人实例增强有用。值得注意的是，中国甚至超过了中大广场上的“我们的基地探测器（Ful-Sup）”。与中国相比，此外，我们提出了两项关于Cal-tech 1X的消融研究，以突出平均特征匹配的重要性-在我们的模型中。我们建立了两个变体模型：移民局和“PRC w/o Fea.垫。前者不使用合成的实例来训练PRC，而后者禁用Eq.（四）、我们可以发现这两种变体具有相似的虽然它们的性能优于基线，但改进不如我们的完整模型那么显著因此，我们得出结论，平均特征匹配是一种有效的方式来减轻域移位，并在我们的半监督GAN模型中起着重要的作用。5. 结论在本文中，我们探索了如何使用GANs合成场景特定的实例，以解决半监督行人检测中标记数据不足的与以往从未标记数据中收集新实例的工作不同，我们的方法通过同时进行行人实例合成和分类改进来解决这一为此，在基础检测器的帮助下，我们开发了一种基于半监督GAN的模型，以相互加强发电机和PRC。我们还验证了所提出的模型是能够生成高保真度的行人实例有限的监督。结果表明，这些实例确实导致行人检测在多个数据集上的显着性能增益。鼓舞的结果，我们anticipate，所提出的方法可以应用到其他一般的对象检测问题。致谢这项工作得到香港特别行政区研究资助局的部分资助（项目编号：城市大学11300715），部分由中国国家自然科学基金（项目编号：200000000）资助。U1611461），部分由香港城市大学（项目编号：7005055），部分由广东省自然科学基金（项目编号：2016A030310422），部分由中央大学基础研究基金（项目编号：2018ZD33）。5066引用[1] Rodrigo Benenson，Mohamed Omran，Jan Hosang，andBernt Schiele.行人检测十年，我们学到了什么？在Proc.European Conference on Computer Vision，第613 - 627页[2] Garrick Brazil，Xi Yin，and Xiaoming Liu.通过同时检测和分割照亮行人。在 Proc. IEEE InternationalConference on Computer Vision，第4960 - 4969页[3] 蔡兆伟，范全福，Rogerio S. Feris和Nuno Vas- concelos.用于快速目标检测的统一多尺度深度卷积神经网络在proc 欧洲计算机视觉会议，第354 - 370页，2016年。[4] Ernest Cheung，Anson Wong，Aniket Bera，and DineshManocha. MixedPeds：使用合成生成的人类代理进行训练的未注释视频中的行人检测。在Proc. AAAI人工智能会议，2018。[5] 亚瑟·丹尼尔·科斯泰亚和谢尔盖·内德维奇。快速行人检测的语义在Proc. IEEE计算机视觉和模式识别会议上，第2360 - 2368页[6] 戴纪峰，易力，何开明，孙建R-FCN：通过基于区域的全卷积网络进行对象检测。神经信息处理系统进展，2016年。[7] Piotr Dollar，Christian Wojek，Bernt Schiele，and PietroPerona.行人检测：一个基准在Proc. IEEE Conference onComputer Vision and Pattern Recognition，第304 - 311页[8] Piotr Dollar，Christian Wojek，Bernt Schiele，and PietroPerona. 行人检测：对最新技术水平的评估。 IEEETransactionsonPatternAnalysisandMachineIntelligence，34（4）：743[9] Xianzhi Du ， Mostafa EL-Khamy ， Jungwon Lee ， andLarry S.戴维斯融合DNN：一种深度神经网络融合方法，用于快速和鲁棒的行人检测。在proc IEEE WinterConference on Applications of Computer Vision，第953页– 961,[10] Sanja Fidler ， Roopheh Mottaghi ， Alan Yuille ， andRaquel Urtasun.自下而上的分割，自上而下的检测。在Proc. IEEE Conference on Computer Vision and PatternRecognition，第3294 - 3301页[11] Cheng-Yang Fu ， Wei Liu ， Ananth Ranga ， AmbrishTyagi，and Alexander C.伯格。DSSD：解卷积单激发探测器。在arXiv预印本arXiv：1701.06659，2016。[12] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在Proc. IEEE Conference on Computer Visionand Pattern Recognition，第580[13] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。神经信息处理系统的进展，2014年。[14] 巴拉斯·哈里哈兰，巴勃罗·阿贝莱兹，罗斯·格希克，还有吉坦德拉·马利克.同时检测和分割。在欧洲计算机视觉会议论文集，第297– 312,[15] Hironori Hattori，Vishnu Naresh Boddeti，Kris Kitani，and Takeo Kanade.在没有真实数据的情况下学习场景特定的行人检测器。IEEE计算机视觉和模式识别会议，2015年。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE计算机视觉和模式识别会议，第770 - 778页，2016年。[17] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。神经信息处理系统，2017年。[18] 胡其昌，王鹏，沈春华，安托·范登·亨格尔，和马奇赫·波里克利。推动深度CNN在行人检测方面的极限。IEEE Transactions on Circuits and Systems for VideoTechnology，28（6）：1358[19] 黄世玉和Deva Ramanan。期待意想不到的：训练探测器为不寻常的行人与敌对的海报。IEEE计算机视觉和模式识别会议，2017年。[20] Diederik P. Kingma和Jimmy Ba。亚当：随机优化的一种方法。国际学习表征会议，2015年。[21] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在 Proc. NeuralInformation Processing Systmes，第1106 - 1114页[22] Samuli Laine和Timo Aila用于半监督学习的时间集成在Proc.国际学习代表会议，2017年。[23] 李崇轩，徐坤，朱军，张波。三重生成对抗网。神经信息处理系统进展，第1195 - 1204页[24] 李佳南，梁晓丹，沈胜梅，徐廷发，冯志志，严水成.用于行人检测的尺度感知快速 R-CNN 。 IEEETransactions on Multimedia，20（4）：985[25] Chunze Lin，Jiwen Lu，and Jie Zhou.多粒度深度特征学习用于鲁棒的行人检测。IEEE Trans- actions on Circuitsand Systems for Video Technology（抢先体验），2018年。[26] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C.伯格。SSD：单次触发MultiBox探测器。2016年欧洲计算机视觉会议[27] Ala Mhalla，Houda Maamatou，Thierry Chateau，SamiGaz-zah，and Najoua ESOUKRI BEN Amara.更快的R-CNN场景专业化与顺序蒙特卡洛框架工作。在Proc.数字图像计算国际会议：技术与应用，2016年。[28] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化在proc2018年学习表征国际会议。5067[29] Junhyug Noh，Soochan Lee，Beomsu Kim，and GunheeKim.改进单级行人检测器的遮挡和硬负处理。IEEE计算机视觉和模式识别会议，2018。[30] 欧阳万里，周慧，李洪生，李泉泉，严俊杰，王晓刚.联合学习深度特征、可变形部分、遮挡和分类，用于行人检测。 IEEE Transactions on Pattern Analysis andMachine Intelligence，40（8）：1874[31] 庞俊彪，黄清明，严水成，姜树强，秦磊。将增强的检测器转移到- s视点和场景自适应。IEEE Transactions onImage Processing，20（5）：1388[32] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时目标检测。IEEE计算机视觉和模式识别会议，2016年。[33] 约瑟夫·雷德蒙和阿里·法哈迪YOLO9000：更好、更快、更强。在proc IEEE计算机视觉与模式识别会议，2017年。[34] 任山青，何开明，Ross Girshick，孙健。更快的R-CNN：用区域建议网络进行实时目标检测。神经信息处理系统进展，2015年。[35] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vick- i Cheung、Alec Radford和Xi Chen。改进了训练GAN 的技术。在 Proc. Neural Information ProcessingSystmes，第2234 - 2242页[36] Karen Simonyan和Andrew Zisserman用于大规模识别的深度卷积

下载后可阅读完整内容，剩余1页未读，立即下载