危险行人检测中的对抗性冒名顶替者的训练检测器

16 浏览量更新于2023-10-15 收藏 2.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2243期待意外：训练检测器用于具有对抗性冒名顶替者的不寻常行人清华大学北京，中国huangsy13@mails.tsinghua.edu.cn卡内基梅隆大学美国匹兹堡deva@cs.cmu.edu摘要随着自动驾驶车辆成为日常现实，高精度行人检测具有极其重要的实际意义。行人检测是一个研究非常深入的课题，方法也比较成熟，但大多数数据集都集中在人们在人行道上进行典型行走姿势的常见场景。但性能对于危险场景最为关键，例如儿童在街上玩耍或人们以意想不到的方式使用自行车/滑板。众所周知，这种“尾部”数据很难观察，这使得训练和测试都很困难。为了分析这个问题，我们收集了一个新的危险场景的注释数据集，称为不稳定的行人数据集。即使有专门的收集工作，它是相对较小的当代标准（1000张图像）。为了实现大规模的数据驱动学习，我们探索了游戏引擎生成的合成数据的使用。一个重要的挑战是选择正确的合成：我们希望与姿势和对象配置，模仿真正的危险行人的现实数据。受生成对抗网络（GAN）的启发，我们生成了大量的合成数据，并训练了一个识别分类器来选择一个现实的子集，我们认为这是对抗性冒名顶替者。我们证明，这个简单的管道允许一个合成现实的训练数据，利用渲染/动画引擎内(a)（b）（c）图1：（a）来自我们的小说《不稳定的行人数据集》的危险但罕见的行人场景的例子。一个重要的场景是行人在他们的手机上（第2行，第2栏），他们可能没有充分意识到他们的表面。(b)加州理工学院数据集中的例子往往无法捕捉到这种罕见的情况。(c)来自一组Advespership Imposters的示例，这些Imposters是经过对抗训练以模仿一组Precarious Pedstri的合成图像。我们证明，这样的图像可以用来训练和评估强大的行人识别系统的目标，这样的危险情况。1. 介绍世界上没有一个软件设计师能够聪明到预测自动驾驶跑到街上的狗，跑到街上的人，骑自行车的人，警察或建筑工人。GAN框架。有趣的是，我们还证明，这些数据可以用于对算法进行排名，这表明对抗性冒名顶替者也可以用于C.哈特，国家运输局局长。安全委员会随着自动驾驶车辆成为日常现实，高精度行人检测具有极其重要的实际意义。行人检测是一个高度研究的2244主题的成熟方法，但大多数数据集集中在“日常”场景的人从事典型的步行姿势在人行道上[9，6，13，12，48]。然而，可部署系统的最重要的操作点可能是其在危险、意外场景中的行为，例如儿童在街上玩耍或人们以意外的方式使用自行车/滑板。不稳定行人数据集：众所周知，这种“尾部”数据很难观察，使得现有系统的训练和评估都很困难。为了分析这个问题，我们收集了一个新的危险场景注释数据集，称为不稳定行人数据集。即使有专门的收集工作，以当代标准来看，它很小（大约1000张图片）。为了探索大规模的数据驱动学习，我们探索了由游戏引擎生成的合成数据。合成训练数据是一个积极探索的主题，因为它为训练数据饥渴的架构提供了潜在的无限多的注释数据[24，30，14，19，40，42]。特别有吸引力的是将大量合成训练数据与少量真实数据（可能难以获取和/或标记）相结合的方法。合成的挑战：我们看到使用合成训练数据的两个主要困难。首先，并非所有数据都是“平等的”：当将合成数据与真实数据组合时，合成共同场景可能不是特别有用，因为它们可能已经出现在训练集中。因此，我们认为，合成数据的真正力量是生成“尾部”示例，否则很难收集。第二个困难出现在建立良好的图像生成模型中，这是一个众所周知的难题。而不是建立生成像素级模型，我们使用最先进的渲染/动画引擎，其中包含大量的知识（关于物理，光传输等）。生成合成的挑战在于构建正确的“先验”或场景参数来渲染/动画。在我们的情况下，这些对应于场景中的人和其他对象的身体姿势和空间对抗性冒牌货：我们地址两关于生成对抗网络（GANs）的一种新变体[17]，一种从潜在噪声向量合成数据的方法。传统的GAN学习生成的前馈模型，该模型通常从固定的已知先验分布中处理潜在噪声向量。相反，我们将前馈模型固定为渲染引擎，但使用ad- verserial框架来学习潜在先验。为此，我们定义了一个渲染流水线，它接受一个输入，一个捕捉对象属性和空间布局的场景参数向量。我们使用拒绝采样来构建一组场景参数（及其相关的渲染图像），最大限度地混淆了图像。我们把这种例子称为对抗性冒名顶替者，并在模拟中使用它们。(a)（b）第（1）款图2：（a）为生成合成图像而构建的场景。(b)我们在这个项目中使用的3D模型。简单的管道，用于将检测器从合成数据调整到真实图像的世界。RPN+：我们使用真实和冒名顶替图像的数据集来训练一套当代检测器。我们发现，（据我们所知）区域建议网络（RPN）[49]的一个新变体针对特定对象（不稳定的人）而不是一般类别的对象检测进行了调整，结果令人惊讶地好。该网络不是对一组稀疏的建议窗口进行分类（几乎所有基于RCNN的当代对象检测系统都是这样做的[38]），而是返回行人检测的密集热图，以及热图中每个像素位置的回归边界框位置。我们称这个探测器为RPN+。我们的实验表明，我们的RPN+，在真实+冒名顶替者数据上训练，优于仅在真实数据上训练的其他检测器。验证：有趣的是，我们还证明了我们的Ad- verserialImposter Dataset可以用于对算法进行排名，这表明我们的管道也可以用于贡献：我们的工作贡献如下：(1)一个新的行人危险情况数据集（不稳定的行人）（2）一个通用架构，用于创建现实的合成数据“在尾部”，有限的真实数据可以收集和（3）我们的整体流水线的演示行人检测任务使用一种新的检测器。我们的数据集和代码可以在这里找到：https://github.com/huangshiyu13/RPNplus。2. 相关工作合成数据：合成数据集已被用于训练和评估计算机视觉算法的性能。某些形式的地面真值很难通过手工标记获得，例如光流，但很容易通过模拟合成[14]。Adam等人[24]使用3D游戏引擎生成合成数据，并学习直观的物理模型来预测掉落的积木塔。Mayer等人[30]发布了使用合成数据的各种任务的基准套件，包括视差和光流。里氏2245等人[40]使用合成数据来提高图像分割性能，但特别是不控制场景以探索对象的目标布置。German Ros等[42]使用Unity开发平台生成合成城市场景数据集。用于检测的3D模型：3D计算机图形模型在视觉中的一个值得注意的应用是人体形状的建模[18，4，1，29，36，3，41]。此外，3D仿真还可用于汽车检测。[2019 - 04 -15][2019 - 04 - 15][2019 - 04 - 15][2019 - 04 -15] Marin等人[29]使用游戏引擎生成合成训练数据。Pishchulin等[35]使用8台高清摄像机扫描人体并建立真实的3D人体模型。然后，他们使用合成数据和一些标记的真实数据来训练行人检测器。Hattori等人[19]使用3D建模软件来构建一个特殊的场景，并将3D模型随机放置在一个特殊的背景上，用于行人检测。这些作品中的大多数使用合成数据域适配：域自适应是处理不同域数据的标准策略，例如合成与真实。可以使用以引导检测器，然后通过移动到目标域分布来适应真实数据Sun和Saenko[46]使用3D模型来训练真实物体的探测器。这些工作通常使用定义在固定特征集上的浅检测器，而我们专注于基于梯度的“深”检测网络（如RCNN）的自适应从这个角度来看，我们的工作受到了深度自适应方法的启发[15，16，26，27]。这样的工作通常假设一个人可以从目标域访问大量未标记的数据。在我们的例子中，组装一个大型的目标数据集的未标记的例子（真正的危险行人）本身就是一个挑战，需要替代方法，更好地利用源数据集。生成对抗网：GAN [17]是可以从潜在噪声向量生成合成图像的深度网络。他们通过逆向训练神经网络来区分真实图像和合成图像。最近的作品在合成图像的生成方面表现出令人印象深刻的性能[31，7，37，44，5]。然而，在这方面，合成具有语义上有效的内容的高分辨率图像似乎具有挑战性。我们规避这些限制与渲染为基础的对抗性方法的图像合成。(a)Precarious数据集（b）加州理工学院数据集(c)Precarious Dataset（d）Caltech Dataset图3：（a）和（b）显示了两个数据集中每个图像的人数百分比。(c)及（d）显示两个数据集中不同类型人士的百分比。Precarious Dataset比Caltech Dataset包含更多的骑自行车和3. 数据集3.1. 不稳定行人数据集我们首先描述我们的不稳定行人数据集。我们对Google Images、Baidu Images和MPII Dataset [2]中的一些选定图像进行了针对目标关键词（如“行人摔倒”、“交通违规”和“危险的自行车骑手”）的专门搜索然后，我们手动为每个图像不稳定行人包括各种场景，例如儿童在路上奔跑、人们绊倒、摩托车手执行危险动作、人们与物体（例如自行车或雨伞）交互。一个重要的危险但越来越常见的场景包括人们在过马路时看手机或发短信，这是潜在的危险，因为人们可能没有意识到他们的周围环境（图1）。为了量化不稳定行人与标准行人基准（如加州理工学院[10]）的（差异）相似性，我们将多人图像的百分比以及骑自行车或骑摩托车的不规则“行人”的数量制成与加州理工学院一样，《危险的行人》包含了更多的整体人物以及更多的自行车和摩托车的图像（图 3 ）。我们将Precarious数据集平均分为训练和测试。3.2. 合成数据集为了帮助训练和评估检测不稳定行人的算法，我们使用了合成数据。在本节中，我们将介绍用于生成合成数据的渲染管道。我们使用Unity 3D游戏引擎作为模拟和渲染的基本平台，因为商业和用户生成的资产都以3D模型和角色动画的形式大量可用。2246范围3D模型[4、 8]背景图片[0， 1726]3D模型[0、 20）3D模型的视野内的所动画索引[0，maxnumber）动画时间[0， 1]模型[-90度，90度]模型【-180，180】模型[-90度，90度]光强度[0。5、 2]光线[-45，45]光线[-45，45]表1：用于合成图像的参数的约束动画的索引和时间（归一化）将共同决定3D模型的姿态。图2显示了我们用于数据生成的商业3D人体模型，包括20个不同的女性、男性、骑自行车者和滑板者化身的模型。因为这些都是为游戏引擎而设计的，所以每个3D模型都与跳跃，说话，跑步，欢呼和欢呼等特征动画相关联。我们在3D场景中使用2D广告牌对这些模型进行动画处理，以捕获场景背景[11]，如图2所示。广告牌是从INRIA数据集[6]的1726张背景图像和从互联网下载的一组自定义户外场景中随机抽样的。我们的方法可以生成一组不同的背景场景，不像那些仅限于单个虚拟城市的方法[29]。场景参数：为了构建将潜在地用于训练和评估的大型合成图像库，我们首先定义一组参数和参数范围。我们对背景图像集、3D模型集以及每个模型的动画帧编号进行索引。简而言之，场景参数包括定向光强度和方向（捕捉阳光）、背景图像索引、3D模型的数量、以及对于每个模型指定化身ID和动画帧的索引、以及根位置和方向（在地平面中的旋转）。我们假设一个固定的摄像机视点。请注意，根位置会影响3D模型的位置和比例在渲染图像中。所有这些参数可以被求和为可变长度向量z∈ Z，其中每个向量对应于特定场景实例化。合成：我们的生成器G（z），或渲染引擎，合成对应于z的图像。重要的是，我们还可以为每个渲染图像合成标签L（z），(a)（b）第（1）款图4：（a）由选择器选择的冒名顶替者图像。(b) 不在Imposter Dataset中的合成图像。简化对象类型、3D位置、像素分割掩模等。在实践中，我们只使用2D对象边界框。表1显示了每个参数的可行范围。此外，我们发现以下启发式方法可以模拟合理的对象布局：我们强制任何两个3D模型之间的最大重叠为20%（以避免拥塞），并且3D模型的投影位置应该位于照相机的视场内。这些条件对于给定向量z是直接验证的，而无需渲染任何像素，并且因此可以通过拒绝采样（即，生成随机向量并仅渲染那些通过这些条件的向量）。与Hironori等人不同，[19]，通过手动调整z来匹配特定场景来生成训练数据，我们的方法不是场景特定的，不需要任何手动干预。预处理：合成图像和不稳定的Pedes-trian图像可以具有不同的大小。我们将每个图像各向同性地缩放到960×720的分辨率，必要时进行零填充。我们的实验还利用了校准-tech Pedestrian基准，我们对其应用相同的预处理。4. 该方法域自适应：在本节中，我们将介绍一个新的框架，用于从合成训练数据到真实训练数据的逆向调整检测器。我们使用x∈ X表示图像，y∈ Y表示其标签向量（一组边界框标签）。设ps（x，y）是指来自（合成图像的）源域的图像标签对的分布，pt（x，y）是指目标域(of真正的危险行人）。在我们的问题中，我们-期望大量的源样本，但目标样本的数量有限我们将联合分解为一个边际上2247图像外观和以给定的应用程序的标签为条件-例如， ps（x）p s（y|X）。重要的是，我们要区分--本机训练前馈函数fs（x）= ps（y|x）至以对抗方式的参数向量：min maxV（D，I）=[对抗先验]（2）I D匹配条件分布。我们的中心问题是Exp（x）[logD（x）]+Ezp（z）[log（1−D（G（z）]如何传递从源采样fs（x）到目标域ft（x）。微调：域自适应的最自然的方法可以简单地是用来自目标pt（x，y）的样本来微调最初在源上训练的预测器fs（x）。事实上，几乎所有当代的视觉识别方法都使用了微调模型，在Imagenet上预先训练[43]。我们在实验中比较了这种策略，但发现当源和目标分布相似时，微调效果正如我们所争论的，虽然渲染引擎可以产生照片级真实感的场景，但很难指定模仿真实（不稳定）场景的场景参数的先验我们描述了一个解决方案，adversarially学习先验。发电机：如第二节所述。3.2，设z∈ Z是场景参数的向量，G（z）∈ X是在给定场景参数的情况下渲染合成图像的前馈生成器函数，并且L（z）∈ Y是从场景参数生成标签我们就可以-将合成图像上的分布表示为场景参数pz（z）上的分布。我们现在描述一个如果生成元G相对于z是可微的，则可以使用反向传播来计算简单先验分布p I（z）的梯度更新，例如高斯分布[22，39]。这意味着上述对抗性先验的公式适用于基于梯度的学习。冒名顶替者搜索：我们看到直接应用（2）到我们的问题有两个困难：（1）不稳定场景参数的最佳先验似乎不太可能是具有单个均值参数向量（和相关协方差矩阵）的简单单峰分布。(2)渲染虽然很容易表示为前馈函数，但在对象边界处不是自然可微的（其中参数的微小变化可以在渲染图像中产生大的变化）。虽然近似微分渲染器确实存在[28]，但我们希望使用高度优化的商业软件包进行动画和图像合成（例如Unity3D）。因此，我们采用一种简单的抽样方法来解决这两个限制：最小值最大值V（D，I）=[冒名顶替者选择]（3）I D学习先验pz（z）的过程，Ex <$p（x）[logD（x）]+Ez <$Unif（Z）[log（1−D（G（z）]转移具体地说，我们学习了一个欺骗对手的先验。尝试区分源和目标样本的sary对抗生成器：为了描述我们的方法，我们首先回顾一下传统的生成广告序列网络（GAN）：最小值最大值V（D，G）=[Gen. （1）第一章其中ZI= Z。也就是说，我们搜索一个参数向量的子集（“冒名顶替者”），以欺骗搜索者。可以采用各种顺序采样策略进行操作，使上述各项最小化;从参数向量的随机样本开始，更新数据集（使用一批真实和合成数据进行基于梯度的更新），生成G DExp（x）[logD（x）]+ Ezp（z）[log（1−D（G（z）]在那些欺骗者的附近增加额外的样本，t zthe door，and repeat重复.我们发现了一个迭代，其中，最小最大优化共同尝试估计可以区分真实数据示例与合成数据示例的CJD，并且生成器G尝试合成欺骗CJD的真实示例。典型地，训练RQD（x）以输出x为实数的概率（例如，一个真正的不稳定的行人），而pz（z）被固定为零均值，单位方差高斯。这种优化可以用随机梯度更新来执行，其收敛（在极限中）到min-imax问题的不动点我们建议读者参考[17]中的优秀介绍。重要的是，生成器必须对关于自然图像的流形的复杂约束进行编码，该自然图像在其他知识中捕获光传输和材料外观的物理特性对抗性前科：我们注意到，渲染引擎可以被看作是已经包含了大量这些知识的生成器，因此我们将G修复为生产质量的渲染平台（Unity 3D）。相反，我们学习先验知识，效果很好。我们的算法合成一组现实的不稳定的场景在Alg。1，并在Alg.二、算法1冒名顶替者选择输入：来自源域S和目标域T的示例集合。输出：冒名顶替者的子集。1. 训练一个二元网络D（x），它能区分样本x∈S和x∈T。2. 返回S中k个样本的子集，这些样本最好地欺骗了S。这里，集合S由从场景参数{z}的穷举集合渲染的合成图像标签对组成，并且集合T由真实（不稳定）图像标签对组成没有步骤2，Alg。2减少到标准微调，不我2248算法2使用冒名顶替者的输入：来自源域S和目标域T的示例集合。输出：目标集合T的预测器f（x）。1. 在源集合S上预训练预测器f（x）。2. 调整TI上的预测器，其中I是使用Alg发现的冒名顶替者的集合。1.一、3. 仅在目标集合T上微调预测器。图5：RPN+的架构。源到目标域。步骤2可以被认为是但重要的是，CXD（x）没有利用标签y来发现冒名顶替者，因此冒名顶替者标签可能不会模仿真实的目标标签分布。正因为如此，我们选择最终在目标图像标签对上微调 f（x）。或者，可以探索直接对数据和标签对进行操作的递归，如[21]中所示。4.1. 执行鉴别器D（x）：我们的鉴别器D是一个VGG16网络，经过训练可以输出输入图像是真实图像（标签为1）还是合成图像（标签为0）的概率。我们发现适量的图像足以用于训练：500张来自不稳定行人列车分裂的图像和1000张随机合成图像。我们对图像进行下采样，384×288加速训练。在训练D之后，我们生成另一组8000张合成图像，并选择各种大小为k的子集来定义冒名顶替者集合（在我们的实验中进一步检查）。我们粗略地发现，2.5%的合成图像可以作为合理的冒名顶替者。预测器 f （x ）：我们使用基于区域建议网络（RPN）的检测系统[38，49]。而与训练RPN返回对象建议相比，我们训练它直接返回行人边界框。我们的网络，表示为RPN+，如图5所示。RPN+是一个使用TensorFlow实现的完全卷积网络。我们在不同的阶段连接几个层，以提高在不同的分辨率定位的人的能力。我们在每个滑动位置使用9个锚点（具有3个比例和纵横比的参考框）。在训练过程中，如果候选边界框与地面实况框的交集重叠超过50%，则其将被视为阳性，并且对于重叠小于20%，将被视为阴性。为了加快训练时间，我们使用预训练的VGG-16模型进行初始化，其中前两个卷积层被冻结。5. 实验5.1. 评价我们遵循Caltech pedes-trian数据集的评估方案[10]，其使用ROC曲线在50%和70%重叠阈值下进行2D边界框检测。测试集：我们使用三种不同的数据集进行评估：我们新的真实图像的不稳定行人测试集，我们新的连续冒名顶替者测试集，以及用于诊断的标准行人基准数据集（加州理工学院）。基线：我们将我们的方法与以下基线进行比较：ACF：一个聚合通道特征检测器[8]。LDCF：LDCF检测器[33]。HOG+级联：使用HOG特征的级联提升分类器[50]。HARR+级联：一个级联的提升分类器与类似haar的特征一起工作[47，25]。RPN/BF：使用增强森林训练的RPN检测模型[49]，这似乎是出版时最先进的足类检测系统。危险的行人：不稳定行人的结果见图6。我们的检测器显著优于替代方法，包括最先进的RPN/BF模型。在每幅图像10−1个假阳性的情况下，我们42.47%的失误率显著优于所有基线，包括最先进的RPN/BF模型（失误率为54.5%）。请注意，所有基线检测器都是在Caltech上训练的。由于检测系统和训练数据集都发生了变化，与基线进行比较变得复杂。然而，从某种意义上说，我们的基本概念是通过对抗性冒名顶替者生成更准确的训练数据集的方法。为了隔离底层检测网络RPN+的影响，我们还单独在加州理工学院的训练集上训练了一个变体（表示为RPN+Caltech），使其直接与所有基线相比较，因为它们使用相同的训练集。RPN+Caltech的表现略差于RPN/BF（漏诊率为58.82%），尽管它在更高的假阳性率下优于RPN/BF。这表明我们的底层网络接近最先进的水平，而且验证了2249微调法50%重叠70%重叠S83.49%95.18%不72.39%93.70%联系我们百分之四十八点四五77.14%S（TI）45.97%74.94%S（TI）T42.47%73.70%(a) 不稳定数据集（b）不稳定数据集图6：（a）和（b）是在不稳定行人测试集上不同重叠率标准下不同检测器的ROC曲线。在图例中，我们表示每幅图像10- 1个RPN+Caltech是指我们的RPN+网络架构只在Caltech上训练，而我们的是指我们的检测器（RPN+）在合成，im-poster和真实图像（Alg 2）上训练。请注意，除了我们的检测器之外，所有检测器都是在加州理工学院数据集上训练的。对抗性冒名顶替者训练的重要改进。图7显示了RPN+的结果，两者都是在Cal- tech上训练的，也都是用对抗性冒名顶替者训练的。定性地，我们发现，不稳定的行人往往采取更多的姿态变化比典型的行人。这需要能够报告更大范围的边界框比例和纵横比的检测系统。对抗性冒名顶替者：我们还探讨了检测器如何在对抗性冒名顶替者的测试集上执行。请注意，我们可以生成任意大的测试集，因为它是合成的。图8和图10显示了性能在真实试验数据和合成试验数据上具有相同的排序。这些结果表明，合成数据可能是有用的测试集，用于评估检测器的罕见（但重要）的情况下，难以观察到在真实的测试数据。加州理工学院：最后，为了完整性，我们还在图9中的加州理工学院数据集上测试了我们的RPN+网络。在这里，所有的探测器都是在加州理工学院的数据集上训练的。作为参考RPN+Caltech模型目前在Caltech Dataset排行榜上的68个条目中排名第6我们还试图在加州理工学院评估我们的最终模型（用对抗性IM-海报训练），但看到的表现平平。我们认为这是由于不稳定的行人不同的比例和长宽比。我们将进一步的跨数据集分析留给未来的工作。5.2. 诊断在本节中，我们将探索我们的方法的各种变体。表2检查了用于将检测器从合成图像的源域调整到真实不稳定图像的目标域的通过冒名顶替者进行微调执行最好的42.47%，没有-表2：在假阳性率为10−1时，不同微调策略的错过率，其中S，T和I指的是源数据集（合成图像），目标数据集（重复的真实图像）和Imposter数据集。Ticcraft的表现优于传统微调（6%）和仅针对目标进行培训（24%）的常见基线。图10检查了k的影响，即im-poster集的大小。我们发现当k等于|用于训练的不稳定行人的目标集的大小。|, the size ofthe target set of Precarious Pedestrians used for training.回想起来，这可能并不奇怪，因为这产生真实图像和对抗性冒名顶替者的均衡分布用于训练。最后，图10还探讨了网络的影响。它将性能绘制为用于学习D（x）的训练时期的函数。当我们训练一个更好的机器人时，我们的整体对抗管道的性能会明显提高。6. 结论我们探索了分析“尾部”城市场景的方法，这些场景代表了自动驾驶汽车的重要操作模式。动机是罕见但危险的场景正是关于视觉识别应该优于哪一个，我们首先分析现有的数据集，并说明它们不包含足够的罕见场景（因为它们自然地关注常见或典型的城市场景）。为了解决这一差距，我们收集了自己的不稳定行人数据集，我们将发布这些数据集，以促进对这一重要（但尚未探索）问题的进一步研究。不稳定的场景是具有挑战性的，因为几乎没有数据可用于评估和训练。为了应对这一挑战，我们建议使用游戏引擎生成的合成数据。然而，要确保综合数据与实际不稳定情景的统计数据相匹配，是一项挑战。受生成对抗网络的启发，我们引入了一个判别分类器（经过训练以区分真实数据和合成数据）来隐式地指定这种分布。然后，我们使用愚弄了伪装者（“合成冒名顶替者”）的合成数据来训练和评估最先进的、鲁棒的行人检测系统。鸣谢。这项工作得到了NSF的2250(a)RPN+Caltech（b）Ours图7：Precarious数据集上的结果。左边显示了在加州理工学院训练的RPN+的结果，而右边显示了用对抗性冒名顶替者训练的RPN+。(a)不稳定数据集（b）合成数据集图 8 ：真实数据集和合成数据集上的算法排名。Precarious数据集和合成数据集上检测器的ROC曲线。我们的（RPN+）是用选择模型训练的。结果表明，算法在真实数据集和合成数据集上的性能具有相同的排名。Grant 1618903，NSF Grant 1208598和Google。我们感谢董银鹏和龙明生的有益讨论。引用[1] A. Agarwal和B. Triggs一种从杂乱图像中估计人体姿态的在亚洲计算机视觉会议上，第50Springer，2006年。[2] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议（CVPR）中，2014年6月。(a) Caltech Dataset（b）Caltech Dataset图9：（a）和（b）是默认“合理”测试方案下Caltech数据集上不同重叠率标准下(a)（b）时期图10：（a）不同量的冒名顶替者的结果。最佳性能是用大小大致等于龋前训练图像的500个目标样本的集合的冒名顶替者集合获得的(b)不同选择器的结果。我们从不同的训练阶段选择三个选择器，并分别使用它们来选择冒名顶替者随着判别器变得更好，最终的微调检测器也变得更好。2251[3] V. Athitsos，H. Wang和A.斯特凡基于数据库的手势识别框架。 Personal and Ubiquitous Computing ， 14（6）：511[4] A. Broggi，A.法肖利山口Grisleri，T.Graf和M.迈内克基于模型的验证方法和匹配技术，用于基于汽车视觉的行人检测。2005年IEEE，2005年。[5] X. Chen ，Y. 段河，巴西 - 地Houthooft ， J. 舒尔曼岛Sutskever和P.阿比尔Infogan：通过信息最大化生成对抗网络进行可解释表示学习。 arXiv 预印本 arXiv ：1606.03657，2016。[6] N. Dalal和B. Triggs Inria个人数据集，2005年。[7] E. L. Denton，S.钦塔拉河Fergus等人使用对抗网络的拉普拉斯金字塔的深度生成图像模型。神经信息处理系统的进展，第1486-1494页，2015年[8] P. 多尔河Appel，S. Belongie和P. 佩洛娜用于对象检测的最后特征金字塔IEEE Transactions on Pattern Analysisand Machine Intelligence，36（8）：1532[9] P. 多尔阿尔角沃杰克湾Schiele和P. 佩洛娜行人检测：一个基准。在计算机视觉和模式识别，2009年。CVPR2009。IEEE会议，第304-311页。IEEE，2009年。[10] P. 多尔角沃杰克湾Schiele和P. 佩洛娜行人检测：对最先进技术的评估。PAMI，34，2012.[11] D. H.艾伯利3D游戏引擎设计：实时计算机图形学的实用方法。CRC Press，2006年。[12] M. Enzweiler和D. M.加夫里拉单目行人检测：调查和实验。 IEEE transactions on pattern analysis and machineintelligence，31（12）：2179[13] A.埃斯湾Leibe，K. Schindler和L.范古尔。一种用于多人跟踪的移动视觉系统。IEEE计算机视觉和模式识别会议（CVPRIEEE Press，June 2008.[14] P. Fischer ， A. 两个人都是 E.Ilg ， P.Hausser ，C.Hazzirbassoul，Golkov，P. van der Smagt，D. Cremers和T.布洛克斯Flownet：使用卷积网络学习光流arXiv预印本arXiv：1504.06852，2015年。[15] Y. Ganin和V.Lempitsky 通过反向传播的无监督域自适应arXiv预印本arXiv：1409.7495，2014。[16] Y. Ganin，E.乌斯蒂诺娃Ajakan山口Germain，H.拉罗谢尔F.拉维奥莱特M Marchand和V。Lempitsky神经网络的领域对抗训练。Journal of Machine Learning Research，17（59）：1[17] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展，第2672-2680页，2014年[18] K.格劳曼湾Shakhnarovich和T.达雷尔。基于统计图像的形状模型推断三维结构。计算机视觉，2003年。诉讼第九届IEEE国际会议，第641-647页。IEEE，2003年。[19] H. 哈托里河谷Naresh Boddeti，K.M. Kitani和T.卡纳德在没有真实数据的情况下学习场景特定的行人检测器。在IEEE计算机视觉和模式识别会议论文集，第3819-3827页[20] M. Hejrati和D. Ramanan合成分析：通过物体重建的三维物体识别。在2014年IEEE计算机视觉和模式识别会议上，第2449IEEE，2014。[21] P. Isola，J.- Y. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。arXiv预印本arXiv：1611.07004，2016。[22] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[23] K. 莱湖，澳-地Bo和D.狐狸. 用于3d场景标注的无监督特征学习 2014 年 IEEE 机器人与自动化国际会议（ICRA），第3050-3057页IEEE，2014。[24] A. Lerer，S. Gross和R。费格斯。通过实例学习积木塔的物理直观。arXiv预印本arXiv：1603.01312，2016。[25] R. Lienhart和J.迈特用于快速目标检测的一组扩展的haar样特征。在图像处理中。2002.诉讼2002年国际会议，第1卷，第I-900页。IEEE，2002年。[26] M.- Y. Liu和O.图泽尔耦合生成对抗网络。神经信息处理系统的进展，第469-477页[27] M. 隆岛，澳-地Cao，J.Wang和M.I. 约旦. 使用深度自适应网络学习可转移特征。在ICML，第97-105页[28] M. M. Loper和M. J.布莱克。Opendr：一个近似的可区分的渲染器。欧洲计算机视觉会议，第154-169页。Springer，2014.[29] J. Marin，D. V a'zquez，D. Ge ro′ nimo和A. M. 洛佩兹。在虚拟场景中学习行人检测的外观。计算机视觉和模式识别（CVPR），2010年IEEE会议，第137-144页。IEEE，2010。[30] N. Maye r，E. Ilg，P. Hausse r，P. Fische r，D. 克雷默斯A. Dosovitskiy和T.布洛克斯一个大型数据集，用于训练用于视差、光流和场景流估计的卷积网络。arXiv预印本arXiv：1512.02134，2015。[31] M. Mirza和S.奥辛德罗条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[32] Y. Movshovitz-Attias，Y.Sheikh，V.N. Boddeti和Z.伟.通过相关滤波器的有区别地减少的集合检测车辆的3D姿态。InBMVC，2014.[33] W. Nam，P. Dol la'r和J. H. 韩改进行人检测的局部去相关神经信息处理系统进展，第424-432页，2014年[34] B.佩皮克湾Stark，P. Gehler，and B.席勒将3d几何图形教授给可变形零件模型。在计算机视觉和模式识别（CVPR），2012年IEEE会议上，第3362-3369页。IEEE，2012。[35] L.皮舒林A.杰恩C.沃杰克M. 安德里卢卡T. Thor méhlen和B. 席勒从少量训练样本中学习人员检测计算机视觉中2252和模式识别（CVPR），2011 IEEE会议，第1473-1480页。IEEE，2011年。[36] M. Potamias和V.阿提索斯手形识别的最近邻搜索在第一届国际会议的程序中，与辅助环境相关的侵入性技术，第30页。ACM，2008年。[37] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。[38] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-time object detection with region proposal networks.在神经信息处理系统的进展，第91[39] D. J. Rezende，S. Mohamed和D.维尔斯特拉深层生成模型中的随机反向传播和近似推理。arXiv预印本arXiv：1401.4082，2014。[40] S. R. Richter，V. Vineet，S. Roth和V.科尔顿。播放数据：从电脑游戏中得到的真相。arXiv预印本arXiv：1608.02192，2016。[41] J. Romero，H. Kestrom和D. 克拉吉奇手在行动：实时三维重建的手在互动与ob-tool。在机器人和自动化（ ICRA ）， 2010 IEEE 国际会议上，第 458-463 页IEEE，2010。[42] G.罗斯湖Sellart，J. Materzynska，D. Vazquez和A. M.洛佩兹synthia数据集：一个大的合成图像集，用于城市场景的语义分割。在IEEE计算机视觉和模式识别会议的Proceedings中，第3234-3243页[43] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein 等人图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211[44] T. 萨利曼斯岛Goodfellow，W.扎伦巴河谷Cheung，A.Rad- ford和X.尘改进的gans训练技术。arXiv预印本arXiv：1606.03498，2016。[45] S. Sa

下载后可阅读完整内容，剩余1页未读，立即下载