不利调整的场景生成

177 浏览量更新于2023-10-16 收藏 2.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12587不利调整的场景生成VSR Veeravasarapu1，Constantin Rothkopf2，Ramesh Visvanathan11认知和计算中心，部门。法兰克福歌德大学计算机科学系2认知科学&中心达姆施塔特工业大学心理学系。摘要使用计算机图形（CG）生成的数据的经训练的计算机视觉（CV）系统的泛化性能由于虚拟数据和真实数据之间的“域移位”的概念而尚未有效。尽管已经示出了用几个真实世界样本增强的模拟数据减轻域偏移并提高训练模型的可转移性，但是期望用从目标真实世界域学习的分布引导或引导虚拟数据生成，特别是在注释甚至很少的真实图像是费力的领域（诸如语义标记、光流和固有图像等）中。为了以无监督的方式解决这个问题，我们的工作结合了CG的最新进展，其目的是使用大量的3D对象模型来生成随机场景布局，以及生成对抗训练，其目的是通过测量生成数据和真实数据之间的差异来训练生成模型。我们的方法使用迭代估计先验分布的后密度的生成图模型。这是在拒绝抽样框架内完成的。最初，我们假设均匀分布作为先验，由生成图形模型描述的场景的参数。随着迭代的进行，均匀先验分布被顺序地更新为更接近目标数据的未知分布的分布。我们在两个真实世界的基准数据集（CityScapes和CamVid）上展示了逆向调整场景生成的实用性，用于使用深度卷积网络（DeepLab）进行交通场景语义标记我们分别在调整到CityScapes和CamVid之前和之后，在场景生成模型的模拟集上训练的DeepLab模型之间的IoU度量分别获得了2.28和3.14点的性能提升。1. 介绍最近，计算机图形（CG）生成的数据已被积极地用于训练和验证计算机视觉。这是CV系统的一个优点，特别是在获取大规模数据和地面实况成本高昂的情况下。示例包括许多像素级预测任务，如语义分割[8，17，16，19]、光流[7]和固有图像[11]等。然而，由于域偏移问题，仅在模拟数据上训练CV系统时，CV系统的性能不如预期的好[17]。这个问题是由于这样的事实，即由模拟过程产生的参数上的概率分布P（Θ）可能不匹配描述真实世界数据的那些参数Q（Θ）。这可能是由许多因素造成的，例如照明、摄像机参数、场景几何形状和许多其他参数。这些偏差可能导致训练的CV模型对目标应用领域的泛化较差。用于描述这种现象的术语是在经典CV文献中，已经讨论了减少域移位的两种替代方案：1）使用工程特征空间，其实现对特定属性（诸如照明或姿态）中的大变化的不变性，以及2）学习针对特定目标域优化的生成过程的场景先验一些作品设计了[3]或转移了虚拟域的表示，这些虚拟域对域移位是准不变的，例如几何或运动特征表示及其分布（例如见[14]）。随着自动特征学习架构的出现，最近的工作[17，16]已经证明，用一些标记的真实世界样本来增强大规模模拟训练数据可以改善域偏移。然而，在诸如光流和固有图像的许多像素级应用中，即使注释几个样本也是昂贵且费力的。因此，通常期望从真实世界数据引导生成模型，但由于其在引导过程中的固有复杂性以及对丰富注释的种子数据以及诸如相机参数、地理信息等元信息的需要而难以实现[8]的一项建议。最近，无监督生成学习领域的进展，即生成对抗训练[9]，通常称为生成对抗网络（GAN），12588建议使用来自目标域的未标记样本，通过最小化深度区分训练分类器空间中生成和目标分布之间的差异，逐步获得生成模型中参数的更好点估计。在这里，我们建议使用和评估这种对抗性的方法来调整场景先验的背景下，基于CG的数据生成的能力。在传统的GAN方法中，神经网络用于生成模型和判别模型[9，15]）。本文主要讨论了生成型参数的后验密度的迭代估计问题，该问题描述了参数的先验分布P（Θ），图形模型通过：1）生成给定的虚拟样本起始先验，2）使用判别分类器网络D估计将给定虚拟样本标记为真实数据的条件类概率，3）在给定生成模型Θ的参数的情况下，映射这些条件类概率以估计用于将数据标记为真实的类条件概率，以及最后，4）进行贝叶斯更新以估计描述先验P（Θ）的参数的后验密度。这是在拒绝抽样框架内完成的。最初，我们假设均匀分布作为先验的生成场景模型的参数。随着迭代的进行，均匀先验分布被更新为更接近目标数据的未知先验分布的分布。请参见图1了解我们的对抗性调优过程的示意性流程。更具体地，我们使用参数生成3D场景模型G，其是具有场景语义的图形模型。这使得可以通过使用现成的图形渲染方法来生成语义注释以及图像数据。该模型利用现有的3D CAD模型的对象，并实现对象内的变化。该模型由多个变量参数化，包括：1）光变量：强度、光谱、光源位置、天气散射参数; 2）几何变量：物体同现、空间对齐; 3）摄像机参数：摄像机的位置和定位。图1：对抗调优论文组织：我们将首先回顾第2节中的一些相关概念和著作.第3节介绍了我们的生成模型和对抗训练方法来调整模型的参数。我们在第4节中的实验比较对抗训练前后模型这包括将视觉系统的数据统计和通用化与真实世界的数据进行比较。最后，我们在第5节中描述了未来的发展方向。2. 背景我们的工作建立在计算机图形学领域的几项最新进展之上，这些进展旨在从对象的单个3D CAD模型自动生成3D对象的配置，以及无监督生成学习，其旨在将生成模型训练到来自目标域的给定未标记数据集。在这里，我们总结了与我们的工作相关的相关工作和概念。2.1. 场景生成模型自动场景生成一直是CG和CV的目标。随机选择的三维CAD模型根据成本函数的最优空间布置是CG领域中研究得很好的问题。场景布局的基于模拟退火的优化已经应用于特定领域，例如房间中家具的布置。例如，[24]使用模拟退火方法来生成服从特定可行性约束（如空间关系和视觉）的家具布置类似地，[13]提出了一种建立在可逆跳跃MCMC（蒙特卡洛马尔可夫链）之上的交互式室内布局系统，该系统通过从包含布局指南的密度函数中采样来推荐不同的布局。在[23]中，因子势被用来合并几个约束，例如，家具不重叠，椅子在座位安排中彼此面对，沙发靠墙放置。类似地，在航空图像理解文献中，已经使用若干空间过程来推断3D布局[12，21]。大量的文献已经描述了令人愉悦的设计模式的特征约束，如空间排斥、相互对齐[2]。受这些作品的启发，我们将城市布局视为与一些标记相关联的点场，即。类型、形状、比例和方向等属性。因此，我们使用一种称为标记点过程的随机空间过程，它与3D CAD模型相结合，用于合成几何城市布局。空间关系和相互对齐使用标记之间的吉布斯势进行编码。2.2. 视觉图形由于需要大规模的注释数据集，例如，在汽车环境中，已经有几种尝试利用现有的CAD城市模型[17]、赛车游戏[16，19]或概率场景模型来生成注释数据，但是自然场景甚至已经被用于研究人类视觉系统的特性[18]。在行人检测的背景下，一些工作[22]证明了域12589通过探索几种方法将一些真实世界的行人样本与来自H-life游戏环境的许多合成样本相结合，来实现自适应方法在[8]中，作者介绍了一个完全注释的合成视频数据集，该数据集基于一种虚拟克隆方法，该方法将丰富注释的视频作为输入种子。最近，几个独立的研究小组[17，16，19]证明，用少量标记的真实世界样本来增加大量虚拟样本可以改善域转移。在我们的工作中，我们解决了一个问题，即在不需要标记的真实世界样本的情况下，人们可以走多远我们使用来自目标域的未标记数据，并估计生成模型的场景先验分布，其样本是分类器的对手。3. 方法我们将生成模型调整到给定目标数据的方法如图1所示。我们总结了以下关键步骤：• 生成模型G具有与不同场景属性（诸如几何形状和光度测定）相关的场景几何：我们设计了一个3D场景几何布局模型，该模型基于标记泊松过程与3D CAD对象模型相结合。它把对象看作是世界坐标系中的点，把对象的属性（如对象类、位置、方向和比例）看作是与它们相关联的标记。这些点是从概率点过程中采样的，标记是从另一组条件分布中采样的，例如边界框大小的分布、给定对象类型的方向等。3D CAD模型是从我们的集合中随机导入的，其中有一些示例如图2所示，并放置在采样的场景布局中。摄像头连接到一辆高度均匀分布在平均高度1附近的随机汽车。5±0。5米。从世界模型中取样，可以假设状态-为了简单起见，点过程的标记之间的统计独立性。这样的场景状态很可能产生具有空间重叠的物体，这在物理上是不可能的。因此，一些标记之间的相互依赖关系，如空间不重叠，同现，并与吉布斯势的帮助下，对象类的实例之间的连贯性在这种情况下，产生的点过程被称为泊松过程[12]，并且对象布局的密度使用吉布斯方程来公式化：π（o）=• 渲染器从，e−E（o）e−E（o），其中E（o）引入了关于并且输出图像数据V。• 使用梯度下降来训练标准卷积网络，以将源自目标域T和V的数据分类为真实的或生成的。D输出一个标量概率，如果输入是真实的，则训练为高，如果数据是从G生成的，则训练为低。• 概率P（c=1|v，Θ）用于估计似然P（v=实数|Θ）。• 然后用它来更新我们的先验分布，O通过考虑成对交互的在对象O之间。这允许通过定义复杂和特定的相互作用（如对象的互连或相互对齐）来编码强结构信息[12，20]。然而，由于计算的复杂性，这样的约束导致在采样场景状态的延长的计算时间。为了避免这些问题，我们将相互作用限制在基本的相互作用上，以获得非重叠对象的通用模型和约束道路角度。然后，通过开发后处理，可以在后续步骤中引入强结构信息以便连接对象。这可以使用项E（o）=o，o∈O（ekL（oi，oj）−1），其中L（oi，oj）其将在下一次迭代中用作P（Θ）。I j我们现在描述在该过程中使用的组件的细节。3.1. 概率场景生成概率场景模型处理与目标域相关的场景的若干属性。可以将这些属性分为1）几何，2）光度和3）动力学。然而，我们在这项工作中跳过了场景动态建模，因为我们只考虑静态图像，并且还旨在使用公开的大规模3D CAD存储库，例如Google因此，在我们的生成场景模型中，我们考虑使用CAD模型和光度参数对场景布局进行建模。取区间[0，1]中的值，并量化相对于对象oi和oj之间的有效相互重叠，并且k是一个大的正实数值（在我们的实验中k=1000），这强烈地惩罚了大的重叠。对于两个物体之间的小重叠，这种先验只会对全局能量产生微弱的但是如果重叠很高，这个先验将作为硬约束，强烈影响整体能量。场景测光：除了上述几何参数外，我们还模拟了1）光源太阳及其外在（位置和方向）以及内在参数（强度和色谱），2）天气散射参数（粒子密度和散射系数），3) 摄像机外部参数，例如取向和视场。这些模型是通过使用python脚本接口到一个开源图形平台来实现的，12590图2：场景生成模型的图形表示和本工作中使用的3D CAD对象模型的说明(a) RGB图像（b）语义标签（c）深度（d）表面法线（e）漫反射图3：一个渲染的图像样本以及相应的像素级注释。形式，混合器[1]。蒙特卡洛路径跟踪器用于将场景渲染为图像以及注释（如果需要）。详见补充材料。示意图模型如图2所示，以及本工作中使用的CAD对象模型的一些示例。3.2. 初始化如图2所示，我们的生成模型是基于物理的参数模型，其输入是一组场景变量Θ，例如照明、天气、几何形状和相机参数。我们假设所有这些参数在统计上相互独立，这为建模和采样提供了最便宜的选择人们可以基于专家对目标领域的知识或基于诸如大气光学、地理和人口统计学研究的附加知识，使用这些参数上的分布来对依赖性进行建模然而，在没有先验的情况下，我们在其允许的范围内使用均匀分布。例如，BLENDER中的光源通过这些设置，我们的模型能够呈现物理上合理和视觉上逼真的图像。该场景模型在我们的前期工作中得到了应用，作为补充资料.经过训练的视觉模型在模拟数据上执行语义分割的性能在真实世界数据上相当好。然而，由于场景生成统计数据与目标现实世界域之间的偏差，观察到数据移位。因此，在目前的工作中，我们专注于生成统计与现实世界的目标数据，例如CityScapes [6]。图4b中示出了在该初始设置中呈现的一些样本。3.3. 采样和渲染虽然从P（Θ）采样最初很容易，但随着P通过贝叶斯更新迭代更新，它最终变得更难：P（Θ）←P（Θ）p（. |Θ).原因是我们在分类器的概率和P（. ）的情况。因此，这些中间概率函数失去了其易于采样的结构。因此，由于其可扩展性，我们使用拒绝采样方案从P中采样。在一般情况下，一个开放的问题，在使用拒绝抽样计划是来加上最佳比例因子M，这导致了一个前向分布，它是我们想要从中采样的复杂分布的包络这个问题在我们的情况下不会出现，因为我们的P的初始均匀分布可以表现为所有中间Ps的包络，如果它们没有重新归一化的话。然而，这最终增加了拒绝许多样本的可能性，因此生成样本随着迭代次数的增加在计算上变得越来越昂贵。我们通过用各自的最大值对中间概率表进行归一化来解决这个问题。相应的标签通过注释着色器获得，我们在Blender中实现了注释着色器。具有对应标签的图像样本如图3所示。关于我们的渲染选择及其对语义分割结果的影响的细节可以在补充材料中找到。125913.4. 对抗训练在GAN设置中，生成器补充了一个CNOD，它被训练来将样本分类为真实的与生成的。简单地说，对于真实图像，卷积器的输出c应该是1，而对于生成的图像，输出c应该是0。可以选择任何现成的分类器作为D。然而，D的选择起着关键作用，它在D所基于的特征空间中测量P和Q之间的相异性。在这里，我们使用AlexNet，一个5层卷积神经网络，作为D来自动学习特征空间，就像在传统的GAN中一样。标准随机梯度下降与反向传播用于训练这个网络。训练D：所有图像的大小都调整为223X223的通用分辨率，这是AlexNet在Tensorflow中实现的默认输入大小。这样做是为了加快训练过程并节省内存。然而，这具有错过一些行人和车辆的较小对象的细节的缺点。T中的所有真实图像被标记为1，而模拟数据被标记为0.数据增强技术，如随机裁剪，左右翻转，随机亮度和对比度修改器也适用，包括每图像白化。使用10000个epoch来训练分类器。调优G：我们现在估计量P（c= 1|Θ）根据分类概率，即，softmax输出对于V中的所有虚拟样本，这是使用加权高斯核密度估计（KDE）估计的。使用分类器输出p（c=1|v）作为权重，我们得到： ΣP（c = 1|Θ）= P d（c= 1|v）K g（Θv，h）（1）v∈V其中Kg是带宽为h的高斯核。在我们的实验中，我们使用h=0。1.一、我们探索了自动带宽选择方法的使用，但在我们的实验中，默认设置似乎可以充分执行。该KDE估计表示对于给定的Θ值，G生成类似于T的样本的可能性。在贝叶斯设置中，这可以用于更新我们关于P（Θ）的先验信念，相对地为：P（i+1）（Θ）← P（i）（c = 1|P（i）（Θ）（2）在多次迭代之后，如果G和D具有足够的容量，则它们将到达由于P（Θ）→Q（Θ）而两者都不能改进的点。在极限情况下，分类器不能区分两个分布，成为一个随机分类器，即。p（c）= 0。五、然而，在下面的实验中，我们将G上的最大更新次数固定为64. 实验在本节中，我们将从性能方面对生成对抗调优方法深度卷积网络（DCN）用于城市交通场景语义分割。我们选择使用最先进的基于DCN的架构作为这些实验的视觉系统S由于我们把S看作一个黑盒，我们相信我们的实验结果将对其他使用基于DCN的应用程序的研究者感兴趣。我们选择了两个公开的城市数据集来研究我们的方法对合成数据生成的好处视觉系统（S）：我们选择了最先进的基于DCN的架构，即DeepLab [5] as S. DeepLab是VGG-net的修改版本，通过以下更改以原始图像分辨率运行：1）用卷积层替换全连接层，2）跳过最后的子采样步骤，并通过使用Atros卷积对特征图进行上采样。这仍然会导致具有8个像素步幅的较粗糙贴图。因此，在训练目标期间，即，语义标签是以8进行二次采样的地面真值标签。在测试期间，使用双线性插值，然后使用全连接条件随机场（CRF）获得最终标签图。我们将DeepLab的最后一层从21类修改为7类，包括类别：车辆、行人、建筑物、植物、道路、地面和天空。训练S：我们的DeepLab模型使用ImageNet预训练的权重进行初始化，以避免更长的训练时间。使用随机梯度下降和交叉熵损失函数，初始学习率为0.001，动量为0.9，权重衰减为0.0005。我们使用4张图像的小批量，每2000次迭代后，学习率乘以0.1。高分辨率输入图像以因子4进行下采样。训练数据通过垂直镜面反射和原始分辨率图像的随机裁剪来增强，这将数据量增加了4倍。作为停止标准，我们在所有实验中使用固定数量的SGD迭代（30，000）。在CRF后处理中，我们在所有报告的实验中使用CRF推断过程中的固定参数（如[5]中所述的具有高斯边缘电位的10次平均场迭代CRF参数在从训练集中随机选择的300幅图像的子集上进行优化。表 1 列出了具有不同训练测试设置的DeepLab的性能。我们报告了DeepLab在七个类别中的每一个类别的IoU度量方面的准确性，以及我们使用的两个真实数据集的平均每类和全局准确性。真实世界目标数据集T：我们使用CityScapes [6]和CamVid [4]作为目标数据集，其针对城市场景语义分割而定制CityScapes在几个欧洲城市的街道上录制。它提供了一组不同的视频，可以公开访问3475张图像，并为语义标签提供更精细的像素级注释。然而，在对抗性调优过程中，我们在每次迭代中使用1000个从CityScapes随机选择的样本作为T，12592(a)Vinit的直方图(b)调整前从模型中采样的一些Vinit样本(c)Pixel-proportions/class(d)CityScapes直方图(e)来自CityScapes数据(f)Pixel-proportions/class(g)V城市景观直方图(h)调优后从模型中采样的几个V城市景观样本(i)Pixel-proportions/class(j)CamVid直方图(k)CamVid数据(l)Pixel-proportions/class(m)Vcamvid直方图(n)从调整后的模型中采样的Vcamvid的一些样本(o)Pixel-proportions/class图4：模拟和真实训练集的定性比较，以及调整生成模型前后的统计数据（最佳颜色）。12593训练D，并且我们设置Nv=1000以从P（Θ）生成1000个样本。CamVid是在英国的剑桥地区录制的。它提供了701张图像以及高质量的语义注释。在将生成模型调整到CamVid时，我们在每次迭代中从CamVid随机采样500个样本，并设置Nv=500。值得强调的是这些数据集之间的差异。他们中的每一个都是在不同的城市或城市获得的。使用的相机型号不同。由于天气、照明、物体形状的地理和人口差异例如，我们计算了完整CityScapes和CamVid数据集的强度直方图，参见图4d和图4j。为了更好地进行视觉比较，我们用最大频率对直方图进行了归一化拓扑上，这些直方图是完全不同的。类似地，标签统计也不同，参见图4f和图4l中的语义类标签的直方图。如表1中量化的，训练数据集中的这些统计差异反映为DeepLab的性能变化。例如，在CityScapes训练数据（CS train）上训练的DeepLab模型在CS val上的67.71个IoU点处执行，CS val是CityScapes的验证集，即在同一个领域。当使用来自CamVid（CV val）的验证集进行测试时，该性能反而降低了近 13 个点。将DeepLab模型从CityScapes转移到CamVid时也观察到类似的行为。从虚拟域转移到真实域时的性能下降是相当的。类似的观察结果可以在[22]中找到，在行人检测的背景下，使用基于HOG和linearSVM的分类器虚拟现实数据集（V）：为了量化由于对抗性调整而导致的性能变化，我们准备了三个集，这些集是从初始模型和使用第3节中讨论的方法调整的模型模拟到数据集 CityScapes 和 CamVid 的。我们分别用Vinit、Vcityscapes和Vcamvid表示它们。每个集合有5000个图像以及几个注释和像素语义标签。我们首先将模拟训练集的性能统计数据与用于对抗性调整的目标数据集进行在本节的后面，我们还比较了视觉系统在目标数据集上的泛化，当它分别在这些集合上训练时，以量化由于逆向训练场景生成而导致的性能变化。4.1. 训练集尽管难以通过视觉检查来理解由于对抗性训练而导致的显著性能变化，但图4b、4h和4n可用于获得关于训练如何影响像素级标记的见解。我们计算了从初始模型生成的完整数据集Vinit上的像素强度直方图，我们的tar-获取数据CityScapes并生成调整为CityScapesV城市景观的模型。这些图在图4的第一列中示出。通过调整过程，这些直方图的结构已经更接近CityScapes的结构。从数量上看，虚拟数据和CityScapes数据之间的KL差异已从调整前的0.57降低到调整到CityScapes后的0.44。在CamVid数据上训练模型时，观察到类似的行为。最后，我们还获得了地面实况标签的类似直方图。与前面的比较一样，可以观察到标签统计在调整后再次更接近真实数据集，如图4的最后一列所示。这一证据表明，模拟数据集作为这些现实世界数据集的虚拟代理的潜在有用性。4.2. DeepLab的推广在我们的第一组实验中，我们使用CityScapes作为目标域，这意味着我们从CityScapes（CS val）中获取验证集进行测试。我们比较了从初始模型Vinit和调整到CityScapes（Vcityscapes）的模型生成的模拟数据在训练模型到CS val的泛化方面的效用。Vinit在对建筑物、车辆、植被、道路和天空等对象进行分类时产生了良好的效果。然而，行人识别不佳，由于低频率的发生和使用低质量（低多边形网格和纹理）的CAD模型。然而，使用由调整到真实CityScapes的模型生成的V城市景观，将全球IoU的整体性能提高了2.28分。这一次，行人类的每类IoU措施也在一定程度上有所改善。这可以归因于调谐后发生的次数增加。这可以从图4最后一列的条形图中看出为了测量这些改进的统计学显著性com-平均值和标准差为2。28 ±0。三十四在我们的第二组实验中，我们使用CamVid作为目标域，并从CamVidCV val中获取验证集进行测试。我们比较了从初始模型Vinit和调整到CamVidVcamvid的模型生成的模拟数据在从训练模型到CV val的推广方面的效用。Vinit已经产生了良好的结果。然而，Vcamvid的使用改善了整体性能，即全球IoU 3.42点。有趣的是，在V城市景观上训练的DeepLab模型在CamVid验证集上也表现出了更好的性能，但反过来却不是这样，表现为6.57%的性能下降。我们推测，CityScapes场景中大量的行人和他们的多样性可能是原因之一在最后一组实验中，我们比较了12594数据扩充表1：不同训练测试组合的DeepLab模型性能的定量分析。符号：CS和CV分别指真实的CityScapes和CamVid数据集，前缀训练集验证全球车辆行人建筑植被道路地面天空模型调整到CityScapes数据V init CS值49.86 48 53 63 51 47 34 53V cityscapes CS val 52.14（+2.28）56 47 65 57 53 31 56CS列车CS值67.71 59 57 73 64 69 64 88V城市景观CV val 50.28（+0.43）51 50 55 48 49 49 50CS系列CV值54.42 47 43 55 69 46 51 70V init CV val 46.42 53 38 54 35 43 39 63V camvid CV值49.85（+3.42）57 34 63 37 48 44 66CV系列CV值67.42 77 34 65 54 98 45 99V camvid CS值39.85（-6.57）35 41 44 44 32 40 43CV系列CS值54.28 46 43 55 69 46 51 70V init+10%CS CS值67.42 60 66 52 67 74 72 81V cityscapes +10%CS CS值70.01（+2.57）68 60 59 68 77 69 89V初始值+10%CV CV值68.85 51 61 71 67 65 77 90V camvid+10%CV CV值70.57（+1.71）63 57 76 73 67 74 84无监督对抗调整的结果与监督域自适应的结果，即用来自目标域的10%标记的样本扩充模拟显然，监督域自适应提供了改进的性能增益超过我们的对抗调优方法。然而，我们注意到，我们使用上述非监督学习的适度改进是在没有来自目标域的标记样本的情况下实现的，因此，相比之下，这些改进的成本较低我们没有使用初始模型 Vinit模拟的数据，而是通过使用DeepLab调整到Vcityscapes和Vcamvid的模型数据，将相应验证集的性能分别提高了2.57和1.71个IoU点这表明，为了实现与Vinit+10%CS相同的性能水平，校正域偏移所需的真实世界标记数据量减少。使用表1中报告的经验性能增益的线性拟合的粗略分析提供了观察结果，即与Vcityscapes达到相同水平性能所需的标记的真实世界数据的量是训练数据的9%，而Vinit所需的训练数据的标记为10%。5. 结论和今后的工作在这项工作中，我们评估了一种对抗性的方法来调整基于CG的数据生成过程中的生成场景先验，以训练CV系统。为了实现这一目标，我们设计了一个参数化场景生成模型，然后使用AlexNet，其输出概率用于更新场景参数的分布。我们在DeepLab的城市场景语义分割背景下的实验提供了改进泛化的证据。在从逆向调整的场景模型生成的模拟数据上训练的模型。在两个真实世界基准数据集CityScapes和CamVid上，这些改进分别平均为2.28%和3.42%的IoU点。我们目前的工作并没有改变物体的内在属性，如形状和纹理。相反，我们使用一组固定的CAD形状和纹理作为代理来模拟类内变化。我们预计，当从当前相对较小且固定的CAD模型集扩展3D模型集时，未来的性能将得到显着改善。一个可能的扩展是使用类似于[10]的基于组件的形状合成模型，以便学习对象形状上的分布。我们计划进行更多的实验，通过研究模拟训练和目标领域的性能变化来表征对抗性调整特别令人感兴趣的应该是将性能增益作为用于训练的先验分布与目标域的先验分布之间的KL发散的函数进行关联。确认这项工作得到了德国联邦教育和研究部（项目01GQ0840和01GQ0841）和大陆汽车有限公司的支持。调整到CamVid数据的模型12595引用[1] http://www.blender.org/。 4[2] C. Alexander，S. Ishikawa和M.西尔弗斯坦一种模式语言：城镇，建筑，建设，第二卷.牛津大学出版社，1977年。2[3] M. Baktashmotlagh、M. T.哈兰迪湾C.洛弗尔，还有M. 萨尔茨曼基于主不变投影的无监督域自适应IEEEInternationalConferenceonComputerVision，第769-776页，2013年1[4] G. J. Brostow，J. Fauqueur和R.西波拉视频中的语义对象类：高清晰度地面实况数据库。PatternRecognition Letters，30（2）：88 5[5] L- C. Chen，G.帕潘德里欧岛科基诺斯角Mur- phy和A. L.尤尔。基于深度卷积网和全连接crfs的语义图像分割。arXiv预印本arXiv：1412.7062，2014。5[6] M.绳索M.奥姆兰，S.拉莫斯T. 雷菲尔德M.恩茨韦勒河贝南森，美国弗兰克，S。罗斯和B。席勒城市景观数据集用于语义城市场景理解。arXiv预印本arXiv：1604.01685，2016年。四、五[7] P. Fische r，A. 两个人都是E. Ilg，P. Hüusser，C.哈兹尔巴斯河谷Golkov，P. van der Smagt，D.Cre- mers和T. 布洛克斯 Flownet：使用卷积网络学习光流。arXiv预印本arXiv：1504.06852，2015年。1[8] A.盖东，Q. Wang，Y. Cabon和E.维格虚拟世界作为多目标跟踪分析的代理arXiv预印本arXiv：1605.06457，2016年。第1、3条[9] I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地许、D.沃德-法利，S。奥扎尔A. Courville和Y.本吉欧。生成性对抗网。神经信息处理系统进展，第2672- 2680页，2014年一、二[10] E. 卡洛杰拉基斯S. 乔杜里D. 科勒，V. Koltun.基于构件形状综合的概率模型。ACMTransactions on Graph-ics（TOG），31（4）：55，2012. 8[11] N. Kong和M. J.布莱克。固有深度：利用固有图像改进深度转移。在IEEE International Conferenceon Computer Vision（ICCV），第3514-3522页，12月20日，第3514-3522页中，2015. 1[12] F.拉法基湾Gimel'Farb和X.德孔布用多标记点法提取几何特征 . Pattern Analysis and MachineIntelligence ， IEEE Transactions on ， 32 （ 9 ）：1597-1609，2010。二、三[13]P. Merrell，E. Schkufza，Z. Li，M. 阿格拉瓦拉，V. Koltun. 使用内部的12596设计指南。 ACMTransactions on Graphics（TOG），第30卷，第87页。ACM，2011年。2[14] 诉帕拉梅斯瓦兰河谷Shet和V.拉梅什排队统计估计系统的设计商业智能视频分析，第355-373页。Springer，2012. 1[15] A.拉德福德湖，澳-地Metz和S.钦塔拉深度卷积生成对抗网络的非监督表示学习。arXiv预印本arXiv：1511.06434，2015。2[16] S. R. Richter，V.Vineet，S.Roth和V.科尔顿。数据游戏：从电脑游戏中得到的真相。arXiv预印本arXiv：1608.02192，2016。一、二、三[17] G.罗斯湖Sellart，J. Materzynska，D.巴斯克斯，还有A. M.洛佩兹synthia数据集：大量合成图像用于城市场景的语义分割。在IEEE计算机视觉和模式识别会议论文集，第3234-3243页，2016年。一、二、三[18] C. A. Rothkopf，T. H. Weisswange和J.特里施自然图像中的学习独立原因解释了空间变化的倾斜效应。发展与学习，2009年。ICDL 2009年。IEEE第8届国际会议，第1-6页。IEEE，2009年。2[19] A. Shafaei，J.J. Little和M.施密特玩和学：使用视频游戏来训练计算机视觉模型。arXiv预印本arXiv：1608.01745，2016年。一、二、三[20] O. Tournaire，N. Paparoditis和F.拉法基基于标记点的矩形道路标记检测。摄影测量图像分析会议论文集，2007年。3[21] A. Utasi和C.贝内德克一种用于多视角人物检测的三维标记点过程模型。在计算机视觉和模式识别（CVPR），2011 IEEE会议上，第3385-3392页。IEEE，2011年。2[22] D. Vazquez、A. M. Lopez，J. Marin，D. Ponsa，以及D. Geroimo.用于行人检测的虚拟和现实世界适应。Pattern Analysis and Machine Intelligence，IEEE Transactions on，36（4）：797 二、七[23] Y.-- T. 耶湖杨，M.Watson，N.D. 古德曼和P. Hanrahan.利用局部退火可逆跳跃mcmc合成有约束的开放世界。ACM Transactions on Graphics（TOG），31（4）：56，2012. 2[24] L. F. Yu，S.K. Yeung，C.K. Tang，D.泰尔佐普洛斯，T. F. Chan和S. J. Osher让它回家：自动优化家具布置。 ACM Transactions on Graphics（TOG）-Proceedings of ACM SIG-GRAPH 2011，v. 30，no.4，July 2011，article no. 86，2011年。2

下载后可阅读完整内容，剩余1页未读，立即下载