51 浏览量更新于2023-10-12 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Meta-Sim：学习生成合成数据集http://nv-tlabs.github.io/meta-simAmlan Kar1，2，3Aayush Prakash1Ming-Yu Liu1Eric Cameracci1JustinYuan1Matt Rusiniak1David Acuna1，2，3Antonio Torralba4Sanja Fidler1，2，3 *1NVIDIA2多伦多大学3 Vector Institute4 MIT摘要将模型训练到高端性能需要大型标记数据集的可用性，这是昂贵的。我们工作的目标是自动合成与下游任务相关的标记数据集。我们提出Meta-Sim，它学习合成场景的生成模型，并通过图形引擎获得图像及其相应的地面实况。我们用一个神经网络来参数化我们的数据集生成器，该神经网络学习修改从概率场景语法获得的场景图的属性，以最小化其渲染输出和目标数据之间的分布间隙。如果真实的数据集带有一个小的标记验证集，我们的目标是优化一个元目标，即下游任务绩效。实验表明，所提出的方法可以大大提高内容生成质量比人类工程概率场景语法，定性和定量的下游任务上的性能测量。1. 介绍数据收集和标记是一项费力、昂贵和耗时的工作，是当前大多数机器学习管道的主要瓶颈。为此，合成内容生成[6，36，11，34]已经成为一个有前途的解决方案，因为所有地面实况都是免费的- 通过图形引擎。它还使我们能够在部署到现实世界之前在虚拟环境中训练和测试我们的模型[38，8，48，22，41]，这对可扩展性和安全性至关重要不幸的是，一个重要的性能问题，由于域之间存在的合成和现实世界的域的差距。解决域差距问题导致了大量关于合成域到真实域适应的工作[17，27，54，10、43、34、45]。这些技术的目的是学习领域不变的特征，从而更可移植的模型。主流的方法之一是学习风格化的syn-电子邮件：amlan@cs.toronto.edusfidler@nvidia.com图1.Meta-Sim是一种生成合成数据集的方法，该数据集可以弥合真实数据和合成数据之间的分布差距，并针对下游任务性能thetic图像看起来更像那些在现实世界中捕获[17，27，51，30，18]。因此，这些模型解决了合成域和现实世界域之间的外观差距。他们共同的假设，域差距是由于差异是相当低的水平。在这里，我们认为，域差距也是由于内容差距，从事实上，合成内容（例如，对象的布局和类型）模仿有限的一组场景，不一定反映在真实世界中捕获的那些对象的多样性和分布。例如，虚拟KITTI [11]数据集是由一组工程师和艺术家创建的，以匹配KITTI [13]中的对象位置和姿势，该数据集是在德国卡尔斯鲁厄录制的。但如果目标城市变成日本东京，那里的交通要繁忙得多，高层建筑也多得多，那该怎么办？此外，如果我们想要解决的下游任务从目标检测变为车道估计或雨滴去除，该怎么办？创建合成世界，确保任何所需任务的真实性和多样性，需要高素质专家的巨大努力，并且不能扩展到各种商业应用的快速需求。在本文中，我们的目标是学习合成场景的生成模型，通过利用图形引擎，产生具有与在所需的真实世界数据集中捕获的图像的内容分布相匹配的内容分布的标记数据集我们的Meta-Sim建立在游戏和图形中常用的概率场景语法之上，以创建多样化和有效的虚拟环境。特别地，我们假设从图像中采样的场景的结构4551Meta-Sim在真实数据上使用我训练有素的网络！概率文法路配电Transformer车道车道需要一个标记的数据集来训练我的网络！真实数据集人行道车车树人位置高度姿势分销？生成的合成数据集科学家4552语法是正确的（例如，驾驶场景具有道路和汽车），并学习修改它们的属性。通过修改对象的位置，姿态和其他属性，Meta-Sim获得了强大的灵活性，适应场景生成，以更好地匹配现实世界的场景分布。Meta-Sim还优化了适应模拟器的元目标，以改善在我们的模型合成的数据集上训练我们的学习框架优化了几个目标，使用approximated梯度通过一个不可微的渲染器。我们验证了我们的方法在两个玩具模拟器在受控设置，Meta-Sim被证明擅长弥合的分布差距。我们进一步展示了Meta-Sim在适应类似于SDR [34]的概率语法方面的应用，以更好地匹配真实的自动驾驶数据集，从而提高内容生成质量，如sim-to-real per-speed所衡量的那样。据我们所知，Meta-Sim是第一种实现数据集和任务特定合成内容生成的方法，我们希望我们的工作能够打开为未来更具适应性的模拟打开了大门。2. 相关工作合成内容生成和模拟。社区一直在投入大量精力创建高质量的合成内容，范围从驾驶场景[38，11，36，8，34，47，2]，室内场景[48，50，33]，家用机器人[35，22]，机器人控制[44]，游戏播放[5]，光流估计[6，23]，以及四轴飞行器控制和导航[41]。虽然这些环境通常非常逼真，但它们需要合格的专家花费大量时间来创建它们。域随机化（DR）是这种照片般逼真的模拟环境的更便宜的替代方案[40，43，34]。DR技术通过在随机位置和姿态中插入对象来生成大量不同的场景结果，合成场景的分布与真实世界场景的分布非常不同。另一方面，我们的目标是通过对属性的直接优化和通过对下游任务的性能进行优化的Meta目标来对齐合成分布和真实分布。过程建模和概率场景gram- mars是内容生成的另一种方法，它们能够生成整个城市规模的世界1，并模拟自动驾驶2的各种3D场景。然而，用于生成控制如何生成场景的分布的参数需要手动指定。这不仅繁琐而且容易出错。不保证指定的参数可以生成忠实反映真实世界分布的分布。[24，32]使用这种概率程序来反转生成过程并推断给定图像的程序，而我们1https://www.esri.com/en-us/arcgis/products/esri-cityengine/overview2https://www.paralleldomain.com/目的是从真实数据中学习生成过程本身。领域自适应旨在解决用于训练和测试或部署模型的数据分布之间的差距。从合成到真实，出现了两种域间隙：外观（风格）差距和内容（布局）差距。大多数现有的工作[17，27，54，10，51，30，18]通过使用图像到图像的平移来处理前者，以将合成图像的外观分布转换为看起来更像真实图像的外观分布。其他人[17，27]添加额外的基于任务的约束，以确保风格化图像的布局保持不变。其他技术使用基于伪标签的学习[54]和学生-教师网络[10]进行域适应。我们的工作是解决后者的早期尝试，即。内容的差距。我们注意到，外观间隙与内容间隙正交，并且现有技术可以直接插入到我们的方法中。优化模拟器。[31]也试图优化不可微的模拟器使用变分上，GAN类目标的边界，以产生代表目标分布的样本。另一方面，我们使用MMD [15]距离来比较分布，并优化Meta目标以产生适合下游任务的样本。[7]学习优化机器人控制任务的模拟器参数，其中可以直接比较真实和模拟机器人之间的轨迹。[39]通过使用强化学习优化下游任务性能来优化高级暴露参数。然而，我们优化低级别场景参数（在每个对象的级别），同时还学习匹配分布和优化下游任务性能。[12]试图通过学习生成更低级别的程序（在画笔笔划级别）来合成图像，图形引擎可以解释这些程序以生成逼真的图像，如经过训练的机器人所测量的。[46]使用低维空间（施加更强的限制）和用于估计场景似然性的鉴别器的模型场景生成。然而，我们显式地对场景中的图形结构进行建模，对可能生成的场景具有较少的约束，并且与仅几个暴露的低维参数相比，可以在理论上优化一个采样场景中的所有对象的所有参数，同时还显式地对下游任务进行建模。3. Meta-Sim在本节中，我们将介绍Meta-Sim。给定真实图像的数据集XR和任务T（例如，目标检测），我们的目标是合成训练数据集DT=（XT，YT），其中XT是类似于给定真实图像的合成图像，YT是任务T的对应地面实况。为了简化符号，我们从这里开始省略下标T我们用神经网络对数据综合进行参数化，即：D（θ）=（X（θ），Y（θ））.我们在本文中的目标是学习参数θ，使得X（θ）的分布匹配4553测试评分（θ）（性能）场景图概率文法配电Transformer目标验证数据集SI VSI VPSI EGθSI EMMD（θ）SI A我Gθ（si）重建损失（θ）一我图像地面实况渲染器推理生成的合成数据集火车地面实况任务网络图2.Meta-Sim概述：目标是学习使用分布Transformer转换来自概率语法的样本，旨在最大限度地减少模拟和真实数据之间的分布差距，并最大限度地提高模拟到真实的性能XR（Real Image）可选地，如果真实数据集带有一个小的验证集V，该验证集被标记为任务T，则我们还旨在优化一个元目标，即下游任务绩效。后者假设我们也有一个可训练的任务解决模块（即。另一个神经网络），我们希望通过在我们生成的训练数据上训练它来最大化它的性能我们将此模块称为任务网络，在我们的工作中将其视为黑盒请注意，Meta-Sim与神经架构搜索[53]相似，其中我们的搜索是在固定神经网络的输入数据集上进行的，而不是在给定固定数据的神经网络架构上进行的搜索图像合成与渲染。像素的生成模型最近才在生成真实的高分辨率图像方面取得成功[4，19]。提取任务特定的地面实况（例如：但对于他们来说，这仍然是一个挑战。条件生成模型的像素条件对输入图像和转换其外观，产生引人注目的结果.然而，这些方法假设地面真值标签保持不变，因此在其内容（结构）可变性方面受到限制。在Meta-Sim中，我们的目标是学习合成3D内容的生成模型，并通过图形引擎获得D由于3D资产带有语义信息（即，我们知道资产是汽车），合成或修改合成场景仍将呈现完美的地面实况。主要的挑战是通过优化与真实图像渲染的分布不匹配来学习3D场景合成。以下小节详细介绍了Meta-Sim的布局，其结构如下：秒3.1介绍了参数化合成世界的表示，而Sec.3.2描述了我们的学习框架。3.1. 参数化合成场景场景图是在游戏/图形中表示3D世界的常见方式。场景图以简洁的层次结构表示场景的元素，每个元素具有一组属性（例如，类，位置，甚至是库中3D资产的ID）（见图10）。（3）第三章。层次结构定义了父子依赖关系，其中子元素的属性通常是相对于par-child元素定义的。的相应的图像和像素级的注释可以很容易地渲染，通过放置对象中描述的场景为了生成多样化和有效的3D世界，典型的方法是通过概率场景语法指定图的生成过程[52]。例如，为了生成交通场景，可以首先布置道路的中心线，添加平行车道，在每个车道上定位对准的汽车等。场景的结构由语法定义，而属性通常从参数分布中采样，这需要仔细调整。在我们的工作中，我们假设访问一个概率语法，从我们可以采样初始场景图。我们假设每个场景图的结构是正确的，即。驾驶场景具有道路、天空和多个对象。这是一个合理的假设，因为已知推断结构（逆图形）是一个困难的问题。我们的目标是修改每个场景图的属性，使得变换后的场景在渲染时将类似于真实场景的分布。通过修改属性，我们给模型一个强大的灵活性，以改变对象的位置，姿势，颜色，资产ID等。这相当于学习条件生成模型，其通过对输入场景图进行调节来变换其节点属性。从本质上讲，我们保留了概率文法生成的结构，但改变了属性的分布。因此，我们的模型充当配电Transformer。记法。令P表示概率文法，我们可以从中对场景图SP进行采样。我们表示单个场景图s作为一组顶点sV，边sE和属性sA。我们可以访问渲染器R，其可以接收场景图s并生成对应的图像和地面实况，R（s）=（x，y）。设G θ是指我们的配电Transformer，它接受一个输入场景图s并输出一个场景图G θ（s），具有变换后的属性，但结构相同，即。G θ（s=[s V，s E，sA]）=[sV，sE，Gθ（sA）]。注意，通过对许多场景进行图，对其属性进行变换和绘制，得到了一个合成数据集D（θ）。G θ的架构。给定场景图的图形结构，通过图神经网络建模Gθ是一个自然的选择。特别是，我们使用图卷积网络（GCN）[21]。我们遵循[49]并使用一个图卷积层，该层利用两个不同的权重矩阵分别捕获自上而下和自下而上的信息流。我们的模型对每个节点进行预测。生成sV中每个节点的变换属性Gθ（sA）。可变属性：我们向G θ输入所有属性s A，但我们可能只想修改特定的属性，并在其余的属性上信任概率语法P。例如图3我们可能不想改变房屋的高度4554RΣM图3.一个简单的场景图例子的驾驶场景。图4. Meta-Sim中使用的不同损失的图示，包括每个步骤的我们通过改变节点的颜色来表示场景图的变换属性或者人行道的宽度，如果我们的最终任务是车辆检测。这减少了我们的模型需要调整的暴露参数的数量，从而缩短了训练时间和复杂性。是的因此，在接下来的部分中，我们假设每个节点v∈sV都有一个可变（可修改）的属性子集，记为sA，mut（v）。从这里开始，假设只有sA，mut（v）v中的可变属性被Gθ改变;其他属性保持与s中相同。3.2. 培训Meta Sim我们现在介绍我们的学习框架。由于我们的学习问题是非常困难和计算密集型，我们首先预训练我们的模型使用一个简单的自动编码器损失在秒。3.2.1. 分布匹配损耗为遭受模式崩溃和训练中的一般不稳定性使用MMD的逐像素生成模型通常无法对高频信号进行建模（导致生成模糊）。由于我们的生成过程通过渲染器，我们回避了这个问题，因此选择MMD来训练稳定性。我们在Incep-tionV 3 [42]网络的特征空间中计算MMD （称为 Kernel Inception Distance （ KID ）[3]），具有高斯内核k（xi，xj）。该特征提取器由函数φ表示。我们请读者[29]更详细。图中的分布匹配框。四是培训程序。具体地，给定场景图s1，.，从P和目标真实图像X R采样的N，平方MMD距离可以计算为，在第3.2.2节中给出，而元训练在第3.2.3节中描述。我们的模型的概述在图中给出二、NNL2=1MMDN2i=1i′=1k（φ（Xθ（si）），φ（Xθ（si′））与图中所示的特定培训目标。4.第一章1ΣM+jj′k（φ（X），φ（X））3.2.1预培训：自动编码器丢失R Rj=1j′=1概率场景语法P表示关于如何应该生成场景。学习此先验知识是预训练我们的配电Transformer的自然方法。这1ΣN− MNΣMk（φ（Xθ（si）），φ（Xj））（1）相当于训练Gθ来执行恒等函数，即，Gθ（s）=s.每个节点的输入特征是它的属性集（sA），它在所有节点上都是一致定义的（见附录）。由于sA由不同的分类和连续分量组成，因此当训练以重构时，每个特征分量使用适当的损失（即，损失）。分类属性的交叉熵损失和连续属性的L1损失）。我们发现预训练是至关重要的，在这个阶段的收敛会强烈影响后续训练步骤的性能。3.2.2分布匹配训练模型的第一个目标是使渲染图像的分布更接近真实图像的分布。最大平均离散度（MMD）[15]度量是两个分布相似性的频率论度量，并已用于训练生成模型[9，29，26]以匹配生成分布的统计数据与目标分布。然而，另一种替代方法，带有判别器的对抗学习，i=1j=1其中从s渲染的图像是X θ（s）= R（G θ（s））。从经验上讲，我们发现使用Incep-tion网络的较低层有助于改善MMD计算中出现的域自适应问题，因为一组图像是真实的，而另一组是渲染的。通过渲染器反向传播。我们通过逼近R（Gθ（s））的梯度w.r.t.Gθ（s）使用有限差分3.虽然这给我们带来了嘈杂的梯度，但我们发现它足以在实践中训练我们的模型，并且能够使用照片级真实感渲染。我们注意到最近关于可微渲染的工作[20，28]可能会使这项工作受益。3.2.3优化任务性能训练模型G θ的第二个目标是在给定样本S={s1，.，sK}从通过扰动预测场景图Gθ（s）中每个对象的每个可变属性来计算相机路场景图车道车道人行道树属性car汽车位置：（0，5，0）姿势：0度颜色：黑色人渲染器自动编码器丢失PDT场景图每节点重建损耗转换后的场景图分布匹配PDT场景图R转换后的场景图真实场景生成合成场景最大平均差异任务优化PDT场景图R转换后的场景图小标记实数合成场景+标签考试成绩TNTN真实数据测试培训概率语法（P）配电Transformer（DT）渲染器（R）向前任务网络（TN）落后Σ2M4555θθθ算法1Meta-Sim元训练阶段的伪代码一曰：给定：P，R，Gθ -概率文法，渲染器，GCN模型第二章：给定：TaskNet，XR，V任务模型、真实图像、目标验证计算log pG（S′）。由于我们假设跨场景、场景中的属性和对象的独立性，因此等式3中的针对整个场景的似然性是可简单因式分解的，数据3：超参数：Em、Im、Bm、Epochs、Iters、Batchsize4：whileem≤EmdoMeta trainingΣ ΣlogpGθ（S′）=s′∈S′v∈s′a∈s′ΣlogpG（s′（v，a））（4）（v）5：loss= 0;6：data= [];samples= [];缓存在epoch中生成的数据7：whileim≤ Imdo8：S=Gθ（sample（P，Bm））;从P生成Bm9、改变他们10：D=R（S）;从S渲染图像和标签11：数据+=D;样本+=S;12：损失+=LMMD2（D，XR）;在生成的和13：目标真实图像14：结束while15 ： TaskNet = train （ TaskNet ， data ） ; Train TaskNet ondata16：score = test（TaskNet，V）;在目标值 17 上测试TaskNet ： loss+= − （ score−moving avg （ score ）） ·logpGθ（samples）方程式3十八：Gθ=优化（Gθ，损失）;SGD步长19：结束while概率语法P，使得在该数据上训练的模型在对目标数据V进行测试时实现最佳性能。这可以被解释为一个元目标，其中输入数据必须被优化以提高验证集的准确性。我们引入了一个任务网络TaskNet来使用我们的数据进行训练，并测量验证性能。我们在以下目标下训练G θ，Σ′ΣV A，静音其中s′（v，a）表示批S ′中单个场景s′中节点v处的属性a。注意，总和仅是每个节点的可变属性 A ， mut（v）。单个对数概率来自定义的采样程序。训练算法。在算法1中给出了用于使用分布匹配和任务优化进行训练的算法。4. 实验我们评估Meta-Sim在三个目标数据集上的三个不同的任务。随后的部分遵循一般结构，其中我们首先概述期望的任务、目标数据和任务网络4。然后，我们描述的概率语法，配电Transformer利用其输入，以及相关的渲染器，生成标记的合成数据。最后，我们使用Meta-Sim生成的合成数据训练任务网络后，给出了定量和定性的结果我们观察到在数量上的表现和明显的质量上的改进，MaxθES′G（S）评分（S）（二）内容生成质量的改进。其中score（S′）是在数据R（Gθ（S′））上训练TaskNet后在验证数据V上实现的性能度量。Eq.中的任务损失2与参数θ不可微，因为分数是使用验证数据而不是S′测量的。我们使用REINFORCE评分函数估计器（这是梯度的无偏估计器）来计算方程的梯度二、将目标重新表述为损失并写出梯度，Σ′ Σ前两个实验是在受控环境中进行的，每个实验的复杂性都在增加这里的目的是探索Meta-Sim输入分布是指由来自概率语法的样本生成的场景的分布，我们的Distribution Transformer将其作为输入。这些任务的目标数据是通过仔细修改概率程序的参数来创建的，概率程序代表已知的Ltask=−ES′Gθ（S）score（S）（三）模型必须学习的分配差距。Σ′ ′Σ<$θLtask=−ES′<$Gθ（S）score（S）×<$θlogpGθ（S）为了减少上述估计量的梯度方差，我们跟踪以前得分的指数移动平均值，并将其从当前得分中减去[14]。我们用Gθ（S）中的一个样本来近似期望。图4中的任务优化框提供了任务优化的图片概览。从Gθ（s）采样。当量3要求我们能够从我们的模型中采样（并测量其可能性）。对于连续属性，我们将我们的模型解释为预测每个属性的正态分布的平均值，具有预定义的方差。我们使用重新参数化技巧从这个正态分布中采样。对于分类属性，可以从每个类别的预测对数概率的多项式分布中进行采样。在本文中，我们保持分类属性不变。4.1. MNIST我们首先评估我们的方法对数字分类MNIST类数据。概率语法从MNIST数据集[25]中采样背景纹理，一个数字纹理（图像）（对于任何数字都具有相等的概率），然后对数字的旋转和位置进行渲染器基于采样变换变换纹理，并将其粘贴到画布上。任务网络。我们的任务网络是一个小型的2层CNN，后面是3个完全连接的层。我们在完全连接的层中应用dropout（具有50，100和10个特征）。我们验证了该网络可以实现超过99%的准确率在常规MNIST分类任务。我们在训练时不使用数据增强（在以下所有情况4任务网络培训详情见附录材料4556图5.来自旋转MNIST数据集图6.旋转和平移MNIST实验也是如此），因为它可能会通过改变生成数据的配置来干扰我们模型旋转MNIST。在我们的第一个实验中，概率语法生成的输入样本是直立的和居中的，就像常规的MNIST数字一样（图7底部）。目标数据V和XR是图像（32 ×32分辨率），其中数字居中并始终旋转90度（图5）。理想情况下，模型将学习这种精确的变换，并旋转输入场景图中的数字，同时保持它们处于相同的中心位置。旋转和平移MNIST。对于第二个实验，我们还添加了翻译的分布差距，使任务更难的Meta-Sim。我们将V和XR生成为1000张图像（分辨率为64×64），其中，除了被旋转90度之外，数字被移动，到画布的左下角（图6）。输入的概率文法保持不变，即。一个生成居中和直立的数字（图）。8底部）。定量结果。表1显示了具有上述两个分布差距的目标数据集的分类。目标数据集是来自目标分布的新鲜样本（与V分开）。直接在输入场景上进行训练（来自输入概率语法I.E.在这种情况下产生直立和居中的数字）导致刚好高于随机性能。我们的模型重新覆盖了导致分布差距的转换，并实现了大于99%的分类准确率。数据旋转旋转+平移概率语法14.813.1Meta-Sim99.599.3表1.在数据中具有不同分布间隙的MNIST上的分类性能定性结果。图7和图8显示了我们的模型在训练结束时的生成，并与输入场景进行了比较。显然，该模型已经学会了完美地转换输入分布以复制目标分布，从而证实了我们的定量结果。4.2. 鸟瞰图（2D）接下来，我们评估我们的方法对简单道路的模拟鸟瞰图的语义分割。在概率语法中，我们对背景草纹理进行采样，然后在某个位置处对（直）道路进行采样，图7. （下）输入场景，（上）Meta-Sim图8. （下）输入场景，（上）Meta-Sim图9. Aerial2D确认图10. Aerial2D的输入场景示例背景上的旋转接下来，我们对两辆具有独立位置（通过在道路坐标系中参数化而被约束为在道路中）和旋转的汽车进行采样。此外，我们还随机地对场景中的一棵树和一所房子进行了采样.场景中的每个对象从我们为每个对象收集的一组纹理中获得一个随机纹理。我们最终得到了近600辆车，40棵树，20栋房子，7个草地和4个道路纹理。总的来说，这种语法比MNIST更复杂，因为场景图具有更高的深度、更多的对象和外观的可变性。通过调整语法参数来创建V和XR，以生成逼真的鸟瞰图。（图第9段）。输入概率语法使用随机参数（图1）。10）底部。任务网络。我们使用一个小型的U-Net架构[37]，共有7个卷积层（卷积层中有16到64个滤波器）作为我们的任务网络。定量结果。表2显示了目标集上的语义分割结果。结果表明，Meta- Sim有效地转换了概率语法的输出，即使在这个相对更复杂的设置，并提高了平均IoU。具体来说，它学会大幅减少汽车性能的差距，4557图11. （下）输入场景，（上）Meta-Sim生成的空中语义分割示例数据车路房子树是说概率语法MetaSim30.086.793.199.698.395.099.799.580.395.2表2.Aerial2D上的语义分割结果（IoU）公路上的表现定性结果。定性结果见图。图11表明，该模型确实通过只学习定向来学习利用任务网络的卷积结构。这足以完成它的工作，因为卷积是平移等变的，但不是旋转等变的。4.3. 驾驶场景（3D）在模拟环境中的受控实验中验证了我们的方法之后，我们现在在具有挑战性的KITTI [13]数据集上评估我们的对象检测KITTI是用安装在德国卡尔斯鲁厄市一辆汽车顶部的摄像机拍摄的。它包括具有挑战性的交通场景和场景，从高速公路到城市再到更多的农村社区。与前面的实验相反，我们希望减少的分配差距在这里自然出现。目前的开源自驾驶模拟器[8，41]不提供我们在模型中所需的对象属性的低级控制。因此，我们转向道路场景的概率语法[34，47]。具体而言，SDR [34]是一种道路场景语法，已被证明优于现有的合成数据集，如通过模拟到真实性能所测量的。我们采用了一个更简单的版本的SDR和实现部分的语法作为我们的概率语法。具体来说，我们删除支持的交叉口和支路的计算原因。所用语法的确切参数可以在补充材料中找到。我们使用虚幻引擎4（UE4）[1]游戏引擎从场景图进行3D渲染。图12（左列）示出了使用我们的SDR语法版本生成的场景的示例渲染。语法参数进行了微调，因为我们的目标是让我们的模型在后续部分中完成繁重的工作。任务网络。我们使用带有 Resnet- 50-FPN 骨干（ImageNet初始化）检测头的Mask-RCNN [16]作为我们的任务网络进行对象检测。实验设置。在SDR [34]之后，我们使用汽车检测作为我们的任务。验证数据V通过以下方式形成：来自KITTI火车集的100个随机图像（及其标签）。其余的训练数据（仅图像）形成XR。我们报告的KITTI值集的结果。培训和更详细的信息可在补充材料中找到。复杂性为了降低训练复杂度（来自渲染和数值梯度），我们训练Meta-Sim来顺序优化场景的特定部分。我们首先训练优化汽车的属性。接下来，我们优化汽车和相机参数，最后将上下文元素（建筑物，行人，树木）的参数一起添加到训练中。类似地，我们将分发和任务训练解耦。我们首先使用MMD训练上述参数，最后使用Meta任务丢失优化上述所有参数对于3D驾驶模拟器中的大型场景图，在我们的方法中通过渲染器计算雅可比矩阵是昂贵的（对于一批大小为16的场景图，需要250 - 900秒），但我们发现，在一个TITAN Xp GPU上，场景图的抽象表现出相当快的收敛速度（汽车收敛4-5小时，表3中的所有训练步骤需要72小时），渲染也运行在一个TITAN Xp GPU上。定量结果。表3报告了在KITTI值集上测试时，使用不同方法生成的数据训练的任务网络在0.5 IoU我们可以看到，使用Meta-Sim进行训练比仅仅使用概率语法中的数据要好得多。数据容易中度硬概率语法63.763.762.2MetaSim（汽车）66.466.565.6+相机65.966.365.9+ Context65.966.366.0+ 任务丢失66.766.366.2表3.KITTI val数据集上汽车检测的AP@0.5 IOU在最终生成的数据上用meta-sim和of- fline在线训练任务网络导致类似的最终检测性能。这确保了最终生成的数据的质量，因为在学习数据转换的同时进行训练可以被视为数据增强。弥合外观差距。在训练我们的模型之后，我们还添加了一个最先进的图像到图像转换网络MU-NIT [18]，以尝试弥合生成的合成图像和真实图像之间的外观差距表4显示，使用图像到图像转换的训练仍然在MetaSim和基线之间留下性能差距，证实了我们的内容差距假设。数据容易中度硬概率语法71.175.565.3Meta-Sim77.575.168.2表4.添加图像到图像转换以弥合生成图像中的外观差距的效果培训V。由于我们可以访问一些标记的训练数据，因此有效的基线是在V上训练模型4558图12. （左）来自我们prop的样本。语法，（中）Meta-Sim的对应样本，（右）来自KITTI的随机样本图13. 使用Meta-Sim训练的任务网络的汽车检测结果（顶部）与使用我们的prob训练的任务网络的汽车检测结果（底部）。语法(100图片来自KITTI火车分裂）。在表中。5我们展示了仅使用V进行训练和使用V进行微调的效果。任务网络容易中度硬ImageNet61.262.060.7概率语法71.372.772.7Meta-Sim（任务丢失）72.473.973.9表5.微调对V的影响定性结果。图12显示了Meta-Sim的几个输出与从gram-mar采样的输入的比较，以及来自KITTI（train）的几个随机样本。有一个明显的区别，因为Meta-Sim还要注意相机的微小变化，以及上下文元素的差异，包括房屋，树木和行人。图中的最后一行。12表示Meta-Sim无法清除密集的初始场景，导致汽车相撞的失败情况。有趣的是，Meta- Sim在同一张图像中完美地重叠了两辆车，这样从相机中可以看到一辆车（相机前面的第一辆车）。这种行为被多次看到，表明模型学会了欺骗自己的方式来获得好的数据。按照我们的训练过程，元素按顺序移动到最终配置。我们提醒读者，这些场景配置仅通过图像/任务级监督来学习图13、我们展示培训成果我们的语法和用Meta模拟训练.我们观察到比基线更少的假阳性和假阴性。Meta-Sim显示更好的召回和GT重叠。这两个模型都失去了精度，可以说是因为没有训练类似的类，如巴士/卡车，这将是负面的例子。5. 结论我们提出了Meta-Sim，这是一种生成合成数据以匹配真实内容分布的方法，同时优化下游（真实）任务的性能。我们的模型学习从概率语法转换采样场景，以满足这些目标。在两个玩具和一个真实任务上的实验表明，Meta-Sim生成的样本数量更好，质量明显高于基线。我们希望这为计算机视觉社区的模拟开辟了一个新的令人兴奋的方向。像任何其他方法一样，它有其局限性。它依赖于从语法中获得有效的场景结构，因此它可以建模的场景种类仍然有限。从真实图像中推断语法规则，学习场景的生成结构以及在模型中引入多模态是未来工作的有趣途径。鸣谢：作者要感谢Shaad Boochoon，Felipe Alves，GavrielState，Jean-Francois Lafleche，Kevin Newkirk，Lou Rohan，Johnny Costello，Dane Johnston和Rev Lebaredian感谢他们在整个项目中的帮助和支持4559引用[1] https://www.unrealengine.com/网站。7[2] Hassan Abu Alhaija ， Siva Karthik Mustikovela ， LarsMescheder，Andreas Geiger，and Carsten Rother.增强现实与计算机视觉的结合：城市驾驶场景的高效数据生成。国际计算机视觉杂志，126 （ 9）： 961-972，2018。2[3] Mik ołajBin´o wski，Doug alJSutherland，MichaelArbel，and Arthur Gretton.揭秘mmd甘斯。ICLR，2018年。4[4] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。3[5] Greg Brockman 、 Vicki Cheung 、 Ludwig Pettersson 、Jonas Schneider、John Schulman、Jie Tang和WojciechZaremba。开放健身房。在arXiv：1606.01540，2016。2[6] 放大图片作者：Daniel J. Butler，Jonas Wulff，Garrett B.Stanley和Michael J.黑色.一个用于光流评估的自然开源电影。以.菲茨吉本等人（编），编辑，ECCV，第IV部分，LNCS 7577，第611-625页。施普林格-Verlag，2012. 一、二[7] Yevgen Chebotar，Ankur Handa，Viktor Makoviychuk，Miles Macklin ， Jan Issac ， Nathan Ratliff ， and DieterFox.关闭sim-to-real循环：适应模拟随机化与现实世界的经验。arXiv预印本arXiv：1810.05687，2018。2[8] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉：一个开放的城市驾驶模拟器。在CORL，第1-16页，2017年。一、二、七[9] Gintare Karolina Dziugaite，Daniel M Roy，and ZoubinGhahramani.通过最大平均差异优化训练生成神经网络。InUAI，2015. 4[10] Geoffrey French，Michal Mackiewicz和Mark Fisher。视觉域自适应的自组装。在ICLR，2018年。一、二[11] Adrien Gaidon ， Qiao Wang ， Yohann Cabon ， andEleonora Vig.虚拟世界作为多对象跟踪分析的代理。在CVPR，2016年。一、二[12] 雅罗斯拉夫·甘宁，特哈斯·库尔卡尼，伊戈尔·巴布施金，SM·埃斯拉米和奥里奥尔·维尼亚尔斯。使用强化对抗学习合成图像程序。 arXiv 预印本 arXiv ：1804.01118，2018。2[13] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套件。CVPR，2012。1、7[14] 埃文·格林史密斯，彼得·L·巴特利特，乔纳森·巴克斯特。再增强学习中梯度估计的方差减少技术。JMLR，5（Nov）：1471-1530，2004. 5[15] ArthurGretton，Karsten M Borgwardt，Malte J Rasch，Bern-hardSchoülk opf，andAl e xanderSmola. 一个核双样本检验。JMLR，2012年。二、四[16] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页7[17] Judy Hoffman ， Eric Tzeng ， Taesung Park ， Jun-YanZhu，Phillip Isol，Kate Saenko Alexei A.埃夫罗斯和特雷弗·达尔4560瑞尔Cycada：周期一致的对抗性结构域适应。在ICML，2018。一、二[18] Xun Huang，Ming-Yu Liu ，Serge Belongie，and JanKautz. 多模态无监督图像到图像翻译。在ECCV，2018。一、二、七[19] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。arXiv预印本arXiv：1812.04948，2018。3[20] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Hara

下载后可阅读完整内容，剩余1页未读，立即下载