没有合适的资源?快使用搜索试试~ 我知道了~
532欺骗网:网络驱动的域随机化Sergey Zakharov*,Wadim Kehl和Slobodan Ilic*,*慕尼黑工业大学、丰田研究所、西门子公司技术sergey. tum.de,wadim. tri.global,slobodan. siemens.com摘要我们提出了一种新的方法来解决域之间的适配合成和真实数据。相反,采用“盲”域随机化,即,增强具有随机背景或改变照明和着色的合成渲染为此,我们设计了一个最小-最大优化方案,其中一个给定的任务竞争对一个特殊的欺骗网络,以尽量减少任务的错误受到特定的约束所执行欺骗网络从一系列可微像素级扰动中采样,并利用任务架构来找到最具破坏性的增强。与需要来自目标域的未标记数据的基于GAN的方法不同,我们的方法实现了强大的映射,可以很好地扩展到来自源数据的多个目标分布。我们将我们的框架应用于增强的MNIST变体上的数字识别任务、裁剪的 LineMOD 数 据 集 上 的 分 类 和 对 象 姿 态 估 计 以 及Cityscapes数据集上的语义分割,并将其与一些域自适应方法进行比较,从而展示了具有超泛化能力的类似结果。1. 介绍在纯合成数据上训练机器学习模型的诱人可能性允许理论上无限供应输入数据样本和相关标签信息。不幸的是,对于计算机视觉应用,合成渲染和真实世界图像之间的域差距对泛化提出了严重的挑战尽管存在明显的视觉相似性,但合成图像在结构上与真实相机传感器数据不同。首先,合成图像形成产生具有近似的物理阴影和照明的清晰边缘,而真实图像经历许多类型的噪声,例如光学畸变。比率、Bayer去马赛克或压缩伪影。其次,合成CAD模型与其实际物理对应物之间的视觉差异可能相当显著。除了视觉间隙之外,监督方法还需要以2D边界框,分割掩码或6D姿势的形式对真实训练数据进行繁琐且容易出错的人工标记对于其他方法,例如机器人控制学习,必须通过在需要合成渲染的基于模拟的紧密反馈回路中进行探索来找到解决方案[28,39,31]。视觉领域之间的差距现在主要是在监督域自适应方法[54,32,3,30]的情况在这两种情况下,目标都是通过找到直接映射、公共潜在空间或通过对在源数据上训练的任务网络进行正则化来匹配源和目标分布。最近的无监督方法主要基于广义对抗网络(GAN)[4,22,26,46,49,24,43,36,1],尽管这些方法执行适当的目标域转移,但它们可能过拟合所选目标域,并且对于不熟悉的分布外样本表现出性能域随机化方法[47,21,29,52,45]无法访问任何目标域,并且在训练期间采用随机扰动(合成)源数据的相当简单的技术这种方法可能是有效的,但通常是无指导的,需要一个详尽的评估,以找到有意义的增强,提高目标域的性能。最后但并非最不重要的是,来自像素级对抗攻击的结果[6,44]表明存在无法通过用于鲁棒传输的“盲”域随机化来解决的依赖于架构的效应我们在此提出了一个通用框架,该框架在以与GAN533类编码器解码器CNN构成编码器解码器CNN构成认可网输入+转换输入欺骗网(固定)确认净额(固定)变换的输入欺骗网21输入类M1M2M3MnM1M2M3Mn图1:培训管道。训练分两个交替阶段进行。阶段1:欺骗网络的权重被更新,而识别网络的权重被冻结。识别网络的目标被最大化而不是最小化,迫使欺骗网络产生越来越混乱的图像。阶段2:欺骗网络提供的生成的欺骗性图像(其权重现在被冻结)被传递到识别网络,并更新其权重,以使损失最小化。作为这种最小-最大优化的结果,欺骗网络会自动改变输入图像,迫使识别网络对这些域的变化具有鲁棒性网络.这是在两个交替的阶段,如图illustrated。1.在第一阶段,合成输入被馈送到我们的欺骗网络,负责生成增强图像,然后将其传递到识别网络,以使用提供的标签计算最终的特定于任务的损失然后,我们不是最小化损失,而是通过梯度反转[12]最大化它,并且只反向传播欺骗网络参数的更新。欺骗网络的参数是操纵一组可微模块M1,..., MN,从中对增强进行采样。在下一阶段,我们将增强图像与原始图像一起馈送到识别网络,以最小化特定于任务的损失并更新识别网络。以这种方式,通过混淆识别网络,鼓励欺骗网络产生域随机化,并且使识别网络对这种随机变化具有弹性。通过添加不同的模块和约束,我们可以影响欺骗网络改变图像的多少和哪些部分。通过这种方式,我们的方法输出完全独立于目标域的图像,因此比相关方法更好地推广到总的来说,我们的贡献是:• DeceptionNet框架,用于执行最小-最大优化以进行引导域随机化;• 适用于合成数据的这种框架中采用的各种像素级扰动模块;• 新序列:MNIST-COCO和扩展裁剪LineMOD,可以展示我们强大的泛化能力,看不见的领域。在实验部分中,我们将证明,通过利用网络结构的引导随机化实际上比无监督方法更好地推广到新的领域,这些方法可以访问目标数据,同时在已知的目标领域上对它们进行很好的处理。2. 相关工作域适配。各种领域自适应工作致力于弥合领域之间的差距,主要基于无监督条件生成对抗网络(GAN)[46,41,4,1]或风格转换解决方案[14]。这些方法使用目标数据的未标记子集来提高合成数据的性能。例如,[4,1]的作者提出使用GAN来学习从合成图像到真实图像的映射扩展这个想法,[43,36]的方法使用GAN来调整用户定义的转换的参数以适应目标分布。与GAN相反,工作[11]使用序列自动编码器从可用数据中提取特征向量对,然后对其进行解码以生成新的数据样本。或者,可以学习对真实域和合成域都很好的域不变特征。[35]将真实图像特征映射到合成图像的特征空间,并将映射的信息用作特定任务网络的输入,仅在合成数据上进行训练。另一个例子是DSN [5],它提出了将图像表示分割成两个子空间的提取:每个域都是私有的,一个是跨域共享的(学习域不变特征)。然后,共享子空间用于训练分类器,该分类器梯度反转534C我在这两个领域都表现良好。类似地,DRIT[23]将图像嵌入到域不变的内容空间(捕获跨域的共享信息)和域特定的本文首先介绍了我们的结构化欺骗网络,然后描述了优化目标和训练方法。为了形式化我们的流水线,令Xs:=xsc,i∈Ns为C c通过引入跨循环一致性损失源数据集由Ns个源图像xs组成,基于解纠缠的表象。其他方法,CC类对象 那么,Xs:=XsCc∈C是源例如DANN[13]或ADDA[49],而是专注于自适应,改变识别方法本身,使其对域变化更鲁棒。域随机化。但是,如果没有真实的数据怎么办?对这种情况的回答是随机分配。域随机化是一种流行的方法[47,21,52,34,45,38],旨在随机化我们不希望算法敏感的域部分。例如,[47]和[38]通过向输入渲染数据添加可变性来训练复杂识别方法,即,不同的照明条件、纹理变化、场景分解等。这种参数化允许学习对域的特定属性的作者[52]使用了复杂的深度增强流水线,试图覆盖普通商品深度传感器的可能伪像。然后,它被用来训练一个网络,从输入中去除这些伪影,并生成一个干净的、合成的图像。在这个想法的基础上,[34,45]的方法将其扩展到RGB域。然而,主要的问题仍然没有解决:在域名变更的情况下,造成混淆的主要原因是什么?域随机化试图针对所有可能的场景,但我们并不真正知道哪些场景实际上对弥合域差距有用。此外,通过应用简单的增加来覆盖现实世界中存在的所有可能的变化几乎是不可能的。我们的方法可以放在域随机化和GAN方法之间,然而,我们建议将其委托给一个神经网络,我们称之为欺骗网络,它试图以自动化的方式改变图像,从而使任务网络最大限度地混淆,而不是在没有任何明确指导的情况下强制随机化此外,要做到这一点,我们不需要来自目标域的任何标记或未标记的图像。3. 方法如所概述的,我们的转向域随机化方法本质上是任务算法的扩展因此,我们具有实际的任务网络T(x;θT)→γ,对于输入图像x,其返回估计的标签γ(例如,类别、姿态、分割掩模等),以及(2)欺骗网络D,其获取源图像xs并返回欺骗图像xd,当提供给任务时,数据集覆盖所有对象类C. 一个真实的IM数据集-年龄Xr(我们不用于训练)也有类似的定义。3.1. 欺骗模块欺骗网络D遵循编码器-解码器架构,其中输入xs被编码为较低维的2D潜在空间向量z,并且作为输入被给予多个解码模块M1,.,Mn. D的最终输出则是解码输出的加权和xd:=wi·Mi(z)其中wi∈[0,1]H×W作为spa-临时掩蔽操作。虽然这样的公式允许为了灵活性,解码器必须遵循一组预定义的约束来创建有意义的输出并利用固有的图像结构而不是找到平凡的映射来降低任务性能(例如,通过总是解码为0)。请注意,我们提出的框架是通用的,因此需要针对特定数据集实例化欺骗网络。与架构搜索类似,发现“最佳”实例化是不可行的,但可以通过分析数据源找到好的实例化。经过合理的实验,我们决定了MNIST(RGB)和LineMOD(RGB-D)的某些配置,如图所示。2.我们继续提供有关所使用的解码器模块及其约束范围的更多细节。3.1.1背景模块(BG)由于我们的源图像具有黑色背景,它们很难转移到具有无限背景变化的现实世界中,导致准确性显著下降。[21,29]通过在来自大规模数据集的图像之上渲染对象来解决这个问题(例如,MS COCO [25])。相反,我们的后台模块通过链接多个上采样和卷积操作来产生输出。虽然开始时输出相当简单,但在培训的高级阶段,该模块会回归非常复杂和视觉混乱的结构。对于MNIST,我们使用了一个更简单的变体,该变体输出单个RGB背景颜色∈ [0,1]和RGB前景偏置∈[0]。1,0。9](限于不与底色相交)。为了形成输出,我们首先应用回-背景色,然后使用蒙版添加前景偏移。我们确保最终值在范围[0,1]内。3.1.2失真模块(DS)T(D(xs))→y=d,最大化该模块基于弹性变形的思想y和y。虽然识别网络体系结构是标准的,并遵循相关工作[4,12],但我们将首先关注第一次出现在[42]。本质上,2D变形场从[-1,1]随机初始化,然后与535噪声解码器BG/FG解码器扭曲解码器编码器RGB欺骗网输入法线BG解码器光解码器扭曲解码器噪声解码器编码器RGB-D欺骗网输入(a) MNIST的欺骗模块(b)LineMOD图2:用于本实验的欺骗网络的架构。 对于MNIST分类的情况-在这种情况下,使用了三个欺骗模块:失真模块对图像施加弹性变形,BG/FG模块负责生成背景和前景颜色,噪声模块通过施加轻微的噪声来使图像失真。LineMOD数据集需要更复杂的处理,具有四个欺骗模块:噪声和失真(仅应用于深度通道)、与先前情况类似的模块、基于Phong模型生成不同照明条件的逐像素BG模块和光模块。标准差σ的高斯滤波器。对于较大的σ值,结果场接近0,而较小的σ值使场基本上保持随机。然而,σ的中等值使所得场执行弹性变形,其中σ定义弹性系数。然后将结果场乘以比例因子α,该因子控制变形强度。我们的实现紧密遵循所描述的方法,但我们使用解码器输出作为失真场并应用resstrom,类似于空间Transformer网络[20]。我们固定σ=4,但学习α∈(0,5]和一般解码器参数。这意味着网络它本身控制着物体变形的位置和程度。3.1.3噪声模块(NS)在训练期间对网络输入应用轻微的随机噪声增强以类似的方式,我们使用噪声解码器将生成的值添加到输入。噪声解码器回归输入大小的张量值在范围[-0。010 01],然后将其添加到模块的输入。可微照明模型确实存在,我们发现这种基本方法已经工作得很好。该模块需要的表面信息,这是提供了vided在形式的正常地图。由此,我们生成三种不同类型的照明,即环境,漫射和镜面反射。光解码器输出用于定义最终光属性的9个参数的块 3D光方向、RGB光颜色(限制在[0.[0088b16][008b16][0008b16][008b16][08b16][008b16][08b1国家类型(wa∈ [0. 6,1],wd∈[0,1],ws∈[0,1])。3.2. 优化目标欺骗网络的优化目标本质上是识别网络的损失;然而,我们不是最小化它,而是通过在正梯度方向上更新参数来最大化它。 这是通过在欺骗和识别网络之间添加梯度反转层[12]来实现的,如图所示1.一、该层仅在反向传播时否定梯度因此,一般优化目标可以写为:min maxLt(T(D(x;θD)),y;θT)(1)3.1.4照明模块(L)另一个没有被合成数据很好地覆盖的特征是适当的照明。最近的方法[21,29,16,53]预渲染了许多具有不同光照条件的合成图像。在这里,我们基于简单的Phong模型[33]实现了可区分的照明,该模型完全由网络操作。虽然更复杂的参数和θTθD对于n = 1,. . ,Nm(2)其中,x是输入图像,y是地面实况标签,T是任务网络,Lt是任务损失,D是欺骗网络,并且Cm表示由在梯度步骤之后通过投影实施的欺骗模块。 在这个框架中,欺骗网络536(a) MNIST(b)MNIST-M(c)MNIST-COCO(d)PixelDA [4](e)Ours图3:MNIST模式的示例样本:MNIST(Source)、MNIST-M(Target)和MNIST-COCO(Generalization);以及分别由PixelDA和我们的方法生成的示例增强图像。仅取决于识别任务的目标,因此可以容易地应用于任何其他任务。3.3. 训练过程我们使用两种不同的SGD求解器,其中实际任务网络的学习率为0。001,衰减因子为0。95每20000次迭代。欺骗网络的学习率被发现在恒定值为0的情况下工作良好。01.我们在所有实验中使用64个批量进行训练,并在500个epoch后停止训练。在实验过程中,我们还发现,将真实图像和扰动图像连接在一起会导致数字的一致改善。4. 评价在本节中,我们进行了一系列实验,以比较我们的管道与最先进的领域自适应方法的能力。我们首先将我们自己与这些适应问题的基线进行比较,然后将在泛化方面进行比较。最后,我们将进行消融分析,以衡量每个模块和模式对最终性能的影响作为第一个数据集,我们使用了流行的手写dig-它的数据集MNIST以及MNIST-M,在[13]中引入了无监督域自适应(如图2所示)。3a和3b)。MNIST-M通过简单地反转属于数字的像素的颜色值,将来自原始单色集合的数字然后,包含59001个目标图像的训练分割用于域自适应。剩余的9001个目标图像用于评估。这意味着大约86%的目标数据用于训练。请注意,虽然MNIST在技术上不是合成的,但其干净和同质的外观对于合成数据是典型的。第二个数据集是裁剪的LineMOD数据集[51]由11个不同物体的小中心,裁剪的64×64补丁组成,在杂乱的室内设置中以各种姿势显示。它基于LineMOD数据集[15]其特征在于一系列注释的RGB-D序列使用Primesense胭脂红传感器和相关的3D对象重建记录。该数据集还具有在黑色背景上以各种姿势的相同对象的作物的合成集合。我们将把这个合成裁剪的LineMOD作为源数据集,把真实裁剪的LineMOD作为目标数据集。域自适应方法使用109208个渲染源图像和9673个真实世界目标图像的分割,1000个真实图像用于验证,以及2655个图像的目标域测试集用于测试。我们在Figs中显示了示例。4a和4b我们用于实验的最后一个数据集对是SYN- THIA[37]和Cityscapes [10]。SYNTHIA是一个像素注释道路场景帧的集合,虚拟城市 城市景观是它在50个不同的实际城市的街景中获得的真实对应物。遵循通用评估协议,我们使用9400幅SYNTHIA图像(也称为SYNTHIA-RAND- CITYSCAPES ) 的 子 集 作 为 源 数据,并使用500幅Cityscapes验证图像作为目标数据。4.1. 适应性测试所有域自适应方法都使用目标数据的很大一部分进行训练,使得所得到的映射源图像与目标图像非常相似(例如,图3b与3d和图。4b对4d)。然后,域自适应的一个常见基准是将在映射数据上训练的分类器的性能与仅在源数据上训练的分类器(下基线)和直接在目标数据上训练的分类器(上基线)进行比较。我们的方法通常是不利的,因为我们只能通过源数据和欺骗架构来构建域映射。为了证明我们学习的随机化确实是有指导的,我们还实现了一个无指导的随机化变体,它应用了类似于相关工作的训练时间增强。它采用了与我们的欺骗网络相同的模块和约束,但它的扰动是以每个前向传递中的随机值为条件的,而不是来自输入的潜在代码。537(a)合成(b)实数(c)扩展(d)PixelDA [4](e)我们的图4:LineMOD模态示例:左侧为合成(源)、真实(目标)和扩展(泛化);以及分别由PixelDA和我们的方法生成的示例增强图像。4.1.1MNIST的分类在表1中,我们收集了在MNIST→ MNIST-M场景中测试的最相关方法的结果,并根据所使用的数据类型由于域自适应方法使用源数据和目标数据进行训练,因此将它们分配到单独的组(S + T)。我们的方法和无指导随机化变量只能访问源数据,因此被分组在S中。任务网络遵循[12]中提出的架构这也被其他方法所使用。任务我们可以确定三个关键的观察结果:(1)我们的方法显示出非常有竞争力的结果(90.4%的分类),并且与最新的域自适应管道相当:DSN -83.2%,DRIT -91.5%和PixelDA -95.9%。此外,我们优于大多数方法的显着保证金,尽管事实上,他们有很大一部分的目标数据,以尽量减少域转移。(2)指导随机化导致7%的准确性提高,这令人信服地支持了我们的主张(3)令人惊讶的是,单独的无指导随机化(使用适当的模块)实际上足以胜过MNIST上的大多数方法。4.1.2基于LineMOD的与 之 前 一 样 , 域 自 适 应 方 法 在 源 ( 合 成 裁 剪LineMOD)和目标(真实裁剪LineMOD)数据的混合上进行训练,并且我们与预定义的基线进行比较。我们使用来自[12]的这个基准测试的公共任务网络和相关的任务损失:仅在较低基线以上形成,远远落后于任何其他方法。另一方面,我们的引导随机化具有-95.8%的分类和51.9的直角误差,与使用目标数据的最新域自适应方法具有竞争力:DSN&&&- 100% 53.3毫秒,DRIT - 98.1% 34.4毫秒,PixelDA - 99.9% 23.5毫秒。尽管如此,我们认为DRIT和PixelDA都不能完全通过像我们这样的目标不可知的方法实现,因为所有需要的适应空间(例如,畸变或JPEG伪像)必须由我们的欺骗模块跨越PixelDA和我们的方法之间的增强差异(图2)。4d和4e)表明存在一些视觉现象,我们仍然没有考虑到我们的欺骗网络。4.2. 泛化测试对于第二组实验,我们测试了我们的方法以及竞争方法的泛化能力。我们的管道的主要优点是它的独立性,从任何目标域的设计.为了支持我们的案例,我们设计了两个新的数据集:ΣLt(G)=Exs,ys-ys洛格日德 +log(1 −qsΣqd) (三)其中第一项是分类损失,第二项是四元数旋转度量的对数[19]。q对这两项都加权,而qs和qd分别是地面真值和预测四元数表1中的结果呈现了一个更微妙的情况。在这个视觉上复杂的数据集上,无指导随机化每-表1:基线测试:虽然执行略差于领先的国家的最先进的域适应方法使用目标数据,我们仍然设法实现非常有竞争力的性能,而无需访问目标数据。MNIST→MNIST-M合成裁剪LineMOD→真实裁剪线MOD模型分类准确度(%)分类准确度(%)平均角度误差(o)来源(S)56.642.973.7S非制导83.153.152.6我们90.495.851.9S + TCycleGAN [56]74.568.247.5MMD [50,27]76.972.470.6DANN [13]77.499.956.6DSN [5]83.210053.3[23]第二十三话91.598.134.4PixelDA [4]95.999.923.5538• MNIST-COCO数据收集遵循与MNIST-M完全相同的生成过程,并且具有用于训练和测试的相同确切数量的图像。ing.这里唯一的区别是,我们使用MS COCO的作物数据集,而不是BSDS 500数据集图3e展示了一些新生成的图像。• 扩展的真实裁剪LineMOD感谢原始LineMOD数据集[15]作者的帮助,我们能够获得一些原始LineMODob-即“电话”、“benchvise”和“司钻”。我们重复物理采集设置,并为每个对象生成注释场景。每个场景都描绘了一个特定的对象,放置在转盘顶部的白色标记板上,并被少量杂乱的对象粗略地包围,有时会稍微遮挡对象。每个序列包含130个RGB-D图像,覆盖了大约60°仰角的完整360°旋转。给定所获取和细化的姿势,我们再次以与Cropped LineMOD数据集[51]相同的方式裁剪图像。所有390幅图像都用于评估,图中显示了一些示例。4c.为了与最强相关方法进行比较,即,DSN、DRIT和PixelDA,我们使用开源实现,并努力确保我们能够正确训练和重现表1中报告的数字。虽然DRIT实现在自适应实验中运行良好,但我们未能为泛化实验产生合理的高数值,因此选择将其从比较中排除。与 之 前 类 似 , 我 们 使 用 来 自 MNIST-M 和 RealCropped LineMOD的目标数据来训练它们。在训练完成并在目标测试分割上达到相应的精度虽然不同,但这些扩展数据集仍然与目标数据集具有一定的相似性,我们可以期望看到一定程度的泛化。对于我们的随机化方法,我们可以立即在MNIST→MNIST-COCO合成裁剪LineMOD→扩展实裁剪线MOD模型分类准确度(%)分类准确度(%)平均角度误差(○)来源(S)57.263.178.3S非制导85.877.248.5我们89.499.046.5S + TDSN [5]73.245.776.3PixelDA [4]72.576.084.2目标值(T)96.110014.7表2:泛化测试:我们的方法可以很好地推广到扩展数据集,而自适应方法由于过拟合而表现不佳。新数据,因为不需要再培训。从 表2 中 可以 明显 看 出, 我们 的方 法 在 MNIST-COCO 上 的 准 确 度 非 常 接 近 MNIST-M 数 ( 分 别 为90.4%和89.4%)。对于扩展真实裁剪LineMOD的情况,我们在精度和角度误差方面得到了比真实裁剪LineMOD更好的结果:我们只需要分类3个对象,而不是11个,姿态空间小得多,场景一般更干净,遮挡更少。这些结果强调了我们关于泛化的主张。然而,这不是域自适应方法的情况,显示出显著更差的结果。有趣的是,我们观察到一个相反的趋势,即原始目标数据的更好结果导致更显著的下降。尽管在目标数据上具有非常高的准确性并且能够生成数据集中不存在的附加样本,但是这些方法呈现出过拟合映射的典型迹象,其不能很好地泛化到以类似方式获取的相同数据的扩展。原因很简单,这可能是这些方法的本质:它们不会推广到对识别任务最重要的特征,而是简单地复制尽可能接近的目标分布。因此,分类器在推理过程中准确关注的是什么并不清楚;然而,它很可能是特定类型的图像(例如,在MNIST-COCO的情况下)或特定类型的背景和照明(例如,在扩展真实裁剪线MOD的情况下)。与do-main自适应方法相比,我们的管道设计不是为了复制目标分布,而是为了使分类器对不应该影响分类的变化保持不变,这就是我们的结果保持稳定的原因。4.3. 消融研究在本节中,我们进行了一组消融研究以更深入地了解欺骗网络中每个模块的影响。显然,我们的模块只模拟了一小部分可能的扰动,重要的是要理解个体的贡献。此外,我们展示了如何以及我们执行提供不同类型的输入方式的LineMOD数据集。MNIST→MNIST-M合成裁剪LineMOD→真实裁剪线MOD模块分类准确度(%)分类准确度(%)平均角度误差(○)没有一56.642.973.7BG82.474.850.4BG + NS86.577.652.8BG + NS + DS90.478.748.2BG + NS + DS + L-95.851.9表3:模块消融:评估欺骗网络模块的重要性。BG539路SWBldg壁围栏极TLTS蔬菜天空PRSN骑手车总线姆比凯自行车MioumIoU*来源(S)3.810.246.31.80.319.14.07.571.872.244.63.424.95.20.02.519.822.8S非制导我们17.951.48.817.859.262.50.81.60.40.422.122.63.56.06.111.971.470.970.473.540.342.17.38.237.940.93.38.10.23.97.318.422.327.525.732.0S + T[18]第十八话11.519.630.84.40.020.30.111.742.368.751.23.854.03.20.20.620.122.9CDA [55]65.226.174.90.10.510.73.73.076.170.647.18.243.220.70.713.129.034.8[9]第九话62.725.678.3---1.25.481.381.037.46.463.516.11.24.6-35.7Tsai等人[48个]78.929.275.5---0.14.872.676.743.48.871.116.03.68.4-37.6ROAD-Net [8]77.730.077.59.60.325.810.315.677.679.844.516.667.814.57.023.836.141.7LSD-seg [40]80.129.177.52.80.426.811.118.078.176.748.215.270.517.48.716.736.142.1Chen等人[七]《中国日报》78.329.276.911.40.326.510.817.281.781.945.815.468.015.97.530.437.343.0目标值(T)96.574.686.137.133.230.239.751.687.390.460.131.788.452.333.659.159.565.5表4:实际应用:在Cityscapes数据集的16个(mIoU)和13个(mIoU*)类上测试的基于交集(IoU)的SYNTHIA → Cityscapes基准分割性能。我们的方法优于源和无指导的一个显着的利润率,并保持竞争力的方法依赖于目标数据。4.3.1欺骗模块我们测试了欺骗网络的4种不同变体,它们使用欺骗模块的不同组合:背景(BG)、噪声(NS)、失真(DS)和光(L)。两个数据集的确切组合和结果见表3。可以清楚地看到,欺骗网络中的每个附加模块都增加了最终任务网络的辨别能力。最重要的模块也可以根据结果轻松区分。显然,后台模块总是有很大的不同:源数据的纯黑色背景与真实图像有很大的不同。另一个有趣的观察是照明扰动对裁剪的LineMOD数据集的强烈影响。这加强了这样的概念,即真实序列经历了许多种照明变化,这些变化在没有任何额外重新照明的情况下不能很好地由合成渲染表示。请注意,MNIST欺骗网络不使用照明。4.3.2输入模态对于同时进行实例分类和姿态估计的任务,我们(以及其他方法)总是使用完整的RGB-D信息。这种消融的目的是显示我们只提供了某种类型的数据以及对最终结果的影响表5示出RGB允许更好的分类,而深度提供更好的姿态估计。我们可以通过结合这两种模式来进一步大大提高分类合成裁剪LineMOD→真实裁剪线MOD合成裁剪LineMOD→扩展实裁剪线MOD输入分类准确度(%)平均角度误差(○)分类准确度(%)平均角度误差(○)D73.336.678.734.9RGB84.857.485.949.4RGB-D95.851.999.046.5表5:输入模态消融:基于所用输入数据类型的性能评估:深度、RGB或RGB-D。4.4. 真实世界场景我们展示了我们的方法在一个更实际的语义分割问题上的实际应用,使用常见的SYNTHIA→ Cityscapes基准。只有合成SYNTHIA渲染,我们试图概括通过使用Intersection over Union(IoU)度量对13和16类数据进行这种设置是特别困难的,因为这里的域间隙问题被一组完全不同的分割实例和相机视图所加剧。为了实现公平的通信,所有方法都使用VGG-16基础(FCN-8 s)识别网络。在这种情况下使用的欺骗模块 如 下 :2D噪 声 ( NS ) , 弹 性 失真 ( DS ) 和 光(L)。从可用的合成深度数据生成用于光模块的法线图。表4显示,即使不访问目标域数据,我们的管道仍然与重新定义的方法竞争在目标数据上撒谎,显示mIoU为27.5%,mIoU* 为32%(16和13类)结果还证实了该方法的通用性,不同的任务架构和数据集。5. 结论在本文中,我们提出了一个新的框架,以解决领域差距的问题时,没有目标数据。使用一个任务网络及其目标,我们展示了如何扩展它与一个简单的编码器-解码器欺骗网络和绑定在一个最小-最大的游戏,以实现引导域随机化。因此,我们获得了越来越强大的任务网络。我们在两个数据集上展示了与域自适应方法我们的研究结果表明,由于其简单而有效的性质,引导随机化应该成为定义域转移和自适应技术基线540引用[1] Antreas Antoniou,Amos Storkey,and Harrison Edwards.数 据 增 强 生 成 对 抗 网 络 。 arXiv 预 印 本 arXiv :1711.04340,2017。[2] 巴勃罗·阿贝莱斯,迈克尔·梅尔,查利斯·福克斯,还有吉坦德拉·马利克.轮廓检测和分层图像分割。TPAMI,2011年。[3] Artem Babenko、Anton Slesarev、Alexander Chigorin和Victor S. Lempitsky图像检索的神经代码。CoRR,2014年。[4] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在CVPR,2017年。[5] Konstantinos Bousmalis , George Trigeorgis , NathanSilber-man,Dilip Krishnan,and Dumitru Erhan.域分离网络。在NIPS,2016年。[6] 汤姆湾布朗,丹泽尔曼,奥科罗伊,马丁阿巴迪,和贾斯汀吉尔默。对抗补丁。在NIPS,2017年。[7] 陈玉华、李文、陈晓然和吕克·凡古。从合成数据中学习语义分割:几何学引导的输入-输出自适应方法。在CVPR,2019年。[8] Yuhua Chen,Wen Li,and Luc Van Gool.道路:面向现实的适应城市场景的语义分割。在CVPR,2018年。[9] Yi-Hsin Chen , Wei-Yu Chen , Yu-Ting Chen , Bo-Cheng Tsai,Yu-Chiang Frank Wang,and Min Sun.不再歧视:道路场景分段器的跨城市适应。InICCV,2017.[10] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。[11] Terrance DeVries和Graham W Taylor。特征空间中的数据集扩充。arXiv预印本arXiv:1702.05538,2017。[12] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML,2015。[13] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗JMLR,2016.[14] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR,2016年。[15] Stefan Hinterstoisser,Vincent Lepetit,Slobodan Ilic,Ste- fan Holzer , Gary Bradski , Kurt Konolige , andNassir Navab.基于模型的训练,检测和姿态估计无纹理三维物体在严重混乱的场景。InACCV,2012.[16] Stefan Hinterstoisser,Vincent Lepetit,Paul Wohlhart,and Kurt Konolige.关于用于深度学习的预训练图像特征和合成图像2017年。[17] 汤姆·马尔斯·霍丹、帕维尔·哈卢扎、斯特 普 ·奥布德·扎列克、伊日·马塔斯、马诺利斯·卢拉基斯和色诺芬·扎布利斯。T-less:用于无纹理对象的6D姿态估计的rgb-d数据集。在WACV,2017年。[18] Judy Hoffman,Dequan Wang,Fisher Yu,and TrevorDarrell.野生FCNS:像素级对抗和基于约束的适应。arXiv预印本arXiv:1612.02649,2016。[19] 杜庆辉三维旋转的计算:比较和分析。数学成像与视觉杂志,2009年。[20] Max Jaderberg,Karen Simonyan,Andrew Zisserman,Koray Kavukcuoglu.空间Transformer网络。2015年,在NIPS[21] Wadim Kehl , Fabian Manhardt , Federico Tombari ,Slobodan Ilic,and Nassir Navab.Ssd-6d:使基于rgb的3d检测和6d姿态估计再次伟大。InICCV,2017.[22] ChristianLedig , Lucas Theis , Ferenc Huszar , JoseCaballero,Andrew P. Aitken,Alykhan Tejani,JohannesTotz,Zehan Wang,and Wenzhe Shi.使用生成对抗网络的照片级真实感单幅图像超分辨率。CoRR,2016年。[23] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解 纠缠 的表 示进 行不 同的图 像到 图像 的翻 译在ECCV,2018。[24] Kuan-Hui Lee , German Ros , Jie Li , and AdrienGaidon.Spi-gan : 从 模 拟 中 获 得 特 权 的 对 抗 学 习 。ICLR,2019。[25] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:在上下文中常见的对象。2014年,在ECCV[26] 刘明宇和昂塞尔·图泽尔。耦合生成对抗网络。CoRR,2016年。[27] Mingsheng Long , Yue Cao , Jianmin Wang , andMichael I Jordan.使用深度适应网络学习可转移特征。ICML,2015.[28] 杰弗里·马勒和肯·戈德堡。通过模拟鲁棒抓取序列来学习机器人箱子拾取的深度策略在CoRL,2017年。[29] Fabian Manhardt , Wadim Kehl , Nassir Navab
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功