没有合适的资源?快使用搜索试试~ 我知道了~
1基于生成对抗网络的无监督KonstantinosBousmalis GoogleBrain英国伦敦konstantinos@google.comNathanSilbermanGoogle Research纽约,NYnsilberman@google.comDavid Dohan,Google Brain,加利福尼亚州山景城ddohan@google.comDumitru ErhanGoogle Brain加利福尼亚州旧金山dumitru@google.comDilip KrishnanGoogleResearch马萨诸塞dilipkay@google.com摘要收集注释良好的图像数据集来训练现代机器学习算法对于许多任务来说是非常昂贵的。一个吸引人的替代方案是渲染合成数据,其中自动生成地面实况注释。不幸的是,纯粹在渲染图像上训练的模型通常无法推广到真实图像。为了弥补这一缺点,先前的工作引入了无监督域自适应算法,该算法试图映射两个域之间的表示或学习提取域不变的特征在这项工作中,我们提出了一种新的方法,学习,在无监督的方式,在像素空间中的变换从一个域到其他。我们基于生成对抗网络(GAN)的模型使源域图像看起来像是从目标域绘制的。我们的方法不仅产生合理的样本,但也优于国家的最先进的一些无监督域自适应方案的大利润率。最后,我们证明,自适应过程中概括的对象类在训练过程中看不见。1. 介绍大型且然而,创建这样的数据集是非常昂贵的。一种替代方法是使用合成数据进行模型训练。 已经 计算机视觉的一个长期目标是使用游戏引擎或渲染器来产生几乎无限的数量Google Brain驻留计划:g.co/brainresidency。(a) 来自Linemod数据集的图像示例。(b) 由我们的模型生成的示例,在Linemod上训练。图1.使用我们的模型生成的RGBD样本与来自Linemod数据集的真实在每个子图中,顶行是图像的RGB部分,底行是对应的深度通道。每列对应于数据集中的一个特定对象。详见第4节。标签数据。事实上,某些研究领域,例如机器人任务的深度强化学习,实际上需要在合成域中训练模型,因为在现实世界环境中训练因此,人们对在合成领域中训练模型并将其应用于现实世界环境中重新产生不幸的是,在合成数据上训练的模型通常不能推广到真实图像。解决这个问题的一个方法是使用无监督域37223723适应在这种情况下,我们希望将从源域(我们已标记数据)学到的知识转移到目标域(我们没有标记)。以前的工作要么试图找到从源域的表示到目标域的表示的映射虽然这些方法已经取得了良好的进展,但它们仍然无法与仅在目标域上训练的纯监督方法相提并论。在这项工作中,我们训练了一个模型来改变来自源域的图像我们提出了一种新的基于生成对抗网络(GAN)的架构,该架构能够以无监督的方式学习这种转换,即而不使用来自两个域的对应对。我们的无监督像素级域自适应方法(PixelDA)提供了许多优于现有方法的优点:从特定任务架构中解耦:在大多数领域自适应方法中,领域自适应过程和用于推理的任务特定架构是紧密结合的。如果不重新训练整个域自适应过程,就无法切换模型的特定于任务的组件。相比之下,由于我们的PixelDA模型在像素级别将一个图像映射到另一个图像,因此我们可以更改特定于任务的架构,而无需重新训练域自适应组件。跨标签空间的泛化:由于先前的模型将域自适应与特定任务耦合,因此源域和目标域中的标签空间被约束为匹配。相比之下,我们的PixelDA模型能够处理测试时的目标标签空间与训练时的标签空间不同的情况。训练稳定性:依赖于某种形式的对抗训练[5,14]的领域自适应方法对随机初始化敏感。为了解决这个问题,我们结合了通过使用这些工具,我们能够减少相同超参数在我们模型的不同随机初始化中的性能差异(参见第4节)。数据扩充:传统的域自适应方法仅限于从有限的源和目标数据集进行学习。然而,通过对源图像和随机噪声向量进行调节,我们的模型可以用于创建几乎无限的随机样本,这些样本看起来与目标域的图像相似。可解释性:PixelDA的输出是一种自适应图像,比自适应特征向量更容易解释.为了证明我们的策略的有效性,我们专注于对象分类和姿态估计的任务,其中感兴趣的对象是在给定图像的前景,为源和目标域。我们的方法在一系列用于对象分类和姿态估计的数据集上表现出最先进的无监督域自适应技术,同时生成与目标域非常相似的图像(见图1)。2. 相关工作学习执行无监督域自适应是一个开放的理论和实践问题。虽然存在许多先前的工作,但我们的文献综述主要集中在卷积神经网络(CNN)方法上,因为它们在这个问题上具有经验优势[14,31,41,44]。无监督域自适应:Ganin等人[13,14]和Ajakanet al. [3]介绍了他们的模型的前几层由两个分类器共享:第一个在被提供源数据时预测特定于任务的类别标签,而第二个被训练以预测其输入的域。DANN最小化域分类损失相对于特定于域分类器的参数,同时最大化它相对于两个分类器共有的参数。通过使用梯度反转层 , 这 种 极 小 极 大 优 化 在 单 个 步 骤 中 成 为 虽 然DANNTzeng等人[44]和Longet al. [31]DANN的建议版本,其中域分类损失的最大化被最大平均离散度(MMD)度量的最小化所取代[21],该度量在从每个域的样本集提取的特征之间计算Ghifary等人[17]提出了一种替代模型,其中源域的任务损失与目标域的重建损失相结合,这导致学习域不变特征。Bousmalis等人[5]引入一个模型,明确地将每个域的私有组件与两个域的公共组件分开。它们利用每个域的重建损失,即相似性损失(例如,DANN,MMD),这鼓励域入侵,以及差异损失,这鼓励公共和私有表示组件是互补的。其他相关技术涉及在特征级学习从一个域到另一个域的映射。在这样的设置中,特征提取流水线在主适配优化期间是固定的。这已应用于各种基于非CNN的方法[18,6,20]以及3724基 于 CNN 的 相 关 比 对 ( Correlation Alignment ,CORAL)[41]算法生成对抗网络:我们的模型使用基于源图像和噪声向量的GAN [19]。最近的其他作品也试图使用GAN接受培训以执行手头的任务,就好像不需要域请注意,我们假设域之间的差异主要是低级别的(由于噪声,分辨率,照明,颜色),而不是高级别的(对象类型,几何变化等)。更正式地,令Xs={xs,ys}Ns表示标记的以图像为条件Ledig等人[28]用了一个图像--超分辨率的条件GAN Yoo等人[46]在-i i i=0来自源域的Ns个样本的数据集,并且令Xt={xt}Nt表示来自Nt个样本的未标记数据集介绍从IM生成衣服图像的任务通过在模特所穿的相应衣服和衣架上进行训练,来确定模特穿着它们的年龄与我们的工作相反,这两种方法都不适用于图像和噪声向量,并且我们的方法也适用于完全不同的问题空间。与我们最相似的工作可能是Liu和Tuzel [30]的工作,他们引入了一对耦合GAN的架构,一个用于源域,一个用于目标域,其生成器共享其高层权重,其鉴别器共享其低层权重。以这种方式,它们能够生成可用于无监督域自适应的对应图像对。仅从噪声中生成高质量样本的能力。风格转换:Gatys et al的作品。[15 16]介绍了一种风格转移的方法,其中一个图像的风格转移到另一个图像,同时保持内容固定。该过程需要反向传播回到像素。Johnson等人[24]引入前馈式传输模型。他们训练一个以图像为条件的网络,以产生一个输出图像,该图像在预训练模型上的激活与输入图像(高级内容激活)和单个目标图像(低级样式激活)相似然而,这两种方法都被优化以复制单个图像的风格,而我们的工作则试图复制整个图像域的风格。3. 模型i i=0目标域。 我们的像素自适应模型由生成函数G(xs,z; θG)→ xf组成,由θG 参数化,将源域图像xs∈ Xs和噪声向量z p z映射到自适应或假图像xf。给定生成器函数G,可以创建新的数据集Xf={G(xs,z),ys}任意大小。最后,给定适配的数据集Xf,可以训练任务特定的分类器,就好像训练和测试数据来自相同的分布一样。3.1. 学习为了训练我们的模型,我们采用了一个生成对抗目标来鼓励G生成与目标域图像相似的图像 在训练中,我们的队员-算子G(xs,z; θG)→xf将源图像xs和噪声向量z映射到自适应图像xf。此外,该模型通过输出给定图像x已从目标域采样的似然d的k函数D(x; θ D)来增强。 该方法试图区分由生成器产生的“假”图像X f和来自目标域X t的“真”图像。注意,与标准GAN公式[19]相比,该生成器仅以噪声向量为条件,而我们的模型除了此外,该模型还用类sierT(x ; θ T)→ y θ来扩充,该类sierT(x ; θ T)→yθ为图像x ∈ {Xf,Xt}分配特定于任务的标签y θ。我们的目标是优化以下minimax目标:min maxαLd(D,G)+ βLt(G,T)(1)θG,θT θD我们首先解释我们的无监督像素级域自适应模型(PixelDA)在图像分类的背景下,虽然我们的方法不是特定于这个特定的任务。给定源域中的标记数据集和目标域中的未标记数据集,我们的目标是在来自源域的数据上训练分类器,该分类器可以推广到目标域。以前的工作使用一个网络执行此任务,其中,α和β是控制损失相互作用的权重Ld表示域损失:Ld(D,G)=Ext[logD(xt;θD)]+Exs,z[log(1−D(G(xs,z; θG);θD))](2)Lt是特定于任务的损失,在分类的情况下,我们使用典型的softmax域自适应和图像分类,使做-分类器architec特定的主要适应过程ΣLt(G,T)=Exs,ys,z— ysT logT(G(xs, z;θ);θ)G T是的。我们的模型将领域适应过程与特定任务分类过程相结合,-ysTlogT(xs);θΣ(三)主要功能是调整来自源域的图像一旦适应,任何现成的分类器都可以其中ys是源输入xs的类标签的独热编码。请注意,我们用适应和非适应的源图像训练T当训练T时,不3725Xs发电机G残余块Xfz鉴别器Dn256s2房假FC房假y^D不xt(实数)xf(fake)Gxs(合成)z(噪声)n64s1BNReLUn64s1BN图2.模型架构概述。在左边,我们描述了遵循[34]中风格的整体模型架构。在右侧,我们展开了发电机和逆变器组件的详细信息。生成器G生成以合成图像xs和噪声向量z为条件的图像。该系统可以区分真实图像和虚假图像。特定于任务的分类器T将特定于任务的具有步幅1和64个通道的卷积在图像中被指示为n64s1。lrelu代表Leaky ReLU Nonlinear。BN代表批量归一化层,FC代表全连接层。请注意,我们没有显示T的细节,因为这些细节对于每个任务都是不同的,并且与域适应过程解耦。在适应的图像上,有可能实现类似的性能,但是由于模型的不稳定性,这样做可能需要使用不同的初始化进行多次运行。事实上,在没有对源进行训练的情况下,模型可以自由地改变类分配(例如,类1变为2,类2变为3等),同时仍然成功地优化训练目标。我们已经发现,在源图像和适配图像上训练分类器T可能使用不同的标签空间(参见表4)。在我们的实现中,G是一个具有残差连接的卷积神经网络,它可以保持原始图像的分辨率,如图2所示。我们的判别器D也是一个卷积神经网络。等式1的最小最大优化通过在两个步骤之间改变来实现。在第一步中,我们更新了任务和任务特定参数θD,θT,alent source images.渲染器通常提供对z缓冲区遮罩的访问,该遮罩允许我们区分前期和背景像素。这种先验知识可以通过使用额外的损失来形式化,该损失仅针对前景像素惩罚源图像和所生成的图像之间的大差异这样的相似性损失的理由的生成过程的原始图像,并帮助稳定的最小最大优化,如所示的节。4.4和表5。我们的优化目标变为:min maxαLd(D,G)+βLt(T,G)+γLc(G)(4)θG,θT θD其中,α、β和γ是控制损失的相互作用的权重,Lc是同时保持发电机参数θG不变。在第二步中,我们固定θD、θT并更新θG。3.2. Content–similarity在某些情况下,我们有关于低级图像自适应过程的先验知识。例如,我们可以期望源图像和适应图像的色调是相同的。在我们的情况下,对于我们的一些实验,我们在黑色背景上渲染单个对象,因此我们期望从这些渲染中改编的图像具有相似的前景和与等效的不同的背景。一些损失可能会以某种有意义的方式(例如,L1,或L2损失,在预训练的VGG网络的激活方面的相似性)。在我们从渲染图像中学习对象实例分类的实验中,我们使用掩蔽的成对均方误差,这是成对均方误差(PMSE)的变体[11]。这种损失惩罚像素对之间的差异,而不是输入和输出之间的绝对差异。我们的掩蔽版本计算生成的前景和源前景之间的PMSE。形式上,给定二进制n64s1BNn64s1勒ReLUn128s2残余块convBN勒勒残余块n512s2n1024s2fc:S形n3s1tanh37262ss斯卡夫图3.可视化我们的模型(a)来自MNIST的源图像xs;(b)使用我们的模型G(xs,z)与随机噪声z相适应的样本;(c)中间行中生成的样本的MNIST-M训练集中的最近邻居。中间行和底部行之间的差异表明模型没有记忆目标数据集。掩码m∈Rk,我们的掩码PMSE损失为:Σ仅在目标域训练集上训练任务模型,并在目标域测试集上评估。我们考虑的无监督域自适应场景如下所示:MNIST到USPS:来自MNIST [27]数据集的10位数字(0-9)的图像用作源域,来自USPS [10]数据集的相同10位数字的图像代表目标域。为了确保“仅源”和域自适应实验之间的公平比较剩余的10,000个图像用作“仅源”实验的验证集使用USPS的标准分割,包括6,562个训练,729个验证和2,007个测试图像。MNIST到MNIST-M:MNIST [27]数字表示1秒秒2源域和MNIST-M [14]数字表示tar,Lc(G)=Exs,zk(x -G(x,z; θG))获取域。 MNIST-M是MNIST的变体,1-k2�(xs)— G(xs,z;θG))Σ2ΣM(五)用于无监督域适应。它的图像是通过使用每个MNIST数字作为二进制掩码创建的,其中k是输入x中的像素数,·2是平方L2范数,是Hadamard乘积。这种损失使模型能够学习再现对象被建模,而不会在输入的绝对颜色或强度上浪费建模请注意,这种损失并不妨碍前景的变化,而是鼓励前景以一致的方式变化。在这项工作中,由于我们的数据的性质,我们对单个前景对象应用掩蔽的PMSE损失,但是可以将其平凡地扩展到多个前景对象。4. 评价我们在以前的工作1中使用的对象分类数据集上评估了我们的方法,包括MNIST,MNIST-M [14]和USPS[10]以及LineMod数据集的变体[22,45],这是对象实例识别和3D姿态估计的标准,我们有合成和真实的数据。我们的评估是由定性和定量的组成部分,使用一些无监督的域适应方案。定性评价包括检查我们的方法通过视觉检查生成的图像来学习从源到目标域的底层像素自适应过程的能力定量评价涉及比较用它来改变背景图像的颜色背景图像是从伯克利分割数据集(BSDS 500)[4]均匀采样的随机作物。我们所有的实验都遵循[14]的实验方案。我们使用59,001个MNIST-M训练示例中的1,000个标签来寻找最佳超参数。合成裁剪LineMod到裁剪LineMod:LineMod数据集[22]是在杂乱的室内环境中以各种姿势成像的小物体的数据集。我们使用数据集的裁剪版本[45],其中每个图像在中间用11个对象中的一个进行裁剪。使用的11个对象是“ape”、“benchviseblue”、“can”、“cat”、“driller”、“duck”、“holepuncher”、“iron”、“lamp”、“phone”和“cam”。数据集的第二个组成部分由这些相同的11个对象的CAD模型组成,这些对象在黑色背景上呈现各种各样的姿势,我们称之为合成裁剪线模型。我们将合成裁剪LineMod作为源数据集,将真实裁剪LineMod作为目标数据集。我们在109,208个渲染的源图像和9,673个真实世界的目标图像上训练我们的模型用于域自适应,1,000个用于验证,以及2,655个用于测试的目标域测试集。使用这种情况下,我们的任务涉及分类和姿态估计。因此,我们的任务特定网络工作T(x;θT)→{yθ,qθ}以正单位四分之一的形式输出类别yθ负向量q任务损失变为:L(G,T)=我们的模型的性能与以前的工作和不ΣExs,ys, z— ysT 原木— ysT logyf+任何域适应。 在第一种情况下,我们训练mod-仅基于未更改的源训练数据和评估,埃洛格��.Σ1−。qTq.公司简介��. ΣΣ1−。qTq.(六)....吃了目标测试数据。在“仅目标”情况下1在对象分类的背景下,最常用的视觉域自适应数据集是Office[39]。 然而,我们在这项工作中没有使用它,因为由于标签污染,存在显着的高水平变化。有关更多信息,请参见[5]中的相关解释。其中,第一项和第二项是分类损失,类似于等式3,第三项和第四项是四元数的3D旋转度量的对数[23]。ξ是姿态损失的权重,qs代表地面不3727样本的真实3D姿态,{ys,qs}=T(xs;θT),{y∈f,q∈f}=T(G(xs,z;θG);θT). 表2报告了对象需要旋转(在固定的3D轴上)以从预测姿势移动到地面真实姿势的平均角度[22]。4.1. 实现细节所有模型都使用TensorFlow2 [1]实现,并使用Adam优化器[26]进行训练。我们针对“MNIST到USPS”和“MNIST到MNIST-M”场景优化等式1中的目标, 我们使用每批32个样本main和输入图像以零为中心,并重新缩放为[-1,1]。在我们的实现中,我们让G采用卷积残差神经网络的形式z是Nz 个元素的向量,每个元素从均匀分布zi<$U(−1,1)中采样。它被馈送到一个完全连接的层,该层将其转换为具有相同分辨率的通道解作为图像通道的解,并且随后作为额外通道连接到输 入 。 在 我 们 所 有 的 实 验 中 , 我 们 使 用 z , 其 中Nz=10。CXD是一种卷积神经网络,其中层数取决于图像分辨率:第一层是步幅1x1卷积(由[33]激发),随后是重复堆叠步幅2x2卷积,直到我们将分辨率降低到小于或等于4x4。过滤器的数量在G的所有层中为64,并且在D的第一层中为64,并且在随后的层中重复加倍。这个金字塔的输出3对于我们所有的实验,用于任务分类器T的CNN拓扑结构与[14,5]中使用的CNN拓扑结构相同,可以与无监督域自适应中的先前工作进行比较。4.2. 定量结果我们还没有找到一种普遍适用的方法来优化超参数的无监督域适应。因此,我们遵循[5]的实验方案,并使用一小组(1,000)标记的目标域数据作为所有方法的超参数的验证集。我们比较一下。我们使用相同的协议进行所有实验,以确保公平和有意义的比较。该验证集上的性能可以作为非监督域自适应的满意验证度量的上界。正如我们在4.5节中讨论的那样,我们还在目标域中使用1,000个标记示例的半监督设置中评估了我们的模型,以确认PixelDA仍然能够改进在这一小部分目标标记示例上训练的朴素方法2我们的代码可以在这里找到:https://goo.gl/fAwCPw3我们的架构细节可以在补充材料中找到。表1.数字数据集的平均分类准确率(%)。“仅源”和“仅目标”行分别是当我们注意到,我们的源和目标只有基线导致不同的数字比非法出版的作品,我们也指出在括号中。模型MNIST至USPSMNIST至MNIST-M源仅78.963.6(56.6)珊瑚[41]81.757.7MMD [44,31]81.176.9DANN [14]85.177.4DSN [5]91.383.2CoGAN [30]91.262.0我们的PixelDA95.998.2仅目标96.596.4(95.9)我们使用上述源和目标数据集的组合来评估我们的模型,并将我们模型的任务架构T的性能与基于相同任务架构T的其他最先进的无监督域自适应技术的性能进行如上所述,为了评估我们的模型的有效性,我们首先对每个领域适应场景的“仅源”设置中训练的模型的准确性进行比较此设置表示性能的下限接下来,我们将在每个场景的“仅限目标”设置中比较模型该设置代表了性能的弱上限,因为可以想象,一个好的无监督域自适应模型可能会改善这些结果,就像我们在这项工作中为“MNIST到MNIST-M”所做的那样这些比较的定量结果见表1和表2。我们的方法不仅能够在“MNIST到MNIST-M”场景上实现比以前的工作更好的结果此外,我们还能够实现“MNIST到USPS”场景的最新结果。最后,PixelDA能够将“合成裁剪的线模到裁剪的线模”场景的平均角度误差减少到以前的最先进水平的4.3. 定性结果我们的模型的定性结果如图1、3和4所示在图3和图4中,可以看到生成过程的可视化,以及目标域中我们生成的样本的最近邻。在这两种情况下,很明显,我们的方法能够学习将原始源图像调整为看起来像它们可能属于目标域的图像所需的底层变换过程作为提醒,MNIST-M数字是通过使用MNIST数字作为二元掩码来反转背景图像的颜色而生成的。从图3可以清楚地看出,在“MNIST到MNIST-M”的情况下3728图4.可视化我们的模型顶行:来自Synth Cropped LineModxs的源RGB和深度图像对;中间行:用我们的模型G(xs,z)与随机噪声z适配的样本;底行:中间行中生成的样本与来自目标训练集的图像之间的最近邻居。生成的图像和目标图像之间的差异表明模型没有记住目标数据集。我们的模型不仅能够从不同的噪声向量z生成背景,而且还能够学习这种版本内过程。这是显而易见的,例如。图中的数字3和6。在“合成裁剪线模裁剪线模”的情况下在深度通道中,它能够学习合理的噪声模型。表2.“合成裁剪的Linemod到裁剪的Linemod”场景的平均分类精度和姿势误差表3.平均分类精度和姿态误差时,从源域改变图像的背景。在这些实验中,我们只使用了图像的RGB部分,因为没有简单或典型的方法可以将背景添加到深度图像中。为了进行比较,我们使用黑色背景和Imagenet背景(INet)显示结果,使用“仅源”设置和仅RGB情况下的模型。4.4. 模型分析我们提出了一些额外的实验的裁剪的Linemod数据集。背景是从ImageNet数据集中随机选择的图像作物。在这些实验中,我们只使用图像的RGB部分-对于源域和目标域-因为我们如表3所示,PixelDA能够在黑色或随机Imagenet背景上的对象的源图像上训练“仅源”模型时进行改进演示模型如何工作,并探索潜力模型的局限性在“MNIST to MNIST-M”和“Synthetic-Cropped LineModto Cropped LineMod”场景中我们的定量评估(表1和表2)说明了我们的模型使源图像适应目标域风格的能力,但提出了两个问题:源图像的背景是黑色的重要吗?使用随机选择的背景图像的数据增强策略有多成功?为了达到这个效果,我们进行了额外的实验,我们用各种背景代替了合成图像的默认黑色背景。模型的推广模型的两个附加方面与理解其性能有关。首先,模型实际上是学习了一个成功的像素级数据自适应过程,还是只是简单地记忆目标图像并用来自目标训练集的图像替换源图像?其次,模型是否能够以一种不限于训练期间看到的对象类别的方式来概括这两个领域为了回答第一个问题,我们首先在来自源图像的图像上运行生成器G,以创建一个自适应数据集。接下来,对于每个传输的图像,我们在目标训练图像中执行像素空间L2最近邻查找,以确定模型是否只是从目标数据集中对图像进行分类。插图仅模型RGB分类精度平均角度误差仅源-黑色四十七百分之三十三89岁。2◦PixelDA-黑色94 百分之十六55. 74◦模型分类精度平均角度误差只有源47.33%89岁。2◦MMD [44,31]72.35%七十62◦DANN [14]百分之九十九五十六58◦DSN [5]100%五十三27◦我们的PixelDA百分之九十九点九八◦23.53729不不表4.我们的模型在11个Linemod对象中只训练了6个。第一行"第二行测试集分类精度平均角度误差看不见的类九十八百分之九十八31岁69◦完整测试集九十九。百分之二十八三十二37◦在图3和4中示出,其中顶部行是来自xs的样本,中间行是生成的样本G(xs,z),并且底部行是目标训练集中生成的样本的最近邻居从图中可以清楚地看出,模型并没有记忆来自目标训练集的图像。接下来,我们评估我们的模型为此,我们使用来自源域和目标域的图像子集重新训练我们的具体地,在训练过程期间观察对象一旦G被训练,我们就固定它的权重,并传递源域的完整训练集,以生成用于训练任务分类器T的图像。然后,我们评估了T在整个未观察对象集(6,060个样本)上的性能,以及所有对象的目标域测试集,以便与表2直接比较。稳定性研究我们还评估了模型中不同组成部分的重要性。我们证明了,虽然任务和内容的损失并没有提高模型的整体性能,但它们极大地稳定了训练。 训练不稳定性是对抗训练的一个共同特征,需要各种策略来处理模型发散和模式崩溃[40]。我们通过使用不同的随机参数初始化但使用相同的超参数运行每个模型10表5示出了任务和内容相似性损失的使用降低了4.5. 半监督实验最后,我们评估了我们的模型在半监督环境中的有用性,在半监督环境中,我们假设我们有少量标记的目标训练示例。我们模型的半监督版本只是使用这些广告训练样本作为分类器Tdur的额外输入。表5.使用任务和内容损失Lt、Lc对我们的模型在“合成裁剪的Linemod到Linemod”场景上的性能的标准差(std)的影响。Lsource表示我们使用源数据来训练T; Ladapted表示我们使用生成的数据来训练T; Lc表示我们使用内容相似性损失。性能指标上的较低标准差意味着结果更容易重现。L源不L适应不Lc分类准确度标准平均角度错误标准---23.2616.33-C-22.3217.48CC-2.043.24CCC1.606.97表6.半监督实验的“合成裁剪Linemod裁剪Linemod”的当我们的模型可以使用1,000个目标数据的小集合时,它能够改进仅在这1,000个样本上训练的基线或使用这些标记的目标样本增强的合成训练集方法分类精度平均角度误差仅限1000人九十九。百分之五十一二十五26◦Synth+1000九十九。百分之八十九23岁50◦我们的PixelDA九十九。百分之九十三十三岁31◦(a)仅在这1,000个目标样本上训练分类器,而没有任何域适应,我们将该设置称为(b)在这1,000个目标样本和整个合成裁剪线性模型训练集上训练分类器,从表6中可以看出,我们的模型能够在训练期间结合一些目标域样本我们还注意到,PixelDA利用这些样本实现了比完全无监督设置更好的性能(表2)。5. 结论我们提出了一个国家的最先进的方法进行无监督域适应。我们的PixelDA模型在一组无监督域自适应场景上的表现优于先前的工作,并且在具有挑战性的“合成裁剪线模型到裁剪线模型”场景的情况下他们能够通过使用基于GAN的技术来做到这一点,该技术通过特定于任务的损失和新的内容相似性损失来稳定。此外,我们的模型从特定于任务的架构中简化了域自适应的过程,并通过模型的自适应图像输出的可视化提供了易于理解的额外好处ing训练。我们从之前的实验中没有使用过的裁剪线模型中抽取了1,000个样本,并将它们用作额外的训练数据。我们在裁剪线模型的测试集上评估我们模型的半监督版本致谢作者感谢Luke Metz、Kevin Murphy、AugustusOdena、Ben Poole、Alex Toshev和Vincent Vanhoucke对论文早期草稿提出的建议。3730引用[1] M. Abadi等人Tensorflow:异构分布式系统上的大规模机器学习。预印本arXiv:1603.04467,2016年。[2] D. B. F. 阿加科夫im算法:信息最大化的变分方法在神经信息处理系统的进展16:2003年会议记录,第16卷,第201页。MIT Press,2004.[3]H. Ajakan,P. Germain,H. Larochelle,F. Laviolette,以及M. 马尚领域对抗神经网络。 在Preprint,http://arxiv.org/abs/1412.4446,2014.[4] P. Arbelaez,M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。TPAMI,33(5):898[5] K. Bousmalis,G.Trigeorgis,N.Silberman ,D.Krishnan和D.二汉域分离网络。神经信息处理系统(NIPS),2016年。[6] R.卡斯滕斯,J.F.恩里克斯山口Martins和J.巴蒂斯特Be-yond the shortest path:Unsupervised Domain Adaptationby Sampling Subspaces Along the Spline Flow.CVPR ,2015。[7] X. Chen ,Y. 段 河 ,巴 西 - 地Houthooft , J. 舒 尔 曼岛Sutskever和P.阿比尔Infogan:通过信息最大化生成对抗网 络 进 行 可 解 释 表 示 学 习 。 arXiv 预 印 本 arXiv :1606.03657,2016。[8] P. Christiano,Z.沙阿岛Mordatch,J.施耐德,T.布莱克-嗯,J。Tobin,P. Abbeel,and W.扎伦巴通过学习深度逆动力学模型,从模拟转移到现实世界。arXiv预印本arXiv:1610.03518,2016年。[9] J. 邓,W。东河,巴西-地索赫尔湖J. Li,K.Li和L.飞飞ImageNet:一个大规模的分层图像数据库。2009年CVPR09中[10]J. S. 登克尔, W. 加德纳 H. P·格拉夫, D. 亨德森R. Howard,W.E. 哈伯德湖D. Jackel,H.S. 贝尔德,以及I. Guyon手写邮政编码数字的神经网络识别器。NIPS,第323-331页,1988年[11] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。在NIPS,第2366-2374页[12] M. Everingham,S. A.埃斯拉米湖凡古尔角,澳-地K. 威廉姆斯J. Winn和A.齐瑟曼。pascal visual object classes挑战:回顾 展 。 International Journal of Computer Vision , 111(1):98[13] Y. Ganin和V.Lempitsky 通过反向传播的无监督域自arXiv预印本arXiv:1409.7495,2014。[14] Y. Ganin 等 人 神 经 网 络 的 领 域 对 抗 训 练 JMLR , 17(59):1[15] L. A. Gatys,A.S. Ecker和M.贝丝艺术风格的神经arXiv预印本arXiv:1508.06576,2015。[16] L. A. Gatys,A.S. Ecker和M.贝丝使用卷积神经网络的图像风格在IEEE计算机视觉和模式识别会议集,第2414-2423页[17] M. Ghifary,W. B. Kleijn,M. Zhang,L. Balduzzi,还有W.李用于无监督域自适应的深度重建分类网络。欧洲计算机视觉会议,第597-613页。施普林格,2016年。3731[18] B.贡,Y. Shi,F. Sha和K.格劳曼用于无监督域适应的 测 地 线 流 核 。 在 CVPR 中 , 第 2066-2073 页 。IEEE,2012。[19] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展,第2672-2680页,2014年[20] R. 戈帕兰河Li和R.切拉帕用于对象识别的域自适应:无监督的方法。见ICCV,2011年。[21] A. Gretton,K. M. Bor g wardt,M. J. 拉施湾Schoülkopf和A.斯莫拉Kernel双样本检验JMLR,第723-773页[22] S. Hinterstoisser等人基于模型的训练,检测和姿态估计无纹理三维物体在严重混乱的场景。InACCV,2012.[23] D. Q. 黄 3D 旋 转 的 度 量 : 比 较 分 析 。 Journal ofMathematical Imaging and Vision,35(2):155[24] J. Johnson,A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。arXiv预印本arXiv:1603.08155,2016年。[25] M.约翰逊-罗伯森角巴托河梅塔,S。N. Sridhar和R.瓦苏德万在矩阵中驾驶:虚拟世界可以arXiv预印本arXiv:1610.01983,2016。[26] D. Kingma和J. BA. Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014。[27] Y.勒昆湖Bottou,Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE,86(11):2278[28] C. 莱迪格湖Theis,F.Huszar,J.Caballero,A.艾特肯A.Te-jani,J.Totz,Z.Wang和W.石使用生成对抗网络 的 照 片 般 逼 真 的 单 幅 arXiv 预 印 本 arXiv :1609.04802,2016。[29] T.- Y. 林 , M 。 迈 尔 , S 。 贝 隆 吉 , J.Hays ,P.Perona,D.Ra-manan,P. Doll a'r和C. L. 齐特尼克Microsoftcoco:上下文中的通用对象。在欧洲计算机视觉会议上,第740-755页。Springer,2014.[30] M.- Y. Liu和O.图泽尔耦合生成对抗网络。arXiv预印本arXiv:1606.07536,2016。[31] M. Long和J. Wang。使用深度适应网络学习可转移特征。ICML,2015.[32] A. Mahendran,H. Bilen,J. Henriques,and A.维达尔迪Re-searchdoom和cocodoom:通过游戏学习计算机视觉。arXiv预印本arXiv:1610.02431,2016年。[33] A. Odena,V. Dumoulin和C. 奥拉 反卷积和棋盘式伪 影 。 http://distill.pub/2016/deconv-checkerboard/ ,2016.[34] A.奥德纳角,澳-地Olah,和J。史伦斯基于辅助分类器GAN的条件图像合成。ArXiv电子印刷品,2016年10月。[35] W. Qiu和A.尤尔。Unrealcv:将计算机视觉与虚幻引擎 连 接 起 来 。 arXiv 预 印 本 arXiv : 1609.01326 ,2016。[36] A.拉德福德湖,澳-地Metz和S.钦塔拉使用深度卷积生成 对 抗 网 络 进 行 无 监 督 表 示 学 习 CoRR ,abs/1511.06434,2015。3732[37] S. R. Richter,V. Vineet,S. Roth和V.科尔顿。播放数据:从电脑游戏中得到的真相。欧洲计算机视觉会议,第102-118页。施普林格,2016年。[38] A. A. 鲁 苏
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功