合成图像中的模型有益于真实图像的学习

79 浏览量更新于2023-10-15 收藏 721KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1通过对抗训练从模拟和无监督图像中学习Ashish Shrivastava，Tomas Pfister，Oncel Tuzel，Josh Susskind，Wenda Wang，RussWebb Apple Inc{a_shrivastava,tpf,otuzel,jsusskind,wenda_wang,rwebb}@apple.com摘要随着图形学的最新进展，在合成图像上训练模型变得更加容易，从而可能避免对昂贵注释的需求然而，由于合成图像和真实图像分布之间的差距，从合成图像中学习可能无法实现期望的性能为了缩小这一差距，我们提出了模拟+无监督（S+U）学习，其中的任务是学习一个模型，以提高使用未标记的真实数据的模拟器的输出，同时保留来自模拟器的注释信息。我们开发了一种S+U学习方法，该方法使用类似于生成对抗网络（GAN）的对抗网络，但使用合成图像作为输入，而不是随机向量。我们对标准GAN算法进行了几项关键修改，以保留符号，避免伪影并稳定训练：（i）“自正则化”项，（ii）局部对抗性损失，以及（iii）使用细化图像的历史来更新所述阈值。我们表明，这使生成的高度逼真的图像，我们证明了定性和用户研究。我们定量评估生成的图像通过训练模型的凝视估计和手的姿势估计。我们显示了使用合成图像的显着改进，并在没有任何标记的真实数据的情况下在MPIIGaze数据集上实现了最先进的结果。1. 介绍随着最近大容量深度神经网络的兴起，大型标记训练数据集变得越来越重要[4，20，48，48，1，24，17]。然而，标记如此大的数据集是昂贵和耗时的.因此，在合成图像而不是真实图像上训练的想法变得很有吸引力，因为注释是自动可用的。使用Kinect [35]进行人体姿势估计，最近，已经使用合成图1.模拟+无监督（S+U）学习任务是学习一个模型，该模型使用未标记的真实数据从模拟器中提高合成图像的真实性，同时保留注释信息。数据[43，42，29，34]。然而，由于合成图像和真实图像分布之间的差距，从合成图像中学习可能是有问题的-合成数据通常不够真实，导致网络学习仅存在于合成图像中的细节，并且无法很好地概括真实图像。缩小这一差距的一个解决方案是改进模拟器。然而，增加真实感通常在计算上是昂贵的，内容建模需要大量艰苦的工作，并且即使是最好的渲染算法也可能仍然无法对真实图像的所有特征进行建模。这种真实感的缺乏可能会导致模型过度拟合合成图像中的在本文中，我们提出了模拟+无监督（S+U）学习，其目标是使用未标记的真实数据从模拟器中提高合成图像的真实性。改进的真实性使得能够在大型数据集上训练更好的机器学习模型，而无需任何数据收集或人工注释工作。除了增加真实感，S+U学习还应该为机器学习模型的训练保留注释信息应该保持图1此外，由于机器学习模型可能对合成数据中的伪像敏感2107未标记的真实图像雷芬纳合成精炼21082. 我们训练了一个细化网络，使用对抗性损失和自正则化损失的组合来为合成图像添加真实感。图 2. SimGAN概述。我们将优化具有细化器神经网络R的模拟器，结合局部对抗性损失和正则化项对抗性损失自正则化项最小化合成图像和细化图像之间的图像差异。精炼机网络和精炼机网络交替更新。S+U学习应该生成没有伪影的图像。我们开发了一种用于S+U学习的方法，我们称之为SimGAN，该方法使用我们称之为“细化器网络”的神经网络从模拟器中细化合成图像图2给出了我们方法的概述：用黑盒模拟器生成合成图像，并使用改进器网络来改进合成图像。为了增加真实感，我们使用对抗性损失来训练我们的细化网络，类似于生成对抗网络（GAN）[8]，这样细化后的图像与使用判别网络的真实图像无法区分。为了保留合成图像的注释，我们用自正则化损失来补充此外，我们建议使用一个完全卷积的神经网络，它在像素级上操作并保留全局结构，而不是像在例如，完全连接的编码器网络。GAN框架需要训练两个具有竞争目标的神经网络，已知这是不稳定的，并且倾向于引入人为因素[32]。为了避免漂移和引入虚假伪像，同时试图欺骗单个更强的识别器，我们将识别器的接收场限制在局部区域而不是整个图像，从而导致每个图像的多个局部对抗性损失。此外，我们引入了一种方法，通过使用细化图像的历史而不是仅来自当前细化器网络的历史来更新训练样本，从而提高训练贡献：1. 我们提出了S+U学习，使用未标记的真实数据来改进合成图像。3. 我们对GAN训练框架进行了几项关键修改，以稳定训练并防止精炼器网络产生伪影。4. 我们提出了定性，定量和用户研究实验表明，所提出的框架显着提高了模拟器输出的真实性。我们通过在细化的输出图像上训练深度神经网络，实现了最先进的结果，无需任何人工注释1.1. 相关工作GAN 框架学习两个具有竞争损失的网络（generator和generator）。生成器网络的目标是将随机向量映射GAN框架首先由Goodfel-low等人引入。[8]以生成视觉上逼真的图像，从那时起，已经提出了许多改进和有趣的应用[32]。Wang和Gupta[41]使用结构化GAN来学习表面法线，然后将其与样式GAN相结合以生成自然的室内场景。Im等人[13]提出一个使用对抗训练训练的递归生成模型。最近提出的iGAN [49]使用户能够在自然图像流形上交互式地改变图像。Liuet al. [21]使用耦合GAN来学习来自多个模态的图像的联合分布，而不需要相应图像的元组，通过有利于联合分布解决方案的权重共享约束来实现这一点。Chen等人[2]提出Info-GAN，GAN的信息理论扩展，允许学习有意义的表示。Tuzel等人[39]用GAN解决了人脸图像的图像超分辨率问题。Li和Wand [19]提出了一种用于高效纹理合成的马尔可夫GAN。Lotter等人[22]在LSTM网络中使用对抗损失进行视觉序列预测。Yu等人[45]提出使用GAN进行强化学习的SeqGAN框架。Yoo等人[44]用GAN解决像素级语义迁移风格转换[7]也与我们的工作密切相关。最近的许多工作都探索了生成模型领域的相关问题，例如PixelRNN[40]，它使用具有softmax损失的RNN顺序预测像素。生成式网络集中于使用随机噪声向量生成图像;因此，与我们的方法相比，所生成的图像不具有可用于训练机器学习模型的任何注释信息。许多努力已经探索了使用合成数据来–合成精炼雷芬纳RReal与Refined鉴别器D模拟器2109各种预测任务，包括凝视估计[43]、RGB图像中的文本检测和分类[9，15]、字体识别[42]、对象检测[10，27]、深度图像中的手部姿势估计[38，37]、RGB-D中的场景识别[11]、城市场景的语义分割[31]和人体姿势估计 [26 ， 3 ，18 ， 1 4 、 28 、 30] 。Gaidon等人[5]表明在合成数据上预训练深度神经网络可以提高性能。我们的工作是补充这些approaches，我们提高了现实主义的模拟器使用未标记的真实数据。Ganin和Lempitsky [6]在域自适应设置中使用合成数据，其中学习的特征对于合成图像和真实图像之间的域偏移是不变的。Wang等人[42]在合成和真实数据上训练堆叠卷积自动编码器，以学习其字体检测器ConvNet的低级表示。Zhang等人[46]第四十六章：你是谁？2.1. 自正则化的对抗损失为了增加合成图像的真实感，我们需要弥合合成图像和真实图像分布之间的差距理想的细化器将使得不可能以高置信度将给定图像分类为真实的或细化的。这种需要促使使用一个adversar-ial神经网络，Dφ，它被训练成将图像分类为真实的与改进的，其中φ是神经网络的参数。在训练细化器网络R时使用的对抗性损失负责遵循GAN方法[8]，我们将其建模为两个玩家的极大极小博弈，并交替更新精炼网络Rθ和精炼网络Dφ。接下来，我们更精确地描述这种直觉。网络通过最小化以下损失来更新其参数：以减少真实数据和合成数据之间的域偏移。与经典的领域自适应方法，适应功能相对于一个特定的预测任务，我们弥合图像之间的差距，ΣLD（φ）= −log（Dφ我Σ（x<$i））−log（1−DφJ（yj））。（二）通过对抗性训练来进行贡献。这种方法允许我们生成逼真的训练图像，可用于训练任何机器学习模型，可能用于多个任务。Johnson等人[16]通过共同分割然后识别相似区域，将风格从一组真实图像转移到合成图像。这种方法要求用户从图像数据库中选择前几个匹配项相比之下，我们提出了一个端到端的解决方案，不需要用户在推理时的干预2. 使用SimGAN进行模拟+无监督学习的目标是使用一组未标记的真实图像 yi∈ Y来学习细化合成图像x的细化器Rθ（x），其中θ是函数参数。令精化图像表示为x，则x：=Rθ（x）。S+U学习的关键要求是，细化后的图像xx应该在外观上看起来像真实图像，同时保留图像的从模拟器的符号信息。为此，我们建议通过最小化两种损失的组合来学习θΣLR（θ）= λreal（θ;xi，Y）+λreg（θ;xi），（1）我其中xi是第i个合成训练图像。成本的第一部分是真实性，它为合成图像增加了真实感，而第二部分是真实性，它保留了注释信息。在下面的章节中，我们将扩展这个公式，并提供一个优化θ的算法。这相当于两类分类问题的交叉熵误差，其中Dφ（. ）是输入是合成图像的概率，1-Dφ（. ）的一个真正的。我们将Dφ实现为一个ConvNet，层输出样本是细化图像的概率。为了训练该网络，每个小批量由随机采样的精细合成图像xji和真实图像y j组成。交叉入口损耗层的目标标签对于每一个yj 是0，并且对于每一个xj是1。然后，通过在小批量损失梯度上采取随机梯度下降（SGD）步骤来更新小批量的φ。在我们的实现中，现实主义损失函数在（1）中，使用经过训练的CNOD如下：实数（θ; xi，Y）= − log（1 − Dφ（Rθ（xi）。（三）通过最小化该损失函数，细化器迫使分类器不能将细化的图像分类为合成的。除了生成逼真的图像外，细化器网络还应保留模拟器的注释例如，对于注视估计，所学习的变换不应改变注视方向，并且对于手部姿势估计，关节的位置不应改变。该限制是使能够训练使用具有模拟器注释的细化图像的机器学习模型的必要成分。为此，我们建议使用自正则化损失，最大限度地减少每像素的差异合成图像和细化图像的特征变换之间的关系为：L1是L1范数。要素变换可以是恒等映射2110Refined图像当前RD的小批量缓冲器细化图像精炼房输入图像WH概率图图3. 局部对抗性损失的图解。鉴别器网络输出w×h概率图。对抗损失函数是局部补丁上的交叉熵损失之和。图4. 使用精炼图像历史的说明。详情见正文（x（x）=x）、图像导数、颜色通道的平均值、或诸如卷积神经网络的学习变换在本文中，除非另有说明，我们使用恒等映射作为特征变换。因此，在我们的实现中使用的总的细化器损失函数（1）是：ΣLR（θ）=− log（1 −Dφ（Rθ（xi）我+λ（Rθ（xi））−（xi）<$1。（四）我们将Rθ实现为一个完全卷积的神经网络，而没有步幅或池化，在像素级别上修改合成图像，而不是像在例如，一个完全连接的编码器网络，从而保留了全局结构和符号。我们学习精炼者和阿提帕-通过交替地最小化LR（θ）和LD（φ）来确定参数。在更新Rθ的参数时，我们保持φ不变，当更新Dφ时，我们固定θ。我们在算法1中总结了这个训练过程。2.2. 局部对抗损失细化器网络的另一个关键要求是，它应该学会在不引入任何伪影的情况下对真实图像特征进行建模。当我们训练一个单一的强递归网络时，细化网络往往会过度强调某些图像特征，以欺骗当前递归网络，导致漂移和产生伪影。一个关键的观察是，从细化图像采样的任何局部块应该具有与真实图像块类似的统计。因此，我们可以定义一个单独分类所有局部图像块的递归网络，而不是定义一个全局递归网络。这种划分不仅限制了感受野，从而限制了识别器网络的容量，而且还为每个图像提供了许多样本再精细网络也通过每个图像具有多个“真实主义损失”值而得到改进在我们的实现中，我们设计了一个全卷积网络，输出属于伪类的补丁的w×h维概率图，其中w×h是图像中局部补丁的数量在训练细化器网络时，我们对w×h局部块上的交叉熵损失值求和，如图3所示。2.3. 使用精细图像的历史更新鉴别器对抗性训练的另一个问题是，神经网络只关注最新的优化图像。这种记忆的缺乏可能会导致（i）对抗训练的发散，以及（ii）优化器网络重新引入了人工神经网络已经忘记的工件。在整个训练过程中的任何时候，由再精细网络生成的任何精细图像都因此，审查员应该能够将所有这些图像归类为假的。基于这一观察，我们引入鉴别器D输入：合成图像xi∈ X和真实图像yj∈ Y的集合，最大步数（T），最大网络更新每步（Kd），每步生成网络更新的数量（Kg）。输出：ConvNet模型Rθ。对于t = 1，. . . ，T do对于k= 1，. . . ，Kgdo1. 对一小批合成图像进行Xi.2. 通过对（4）中的小批量损失LR（θ）采取SGD步骤来更新θ。端对于k= 1，. . . ，Kddo1. 对一小批合成图像进行xi和真实图像yj。2. 用当前θ计算xi=Rθ（xi）。3. 通过对（2）中的小批量损失LD（φ）采取SGD步骤来更新φ端端算法一：Refiner网络R θ的对抗训练2111未标记的真实图像模拟图像图5.UnityEyes凝视估计数据集的SimGAN输出示例[43]。（左）来自MPIIGaze的真实图像[47]。我们的精炼网络在训练时不使用来自MPIIGaze数据集的任何标签信息（右）UnityEye上的优化结果与合成图像相比，细化的合成图像中的皮肤纹理和虹膜区域在定性上显著更类似于真实图像。补充材料中有更多的例子。一种提高对抗训练稳定性的方法，通过使用细化图像的历史来更新训练集，而不仅仅是当前小批量中的图像。我们稍微修改了算法1，使其具有由以前的网络生成的细化图像的缓冲区。设B为缓冲区的大小，b为算法1中使用的小批量大小。在每次迭代训练时，我们通过从当前细化器网络中采样b/2个图像，并从缓冲区中采样额外的b/2个图像来更新参数φ来计算模糊损失函数。我们保持缓冲区B的大小不变。在每次训练迭代之后，我们随机地将b/2个样本与新生成的细化图像一起重新放置在缓冲区中该过程如图4所示。与我们的方法相反，Salimanset al.[32]使用模型参数的运行平均值来稳定训练。请注意，这两种方法是互补的，可以一起使用。3. 实验我们在MPIIGaze数据集[43，47]上评估了我们的基于外观的凝视估计方法，并在深度图像的NYU手部姿势数据集上评估了手部姿势估计[38]。我们使用一个完全卷积的再精细网络与ResNet块为我们所有的实验。3.1. 基于外观的注视估计注视估计是许多人机交互（HCI）任务的关键组成部分。然而，从眼睛图像估计注视方向是困难的，特别是当图像具有低质量时，例如，从膝上型计算机或移动电话相机-用注视方向矢量注释眼睛图像即使对于人类也是具有挑战性的因此，为了生成大量带注释的数据，最近的几种方法[43，47]在大量合成数据上训练他们的模型。在这里，我们展示了使用SimGAN生成的精细合成图像进行训练的效果明显优于这项任务的最新技术。合成精制样品真实图6.彩色图像特征空间的自正则化凝视估计数据集由来自UnityEyes模拟器[43]的1.2M 合成图像和来自 MPIIGaze 数据集 [47] 的MPIIGaze是在极端照明条件下捕获的非常有挑战性的眼睛注视估计数据集。对于UnityEyes，我们使用一个通用的渲染环境来生成训练数据，而无需任何特定于机器人的目标。定性结果：图5示出了来自眼睛注视数据集的合成的、真实的和细化的图像的示例。如图所示，我们观察到合成图像的显著质量改进：SimGAN能够完整地捕捉真实图像中的皮肤纹理、传感器噪声和虹膜区域的外观。请注意，我们的方法保留了注释信息（注视方向），同时提高了真实感。特征空间中的自正则化：当合成图像和真实图像在分布上具有显著偏移时，逐像素L1差异可能是限制性的。在这种情况下，我们可以用一个替代的特征变换来代替身份映射。例如，在图6中，我们使用RGB通道的平均值来细化彩色图像。如图所示，使用该特征变换训练的网络能够生成逼真的彩色图像。请注意，在我们的定量实验中，我们仍然使用灰度图像，因为由于增加了不变性[43，47]，在灰度中凝视估计更好“视觉图灵测试”：为了定量评估精细图像的视觉质量，我们设计了一个简单的用户研究，要求受试者将图像分类为真实或精细合成。每个受试者随机选择50张真实图像和50张真实图像。精炼合成2112表1. 用于对真实图像与精细图像进行分类的“视觉图灵测试”用户研究结果人类的平均分类准确率为51。7%（几率=50%）。100908070605040表2. 在合成数据上训练的凝视估计器与SimGAN的输出的比较。结果是在距离d=与地面真实值相差7度。SimGAN输出的训练比合成数据的训练好22。百分之三。精细图像随机顺序，并要求标记的图像是真实的或完善。受试者在执行任务时不断地看到20个真实而精致的图像。受试者发现很难区分真实图像和精细图像之间的差异。在我们的综合分析中，10名受试者在1000次试验中选择了正确的标签517次（p=0.001）。这意味着他们无法可靠地区分真实图像和合成图像。表1显示了混淆矩阵。相比之下，当对原始合成图像与真实图像进行测试时，我们为每个受试者展示了10张真实图像和10张合成图像，在200次试验中正确选择了162次（p≤10−8），这比偶然性30201000 5 10 15 20 25与地面实况的距离[度]图7. 在具有真实眼睛图像的MPIIGaze数据集上基于外观的凝视估计的定量结果。该图针对不同数量的数据训练示例示出了与地面实况眼睛注视方向相比作为度数误差的函数的累积曲线。方法R/S误差支持向量回归（SVR）[33]R十六岁5自适应线性回归（ALR）[23]R十六岁4[36]第36话最后一句话R十五岁4[47]第47话R十六岁2CNN with UT Multiview [47]R十三岁9K-NN与UnityEyes [43]S9 .第九条。9CNN与UnityEyes合成图像S11.2美国有线电视新闻网（CNN）UnityEyes Refined ImagesS7.8表3.SimGAN与最新技术在真实眼睛的MPIIGaze数据集上的比较第二列指示方法是否在真实/合成数据上训练。误差是以度为单位的平均眼睛注视估计误差。训练-ING细化图像的结果在2. 1级改善，a定量结果：我们训练一个简单的卷积-神经网络（CNN）类似于[47]来预测具有L2损失的眼睛注视方向（由x、y、z的三维矢量我们在UnityEyes上训练，在MPIIGaze上测试。图7和表2比较了在合成数据上训练的注视估计CNN与在精炼合成数据（SimGAN的输出）上训练的另一CNN的性能。我们观察到在SimGAN输出上训练的性能有很大的提高，a 22。3%的绝对百分比改善。通过使用更多的训练数据，我们也观察到了很大的改进-定量评估证实了图5中观察到的定性改进的价值，并表明使用SimGAN的机器学习模型的通用性明显更好。表3显示了与最新技术水平的比较。在细化图像上训练CNN的性能优于MPIIGaze数据集上的最新技术，相对提高了21%。这一巨大的改进显示了我们的方法在许多HCI任务中的实用价值。精细合成数据4x精细合成数据4x合成数据图像百分比选择为真实选择为synt地面实况224276地面实况合成207293训练数据%d合成数据62.3合成数据4x64.9精确的合成数据69.4精细合成数据4x87.22113与现有技术相比，相对提高了21%保留地面真相：为了量化地面实况注视方向不会显著改变，我们通过将椭圆拟合到瞳孔来手动标记100个合成和细化图像中的地面实况瞳孔中心。这是注视方向的近似值合成图像的估计瞳孔中心与对应的细化图像的估计瞳孔中心之间的绝对差非常小：1.一、1±0。8px（眼宽=55 px）。实施详情：细化网络Rθ是一个残差网络（ResNet）[12]。每个ResNet块由两个卷积层组成，包含64个fea。真地图大小为55 ×35的输入图像与3×3滤波器卷积，输出64个特征图。输出通过4个ResNet块。最后一个ResNet块的输出被传递到一个1×1卷积层产生1个特征图，对应于2114未标记的真实图像模拟图像图8. 纽约大学手部姿势数据集的示例细化测试图像[38]。（左）真实图像、（右）合成图像和来自细化器网络的相应细化输出图像。真实图像中的主要噪声源是细化器网络学习建模的非平滑深度边界。精细合成图像。网络Dφ包含5个卷积层和2个最大池化层，如下所示：(1)Conv3x3 ，步幅 =2 ，特征图 =96 ，（ 2 ）Conv3x3，步幅=2，特征图=64，（3）MaxPool3x3，步幅=1，(4)Conv3x3 ， stride=1 ， feature maps=32 ，（ 5 ）Conv1x1 ， stride=1 ， feature maps=32 ，（ 6 ）Conv1x1 ， stride=1 ， fea- ture maps=2 ，（ 7 ）Softmax.我们的对抗网络是完全卷积的，并且已经被设计为使得Rθ和Dφ中最后一层神经元的感受野相似。我们首先训练Rθ网络，仅使用自正则化损失1000步，Dφ200步。然后，对于Dφ的每一次更新，我们更新Rθ两次，即，在算法1中，Kd被设置为1，并且Kg被设置为50。眼睛注视估计网络类似于[47]，有一些变化，使其能够更好地利用我们的大型合成数据集。输入是一个35×55灰度图像，通过5个卷积，3个完全连接的层，最后一个编码三维凝视向量：(1)Conv 3x 3，特征图=32，（2）Conv 3x 3，特征图=32，（3）Conv 3x 3，特征图=64，（4）Max-Pool 3x 3，步幅=2，（五）Conv3x3，特征图=80，(6) Conv 3x 3，特征图=192，（7）MaxPool 2x2，步幅=2，（8）FC 9600，（9）FC 1000，（10）FC3，（11）Eu-环损失。所有网络都是用一个常数训练的0的情况。001的学习率和512的批量大小，直到验证误差收敛。3.2. 基于深度图像的手部姿态估计接下来，我们评估我们的方法在深度图像中的手部姿势估计。我们使用NYU手部姿势数据集[38]，其中包含由3个Kinect相机捕获的72，757个训练帧和8，251个测试帧-一个正面和2个侧面视图。每个深度帧都标记有手部姿势信息，这些信息已用于创建合成深度图像。我们通过使用合成图像裁剪来自真实图像的像素来预处理数据。在将图像传递到ConvNet之前，将其调整为224×224定性结果：图8显示了示例输出在纽约大学手部姿势测试仪上的模拟GAN。真实深度图像中噪声的主要来源是边缘处的深度不连续性，SimGAN能够在不需要任何标签信息的情况下学习。定量结果：我们在NYU手部姿势训练集的真实，合成和精细合成图像上训练了一个类似于StackedHourglass Net [ 25 ]的完全卷积手部姿势估计器CNN，并在NYU手部姿势测试集中的所有真实图像上评估每个模型。我们使用与[38]中相同的14个手部关节进行训练。许多现有技术的手部姿态估计方法是由若干步骤组成的定制流水线。我们仅使用单个深度神经网络来分析改善合成图像的效果，以避免由于其他因素而产生的偏差。图9和表4呈现了关于NYU手部姿势的定量结果。在精炼的合成数据上进行训练-SimGAN的输出不需要对真实图像进行任何标记-比在有监督的真实图像上训练的模型性能高8倍。百分之八所提出的方法也优于对合成数据的训练随着合成训练示例数量的增加，实施详情：该架构与眼睛注视估计相同，除了输入图像大小为224×224，过滤器大小为7×7，并且使用10个ResNet块。判别网Dφ为：（1）Conv7 ×7，步幅=4，特征图=96，（2）Conv5 × 5，步幅=2，特征图=64，（3）MaxPool3 × 3，步幅=2，（4）Conv3 × 3，步幅=2，特征图=32，（5）Conv1x1，步幅=1，特征图=32，（6）Conv1x1，步幅=1，特征图=2，精炼合成2115精细合成数据3x合成数据3x真实数据合成数据合成数据1009080706050合成精炼(with历史）无历史（WithoutHistory）4030201 2 345 6 7 8 910图10. 使用细化图像的历史来更新鉴别器。（左）合成图像;（中）使用历史精炼图像的结果;（右）结果，而不使用细化图像的历史（而是只使用最重新-与地面实况的距离[像素]图9. 在真实深度图像的NYU手部姿势测试集上手部姿势估计的定量结果[38]。该图显示了对于不同数量的合成和细化图像的训练示例，累积曲线作为与地面真实关键点位置的距离的函数训练数据%d合成数据69.7精确的合成数据72.4真实数据74.5合成数据3x77.7精细合成数据3x83.3表4.比较在合成数据、真实数据和SimGAN输出上训练的手部姿势估计器。结果是在距离地面实况d= 5(7) Softmax 我们首先用500步的自正则化损失和200步的Dφ训练Rθ网络;然后，对于Dφ的每次更新，我们更新Rθ两次，即。在算法1中，Kd被设置为1，并且Kg被设置为2。对于手部姿势估计，我们使用[25]2个沙漏块的堆叠沙漏网，热图大小64×64。我们在训练时增加随机[-20，20]度旋转和裁剪。3.3. 消融研究首先，我们分析了在训练过程中使用细化图像历史的效果。如图10所示，使用细化图像的历史（第二列）防止在没有历史（第三列）的情况下训练时观察到严重的伪影。这导致增加的注视估计误差为12。2度没有历史，相比之下，7。8度与历史接下来，我们在训练过程中比较局部与全局对抗损失。全局对抗性损失在网络中使用完全连接的层，将整个图像分类为真实图像与精细图像。局部对抗性损失消除了伪影，并使生成的图像更加逼真，如图11所示。分精炼图像）。我们观察到明显的不真实的伪像，尤其是眼角周围全球对抗性损失局部对抗性损失图11.使用局部对抗性损失的重要性。（左）一个示例图像，它是在整个图像上使用标准的“全局”对抗性损失生成的手部边缘周围的噪声包含明显的不切实际的深度边界伪影。（右）使用局部对抗性损失生成的相同图像看起来更加逼真。4. 结论和未来工作我们提出了模拟+无监督学习，以增加模拟器的真实感，同时保留合成图像的注释。我们描述了Sim- GAN，我们的S+U学习方法，它使用了一个对抗网络，并在没有任何标记的真实数据的情况下展示了最先进的结果。在未来，我们打算explore建模的噪声分布，以产生一个以上的细化图像为每个合成图像，并ininvestigate细化视频，而不是单一的图像。鸣谢：我们感谢我们的同事Barry Theobald、CarlosGuestrin 、 Ruslan Salakhutdinov 、Abhishek Sharma和Yin Zhou的宝贵意见。图像百分比2116引用[1] S. 阿布·艾尔·哈伊贾N.科塔里，J.李，P.纳采夫，G. 托代里奇湾Varadarajan和S. Vijayanarasimhan。Youtube-8 m：一个大规模视频分类基准。arXiv预印本arXiv：1609.08675，2016。1[2] X.陈先生，Y.段R.霍特胡夫特，J. 舒尔曼I. Sutskever和P.阿比尔InfoGAN：通过信息最大化生成对抗网络进行可解释的 arXiv 预印本 arXiv ：1606.03657，2016。2[3] T. Darrell，P. Viola和G.沙赫纳洛维奇快速姿势使用参数敏感散列进行估计在procCVPR，2015年。3[4] J. Deng，W. 东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞ImageNet：一个大规模的分层图像数据库。在Proc.CVPR，2009中。1[5] A.盖东，Q. Wang，Y. Cabon和E. 维格虚拟世界作为多对象跟踪分析的代理在Proc. CVPR，2016. 3[6] Y. Ganin和V. Lempitsky 通过反向传播的无监督主适应。arXiv预印本arXiv：1409.7495，2014。3[7] L. Gatys，A. Ecker和M.贝丝图像风格trans-使用卷积神经网络的FER 在proc CVPR，2016年。2[8] I. 古德费罗J. Pouget-Abadie， M. 米尔扎湾，澳-地许、D.沃德-法利，S。奥扎尔A. Courville和Y. 本吉奥。生成性对抗网。在Proc.NIPS，2014中。二、三[9] A.古普塔A。Vedaldi和A.齐瑟曼。用于自然图像中的文本定位的合成数据。Proc. CVPR，2016. 3[10] S.古普塔河，巴西-地格希克山口Arbeláez和J.马利克学习-从rgb-d图像中提取丰富的特征，用于对象检测和分割。在Proc.ECCV，2014中。3[11] A. Handa，V. Patraucean，V. Badrinarayanan，S. 支架，和R.西波拉场景网：用合成数据理解真实世界的室内场景.在Proc.CVPR，2015中。 3[12] K. 他，X。 Zhang，S. Ren和J.太阳深度渣油用于图像识别的人工学习。arXiv预印本arXiv：1512.03385，2015。6[13] D. J. Im，C. D. Kim，H. Jiang，和R. 梅米塞维奇使用循环对抗网络生成图像。http://arxiv.org/abs/1602.05110，2016. 2[14] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库Human3.6m：大规模数据集和预测方法，用于自然环境中的3D人体感知PAMI，36（7）：1325-1339，2014. 3[15] M. Jaderberg，K. Simonyan、A. Vedaldi和A.齐塞尔用卷积神经网络在野外阅读文本。 IJCV ， 116（1）：1-20，2016. 3[16] M. K. 约翰逊，K。Dale，S.Avidan，H.Pfister，W.T.免费-人，W。马图西克Cg2real：使用大量照片来提高计算机生成图像的真实感。 IEEE Transactions onVisualization and Computer Graphics ， 17 （ 9 ）：1273-1285，2011。3[17] I. Krasin，T.Duerig，N.Alldrin，A.Veit，S.阿布·艾尔Haija，S.Belongie，D.蔡氏Z.Feng，V.费拉里戈麦斯A. 古普塔 D. 纳拉亚南 C. 孙先生， G. 阿格里克，以及K. 墨菲 OpenImages：一个公共数据集，用于大型2117尺度多标记多类图像分类。数据集可从https://github.com/openimages获得，2016年。1[18] Y. LeCun，F. Huang和L.博图学习方法用于对姿势和照明具有不变性的通用对象识别载于Proc.CVPR，2004年。3[19] C. Li和M.魔杖预先计算的实时纹理同步马尔可夫生成对抗网络在Proc. ECCV，2016中。2[20] T.- Y.林，M。迈尔，S。贝隆吉，J. Hays，P. 佩洛娜D. Ramanan ， P. Dollár ， and C. L. 齐特尼克Microsoft COCO ：上下文中的公用对象。在Proc.ECCV，2014中。1[21] M.- Y. Liu和O.图泽尔耦合生成对抗网络.在Proc. NIPS，2016中。2[22] W. Lotter，G.Kreiman和D.考克斯使用预测生成网络的视觉结构的无监督 arXiv 预印本 arXiv ：1511.06380，2015年。2[23] F. Lu，Y.Sugano，T.Okabe和Y.佐藤自适应线性基于外观的凝视估计的回归。PAMI，36（10）：2033-2046，2014. 6[24] 诉K. 纳加拉贾河谷I. Morariu和L.S. 戴维斯建模对象之间的上下文关系，便于指称表达的理解。在Proc. ECCV，2016中。1[25] A. Newell，K. Yang和J.邓小平更堆积沙漏用于人体姿势估计的网络。arXiv预印本arXiv：1603.06937，2016年。七、八[26] D. Park和D.Ramanan 关节位姿估计合成的视频在Proc.CVPR，2015中。3[27] X.彭湾，澳-地孙，K. Ali和K.萨恩科从3d模型中学习深度对象检测器在proc ICCV，2015年。3[28] L. Pishchulin，A.贾恩，M。Andriluka，T.Thormählen，以及B. 席勒清晰的人检测和姿态估计：重塑未来。在Proc. CVPR，2012。3[29] W. 邱和A.尤尔。UnrealCV：连接计算机视觉到虚幻引擎。arXiv预印本arXiv：1609.01326，2016。1[30] G. Rogez和C.施密特 MoCap引导的数据增强-用于野外的3D姿态估计。arXiv预印本arXiv：1607.02046，2016。3[31] G. 罗斯湖 Sellart，J. Materzynska，D. 巴斯克斯，还有A. M. 洛佩兹SYNTHIA数据集：用于城市场景语义分割的大量在Proc. CVPR，2016中。3[32] T.萨利曼斯岛Goodfellow，W.扎伦巴河谷张A. Radford和X.尘改进了训练干细胞的技术arXiv预印本arXiv：1606.03498，2016。二、五[33] T.施奈德湾Schauerte和R. Stiefelhagen 摩尼-折叠对准，用于基于人独立外观的凝视估计。InProc. ICPR，2014. 6[34] A. Shafaei，J. Little和M.施密特游戏和学习：使用视频游戏来训练计算机视觉模型。在Proc. BMVC，2016. 1[35] J. 肖顿 R. 女孩 A. 菲茨吉本 T. 夏普M. 库克湾菲诺基奥河 Moore ， P. Kohli ， A.Crimin-isi，A. Kipman和A.布莱克从单个深度图像进行有效的人体姿态估计。PAMI，35（12）：28211[36] Y. Sugano，Y. Matsushita和Y. 佐藤学习者用于基于外观3D注视估计的合成在Proc. CVPR，2014. 62118[37] J. Supancic，G. Rogez，Y. Yang，J. Shotton，and D.拉玛南。基于深度的手部姿势估计：数据、方法和挑战。在Proc.CVPR，2015中。3[38] J. Tompson，M.Stein，Y.Lecun和K.柏林实时使用卷积网络的人手的连续姿态恢复。ACM Trans.Graphics，2014. 三五七8[39] O. Tuzel，Y. Taguchi和J.好时全局-局部人脸上采样网络。arXiv预印本arXiv：1603.07235，2016年。2[40] A. van den Oord，N.Kalchbrenner和K.Kavukcuoglu像素递归神经网络。 arXiv 预印本 arXiv ：1601.06759，2016。2[41] X. Wang和A.古普塔。创造性的形象塑造我们-构建对抗性网络。在procECCV，2016。2[42] Z. Wang，J.Y

下载后可阅读完整内容，剩余1页未读，立即下载