自监督解纠缠生成图像方法

69 浏览量更新于2023-10-12 收藏 2.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7013身份从这里开始，姿势从那里开始：使用未标记视频的自监督解纠缠Fanyi Xiao，Haotian Liu，Yong Jae Lee加州大学戴维斯分校摘要我们提出了一种新的方法，解开的identity和姿态的对象的图像生成。我们的模型以ID图像和姿态图像作为输入，并生成具有ID图像的身份和姿态图像的姿态的输出图像。不像大多数以前的无监督工作依赖于循环约束，这往往是脆弱的，我们建议以自我监督的方式学习具体来说，我们利用未标记的视频来自动构建伪地面实况目标，以直接监督我们的模型。为了加强解纠缠，我们提出了一种新的解纠缠损失，并提高现实主义，我们提出了一个像素验证损失，其中生成的图像我们进行了广泛的实验，合成和真实的图像，以证明改进的现实主义，多样性，和 ID/ 姿态disentanglement相比，现有的方法。1. 介绍考虑图中所示的纽约街景。1（左）。作为一个人，不难想象一辆红色轿车取代黄色出租车会是什么样子。这可能是因为我们一生中接触过成千上万种不同姿态的汽车，并且已经学会了如何从汽车的姿态中分辨出汽车在本文中，我们建议学习一个模型来执行这个任务-具体来说，合成一个新的姿态的对象实例的条件下，一个不同的1，右），没有任何标签。这个任务要求模型理清对象例如图1、为了对红色轿车的ID信息进行编码，模型需要捕获对于该特定汽车实例唯一的外观和形状，而与姿势无关同时，该模型还需要对出租车指定的姿态信息（姿态参考图像）进行编码，与身份无关。然后，它可以将红色轿车的身份与出租车的姿势相结合，以创建具有所需姿势的新图像。解纠缠表示，其中，例如，一种潜伏性图1.我们的自监督模型学习解开图像生成对象的身份（红色轿车）和姿势（出租车）。子空间控制一个变化因素，可以为数据中的复杂变化提供鲁棒性，并可用于下游视觉识别任务[5]。关于学习图像的解纠缠表示已经有了很长的研究[51，43，55，10，46，15，20，21，21]。早期的作品，如Tenenbaum和Freeman [51]，在完全监督的环境中运作，其中感兴趣的因素（例如，内容和风格）被注释用于每个训练图像。相反，我们的目标是用一种自我监督的方法来解决这个任务身份和姿态的自我监督解纠缠是一个极具挑战性的问题，因为这两个因素高度交织在一起。例如，形状构成了物体身份的重要组成部分另一方面，姿势和形状之间的区别往往是微妙的，相互依存的–为了解决这个问题，最近的图像生成方法或者引入循环约束[35，20，15，21，25]（类似于[60]第60章：你是我的女人？基于领域知识[46，27]。虽然承诺，这些方法通常只在对象中没有大的姿势变化时才能很好地原因很直观：由于缺乏直接监督（即，地面实况目标图像），由所提出的约束或表示上的先验提供的监督信号通常不足以引起解纠缠的表示。我们采取不同的方法。我们利用未标记的视频来自动构建训练三元组，每个三元组由身份参考图像、姿势参考图像、7014年龄和一个伪地面实况目标来训练我们的模型。对伪地面实况目标的要求是，它应该由具有身份参考的身份和姿态参考的姿态的对象组成。我们利用短视频剪辑中的帧可能包含相同对象的实例的事实然后，我们找到一个最近的邻居的目标图像在姿态空间中构建的姿态参考图像。虽然近似地面真理，直接馈送输入/输出对我们的模型提供了一个更强的监督信号比只强制循环约束，并使其能够实现所需的解纠缠。为了补充直接监督并进一步鼓励解纠缠和真实感，我们提出优化两个新的损失函数对于解纠缠损失，我们构造了两个显式约束，其迫使身份编码器仅捕获身份信息，并且姿势编码器仅捕获姿势信息-相同的像素验证损失通过利用以下事实来促进真实性：在大多数情况下，所生成的图像中的像素应当能够追溯到其在身份图像中的根。我们的模型是一种基于生成对抗网络（GAN）的新型条件对抗学习框架[17]，使用上述损失函数进行训练，以解开身份和姿势。我们对合成（3D汽车/椅子[13 ， 2] ）和具有挑战性的真实图像（ YouTube-BoundingBoxes [42]）进行了广泛的实验，以证明与现有的无监督方法相比，具有更好的真实感，多样性和ID/姿势2. 相关工作解缠结表示无监督用于解开变化因子的方法通常采用循环约束[35，10，20，25，31，12，23，21，47，33]。循环约束的局限性在于，尽管是必要的（它们将满足于完美的解纠缠），但它们通常不足以生成高质量的解纠缠表示。相反，我们建议采用一个简单而有效的程序来检索直接的伪目标在训练过程中，强制执行一个更强的约束。有些人将解纠缠放在跨域翻译的背景下[15，21，32]，这需要明确定义域。例如，为了解开汽车的身份和姿态，需要将姿态定义为内容（根据[21]中的定义），并为每个汽车身份定义一个域，这将需要每个身份一个相比之下，我们的工作只需要一个编码器-解码器对，因此更具可扩展性。另一些人则通过强制性地显式先验（例如，规范外观和变形场）[46]或专注于特定领域，如面部/人类[41，4，52，3，34，40]。相比之下，我们避免做出强有力的特定领域假设，并赋予我们的模型更多的自由度来直接从数据中学习。Reed等人。[44]通过视觉类比任务学习了一种分解表示，其中查询图像被类比地转换为一对参考图像。不像视觉类比，需要三个输入图像，我们的任务只需要两个（ID/姿势参考）。同时，DDPAE [19]以简化未来帧预测（即，更容易根据不纠缠的因素预测变化）。最后，其他人通过注入先验（例如，最大化/最小化因子分解能力、总相关性、描述长度等）在变分自动编码框架中的潜在代码[27，7，1]。然而，它们不具有对所学习的表示的语义的显式控制该模型不知道哪些维度对应于从单个RGB图像合成新视图是一个高度欠确定的问题，需要对对象进行3D理解。一些解纠缠工作采用新颖的视图合成作为其应用[10，25，4，52，44]。其他人在大量3D形状模型的帮助下解决这个问题[26，45，56，61]，有时需要大量的人类参与[26]。[48]在HOG空间而不是RGB空间中执行视图合成最近的作品训练CNN像图形渲染引擎一样工作[29，55，11]或学习外观流来合成大小新颖的视图[59]。与这些方法不同，我们的方法不需要任何3D形状模型，人工干预或地面实况训练示例。条件图像到图像转换最有效的图像到图像转换算法是基于生成对抗网络（GAN）[17]。在监督设置中学习的示例-带有注释的输入/输出对-包括Pix 2 Pix [22]，Pix 2 PixHD [53]和GauGAN [39]。无监督方法利用循环一致性[60]，学习域之间的共享潜在空间[21，8]，或施加约束以解开因素[25]。我们的工作利用大量未标记的视频来自动构建伪地面实况目标。通过这种方式，我们可以利用超视设置的优点，而不必注释任何图像。3. 方法我们的目标是学习一个模型，作为输入两个图像，并生成一个新的图像与一个重要的是，在训练和测试期间，我们没有任何身份或姿势注释。7015我提出ID我查到我提出I目标我查到图2.发电机的图解。我们的生成器将身份参考图像Iid和姿态参考图像Ipose两者作为输入，并且尝试生成与I target匹配的输出图像，其具有与Iid相同的身份但是具有Ipose的姿态。请注意姿势编码特征（黄色块）如何用于生成I目标和I姿势，因此它不能包含任何标识信息。同样，身份编码特征（绿色块）用于生成I target和I id，因此它不能包含任何姿势信息。此外，我们提出了一种新的像素验证模块（PVM，细节显示在右边），它计算Ig和Iid之间的可验证性得分，指示Ig中的像素可以追溯到Iid的程度。3.1. 网络架构发生器为了理清身份和姿态，我们使用一个两分支发生器网络，分别处理两个输入流。如图2（左，红色箭头），ID/姿态编码器将ID/姿态参考图像处理为专门捕获身份/姿态信息的特征图。连接的ID和姿势其在本地（例如，特定对象细节）和全局（例如，整体造型）。3.2. 构建ID-姿态-目标训练三元组我们的工作和以前的无监督解纠缠工作之间的关键区别（例如，[10，20，25，21，31，15]）的一个重要原因是，我们不是只依赖于间接的循环约束，而是构建一个伪地面实况目标特征图（沿着通道维度）被馈送到译码器总的来说，我们的生成器可以表示为：图像I目标使用未标记的视频，这样我们就可以直接Ig=G（Ei（Iid），Ep（Ipose）），其中I_id和I_pose表示ID/pose参考图像恢复。 Ei和Ep是ID和姿态编码器，G是解码器。 ID编码器由连续的Conv-ReLU块组成，而姿势编码器由连续的Conv -Norm - ReLU块组成。我们将实例归一化（遵循[53]）添加到Pose编码器中，以去除与对象身份相关的实例特定特征均值和方差[21]。对于解码器，我们遵循[53]中使用的架构（从残差块开始），除了我们用上采样卷积代替转置卷积以减轻棋盘伪影[36]。鉴别器为了保持真实性和同一性，我们设置了两个鉴别器。第一个是Real/FakeRoundDreal，它将单个RGB图像作为输入，并将其分类为真实或虚假。它使生成的图像Ig看起来尽可能真实，以欺骗用户。第二个CIDD对专注于在生成中保留对象因此，生成器被训练为将所生成的图像的身份与输入ID图像的身份相匹配。在[53]之后，我们采用了2尺度模型，以有监督的方式训练模型，但不带任何标签。我们证明，这提供了更强的监督比循环约束。我们首先从同一个视频片段中采样两个图像作为Iid和Itarget。假设这些图像将包含相同的对象实例，这对于短剪辑通常是正确的（对于长视频，也可以应用无监督跟踪）。然后，我们使用预先训练的convnet从其他视频中检索I目标图3示出了该过程。关键的见解是检索具有相同姿态的对象比检索具有相同标识的对象要容易得多-具体来说，我们使用AlexNet的conv 4特征图，在ImageNet上以自监督的方式训练，以避免使用任何图像标签[14];参见图4。虽然检索到的I目标是一个近似的真实地面，我们表明，它是非常有效的，在我们的实验。最后，为了确保采样对的（I id，I pose）姿态的多样性3.3. 损失函数为了生成真实且保持身份/姿态的图像，我们使用以下损失函数。构成构成DecPVMDecIDDecPVMIg我查到我查到L1（、）I'idIg对齐7016IDIDdisGANGANGAN2IidIposeItarget图3.构建ID、姿势和目标训练三元组。通过这个过程，我们自动获得监督来训练我们的模型。为了用伪地面实况目标直接监督我们的模型，我们最小化模型生成和目标之间的L1查询最近邻居查询最近邻居1dis 为||I target− G（E i（I id），E p（I pose））||1 .一、然而，由于有许多可能的解决方案来最小化这种损失，因此它本身不一定会强制执行所需的解纠缠。为了确保ID/Pose编码器只编码关于身份/姿态的信息，除了生成I目标之外，我们还要求我们的模型重建Iid和I姿态：图4.使用在ImageNet上训练的自监督AlexNet [14]检索最近邻居。最近的邻居很像查询的姿势。Ig中的第i个像素和Iid中的第j个像素。为了使W的每一行的总和为1，我们沿着它的行传递W通过softmax函数。然后，PVM通过以下方式转换ID图像：L2=||我-G（E（I）、E（I））||0X迪斯id我IDpID1Iid（i）=W（i，j）·Iid（j），+的||I pose− G（E i（I pose），E p（Ipose））||1 .一、如图2、这将迫使ID编码器不J结果I0是与生成对齐的ID图像。一个示例如图所示2（右）。然后PVM计算捕获任何姿势信息，因为其输出用于生成-使用不同的姿势（Iid和Itarget）创建两个目标;相同的逻辑适用于姿势编码器。我们最后一个双生坦-I0和I 1之间L1差验证损失：L=||I0和Ig来计算像素- 我||.Glement loss是：pvidg1Ldis=L1迪斯低的Lpv值指示生成中的高度可验证性。因此，最大限度地减少这种损失，确保每个我曾以为，这是一种“不舍”，一种“不舍”。在语义层面上。像素验证损失回想一下，我们最终生成的图像应该保留ID引用的身份。这意味着对于我们这一代人中的（几乎）每个像素，我们应该能够将其追溯到ID图像。例如，对于我们这一代的汽车生成的像素可以追溯到ID图像。我们注意到PVM与[54]中提出的MatchTrans模块相关，但是PVM不限制局部搜索窗口，因此允许更大的姿态变化。对抗性损失辅助分类损失为了促进生成器和判别器（第3.1节中的D实数和D对之间的对抗性博弈能够在ID图像中找到相同的前光像素对抗性损失L对鼓励现实主义如果我们这代人正确地保留了自己的身份。这将仅当在需要生成的ID图像中存在未观察到的部分时为假。然而，我们仍然可以理解，即使对于那些看不见的部分，它们的低级颜色和纹理（通常在整个图像中共享）仍然可以从ID图像中的像素的一些加权组合中获取。为此，我们提出了一种新的像素验证模块（PVM），它将生成的每个像素与ID图像进行匹配。具体来说，PVM首先转换ID和有条件的身份保护。最后，由于先前的研究证明了辅助分类任务在训练车辆时的好处[16，37]，我们使用剪辑索引作为代理，通过假设相同/不同剪辑内的汽车对应于相同/不同实例来设置身份分类任务。这给usLaux作为交叉熵分类损失。总损失结合所有损失函数，我们形成以下最小-最大优化问题：图像以将其与生成的图像空间对齐。为此，它将Ig中的每个像素与Iid中的每个像素进行匹配，minGMaxD实数，D对λ1Ldis+λ2Lpv+λ3Laux+λ4LGAN，特征（我们使用解码器的最后一层特征，对吧其中LGAN=L实数对GAN 且λ1=λ2=λ3=在转换到RGB空间之前），这导致权重矩阵W∈RPP，其中P是Iid和Ig两者中的像素的总数，并且Wij指示I id和I g之间的亲和度。最近邻L+L+L7017λ4=1。我们在固定生成器G和训练鉴别器D之间交替以最大化损失，以及固定D和训练G以最小化损失。7018ID姿势GT OursPix2pixHD融合图像DrNet3D汽车3D椅子LPIPSFIDIDLPIPSFIDID我们0.1771.330.660.1929.580.67[53]第五十三话0.2097.760.650.2031.010.66[25]第二十五话0.28106.960.570.60335.390.51DrNet [10]0.2772.010.570.217.420.60表1.与3D汽车/椅子上的基线进行比较。对于LPIPS和FID，越低越好; ID越高越好。我们的方法和Pix2pixHD在这些数据集上都表现良好DrNet和FusionImage的表现要差得多（DrNet获得良好的FID分数只是因为它们错误地复制粘贴姿势图像）。图5.与3D汽车/椅子上的基线进行比较。4. 实验在本节中，我们将与最先进的基线进行比较，并进行消融研究，以证明我们的解缠绕损失和像素验证损失的有效性。数据集。我们首先在两个合成数据集上进行概念验证实验：3D汽车和3D椅子[13，2]，其中有183/1393个剪辑，分别具有不同的身份和汽车和椅子的姿势。然后，我们在更多的真实图像上进行测试：我们从YouTube-BoundingBoxes [42]（YTBB）视频数据集中选取了3个类别（汽车，公共汽车和卡车），每个类别都代表了独特的挑战。具体地，汽车可以具有非常不同的形状（例如，轿车、SUV、货车），公共汽车通常具有许多纹理（例如，标识、油漆），而卡车的外观表现出很大的不确定性（很难从另一个视图中预测一个视图由于这些是真实世界的YouTube视频，它们非常具有挑战性正如我们将在实验中展示的那样，这个数据集的挑战性也表现在以前的解纠缠方法获得的结果质量相对较差。我们使用在MS COCO上训练的Faster-RCNN来检测视频中对象的实例我们保留detec-[25][26][27][DrNet[10]：使用姿势特征对身份分类器进行分类，以确定两个图像是否来自同一视频（即，具有相同的身份），以及试图最大程度地混淆身份分类器的姿势编码器。这样，它可以通过迫使姿态编码器不捕获身份信息来实现解纠缠DrNet没有目标图像，因此只使用间接监督信号。我们用我们的编码器和解码器实现了DrNet架构进行公平比较。评估指标。我们创建了一个5000个地面实况三元组的评估集。具体来说，我们从同一视频中采样两帧作为身份和目标图像（与我们在训练中构建三元组的方式相同），而对于姿势图像，我们手动选择与目标图像具有相同姿势的图像。LPIPS 距离 [58] ：对于生成的图像 Ig=G （ Ei（Iid），Ep（Ipose）），我们测量其到目标图像Itarget的LPIPS距离。这个指标基本上捕捉到了两个方面：1）Ig有多真实，因为它必须是真实的以具有到真实图像I目标的低距离; 2）Ig保持I id的同一性和I姿态的姿态有多好，因为I 目标是这两者的地面实况组合。Fre'chetInceptionDistance （ FID ） [18] ：通过使用Inception-v3网络的pool 3功能将其分布与真实数据的分布进行比较来衡量生成数据的真实性和多样性我们计算FID，所生成的图像集合{I1，I2，...，I N}和相应的-置信度为0.9或更高的选项，响应目标图像{I1G g，I2G、...、 I N}。不准确和强遮挡的实例。这导致目标目标目标2233/186、3008/302、1833/137夹子，用于培训/测试汽车，公共汽车和卡车，分别。基线。Pix2pixHD [53]：最先进的条件图像到图像翻译方法。对于输入，我们在通道轴上直接连接ID和Pose图像（即，6通道输入）。该模型经过训练，输出与伪地面真实目标对应的3通道RGB图像。我们使用作者FusionImage[25]：仅依赖于循环约束，正如我们我们的数据（例如，剧烈的姿势变化）。为了公平比较，我们采用我们的生成器/并行处理器架构（基于身份和姿势保存分数：我们测量保存-将ID和姿态因子的定义作为评估的另一种方法解开对于ID 保留分数，我们对我们的数据进行ImageNet 预训练 ResNet-50 微调以最小化： max （ f（x1）·f（y）− f（x1）·f（x2）+m，0），其中f从倒数第二层提取L2在ResNet-50中，x1和x2是来自同一视频剪辑的两个实例，y是来自另一个剪辑。这种三联体丢失使阳性对（来自同一片段的帧）之间的亲和力比阴性对之间的亲和力高出一个界限m。在评估期间，我们在整个评估集上对生成的图像Ig和身份图像Iid之间的亲和度进行平均（我们将亲和度S形化为[0，1]），作为最终的ID保留分数。更难评估姿势保持70191 2 3 4 5 6 7一BC图6.我们这一代人是汽车的产物。顶行示出了输入姿势图像，而最左列示出了输入ID图像。从这些结果中，很明显，我们的方法已经学会了解开身份和姿态;也就是说，对于每个ID图像，我们可以将其更改为不同的姿势，同时保持其身份。1 2 3 4 5 6 7一BC图7.我们这一代的结果是公共汽车。顶行示出了输入姿势图像，而最左列示出了输入ID图像。因为通常缺少姿势注释因此，我们仅通过使用具有姿势注释的多视图汽车数据集[38]来对YTBB汽车进行评估，以训练汽车姿势分类器并以类似的方式计算姿势保留分数实作详细数据。我们使用Adam [28]训练我们的模型，学习率为10- 4。对于数据增强，我们采用标准的颜色抖动（亮度，连续性，trast、saturation）和随机种植。为了稳定训练，我们执行以下模型平均[57]。我们在YTBB上为所有方法（我们的和基线）生成128 x128图像，在3D汽车/椅子上生成64 x64图像。4.1. 3D汽车和椅子数据集我们首先介绍合成数据的结果。如图5，我们的方法学习为两个数据集解开身份和姿态-我们的生成类似于ID图像的身份和姿态图像的姿态。尽管这些是简单的数据集，但FusionImage和DrNet产生退化的解决方案，无法生成真实的数据集。tic结果。具体来说，DrNet只是复制姿势图像，而FusionImage要么生成大量伪影（3D汽车），要么生成空白图像（3D椅子）。我们认为这是由于在处理大量的外观变化（从实例到实例）时，在其循环约束中缺乏监督。另一方面，pix2pixHD和我们的方法在这些简单的数据集上都工作得很好，如表1中的定量结果所反映的4.2. YouTube-BoundingBoxes结果定性结果。接下来，我们将在图2和图3中展示我们的模型6、7和8。对于每个类别，最左边的列示出输入ID参考图像，而第一行示出输入姿态参考图像。矩阵中的每个条目对应于我们模型条目C3是ID图像C和姿势图像3作为输入结果）。首先，很ID输入姿态输入ID输入姿态输入7020构成ID构成ID1 2 3 4 5 6 7一B图8.我们这一代的结果是卡车。顶行示出了输入姿势图像，而最左列示出了输入ID图像。请注意第1列（蓝色虚线框）中的生成如何将姿势翻转180度，显示不正确的正面视图。ID Pose Ours Pix2PixHD FusionImage DrNet图9.对于每一行，输入姿态图像的姿态是固定的，而身份是变化的。请注意每行中的生成结果是多么一致，这表明我们的生成对于姿势图像的身份是不变的。不同的姿势图像（见图中生成的汽车）。（六）。如前所述，巴士通常有很多纹理（标志，油漆等）.这让身份保护变得更加棘手尽管如此，可以看到我们的方法很好地保留了精细的纹理细节（例如，图C1中巴士底部的蓝色油漆。（七）. 卡车由于其外观的不确定性（例如，有时不可能仅根据卡车的正面视图来推断其尽管如此，我们的方法仍然能够在保持身份的同时捕捉姿势的要点我们观察到的一个失败模式是，我们的模型可能会与外观相似的视图混淆它不正确地生成图1的列1中的正视图。8），这部分是由于在三元组生成过程中来自最近邻搜索的误差。图9示出了固定姿态结果：对于输入的ID图像，我们改变姿态图像的身份，但固定它们的姿态。考虑到每一行中各代的一致性，很明显，我们的模型准确地解开了身份和姿势，因为它没有拾取姿势图像的身份。图10.与基线的比较第一列/第二列显示输入ID/姿态图像。详情见正文与基线的比较。我们接下来在图中显示与基线的比较。10.请注意，这些是每种方法的代表性示例。首先，FusionImage [25]经历严重的模式崩溃，其输出完全独立于姿态输入。DrNet [10]简单地复制姿势图像的内容（类似于其在3D汽车/椅子上的行为），丢失ID图像中的身份信息。Pix2PixHD [53]能够解开ID和Pose因素。然而，我们的结果看起来更真实（第1行），并且更好地保留了身份/姿势（分别为第2行和第5行）。我们认为FusionImage和DrNet失败的原因是因为它们优化的间接循环约束不足以诱导我们困难数据的分离，因此导致退化解决方案（模式崩溃/恒等映射）。与Pix2PixHD不同的是，我们的方法不仅优化了生成的图像，使其与目标图像相似，而且还鼓励我们的两个编码器进行解纠缠表示，从而导致整体更好的生成结果。如第2、一些当代工作学习ID输入姿态输入7021图11.FactorVAE [27]在3D椅子和YTBB汽车数据集上。客车卡车LPIPSFIDID构成 LPIPSFIDIDLPIPSFIDID我们0.3318.030.63 0.650.3716.770.630.3524.87 0.62[53]第五十三话0.3725.180.60 0.640.4032.310.600.3975.82 0.58[25]第二十五话0.51239.37 0.52 0.570.49230.06 0.560.4368.76 0.60DrNet [10]0.4824.590.52 0.690.4838.630.520.4628.14 0.53我们的，不含Lpv不含L2dis0.3418.470.63 0.650.3719.730.630.3626.33 0.620.3519.140.63 0.650.3824.880.630.3837.38 0.62表2. YTBB轿车、公共汽车和卡车的定量结果。对于LPIPS和FID，越低越好;对于ID和Pose评分，越高越好。正如本文中所解释的，我们只有汽车的姿势得分，因为我们没有巴士和卡车的监督姿势分类器通过在变分自动编码框架中的潜在代码上注入可因子分解性先验来解开表示。虽然不能直接比较（因为模型对学习的语义没有直接控制），但我们在3D椅子和YTBB汽车上展示了一个这样的模型 FactorVAE [27]的一些代表性结果。图12.图像合成应用程序。左：原始图像，右：我们这几代人的阿尔法混合图像。尽管他们面临着各种独特的挑战。消融研究。我们接下来进行消融研究（见表2底部）。首先，我们去除像素验证损失Lpv。这一直伤害FID的一个相当大的利润，这表明，像素验证是有效的，在提高整体的现实主义和多样性的一代如果我们还去除部分解纠缠损失L2（所以我们只剩下感知损失L1dis具体地说，在图11号，我们显示隐藏代码dimen-（通过手动检查）与姿势最大相关的位置。如第一行所示，在像3D椅子这样的简单数据然而，当应用于YTBB汽车等更具挑战性的数据时，潜在代码混合了形状，颜色和姿势等不同因素。定量结果。我们定量评估我们的方法的现实主义，多样性，和ID/构成解开。我们还研究了像素验证损失，解纠缠损失，和选择的并行输出。我们生成的图像有多真实？我们的方法优于FID中所有类别的所有基线（见表2），这表明我们生成的图像与基线相比更加我们生成的图像与目标图像的匹配程度如何？通过比较LPIPS距离，我们可以看到我们的结果最接近地面实况目标。我们的模型如何区分id和pose？我们的方法在身份和姿势保持分数上也优于基线（除了DrNet，它实现了更好的姿势保持分数，因为它不正确地复制-粘贴姿势图像），这意味着这两个因素之间的最高程度的解开。这些结果从两个方面说明了问题与FusionImage和DrNet相比另一方面，当将我们的方法与Pix2PixHD进行比较时，显式地强制解纠缠的重要性被揭示。总之，定性和定量的结果表明，我们的方法是能够模拟几个不同的对象猫，（二）执行--无论是在FID还是LPIPS方面，再次证明了我们的解纠缠损失有助于学习一个好的解纠缠表示。4.3. 应用：图像合成我们的方法的一个潜在的有用的应用是图像合成。标准图像合成方法[6，30，9，50]要求用户提供所需对象姿态的图像（或匹配其身份的3D CAD模型，这甚至更难）。例如，为了替换图中的所有三辆车。对于跑车，将需要跑车面向三个不同方向的图像。通过我们的方法，我们只需要所需汽车的单一图像，在任何视图中。结果表明，该方法是可行的。12个是通过阿尔法混合我们这一代人到图像中产生的。5. 讨论虽然比基线好，但我们的结果并不完美，一个突出的失败模式是相似姿势之间的混淆（例如，前视图和后视图卡车）。这部分是由于用于生成训练三元组的最近邻搜索中的错误。我们相信这个问题可以通过更大的数据集来缓解，因为我们的方法可以从任何图像或视频中找到最近邻的姿势图像。致谢。这项工作得到了部分支持作者：ARO YIP W911 NF 17 -1-0410，NSF CAREER IIS- 1751206，NSFIIS-1812850，AWS ML研究奖，Google Cloud Platform 研究学分计划、 XSEDEIRI180001和NVIDIA捐赠的GPU。7022引用[1] Alessandro Rugle ， Tom Eccles ， Loic Matthey ， ChrisBurgess，Nicholas Watters，Alexander Lerchner和IrinaHiggins 。跨领域潜在同源的终身解纠缠表示学习NeurIPS，2018。[2] 马蒂厄·奥布里，丹尼尔·马图拉纳，阿列克谢·埃夫罗斯，布莱恩·鲁斯塞尔，约瑟夫·西维克.3D椅子：使用CAD模型的大数据集进行基于示例部件的2D-3D对齐。CVPR，2014。[3] Guha Balakrishnan ，Amy Zhao ，Adrian Dalca ，FredoDu- rand，and John Guttag.合成人类在看不见的姿势的图像。在CVPR，2018年。[4] Jianmin Bao，Dong Chen，Fang Wen，Houqiang Li，and Gang Hua. 面向开集身份保持的人脸合成。在CVPR，2018年。[5] Yoshua Bengio Aaron Courville和Pascal Vincent表征学习：回顾与新视角。PAMI，2013年。[6] 彼得·伯特和爱德华·阿德尔森。多分辨率样条及其在图像拼接中的应用。 ACM Transactions on Graphics（TOG），1983年。[7] 陈天琦，李雪晨，罗杰·格罗斯，大卫·杜维诺。变分自动编码器中解纠缠的分离源。NeurIPS，2018。[8] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. StarGAN：用于多域图像到图像翻译的统一生成对抗网络在CVPR，2018年。[9] Soheil Darabi，Eli Shechtman ，Connelly Barnes ，DanGold-man，and Pradeep Sen.图像融合：使用基于块的合成来组合不一致的图像。ACM Transactions on Graphics（TOG），2012年。[10] 艾米丽·丹顿和维格内什·比罗德卡无监督学习- ing从视频中分离表示。NeurIPS，2017。[11] Alexey Dosovitskiy ， Jost Tobias Springenberg ， andThomas Brox.学习用卷积神经网络生成椅子。CVPR，2015。[12] Babak Esmaeili 、 Hao Wu 、 Sarthak Jain 、 AlicanBozkurt 、 Narayanaswamy Siddharth 、 Brooks Paige 、Dana Brooks、Jennifer Dy和Jan-Willem van de Meent。结构化的非纠缠表示。在AISTATS，2018年。[13] Sanja Fidler，Sven Dickinson，and Raquel Urtasun.基于可变形立方体模型的三维物体检测和视点估计。InNeurIPS，2012.[14] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在ICLR，2018年。[15] Abel Gonzalez-Garcia 、 Joost van de Weijer 和 YoshuaBen- gio。用于跨域分离的图像到图像转换。NeurIPS，2018。[16] 伊恩·古德费洛。NeurIPS 2016教程：生成对抗网络。arXiv预印本arXiv：1701.00160，2016年。[17] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。[18] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。NeurIPS，2017。[19] Jun-Ting Hsieh ， Bingbin Liu ， De-An Huang ， Li Fei-Fei，and Juan Carlos Niebles.学习分解和解开视频预测的表示。NeurIPS，2018。[20] Qiyang Hu ， Attila Szabo ， Tiziano Portenier ， PaoloFavaro，and Matthias Zwicker.通过混合来分解变异因素。在CVPR，2018年。[21] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译网络。在ECCV，2018。[22] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiEfros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。[23] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和 AndreaVedaldi。通过条件图像生成的对象地标的无监督学习NeurIPS，2018。[24] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。[25] 朱东奎金多妍金俊模生成融合图像：一个人的身份和另一个人的形状。在CVPR，2018年。[26] Natasha Kholgade ， Tomas Simon ， Alexei Efros ， andYaser Sheikh. 使用库存3D模型在单张照片中进行3D对象操作ACM Transactions on Graphics（TOG），2014年。[27] Hyunjik Kim和Andriy Mnih。通过因子分解法解开。在ICML，2018。[28] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[29] Tejas Kulkarni，William Whitney，Pushmeet Kohli，andJosh Tenenbaum. 深度卷积逆图形网络。InNeurIPS，2015.[30] 让·弗朗索瓦·拉隆德和阿列克谢·埃弗罗斯。使用颜色兼容性评估图像真实性。载于ICCV，2007年。[31] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译在ECCV，2018。[32] 刘彦成、叶玉英、王玉强。一个统一的多域图像翻译和操作的特征分解器NeurIPS，2018。[33] Francesco Locatello 、 Stefan Bauer 、 Mario Lucic 、GunnarRaetsch、Syl vainGelly、BernhardScho¨ lk opf和Olivier Bachem。挑战解纠缠表示的非监督学习中的常见假设。在ICML，2019。[34] Liqian Ma，Qianru Sun，Stamatios Georgoulis，Luc VanGool，Bernt Schiele，and Mario Fritz.解纠缠的个人图像生成。在IEEE计算机视觉和模式识别会议论文集，2018年。[35] Michael Mathieu，Junbo Zhao，Aditya Ramesh，PabloSprechmann，and Yann LeCun. 解缠因素7023使用对抗训练的深度表示的变化。InNeurIPS，2016.[36] Augustus Odena Vincent Dumoulin和Chris Olah。反卷积和棋盘式伪影。Distill，2016.[37] Augustus Odena，Christopher Olah，and Jonathon Shlens.使用辅助分类器GAN的条件图像合成。ICML，20

下载后可阅读完整内容，剩余1页未读，立即下载