【文件标题】解纠缠学习中的未知因素提取方法

132 浏览量更新于2023-10-13 收藏 2.44MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14810−DisUnknown：提取未知因素进行解纠缠学习向思涛1，2，顾玉明1，2，向鹏达1，2，柴梦蕾3，李昊2，赵亚杰2，何明明*2 1南加州大学，2南加州大学创意技术学院，3Snap Inc.sitaoxia@usc.edu，{ygu，pxiang}@ ict.usc.edu，mchai@snap.com，hao@hao-li.com，{赵贺}@ ict.usc.edu摘要将数据分解为可解释的和独立的因素对于可控发电任务至关重要。随着标记数据的可用性，监督可以帮助强制分离特定因素的预期。然而，要对每一个因素进行标记以实现完全监督的解纠缠往往是昂贵的，甚至是不可能的。在本文中，我们采用了一个通用的设置，所有的因素，很难标签或识别封装为一个单一的未知因素。在这种设置下，我们提出了一个灵活的弱监督多因子解纠缠框架 DisUnknown ，其DistillsUnknown factors用于启用关于标记和未知因子的多条件生成具体而言，采用两阶段训练方法，首先用有效且鲁棒的训练方法解开未知因子，然后利用未知蒸馏用所有标记因子的适当解开来训练最终生成器。为了证明我们的方法的泛化能力和可扩展性，我们在多个基准数据集上定性和定量地评估它，并进一步将其应用于各种复杂数据集上的实际应用。1. 介绍解纠缠学习是将纠缠的高维数据变化分解为可解释因素的任务。在所需的解纠缠表示中，每个维度对应于变量的不同因子，使得当一个因子改变时，其他因子保持不受影响[3]。因此，解纠缠学习实现了各种下游任务，例如迁移学习和少拍学习，以及具有挑战性的可控图像合成应用（例如，图像合成）。[47，14]）。随着完全标记数据的可用性，监督解纠缠已经取得了很大进展[29，38，15，1，14]。然而，地面实况标签并不总是可访问的，*通讯作者。而即使是人的标记也可能过于昂贵或不一致。因此，完全监督的方法很难推广到标签仅部分可用或甚至完全缺失的常见场景。鉴于此，已经提出了无监督的解缠结方法[10，20，27，50，42]来解决这些挑战。然而，它们中的大多数依赖于一个强有力的假设，即目标数据结构良好，足以被干净地解耦为解释性和可恢复的因素。更重要的是，不能保证这些因素可以相对于特定操纵场景中的真实意图语义因此，弱监督解纠缠，这两个世界的最佳组合，最近已经成为更灵活学习的流行[29，45，8，17]。不幸的是，尽管在某些双因素类内容解纠缠任务上实现了最先进的性能[8，17]，但这一类别中的大多数现有方法仍然无法提取因素感知的潜在表示，这对于操纵单个因素至关重要，特别是当存在多个因素时。总之，由于普遍性有限和性能不足，在多因素解缠结方面似乎还没有完全令人满意的在本文中，我们提出了一个弱监督的多因素解纠缠学习框架，它通过显式和近正交的潜在表示来处理任意数量的因素。考虑到在大多数任务中存在难以标记或解释的挑战性因素，我们方法的关键思想是N-因素解纠缠的一般设置，其中N1个因素被标记并且单个因素未知，其中所有剩余的任务无关或难以标记的因素被灵活地封装为一个未知因素。我们发现这样的设置在真实场景中非常有效和实用。以面部运动重定向为例，面部表情可以是未知因素的良好候选，由于它的灵活性，我们的方法自然适应不同领域的各种任务（例如。卡通和真实照片），数据类型（例如，图像、骨架和界标），在14811完整性（结构良好或处于野生状态）和标签连续性（离散或连续）。为此，我们的框架包括两个主要阶段：1) 未知因素蒸馏和2）多条件生成。具体来说，我们在第一阶段使用对抗训练方法提取未知因子，然后将所有标记的因子嵌入到潜在空间作为第二阶段，用于调节最终生成。我们的方法的核心在于因子编码器和判别分类器的联合对抗训练，其明确地解开未知和已知因子，而不会在其解开的表示之间引入泄漏。我们的方法的性能进行了广泛的评估，在几个基准数据集，定性和定量。此外，我们证明了通用化能力和实际的鲁棒性框架上的多个具有挑战性的任务，使用复杂的现实世界数据集，无需任何额外的手动标记工作。我们的贡献是：1）一个灵活的弱监督解纠缠学习框架，将数据建模为标记/未标记因素的组合，可以很好地扩展到不同的数据集，并有利于各种具有挑战性的任务;2) 一个两阶段的训练架构，明确地学习标记和未知语义因素的解纠缠表示，使每个因素的维度上的互斥操作成为可能; 3）一套学习策略，以提高整个管道中对抗训练的有效性和鲁棒性，这可能会激发未来的研究;4）在包括可控图像生成在内的多个具有挑战性的任务上具有最先进的性能和广泛的实际用途。2. 相关工作无监督解缠因其不需要获取变化因素而成为研究热点。InfoGAN [10]的开创性工作是生成式对抗网络框架[19]的信息理论扩展，通过最大化观察与潜在子集之间的互信息来学习解纠缠的表示。考虑到其训练不稳定性和减少的多样性，提出了基于变分自动编码器（VAE）的方法[20，9，30，35，27]，通过在潜在空间上强制因子化聚合后验来获得更好的性能和重建质量然而，这些模型是建立在观测值在数据集中独立且同分布的假设之上的，因此在没有任何监督的情况下可能无法识别成功解开的模型[34]。一些特定于任务的无监督方法将两个或更多个因素分开，并取得了令人印象深刻的结果，例如图像到图像的转换[21，32，43]和运动重新定位[49，59]。这些方法确实学习了分解的表示，依赖于特定的类别[53，48，36，59]，明确定义的域[21，32，43]，或具有某些类别的结构良好的数据集[50，33]。相比之下，我们的方法提出了一个通用的框架，适应各种任务，域，模态和因子数。监督解纠缠需要对数据的特定因素进行强有力的监督。这些方法使用监督学习训练表示的子集以匹配已知标签[44，57]。由于观察到的类标签仅适用于部分数据，[22]和[40]提出了学习解纠缠表示的半监督VAE方法。这些监督方法需要大量的监督数据，在实践中获取这些数据是昂贵的。虽然一些方法可以使用合成数据或数据先验来提供全面的监督[1，14，52]，但它们仅限于处理特定领域的数据，例如人脸/身体/发型。与大多数只适用于特定任务的监督方法相比最近已经研究了弱监督解纠缠，以建立鲁棒的解纠缠表示，而不需要大量的数据。这样的弱监督被提供为不同样本中的因子之间的已知关系或因子子集的真实标签。为了避免明确标记，一些方法考虑通过匹配共享相同潜在因素的数据对来引导解纠缠[45，29，22，4，8]。通过观察地面实况因素的子集，一些方法在数据和观察到的因素上执行分布匹配，并且在仅具有用于样式的可用标签的样式-内容分解中利用监督[28，58，26，17]。这些方法中的一些可以在某些类别内容分解任务上实现最先进的性能[8，17]，但它们不能确保用于操纵单个因子的因子感知潜在已经出现了标记/未标记因子的统一表示的类似想法[16]。但我们提出了一个通用的disentang-glement学习框架，它有利于各种任务。3. 方法我们提出了一个通用的框架，弱监督解纠缠学习和条件生成。我们采取两阶段的方法，而不是共同训练整个系统。在第一阶段中，排除所有标记的因素，训练编码器从输入数据中提取在第二阶段，通过提取未知因子，训练条件生成对抗网络，将标记数据嵌入到潜在空间中，实现对每个因子的独立控制通过首先将未知因素从标记因素中分离出来，这种两阶段训练有助于降低任务的整体复杂性，并提高标记因素分解的有效性，这将在第二阶段的训练策略部分中详细说明。14812−--联系我们QQ真实分支1...I��N−1E共享权值1...I...��N−1��N−��不匹配分支BN−��̅��BBN−��̅B一阶段第二EE1...II...��N−1��N−��RN−R图1：我们的两阶段培训架构的图示。我们注意到，阶段II是完全监督的，其中未知因子的缺失标签由阶段I提供。因此，我们的方法平凡地覆盖了所有因子都被标记的情况，通过丢弃阶段I而仅使用阶段II。3.1. 阶段I：未知因素蒸馏该阶段训练未知编码器E，该未知编码器E完全且排他地编码未知因子。它在图1（阶段I）中具有两个并行分支，分别将所有已知因子的地面真值标签（在真实分支中）和随机标签（在不匹配分支中）作为输入具体地说，假设有N个因子，前N1个因子被标记，最后一个因子未被标记。x是训练样本，y={yi，. . .，y N−1}是相关的地面真值标签，并且y′=y1′，. . . ，yN′1是独立于x选择的随机标记。E是上述未知的编码器，B = B1，. . . ，B N−1是一组标签嵌入器，两者都输出VAE中的正态分布。GI将它们与从E提取的未知因子一起馈送到Gl，以生成重构样本X。不匹配分支：通过用随机的y1’替换地面真值标签，G1被用来生成混合样本x’。Ci预测来自混合样本的地面真值标签，其指示是否有任何标签信息被泄露到E，因为只有E可以访问x中的地面实况因子。C被实现为一个单一的多类分类器，只在最后一层分支，并以对抗的方式使用E进行训练动机1）在实分支中，通过在生成的样本x和原始样本x之间强制重构损失，E应该包括未被任何标记因子覆盖的所有信息; 2）在失配分支中，通过最小化试图从所生成的混合样本X’预测地面实况标签的分类器C的准确度，E应当排除与标记的因子相关联的任何信息以避免标签泄漏。培训战略。作为对抗方法的一个常见问题，联合训练E和C的对抗对可能是不稳定的。为了提高训练鲁棒性，我们对由GI生成的样本而不是从由E产生的分布采样的代码（类似于[12]）操作C。这是因为，在没有适当约束的情况下，代码空间中的分布可能在试图阻止代码被分类时波动很大。与此相反，由于在样本空间中存在重构损失，使得生成的样本分布更接近真实分布，从而避免了这种波动。通常，分类器C最小化负对数似然（NLL）。令p是表示特定因子的概率分布的向量，并且k是其概率为p（k）的类标签，NLL被定义为：NLL（p，k）= − ln p（k）。（一）作为对抗性对应物，E的对抗性损失的最明显的选择是最大化NLL损失。然而，由于当概率p（k）接近零时NLL不受限制，因此E可能更倾向于专注于仅在少数样本上对非常大的NLL值进行评分，而不是使每个输出代码同样不可分类。因此，我们建议最小化加权负对数不似然损失（NLU），而不是最大化NLL损失：是阶段I生成器，其生成用于实数分支或失配分支，分别以NLU（p，k）=−1−q（k）ln（1−p）、（2）E和B。 C ={Cl，. . . 得双曲余切值.N−1 }是一组分类器（k）根据生成的样本预测每个因子的概率分布。两个分支共享网络结构和权重。对两个分支的损失函数求和。现在，我们假设离散标签，并在补充材料中讨论连续值因子。真实分支：B将地面真值标签y映射到正态分布。我们从这些分布中抽取代码并其中q是参考分布，对于我们的目的，它们总是被认为是训练集中的实际类分布。在补充材料中，我们展示了NLU损失的定义是如何从所需的属性中推导出来的，即它应该是有界的，在远离平衡的样本上产生更大的梯度，并且具有与最大化NLL损失相同的平衡点。（k）14813Σ----||−||联系我们我我我我全面目标。第一阶段单一样本的完整培训目标如下：（μ，σ2）=E（x），e N（μ，diag（σ2）），（3a）（αi，β2）=Bi（yi），bi<$N（αi，diag（β2）），（3b）（αi′，（βi′）2）=Bi（yi′），b′iN（αi′，diag（（βi′）2）），（3c）x= GI（e，bl，. . . ，b N−1），（3d）x′=GI（e，b′1，. . . ，b′N−1），pi=Ci（e，x′），（3e）菲尔斯他们的分类器被训练为正确标记生成的样本[41]或不确定任务[51]。但我们走相反的路：除了NLL损失（等式5e）为了将训练样本X分类到正确的标签，我们的判别分类器R被专门训练为通过添加未加权的NLU损失而不正确地对生成的样本X进行NLU（p，k）= − ln（1 − p（k））。（四）LC=iNLL（pi，yi），LGEB=Rec（x，x）+λadv1ΣiNLUq（pi，yi）（3f）它的基本原理是，传统的分类器对生成的样本不敏感，往往只学习足够的知识来识别。+λKLDKL（N（µ，diag（σ））||N（0，I））（3g）+λKLΣ DKL（N（α i，diag（β2））||N（0，1）。方差向量σ2、β2和（β′）2的平方为将一个类与其他类区分开来，这不足以定义该类的全部特征。然而，如果我们要求分类器将生成的样本识别为在错误的类，以便区分真实和生成的样本我我每个元素。 Rec（x，x）是重建损失函数，也就是我们实验中的均方误差x x2条款。DKL是KL发散。C在失配分支中训练以最小化LC，在所有样本上平均E、B和 G1共同最小化LGEB。3.2. 第二阶段：多条件生成利用在阶段I中提取的未知因子，该第二阶段针对标记因子训练编码器S，以从输入样本中提取解纠缠表示最终的多条件生成器GΠ接受针对标记因子和未知因子两者的条件，并且确保改变一个因子不会影响生成的输出中的其他因子。在此阶段，如图1（阶段II）所示，未知和标记因子的条件来自训练样本x和x′1，. . .，x′N1，它们都是独立选择的。标记因子编码器S=S1，. . .，S N−1从x ′ i计算标记因子i的代码，而在阶段I中预先训练的未知编码器E从x计算未知因子代码。阶段II生成器GII生成以所有代码为条件的样本X（第5c段）。在x上，一组判别分类器R=R1，. . .，R N-1被训练以加强标记因子码的独立可控性，并且采用预先训练的E来确保未知因子的一致性。此外，还应用了一个CNOD来确保生成的样本的真实性，就像GAN中一样。动机在输入样本的随机组合上训练，生成器GΠ被要求合成新样本，其中每个因子由来自独立源的编码调节。每个分类器R i强制x的因子i完全且单独地由x′i控制，并且通过随机且独立地选择每个x′i，我们确保S i是可以一致地计算x′i的因子i的唯一编码器。该方法使得生成的样本和真实数据的分布在全局上无法区分。培训战略。大多数以前的类条件GAN在类如何处理生成的样本上有所不同。14814联系我们−Σ我2Σ22Σ因此，它将成为一个更完整的联合国。了解每一个班级。GΠ和S被联合训练以确保生成的样本X被分类到与输入X’1、…. . ，x′N 1（等式中的NLL 项）5克）。同时，为了保证未标记因子的一致性，本文提出了一种新的无标记因子构造方法。由来自E的代码明显地控制，我们使用固定的E（等式2中的平方误差项）来最小化所生成的样本x的编码与输入x之间的距离。5克）。这进一步解释了为什么E必须在与系统的其余部分分开的阶段中被训练：E既用于向生成器提供输入，又用于对输出进行重新编码以与输入进行比较。如果允许E在该距离被最小化时被更新，则它可能会崩溃到将所有内容编码为零向量的状态。对于鉴别器D，我们使用LSGAN损失函数[37]（等式10）。5f中的D项和Eq. 5克）。全面目标。类似于阶段I，针对阶段II的单个样本的完整训练目标被公式化为：（μ，σ2）=E（x），e N（μ，diag（σ2）），（5a）（αi′，（βi′）2）=Si（x′i），s′iN（αi′，diag（（βi′）2）），（5b）x= GΠ（e，s′1，. . . ，s′N 1），（μ，σ2）= E（x），（5c）pi=Ri（x），p′i=Ri（x），（5d）LR=i（NLL（pi，yi）+NLU（p′i，yi′）），（5e）LD=（D（x）−1）+（D（x）+1），（5f）LGS= ||µ − µ||+λadv2（D（x）2+NLL（p′i，yi′））（5g）+λKLiDKL（N（αi′，diag（（βi′）2））||N（0，I））。注意，虽然需要总共N个输入样本来生成一个样本，但实际上，这可以通过计算整个批次的所有因子代码并将它们随机组合以用于生成来有效地分类标签被相应地置换分类器R最小化LR，14815↑↓ ↑|| −||表1：具有不同未知因子的3D形状的未知稠度比，w/和w/o蒸馏。表2：具有从不同数量的因子合并的未知因子的3D形状上的零未知意味着完全监督。未知因子（不含蒸馏）地板色调100.00% 63.42%所述编码器D最小化LD，并且所述生成器G和编码器S共同最小化LGS。3.3. 实现细节为了最大限度的概括性，我们不赞成任何具体的#未知比例MIG100.00% 0.9501100.00% 0.9555100.00% 0.97333 100.00% 0.97184 100.00% 0.93935 100.00% 0.9868表3：具有不同未知因子的3D形状的网络体系结构在我们所有的实验中，编码器和生成器分别由图像大小为28、64或128的数据集的3、4或5个步幅-2卷积组成，随后是3个全连接层。鉴别器和分类器具有相同的卷积层，但只有一个全连接层。卷积特征图深度从32开始，在每次卷积后加倍，但不超过256。全连接层具有512个特征。4. 实验4.1. 数据集和指标数据集。我们在四个基准数据集上进行评估实验：MNIST [31]、Fashion-MNIST（F-MNIST）[56]、3D椅子[2]和3D形状[5]。对于MNIST和F-MNIST，我们使用标准的训练/测试分割。对于3D椅子和3D形状，我们随机拿出所有图像的10%进行测试，其余的用于训练。在MNIST和F-MNIST中，我们将类作为标记因子，因为只有它才有标签可用。在包含三个因素的3D椅子中，即模型、仰角和方位角，我们将仰角和方位角组合成单个未知的旋转因子。在由六个标记因子完全定义的3D形状中，即地板色调、墙壁色调、物体色调、比例、形状和方向，我们选择一个或多个因素作为标记，并将剩余的因素合并到未知因素中，以训练各种模型用于我们的实证研究。指标. 我们通过计算编码器的互信息间隙（MIG）[9]来评估解纠缠性能。由于因子可能包含多个维度，因此每个因子的互信息被定义为所有维度中最大的一个然后，将互信息计算为前两个因子之间的互信息间隙。较高的MIG表示较好的解缠质量。4.2. 实证研究我们实证研究了未知蒸馏如何有助于标记因子的解开，并使未知因子的控制。未知因素MSE MIG地板色调0.00049 0.9607墙面色调0.00063 0.9825目标色调0.00074 0.9766比例0.00062 0.9411形状0.00064 0.9637方向0.00064 0.9537未知因素的必要性。在没有未知蒸馏的情况下，不能保证由未知因子表示的特征在改变任何标记的特征时保持固定。为了进行比较，我们通过用高斯噪声替换由E编码的未知因子代码并去除特征匹配损失μ μ2（等式2）来修改阶段II。5g），并在3D模型上训练三个模型，每个模型分别选择地板色调、墙壁色调和对象色调作为未知因素。对未知因子使用相同的随机码，对所有标记因子使用独立采样的随机码生成图像，然后计算具有相同未知特征的结果的比率，即一致性比率。由于3D形状的简单性，这三个特征可以通过在固定像素坐标处取颜色来可靠地计算。如果两种颜色的L2RGB距离小于数据集中两个相邻色调样本之间的平均距离的我们为每个网络生成10，000张图像，并在表1中显示结果。可以看出，蒸馏时所有比例均达到100%，这意味着所有测试样品的未知因子保持不变。注意，这里不测量MIG，因为标记因子之间的解缠结性能通常不受影响。未知因素的范围。在我们的环境中，如果当一个以上的未知因素时，所有这些因素将作为一个整体来处理，而没有单独的可控性。然而，我们仍然可以确保未知因子与标记因子分离，并且标记因子的解缠性能不会受到影响。为了验证这一点，我们在3D形状上训练了六个模型：墙面色调百分之一百55.63%0物体色调百分之一百68.76%114816(a) MNIST/class/style（b）F-MNIST/class/style（c）3D椅子/模型/旋转（d）3D形状/标注/其他图2：在不同数据集上生成的样本。顶行和最左列分别是标记因子和未知因子的输入条件，在子标题中注释为数据集/标记/未知图3. 对于每个图，我们从所有因子中挑选一个编码因子和一个着色因子，其中两个因子可以相同也可以不同。为了在2D可视化上绘制每个测试样本，我们利用编码因子生成2D位置，并且利用着色因子生成颜色具体-(a)style/class/class（b）ori。/ori。/ori。（c）腐烂。/rot。/rot。(d)style/ style/ class（e）shape/shape/floor（f）rot. / model/ rot.图3：用测试样品分布可视化解缠结。每个图的副标题表示：未知因子/编码因子/着色因子。在标记的因子中，我们相继地将地板色调、方向、墙壁色调、比例和形状合并到未知因子中，其中对象色调是最后标记的因子。我们仅在表2中测量如在未知因素的必要性和关于对象色调的MIG分数中引入的一致性比率。注意，所有MIG分数都非常接近上限1，表明良好的解缠结质量。未知因素的选择我们还通过选择不同的因子作为三维投影的未知因子，研究了该方法的鲁棒性。分别反映重构和解缠结的一致性能的MSE和MIG结果示于表3中。4.3. 结果和可视化为了证明我们的多条件生成器的质量，我们在基准数据集上绘制了生成的样本，其中因子由随机参考如图2所示，我们的方法准确地编码已知（顶行）和未知（最左边的列）因子，并使用它们来独立地控制生成。我们还说明了disentangular质量visualizing测试样本分布的代码空间中通常，我们使用对应于编码因子的编码器来获得其因子码，并通过选择具有最大方差的两个维度来将其投影到2D。然后，我们使用映射到其着色因子标签的颜色在该2D投影上绘制一个点。良好解缠的指示是，当编码和着色因子相同时，颜色应当被清楚地分离，但是当它们不同时，颜色完全混合而没有颜色图案或偏差4.4. 比较我们将我们的方法与最先进的方法进行比较，包括无监督[20，27，9]和弱监督方法[8，17]。弱监督方法在与我们相同的设置下运行，其中只有一个因子被标记为MNIST，F-MNIST和3D椅子。建议的超参数用于训练这些模型：对于[20]，β = 4;对于MNIST和F-MNIST，γ = 10，γ=3。[27]的3D椅子上的2;[9]的β=6;[8]的β=10。从表4中的结果，我们的方法在所有数据集上实现了比其他方法显著更高的MIG分数。由于无监督方法[20，27，9]是在没有任何监督的情况下训练的，因此与它们进行比较有些不公平。然而，这强调了监督在解缠任务中的重要性，这也通过弱监督方法始终优于无监督方法的观察来反映我们在图4中示出了定性比较，其经由遍历描绘方位角旋转的潜在代码来旋转3D椅子无监督方法[20，27，9]可以平滑地改变方向，但不能保持原始风格（例如形状，颜色等）。在弱监督的方法中，[8]遭受过度模糊，而[17]不能一致地控制方向。相反，我们的方法能够处理var-14817表4：在基准数据集上计算的不同解缠方法的平均得分。数据集无监督弱监督[20个][27日][9]第一章[八]《中国日报》[17个]我们MNIST0.2790.0710.5680.7600.5820.978F-MNIST0.1050.0430.1110.6300.5390.8743D椅子0.0310.0980.1150.2120.2840.404[20][27][9][8][17]我们的图4：通过对描绘方位角旋转的潜在代码进行均匀采样，在3D椅子最左边的列显示输入。不同的椅子样式和方向，并在保留原有样式的情况下实现更好的此外，两种弱监督方法都限于双因素类内容解纠缠，但我们的方法是更灵活的多因素框架，其支持每个单独因素的因素感知潜在表示。5. 下游任务肖像重新点亮我们在结合celebA-HQ[23]和FFHQ[24]的数据集上训练网络，将照明视为标记因子，其余内容视为未知。在这里，照明由RGB的二阶球谐系数表示，并使用[25，6]进行估计。图5显示了我们的纵向重新照明结果。动画风格转移。我们在一个自定义的数据集上训练网络，该数据集包含106814幅动漫肖像图像，这些图像是由1139位艺术家在线收集标签因素是艺术家图5：肖像重新照明。顶行显示了映射到球体上的各种环境光源。最左边的列示出了输入图像，并且右边是由同一列中的照明调节的重新照明结果。风格内容我们StarGANNeuralStyle我们StarGANNeuralStyle图6：动画风格转移。每列由顶行的示例样式调节。在每个三行的组中，最左边的图像是内容，结果显示在右边。从上到下：我们的方法，StarGAN [11]和神经风格转移[18]。标识，用作样式的代理。未标注的要素被解释为主体的内容图6显示了我们在不同动漫肖像插图之间转换风格的结果，并与多域翻译中的Star-GAN [11]和原始神经风格转换[18]进行了比较。我们的方法取得了更好的效果与风格更忠实的例子。基于地标的面部重现。我们在面部地标坐标上训练我们的解缠网络。在用我们的生成器合成新的地标之后，使用图像转换网络（例如，[54]，[55]）。14818表达ID姿势(a) 固定身份和姿势，改变面部表情。(b) 固定身份和面部表情，改变姿势。图7：具有表情/姿势控制的面部再现。在每个子图中，最左列提供身份和姿势/表情，并且顶行提供表情/姿势。重现结果是由这些输入条件的因素产生的。ID构成Exp结果图8：不同来源的因素的面部重现。前三行分别提供身份、姿势第四行显示结果。我们在[55]中使用FD-GAN进行单次图像平移。标记的因素是身份和头部姿势，其中姿势由从地标估计的欧拉角表示。未标记的因素是面部表情。我们在VoxCeleb2上训练网络[13]。图7-8显示了我们使用各种控件的面部重现结果，包括编辑单个因素（表情/姿势）（图7）和混合来自不同来源的所有三个因素（图8）。基于骨架的身体运动重定向。我们从驾驶视频和演员图像中提取2D关节坐标。将驱动骨架的运动和演员骨架的身份结合起来合成目标图9：身体运动重定向。在每列中从上到下：输入源帧，提取源骨架，转换骨架，并使用[46]生成帧。骨架，运动作为未知因素。图像是使用骨架引导合成（例如[46]，[7]）。图9显示了在Mixamo[39]上训练的真实图像上的运动重定向结果，这表明身份和运动之间的纠缠有望消除。6. 结论我们提出了DisUnknown，一个弱监督的多因素解纠缠学习框架。通过提取未知因素，它使得能够独立控制每个因素，用于多条件生成。与现有的无监督和弱监督方法相比，我们的方法在多个基准数据集上实现了最先进的性能。我们通过各种下游任务进一步证明了其泛化能力此外，作为一个通用的框架，它可以很容易地转移到其他形式（例如文本，音频），并帮助提高我们的对抗性训练策略的其他任务的稳定性。确认该研究由陆军研究办公室赞助，并根据合作协议号W 911 NF-20-2-0053完成，由CONIX研究中心赞助，该中心是JUMP的六个中心之一，JUMP是美国DARPA赞助的半导体研究公司（SRC）计划。陆军研究实验室（ARL），合同号W 911 NF-14-D-0005，部分由ONR YIP拨款N 00014 -17-S-FO 14。本文件中包含的观点和结论是作者的观点和结论，不应被解释为代表陆军研究办公室或美国陆军研究所的官方政策，无论是明示的还是暗示的。政府的美国政府有权为政府目的复制和分发重印本，尽管有任何版权说明。项思涛希望将这幅作品献给他最喜欢的插画家Sayori，他一直是他的灵感来源。构成ID&表达14819引用[1] Kfir Aberman ，Rundi Wu ， Dani Lischinski ，BaoquanChen，and Daniel Cohen-Or.在2d中学习用于运动重定向的与角色无关的运动。ACM事务处理图表，38（4）：75：1[2] 放大图片作者：Daniel Maturana，Alexei A.布莱恩·埃夫罗斯罗素和约瑟夫·西维克3D椅子：使用CAD模型的大数据集的基于示例部件的2D-3D对准。CVPR 2014，第3762-3769页，2014年[3] 放大图片作者：Yoshua Bengio，Aaron C. Courville和Pascal Vincent。表征学习：回顾与新的视角。IEEE传输模式分析马赫内特尔，35（8）：1798[4] DianeBouchacourt 、 RyotaTomioka 和 SebastianNowozin。多级变分自动编码器：从分组观察中学习解缠表示。在Sheila A.McIlraith和Kilian Q.Weinberger，编辑，AAAI 2018，第2095-2102页[5] Chris Burgess和Hyunjik Kim 3D形状数据集。https：//github.com/deepmind/3dshapes-dataset/，2018.[6] Menglei Chai，Linjie Luo，Kalyan Sunkavalli，NathanCarr，Sunil Hadap，and Kun Zhou. 高品质的头发模型-ING从一个单一的肖像照片。ACM事务处理图表，34（6）：204：1[7] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A.埃夫罗斯大家跳舞吧在ICCV 2019中，第5932-5941页[8] Junxiang Chen和Kayhan Batmanghelich。利用两两相似性实现弱超监督解纠缠。在AAAI 2020，第3495-3502页[9] 陈天琦李雪晨Roger B.格罗斯和大卫·迪维诺。变分自动编码器中解纠缠的分离源。在NeurIPS 2018，第2615-2625页[10] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. InfoGAN：通过信息最大化生成对抗网络的可解释表示学习NeurIPS 2016，第2172-2180页，2016年[11] Yunjey Choi、Min-Je Choi、Munyoung Kim、Jung-WooHa、Sunghun Kim和Jaegul Choo。StarGAN：用于多域图像到图像翻译的统一生成对抗网络。在CVPR 2018中，第8789-8797页[12] 周菊杰，叶正杰，李弘毅，李林山。多目标语音转换没有并行数据通过逆向学习解开音频表示。InInterspeech2018，pages 501[13] Joon Son Chung ， Arsha Nagrani ， Andrew Zisserman.VoxCeleb2 ：深度说话人识别。InInterspeech 2018，pages 1086[14] 邓宇，杨蛟龙，陈冬，方文，童欣。通过3D模仿对比学习的解纠缠和可控的人脸图像在CVPR 2020中，第5153[15] Zunlei Feng，Xinchao Wang，Chenglong Ke，AnxiangZeng，Dacheng Tao，and Mingli Song.双交换解开。NeurIPS 2018，第5898-5908页，2018年[16] Zunlei Feng，Zhenyun Yu，Yongcheng Jing，Sai Wu，Mingli Song，Yezhou Yang，and Junxiao Jiang.可解释的分区嵌入，用于智能多项目时装组合。 ACM Trans. 多用途Comput. Commun. Appl. ，15（2s）：61：1[17] Aviv Gabbay和Yedid Hoshen。揭秘阶级间的分离。在ICLR 2020，2020。[18] 利昂·A Gatys，Alexander S. Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR 2016中，第2414-2423页[19] Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron C.Courville和Yoshua Bengio。生成对抗网络。CoRR，abs/1406.2661，2014。[20] Irina Higgins 、 Loıc Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。Beta-VAE：用约束变分框架学习基本视觉在ICLR 2017，2017。[21] 黄勋刘明宇Serge J.Belongie和Jan Kautz。多模态无监督图像到图像翻译。ECCV 2018，第11207卷，第179-196页，2018年[22] Theo f an isKaraletso s，Ser r geJ. Belongie和GunnarRatsch。当人群拥有特权时：贝叶斯无监督表示学习与oracle约束。在ICLR 2016，2016。[23] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GANs的渐进式增长，以提高质量，稳定性和变化。在ICLR 2018，2018。[24] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR 2019中，第4401-4410页[25] Ira Kemelmacher-Shlizerman和Ronen Basri。使用单参考人脸形状从单幅图像进行三维人脸重建。IEEE传输模式分析马赫内特尔，33（2）：394[26] Bo-Kyeong Kim、Sungjin Park、Geon-min Kim和Soo-Young Lee。独立向量变分自编码器的半监督解纠缠。CoRR，abs/2003.06581，2020。[27] Hyunjik Kim和Andriy Mnih。通过因子分解法解开。在ICML 2018，第80卷，第2654-2663页[28] Diederik P. Kingma，Shakir Mohamed，Danilo JimenezRezaviz，and Max Welling.使用深度生成模型的半监督学习。在NeurIPS 2014，第3581[29] 特哈斯湾作者：William F.Whitney、Pushmeet Kohli和Joshua B.特南鲍姆深度卷积逆图形网络。在NeurIPS2015，第2539-2547页[30] Abhishek Kumar ， Prasanna Sattigeri ， and AvinashBalakr- ishnan. 从未标记观测解纠缠潜在概念的变分推断在ICLR 2018，2018。[31] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278[32] Hsin-Ying Lee ， Hong-Yu Tseng ， Qi Mao ， Jia-BinHuang，Yu-Ding Lu，Maneesh Singh，and Ming-HsuanYang.14820DRIT++：通过分离表示实现多样化的图像到图像翻译。国际计算机目视，128（10）：2402[33] Yuheng Li，Krishna Kumar Singh，Utkarsh Ojha，andYong Jae Lee. MixNMatch：用于条件图像生成的多因子

下载后可阅读完整内容，剩余1页未读，立即下载