可控插值正则化优化C-Dis-RL方法

155 浏览量更新于2023-10-16 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4761带可控插值正则化的Yunhao Ge，Zhi Xu，Yao Xiao，Gan Xin，Yunkui Pang，Laurent Itti美国南加州大学洛杉矶分校itti@usc.eduyunhaoge@usc.edu摘要我们专注于可控解纠缠表示学习（C-Dis-RL），其中用户可以控制解纠缠潜在空间的分区在目前的方法中，两个一般性问题仍然没有得到充分的探讨：（1）它们缺乏全面的解纠缠约束，特别是错过了在潜在域和观测域上的不同属性之间的互信息的最小化。(2)它们缺乏凸性约束，而凸性约束对于为下游任务充分操纵特定属性非常重要。为了鼓励全面的C-Dis-RL和凸性模拟，我们提出了一种简单而有效的方法：可控插值正则化（CIR），它创建了一个正循环，其中解纠缠和凸性可以相互帮助。具体来说，我们在训练过程中在潜在空间中进行受控插值，并重用编码器来帮助形成在这种情况下，（a）解纠缠损失隐含地扩大了潜在的可理解分布，以鼓励凸性;（b）凸性反过来又可以提高鲁棒性和精确的解纠缠。CIR是一个通用的模块，我们将 CIR 与三种不同的算法： ELEGANT ， I2 I-Dis 和Gander-Net合并，以显示兼容性和有效性。定性和定量的实验表明，改善C-Dis-RL和潜在的凸CIR。这进一步改善了下游任务：可控图像合成、跨模态图像平移和零拍摄合成。1. 介绍分解表示学习使模型能够学习有序的潜在表示，其中每个单独的维度集负责一个语义属性[10，5，22]。如果我们通过不同的解纠缠表示方法是否可以控制所获得的解纠缠潜在表示的划分来对它们进行分类（例如，例如，分配前10个维度负责面属性），有两个主线：(1) 不可控的解纠缠方法，如可变自编码器（VAE）[13，11，18]，添加先验知识，图1. 我们提出的CIR方法通过鼓励潜在空间中的解纠缠和凸性来提高3个任务的结果质量：（a）使用ELEGANT（在脸上添加/移除眼镜）进行人脸属性编辑; CIR能够更好地传递眼镜，对其他面部部分的干扰较小。(b)图像到图像转换从狗图像转换到具有相同姿势（内容）的猫图像(c)零拍摄合成与Gander-Net合成一个图像与一个新的背景，通过在相应的潜在空间插值;CIR更好地插值的背景，而不改变字母的大小，颜色或字体风格。见补充图1为更大的版本。约束（例如，高斯分布）来隐含地推断解纠缠的潜在代码。大多数是无监督的方法，可以很容易地推广到不同的数据集和提取潜在的语义因素。然而，他们努力获得可控的解纠缠，因为无监督的潜在编码不映射到用户可控的属性。（2）可控解缠方法，利用数据集属性标签或任务领域知识，显式控制解缠后的潜在空间的划分及其到语义属性的由于用户可以精确地控制和设计其任务驱动的解纠缠潜在表示，因此它们被广泛用于各种下游任务：在跨模态图像到图像转换中，I2 I-Dis [14]将内容和属性分开，以提高图像转换质量（图1）。1（b））;在可控图像合成中，ELEGANT[21]和DNA-GAN [20]解开4762不同的人脸属性，以实现人脸属性的转移，通过交换他们的潜在编码跨图像的某些部分（图。1（a））。在组监督学习中，Gester-Net [8]使用解纠缠表示学习来模拟人类的想象力并实现零拍摄合成（图1）。（c）第1段。然而，可控解缠结方法存在两个一般问题：（1）解缠约束是局部的、不完全的，缺乏全面的解缠约束。例如，虽然ELEGANT强制修改分配给属性的潜在代码的部分（例如，发色）会影响该属性，但它并没有明确规定，当其他属性的潜在维度发生变化时，给定的属性不会受到影响（图2）。1（a））。2)大多数上述下游任务需要在所获得的解纠缠表示中操纵特定的属性相关维度;例如在图像到图像的翻译任务中仅改变样式而保留内容。对于这种操纵，每个解纠缠属性表示的凸性（即，属性内插应该产生有意义的输出）并不能由当前的方法保证（图1）。1，Fig.3（a）和图（见第7（a）段）。此外，凸性展示了泛化能力，这意味着自动编码器结构并没有简单地记住一小部分数据点的表示。相反，该模型揭示了数据的一些结构，并在潜在空间中捕获了它[3]。如何在潜在空间中实现全面的解纠缠和凸性，尚待探索。为了解决上述问题，我们首先给出了可控退纠缠的定义，并以理想的可控退纠缠和潜空间的凸性为最终目标。然后，我们使用信息论和插值分析不同的方法来实现解开（第二节）。3.1）和凸形（Sec.3.2）表征学习。为了优化它们，在定义和分析的基础上，我们使用近似来创建一个正循环，其中解纠缠和凸性可以互相帮助。我们提出了可控插值正则化（CIR），这是一种简单而有效的通用方法，可与不同的算法兼容，以鼓励潜在空间中的可控解纠缠和凸性（第二节）。3.3）。具体地，CIR首先进行可控内插，即，控制哪些属性要插值以及如何在解纠缠的潜在空间中插值，然后重用编码器以我们表明，这种迭代近似方法收敛到完美的解纠缠和凸性的无限内插样本的限制我们的贡献是：（1）描述了一个新的抽象框架，在潜空间中的完美可控解纠缠和凸性，并利用信息论总结了Rize潜在优化方法（第二节）第3.1节3.2）。(ii)提出了可控插值正则化（CIR），它是一个兼容不同算法的通用模块，通过创建一个正循环，使可控解纠缠和凸性在潜在表示中相互帮助CIR被证明收敛到完美的解纠缠和凸性无限插值样本（第二节）。3.3）。（iii）证明CIR在各种任务上实现了更好的解缠和凸性：可控图像合成，跨域图像到图像翻译和组监督学习（第二节）。4，Sec. （五）。2. 相关工作可控解纠缠表征学习（C-Dis-RL）不同于不可控的Dis-RL（如VAE [13，11，4]），后者通过将距离度量纳入目标来隐含地实现解纠缠，鼓励潜在因素在统计上独立。然而，这些方法并不能自由地控制属性维和潜在维之间C-Dis- RL从潜在表示中的语义属性标签学习解纠缠的分区控制，并提高各种任务的性能：用于面部属性转移的ELEGANT [21]和DNA-GAN [20];用于不同图像到图像翻译的I2 I-Dis [14];用于人重新识别的DGNet [22]和IS-GAN [7];用于具有组监督学习的可控零射击合成的Gest-Net [8]。然而，它们对解纠缠的约束是隐式的，并且由图像质量损失替代，这也错过了跨越潜像和观测的不同属性之间的约束。作为一个通用的模块，CIR是兼容和补充不同的C-Dis-RL算法直接约束解纠缠，同时专注于最小化不同属性之间的互信息跨越潜在的和观察。潜空间的凸性被定义为一个集合，其中连接任何一对点的线段将落在集合的其余部分内[17]。低维潜在空间中的线性插值在投影回高维空间时通常会产生然而，在许多可控解纠缠模型中，线性插值不一定是合理的，VAE通过迫使潜在表示进入预定义的分布来克服非凸性，这可能是高维数据的次优表示。GAIN [17]在中间潜在空间的生成器中添加插值，并使用判别损失来帮助优化凸性。我们的方法控制内插在一个子空间的解纠缠的潜在空间，并使用解纠缠正则化，鼓励凸潜在空间的每个语义属性。4763X→ XX →◦X → X一Di=1一Σ12Mi=1JJI（ xA，E（ x）A）+ I（ E（ x）A，D（ E（ x））A）我们定义了一个完美的控制，（一）（一）（一）XJ我J图2.直观理解可控插值正则化（CIR）。(a)用一般的互信息约束方法只鼓励可控解纠缠表示（C-Dis）：最大化潜在域和观察域上相同属性之间的互信息(b)只鼓励凸插值和图像质量评价。(c)一个简单而有效的方法，CIR，鼓励C-Dis和凸性的潜在表示。CIR由可控插值（CI）模块和重用编码器正则化（RER）模块组成。3. 可控插值正则化3.1. 完全可控解纠缠的互信息一般自动编码器结构（D E）：由编码器网络E：Rd 和解码器网络D：Rd组成。 Rd 是一个潜在空间，与原始输入空间相比（例如，图像空间）。解纠缠是潜空间Rd的一个性质，其中每个单独的维度集负责给定数据集的一个语义属性。形式上，数据集（例如，面数据集）包含n个sam-图3.在用于背景颜色的Gester-Net的解纠缠潜在空间中的插值（a）在没有CIR的情况下，潜在空间不是凸的（在可理解的灰色区域之外的紫色点）并且合成的图像在未修改的属性（大小和前景字母）上显示出一些污染（b）Gester-Net的架构+ CIR，它鼓励一个更松散和凸的潜在空间。如果满足以下属性，则自动编码器实现数据集的完美可控解纠缠：（1）对于编码器E，如果输入x的一个属性i被具体修改，则在计算潜在码z=E（x）和z=E（x=E）之后，将x转换为x = E，对于除了表示修改的属性的那些潜在维度之外的所有潜在维度，z和z = E之间的差应当为零。（2）类似地，对于解码器D，潜在空间变化应当仅影响输出中的对应属性表达式（例如，图像）空间。为了鼓励通用自动编码器结构模型，ples D={x（i）}n，每个伴随有m个属性D={（a，a，. . .a）}n.每个属性a∈ A可以是二进制（两个属性值，例如， A1可以表示是否戴眼镜;A1={戴眼镜，不戴眼镜}），获得完美的可控解纠缠性质，我们提出了一个信息论正则化与两个视角（图。2（a））：（1）最大化潜在空间Rd上相同属性之间的相互信息（I（））或包含可数集的多类属性属性值（例如，A2可以表示头发颜色A2=和观察输入空间;（2）最小化相互潜在Rd中不同属性之间的信息{黑色，金色，红色，. . . }）中。可控解缠代表-以及观测输入空间X。形式上：位置学习（C-Dis-RL）方法具有两个性质：（1）用户可以显式地控制解纠缠的潜在空间Rd的划分;（2）用户可以控制语义at-从Rd到输入空间X的映射。来描述最大I（xE、DΣmin我，E（x）Ai）+I（E（x）Ai，D（E（x））Ai）;Σ;（一）在潜空间Rd和自动编码器中标记解纠缠特性。其中xAi和D（E（x））Ai表示X域中的属性Ai的观测（例如，人的头发颜色）;E（x）Ai表示R中的维数代表-D定义1完美可控分解（完美-C-D）（E，D，D）：给定一般编码器E：X →Rd，解码器D：Rd→ X，以及具有m个独立语义属性A的数据集D，我们称一般致敬Ai; i，j ∈ [1.. m]和i =j（图第2（a）段）。3.2. 带插值的凸潜空间具有连接任何一对点的线段将落在其余点内的性质。E、DA我4764re∈Aii−ZZA的空间[17]。如图在图3（a）中，灰色区域表示一个属性的潜在表示的2D投影（例如，背景颜色）。该分布将是非凸的，因为紫色点虽然位于分布中的两个点之间（红色和蓝色点代表两种背景颜色），但落在与数据分布不对应这种非凸性可能会导致投影回到图像空间中不对应于正确的语义上有意义的现实图像（图中的x）。3（a）影响其他未修改的属性，即大小和前景字母）。这种限制使得解缠变得脆弱，并阻碍了下游任务中潜在的潜在操纵。图的结果。4和5的实验说明了这个问题。为了鼓励一个凸的数据流形，有用的间-polation已在表示在可控解缠和凸性之间，互相帮助。具体地说，如图1（c），我们提出了一种简单而有效的正则化方法，可控插值正则化（CIR），它由两个主要模块组成：可控插值（ CI ）模块和重用编码器正则化（RER）模块。它的工作原理如下：输入样本x经过E以获得潜在代码z=E（x）。因为我们的目标是可控的分离，所以在每次迭代中我们只关注一个属性。CI模块首先在所有m个属性选择一个属性Ai，然后沿着Z中的Ai相关潜在空间进行插值，同时保留其他所有属性，产生ZAi。在D将内插的潜在zAi转换回图像空间之后，RER模块将D（zAi）作为输入并重用编码器以获得潜在表示z re=E（D（zA））。然后，RER在学习[2]和正则化[19]。如图所示1（b）中，我们总结了潜在空间中凸性的约束：我们使用与子空间相关的质量评价函数Q（）来空间作为正则化：Lr e g=||z−Ai -z−Ai未改性潜伏期||1（3）评价输入域的样品;更高的值意味着更高的质量和更多的seman-其中z−A是和re和re表示所有潜在维度，−AiiTic的意思。在潜在空间Rd中插值之后，我们希望回到原始空间的投影具有高Q（）分数。形式上：zAi分别，除了那些表示修改后的属性Ai。当量3显式优化Eq.1：在每次迭代中，如果修改的潜在区域zAi仅影响xAi的表达式，则在重新使用E之后，未修改的MaxE、D.Ex1，x2∈DQ（D（αE（x1）+（1−α）E（x2）（二）E（D（zAi））中的fied区域应保持原样（等式中的最小E，D）。①的人。一方面，对于那些不确定的属性，信息应在整个过程中保存（最大其中，x1和x2是两个数据样本，α [0. 1]控制Rd中的潜码插值。与网络相关的质量评估函数Q（）也有不同的实现方式：[17]利用额外的discriminator和培训adversarially对潜在的插值;[3]使用评论家网络作为代理，试图从插值数据中恢复混合系数。3.3. CIR：鼓励C-Dis-RL和Convexity我们的目标是鼓励可控的无纠缠表示，并且对于每个语义属性相关的潜在维度，所创建的空间应该尽可能凸。具体地说，我们希望优化可控的解缠（方程2）和可控的解缠（方程3）。1)和凸性（Eq. 2)每个语义属性。在实践中，Eq.1很难直接优化，因为它需要访问后台。目前大多数方法使用近似来获得优化最大值的下限[5，1]或优化最小值的上限[13]。然而，在这方面，很难在方程中近似如此多的（2m（m1）+2m）个不同的互信息项。（1）同时，更不用说考虑m个潜在空间的凸性（等式10）。2)也为了将它们一起优化，我们提出使用可控解纠缠约束来帮助凸性的优化，反过来，使用凸性约束来帮助可控解纠缠的更鲁棒的优化换句话说，我们创造了一个积极的循环E，D在Eq中。①的人。当量3也隐含优化方程。2：如果内插的潜在代码不能图2（a）和（b）抽象地展示了将CIR添加到GZS- Net [8]之前和之后的潜在空间凸性差异。凸性和解纠缠是双重任务，在这个意义上，一个可以帮助提高另一另一方面，由于重构损失导致的可控解纠缠度降低，隐含地鼓励了一个凸属性潜在空间;潜在空间越凸，通过插值合成的语义有意义的样本越多，有助于可控解纠缠度的优化，从而鼓励了一个更鲁棒的从损失函数和最优化的角度出发，如果对于给定的数据集，通过大量的插值样本使重构损失降为零，那么就可以实现完美的解纠缠和凸化也就是说，在无限插值样本的限制下，CIR迫使每个属性的解纠缠潜在表示是凸的，其中沿着每个属性的每个插值都保证是有意义的。4. 定性实验我们定性地评估了我们的CIR作为一个通用模块，并将其合并到三个不同任务的三个基线模型中（图1）。5）：多个面部属性转移与ELE- GANT [21]（第4.1），跨模态图像转换，4765一rere一AA图4. CIR由可控插值（CI;显示为蓝色）模块和重用编码器正则化（RER;绿色）模块。(a-c)兼容不同型号的CIR。(a)公司简介[8]+CIR（b）ELEGANT [21]+CIR.（c）I2I-Dis [14]+CIR。灰色成分是基线方法。[14] 第 14 话 4.2) 和零射击合成与 GZS- Net [8]（第 8节）。4.3）。CIR鼓励更好的解纠缠和凸性在他们的潜在空间，以进一步提高他们的性能。4.1. CIR增强多个面部属性传输我们使用CelebA[15]进行与ELEGANT[21]论文任务1：以两个具有相反属性的人脸图像作为输入，并生成新的人脸图像，这些新的人脸图像恰好在彼此之间传递相反的属性（图1）。（五）。任务2：在参考图像中生成具有相同属性风格的不同人脸图像（图1）。（六）。这两个任务都需要一个鲁棒的可控解纠缠的潜在空间来交换感兴趣的属性以合成新的图像，并且潜在空间的凸性影响图像质量。图 4 （ b ）显示了 CIR （蓝色和绿色块）如何与ELEGANT（灰色）兼容的高级结构。ELEGANT采用U-Net [16]结构（自动编码器）来生成具有样本的高分辨率图像以这种方式，编码器的输出是解纠缠属性的潜在代码，并且上下文信息包含在图5. ELEGANT + CIR性能（任务1），用于两个图像面部属性传输（输入：A、B ;产出：C、D）。图6.样本面部生成的ELEGANT + CIR性能（任务2）：应将输入图像（橙色）修改为具有参考图像（绿色）中的Eyeglasses属性的相同样式的不同面部图像。我们用zA和zB在z+Ai中插值，同时保持其他维度z−Ai不变，以获得插值的潜在代码zAAi和zBAi。在D和重用E之后，我们得到重构的潜在表示zAre=E（D（zAA，zA））和reAii编码器的中间层的输出优雅采用迭代训练策略：用以下方法训练模型：zBi=E（D（zBAi，zB））。重建损失作为正则化是（Eq. 3）：每一次都有特定的属性。我们使用相同的训练策略，但添加了正则化损失项。作为Lr e g=||zA−Ai -zA−Ai ||l2 +的||ZB−Ai -zB−Ai||l2（四）示于图4（b），为了鼓励属性i的解纠缠和凸性，CIR在潜在代码（黄色）中插入与i相关的维度，并约束其他潜在维度在D之后保持不变并重复使用E. 具体来说，当在给定迭代中训练ELEGANT关于i个属性眼镜时，我们获得每对的潜在代码zA=E（A）和zB=E（B），其中E具有相反的Ai属性值的图像A和B的解纠缠的潜在代码被划分为与Ai相关的潜在维度的z+Ai和不相关维度的z−AiELEGANT + CIR的总体生成损失为：L（G）=Lreconstruction+L adv+λ CIRL reg（5）其中Lreconstruction和Ladv是ELEGANT原始损失项，λCIR>0控制损失项的相对重要性。我们保留了区别性损失。(More网络架构和培训详情见补充资料）图5示出了任务1在两个图像面部属性转移上的表现。以Eyeglasses属性4766YCAAYaa1 1 11交换：A，B是输入，输出C和D应该保持所有其他属性不变，除了交换眼镜。ELEGANT生成的C和D在与眼镜无关的区域中具有伪影，这意味着ELEGANT不能在潜在空间中很好地解开。在添加CIR之后，生成的C和D在人脸属性转移期间更好地保留了不相关区域，这表明CIR有助于鼓励更凸和更松散的潜在空间。眉毛和胡子的属性结果也显示了CIR的改进。图6示出了任务2通过样本生成面部图像的性能。应将输入图像（或-ange）修改为具有参考图像（绿色）中的Eyeglasses属性的相同样式ELEGANT生成的新图像中存在眼镜中的伪影，这些伪影与无法很好地解开的区域无关。合成也是较差的眼镜区域，我们认为这是由于非凸性的眼镜相关的潜在空间。在CIR的帮助下，生成的图像既提高了眼镜质量，又保留了不相关区域。4.2. CIR增强了跨模态图像转换我们使用cat 2dog数据集[14]进行与I2 I-Dis[14]论文图4（c）图7. I2 I-Dis +CIR性能的多样化图像到图像的翻译。(a)对于任何狗的图像样本，创建几个插值图像的内容（这里，姿势，耳朵方向等）之间的两个参考猫的图像。(b)对于几个猫的身份样本，合成具有猫的身份但具有参考狗图像的内容（姿势等）的图像损失作为正则化（Eq. 3）：Lreg=||zx re−zx a||L1+||zy re− zy a||（6）I2 I-Dis + CIR的总损失为内容Ccc cc域域显示了CIR（蓝色和绿色块）如何与I2 I-Dis（灰色）兼容的有两L=λadvLadv+λ1L1+λadvLadv+λreconLrecon+λlatentLlatent+λKLLKL+λCIRLreg（七）图像域X（猫）和Y（狗），I2 I-Dis嵌入输入其中内容和域对抗损失LcL结构域，图像到具有特定编码器的共享内容空间C上跨周期一致性损失AdvAdv（Ec）X和Ec），以及域特定属性空间AX和1、自我重建损失Lrecon、潜在回归损失Llatent和KL损失LKL是1 1AY分别具有特定编码器（Ea和Ea）Af-也就是说，可以通过跨域（在猫和狗之间）传递共享内容属性来合成新图像，例如生成与参考猫具有相同内容属性值（姿势和轮廓）的未见过的狗（图11）（七）.领域特定属性X和Y已经通过添加具有高斯分布的KL-发散损失来约束;因此，我们可以自由地在高斯中进行采样以进行合成。CIR可以鼓励共享内容空间成为一个更凸和更松散的空间我们使用与I2 I-Dis相同的网络架构和训练策略，除了添加正则化损失项。如图在图4（c）中，在每次训练迭代期间，猫图像x和狗图像y经过相应的编码器，并且它们中的每一个产生域（zx a= E a（x），zya= E a（y））和内容（zx c= E c（x），I2 I-D是原始损失项，λ >0控制损失项的相对重要性（详情见补充资料）。图图7示出了图像到图像的翻译性能。(a)我们固定身份（域）潜码，通过插值改变内容潜码;生成的图像应保持域属性（属于同一只狗）。I2 I-Dis生成的狗图像具有伪影，这意味着非凸潜在空间不能“理解”内插的内容代码。添加CIR后，生成的图像具有更好的图像质量和相同身份的一致性。(b)通过采样的方法固定内容潜码，改变身份;生成的图像应保持相同的内容属性（姿势和轮廓）。由I2 I-Dis生成的猫图像具有大的姿态变化（包含左和右姿态）和大的面部轮廓变化（耳朵cX Y Xzyc=E（y））。然后，内插的内容属性潜在代码（黄色）zxyc（在zxc和zyc之间）与分别对猫图像zxa和狗图像zya的域属性潜码进行编码，形成两个新的潜码，解码器将其转换为新的图像u=GX（zxa，zxyc），v=GY（zya，zxyc）。为了鼓励内容属性的解纠缠和凸性，我们重用Ea和Ea来得到重构的域属性的潜在响应XresentatY离子zxre=Ea（u），zyre=Ea（v）并添加重建位置和大小）。添加CIR后，生成的图像具有较小的姿态和轮廓变化。（更多结果补充）4.3. CIR增强零发射合成我们使用与GZS-Net [8]和Fonts数据集[8]相同的自动编码器架构。图图4（a）显示了CIR（蓝色和绿色块）如何与GAD-Net（灰色）兼容的高级结构编码器E之后的潜在特征是aXaY4767∈×|一|图8.基于插值函数的GARN-Net +CIR性能可控综合。上图：在背景颜色的潜在空间中进行插值中间：字母大小的插值。底部：字体样式的插值。在所有这三种情况下，CIR都提供了更好的解纠缠（除了插值属性之外的属性不会改变太多）和更高的插值质量（插值属性显示更少的伪影）。与E对称的解码器D将100-dim向量作为输入并输出合成样本。我们使用与Gest-Net相同的Group-Supervised学习训练策略，除了添加我们的正则化损失项Eq。1，这是完全相同的，在第二节中描述的3.3和图3（b）款。除了与GSL相同的重构损失Lr、交换重构损失Lsr和循环交换重构损失Lcsr之外，我们增加了正则化重构损失Lreg。总损失函数为：L（E，D）=Lr+λsrLsr+λcsrLcsr+λCIRLreg（8）其中λsr、λcsr、λCIR>0控制损失项的相对重要性。图图8示出了在背景、大小和字体属性上的基于插值的可控以背景插值合成为例：我们通过在左图像和右图像之间进行插值来获得背景潜码生成的图像应该保持所有其他属性不变，除了背景。Gandel-Net生成的图像在背景无关区域中具有伪影，即，在潜在空间中，网格在添加CIR之后，生成的图像在合成过程中更好地保留了不相关的区域大小和字体属性结果也显示了CIR的改进。(More补充的结果5. 定量实验我们进行了五个定量实验来评估CIR的性能潜在的解纠缠和凸性。图9.解纠缠表示分析。(a)基线GZS-净值。(b)通过CIR，非对角元素（属性间的纠缠）减少了。5.1. 基于属性协同预测的一个属性的潜在特征能预测属性值吗？它们还能预测其他属性的值在理想的可控解纠缠下，我们应该总是回答第一个问题，而绝不能回答第二个问题。我们通过计算属性之间基于模型的混淆矩阵来定量评估解纠缠。我们评估Gander-Net[8]+CIR与Fonts[8]数据集（ELEGANT和I2 I-Dis的潜伏期不适用）。字体中的每个图像都包含一个使用5个独立属性渲染的字母表：内容（52类）、大小（3）、字体颜色（10）、背景颜色（10）和字体（100）。我们采用测试示例，并将它们以80：20的比例分成trainDR：testDR。对于每个属性对j，r[1. m][1. m]，我们训练分类器（3层MLP）从训练DR的gj到r的属性值，则得到通过使用测试DR的gj测试每个属性的准确性。图9比较了每个属性（行）的特征可以预测属性值（列）的程度：完美应该尽可能接近单位矩阵，非对角项接近随机（即，1 /r）。非对角的GERGO-NET值显示了解纠缠性能的局限性，在CIR5.2. 用相关系数法评价可控解缠。对于每种方法，我们从相应的数据集中收集10，000张图像（ELEGANT [21]与CelebA[15]，Gander-Net与Fonts[8]），并通过Es获得10，000个潜在代码。我们计算了潜在空间中各维之间的相关系数矩阵。一个近乎完美的分离应该产生高的属性内相关性，但低的属性间相关性。优雅解开两个在-贡品：眼镜和胡子，每一个都覆盖了256维。GASP-Net分解了五个属性：内容、大小、字体颜色、背景颜色和字体;每个属性覆盖20个维度。图10示出了CIR改善了潜在空间中的解纠缠，如通过更高的属性内相关性和更低的属性间相关性所证明的（更多细节在补充中）。4768一一=E∼1d（G（lerp（z，z;t）），G（lerp（z，z;t+t）图10.用相关系数评价解缠。属性内相关性随着CIR的增加而增加（Gest-Net（顶部）：7。2%，优雅（底部）：3.第三章。2%），而属性间下降（甘精胰岛素-净：六十岁。9%，优雅：3。1%）。表1.基于图像质量评分的凸性评价表2.完美解缠性能评价算法优雅I2I-Dis公司简介MSE1.91.83.42算法Elegant +CIRI2I-Dis +CIR甘精胰岛素+CIRMSE0.380.10.27表3.使用StyleGAN感知路径长度度量进行解缠评估。差异越小越好。I2I-Dis29I2I-Dis +CIR21优雅1.23Elegant +CIR0.68分别在我们将两种方法的潜在代码归一化为相同的尺度后，我们计算 z 和 z 之间的未修改区域 MSE（ z−Ai ， z−Ai ）的均方误差（ MSE ）（越小越好）。表2显示，在添加CIR之后，我们获得了较低的MSE，这意味着CIR鼓励更好的解纠缠潜空间。5.5. 使用感知路径长度进行C-Dis评估我们使用一种类似于StyleGAN [12]中感知路径长度度量的方法，该方法在两个随机输入之间插值时测量连续图像（其VGG16嵌入）之间的差异。我们将潜在空间插值路径细分为线性段。在我们的实验中，我们使用一个小的细分，线性插值（linear interpolation，lerp）。因此，在本发明中，潜空间中平均感知路径长度Zi≤ s5.3. 使用图像质量评分进行凸度评估LZϵ21212为了评估潜在空间中的整体凸性，我们使用图像质量分类器来评估通过在潜在空间中插值生成的图像的质量我们为每个基线算法和相应的数据集训练一个特定的图像质量分类器以优雅为例：为了训练ELEGANT和ELEGANT + CIR的分类器，我们使用3000张CelebA原始图像作为阳性高质量图像。为了收集负图像，我们首先随机内插ELEGANT和ELEGANT+ CIR并生成负低质量图像的插值图像;然后，我们手动选择3000个低质量图像（伪影，无意义，模糊...）形成6000张图片的训练集。在训练了一个图像质量分类器后，我们在1500幅由基于插值的属性可控合成生成的图像上进行了测试。4.1.表1显示了高质量图像的平均概率（越高越好）。I2 I-Dis（+ CIR）和GST-Net（+CIR）的训练和测试是相似的。5.4. 完美的解缠性能评价。正如我们在SEC中定义的那样3.1.在象空间中修改一个特定的属性i后，可以用R d中未修改的属性相关维数的差值来评价完美解缠特性。对于每列（表2）中的两种方法和相应的数据集，我们修改一个属性值，i，并得到x∈ N，然后用两种方法的编码器得到潜在码（z=E（x），z∈ N=E（x∈Nz1，z2是起点和终点。G可以是一个自动编码器中的编码器或基于GAN的模型中的生成器。t U（0，1）. d是VGG16嵌入中的距离。我们的结果可以在表中看到3，其中CIR改善了潜在的解缠结。6. 结论我们提出了一个通用的解纠缠模块，可控插值正则化（CIR），兼容不同的算法，以鼓励更多的凸和鲁棒的解纠缠表示学习。我们使用三种基线方法ELEGANT，I2 I-Dis和GZE-Net显示CIR的CIR首先在潜在空间中进行可控插值，然后定性和定量实验表明，CIR提高了基线方法在不同可控合成任务上的性能：人脸属性转换、不同图像到图像的转换以及不同数据集的零拍摄图像合成：CelebA、cat2dog和Fonts。致谢这项工作得到了C-BRIC（JUMP的六个中心之一，DARPA赞助的半导体研究公司（SRC）计划），DARPA（HR 00112190134），陆军研究办公室（W911 NF 2020053）以及英特尔和思科公司的支持。提交人确认，本文所表达的观点仅为他们自己的观点，并不代表美国政府或其任何机构的观点算法火车图像测试图像高质量概率优雅Elegant +CIR60001500百分之十二百分之六十I2I-DisI2I-Dis +CIR15001500百分之十八百分之三十三4769引用[1] Mohamed Ishmael Belghazi 、 Aristide Baratin 、 SaiRajesh-war 、 Sherjil Ozair 、 Yoshua Bengio 、 AaronCourville和Devon Hjelm。互信息神经估计。国际机器学习会议，第531-540页。PMLR，2018。[2] 约瑟芬·本吉奥，格雷瓜尔·梅斯尼，扬·多芬，萨拉赫·瑞法依.通过深度表示更好地混合。国际机器学习会议，第552-560页。PMLR，2013年。[3] 大卫·贝特洛，科林·拉菲尔，奥科·罗伊，伊恩·古德费洛.通过对抗正则化器理解和改进自动编码器中的插值。arXiv预印本arXiv：1807.07543，2018。[4] 瑞奇·T Q. Chen，Xuechen Li，Roger Grosse，and DavidDuvenaud. 变分自动编码器中解纠缠的分离源在神经信息处理系统的进展，2018年。[5] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。arXiv预印本arXiv：1606.03657，2016。[6] 杰西·恩格尔，辛琼·雷斯尼克，亚当·罗伯茨，桑德·迪勒曼，穆罕默德·诺鲁兹，道格拉斯·埃克和凯伦·西蒙扬.用小波网自动编码器进行音符的神经音频合成。《国际机器学习会议》，第1068-1077页。PMLR，2017年。[7] 千湖严和范燮咸。学习解纠缠表示，用于鲁棒的人重新识别。arXiv预印本arXiv：1910.12003，2019.[8] Yunhao Ge，Sami Abu-El-Haija，Gan Xin，and LaurentItti.零拍摄合成与组监督学习。arXiv预印本arXiv：2009.06586，2020。[9] Yunhao Ge，Jiaping Zhao，and Laurent Itti.姿势增强：用于对象识别的类无关对象姿态变换。欧洲计算机视觉会议，第138-155页。Springer，2020年。[10] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae：使用受约束的变分框架学习基本视觉2016年。[11] I. Higgins，Loıc Matthey，A.帕尔角放大图片创作者：J.Botvinick ， S. Mohamed 和 Alexander Lerchner 。 beta-vae：使用受约束的变分框架学习基本视觉概念。在ICLR，2017。[12] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4401-4410页[13] Diederik P Kingma和Max Welling。自动编码变分贝叶斯，2014年。[14] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩通过解缠表示实现不同的图像到图像的在欧洲计算机视觉会议（ECCV）的会议记录中，第35-51页[15] Ziwei Liu，Ping Luo，Xiaogang Wang，and Xiaoou Tang.在野外深度学习人脸属性。在IEEE计算机视觉国际会议论文集，第3730-3738页[16] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预，第234施普林格，2015年。[17] Tim Sainburg ， Marvin Thielk ， Brad Theilman ，Benjamin Migliori，and Timothy Gentner. 生成对抗插值自编码：对潜在空间插值的对抗训练鼓励凸潜在分布。arXiv预印本arXiv：1807.06650，2018。[18] Luan Tran，Xi Yin，and Xiaoming Liu.姿态不变人脸识别的非纠缠表示学习算法在IEEE计算机视觉和模式识别会议论文集，第1415-1424页[19] Vikas Verma 、 Alex Lamb 、 Christopher Beckham 、Aaron Courville、Ioannis Mitliagkis和Yoonis Bengio。歧管混淆：鼓励有意义的流形插值作为正则化器。arXiv预印本arXiv：1806.05236，7，2018。[20] 肖泰宏，洪家鹏，马锦文。Dna-gan：从多属性图像中学习解纠缠表示。arXiv预印本arXiv：1711.05415，2017。[21] 肖泰宏，洪家鹏，马锦文。优雅：交换潜在的编码与甘转移多个面部属性.在欧洲计算机视觉会议（ECCV）的会议记录中，第172-187页[22] Zhedong Zheng ， Xiaodong Yang ， Zhiding Yu ， LiangZheng，Yi Yang，and Jan Kautz.联合判别式和生成式学习用于人员重新识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第2138-2147页

下载后可阅读完整内容，剩余1页未读，立即下载