没有合适的资源?快使用搜索试试~ 我知道了~
0理解属性转移中的退化和歧义0� Attila Szabó 1[0000 − 0003 − 3808 − 5874],� Qiyang Hu 1[0000 − 0002 − 9392 − 9112],Tiziano Portenier 1[0000 −0003 − 1766 − 1705],Matthias Zwicker 2[0000 − 0001 − 8630 − 5515],和Paolo Favaro 1[0000 − 0003 − 3546 − 8247]01 伯尔尼大学,瑞士 {szabo, hu, portenier,favaro}@inf.unibe.ch 2 马里兰大学,美国zwicker@cs.umd.edu0摘要。我们研究了构建可以在不影响其他属性的情况下将选定的属性从一幅图像转移到另一幅图像的模型的问题。为了实现这个目标,我们为自动编码模型开发了分析和训练方法,其编码特征旨在解开属性。这些特征明确地分为两个组成部分:一个应该表示图像对之间共同的属性,另一个应该表示图像对之间变化的属性。我们表明,实现这个目标面临两个主要挑战:一个是模型可能学习到退化映射,我们称之为“捷径问题”,另一个是图像的属性表示不能保证在另一幅图像上遵循相同的解释,我们称之为“参考模糊性”。为了解决“捷径问题”,我们引入了图像对和三元组的新约束,并在理论上和实验证明了它们的有效性。在参考模糊性的情况下,我们正式证明了无法构建一个保证理想特征分离的模型。我们在几个数据集上验证了我们的发现,并展示了令人惊讶的是,经过训练的神经网络通常不会表现出参考模糊性。01 引言0简化从数据中分类或回归感兴趣属性的问题的一种方法是构建一个中间表示,即特征,其中关于属性的信息比输入数据更好地分离。更好的分离意味着特征的某些条目仅与一个属性有关。这样,分类器和回归器就不需要对许多干扰属性建立不变性。相反,它们可以将更多的容量用于区分感兴趣的属性,并可能获得更好的性能。我们称这个任务为“解开变化因素”,并可以互换地使用属性和因素。除了简化分类和回归,这个任务对于图像合成也是有益的。我们可以构建一个模型0� 平等贡献02 A. Szabó, Q. Hu, T. Portenier, M. Zwicker, P. Favaro0视图0类型0(a)理想解决方案0视图0类型0(b)捷径问题0视图0类型0(c)参考模糊性0图1:属性转移的挑战说明。考虑一个特征分为两部分,一部分表示视点,另一部分表示汽车类型。对于所有子图,视点特征来自最左列,汽车类型特征来自最上行。(a)理想解决方案:视点和汽车类型被正确转移。(b)捷径问题:汽车类型未被转移。忽略了顶行图像中的汽车类型信息。(c)参考模糊性:蓝色汽车与其他汽车类型相比具有不同的视点方向解释。0通过渲染图像,其中输入的某些元素仅在一个属性的输出上变化,来在图像之间传递属性。当标记可行且可用时,可以使用监督学习来解决此任务。然而,一般来说,某些属性可能不容易量化(例如风格)。因此,我们考虑使用弱标记,我们只知道两个图像之间发生了什么属性变化,但我们不知道变化了多少。在许多情况下,这种类型的标记可能很容易获得,而无需手动注释。例如,来自立体系统的图像对中的对象会自动标记为未知视点变化。一个可以从这些标记中学习的实用模型是一个自动编码器(即编码器-解码器对),受到重建约束的限制。在这个模型中,弱标记可以用来定义从两个输入图像获得的特征子集之间的相似性。然而,训练这样一个模型面临两个基本挑战:一个是它可能学习到退化的编码,我们称之为“捷径问题”,另一个是从一个图像中提取的属性必须在另一个图像上以相同的方式解释(例如,关于汽车视点的属性可能在不同的汽车模型中映射到不同的角度),我们称之为“参考问题”。这些挑战在图1中有所说明。我们的贡献可以总结如下:1)我们引入了一种新颖的对抗性训练自动编码器来解决只有弱标记可用的解缠任务。对抗训练中的鉴别器网络以图像对作为输入。与[15]不同,我们的鉴别器不是以类标签为条件,因此我们模型中的参数数量可以保持恒定;2)我们在理论上和实验证明我们的训练方法完全解决了“捷径问题”,其中所有的信息只编码在一个部分中。0理解属性转移中的退化和模糊性30特征(见图1b);3)我们展示了对参考模糊性的分析,并证明当只使用弱标签时,在解缠任务中这是不可避免的。在图1c中,图像由两个汽车属性来描述:视角和类型。在这种情况下,参考模糊性意味着从一幅图像提取的视角可能与不同汽车类型的视角具有不同的含义。令人惊讶的是,这种模糊性似乎很少发生,通常只有在数据对所关注的属性的依赖性很复杂时才会发生。02 相关工作0在本文中,我们使用自动编码器作为主要模型来构建特征并合成新数据。因此,我们简要回顾与自动编码器相关的方法。由于我们使用对抗性方案训练我们的模型,我们还简要概述了该领域的一些最新进展。最后,我们讨论了与我们目标密切相关的解缠因素的先前工作。自动编码器。自动编码器[2, 9, 1]学习将输入数据重构为x =Dec(Enc(x)),其中Enc(x)是内部图像表示(编码器),Dec(解码器)重构编码器的输入。变分自动编码器[10]使用生成模型p(x, z) = p(x |z)p(z),其中x是观察到的数据(图像),z是潜在变量。编码器估计后验的参数,Enc(x)= p(z | x),解码器估计条件似然,Dec(z) = p(x |z)。变换自动编码器[8]使用转换后的图像输入对进行训练。相对变换参数也被馈送到网络中。由于内部表示明确表示了对象的存在和位置,网络可以学习它们的绝对位置。自动编码器的一个重要方面是它们鼓励潜在表示尽可能多地保留有关输入的信息。GAN。生成对抗网络[7]使用两个竞争的神经网络来采样逼真的图像。生成器Dec从随机噪声样本z创建图像x =Dec(z),并试图欺骗判别器Dsc,判别器必须决定图像是从生成器pg还是真实图像preal中采样的。经过成功训练,判别器无法区分真实样本和生成样本。对抗性训练经常用于对随机变量施加(隐式)约束,就像我们所做的那样。例如,BIGAN[6]通过训练编码器Enc,使得当x�preal时,Enc(x)服从高斯分布。CoGAN[13]通过在每个域中具有生成器和判别器,并共享它们的权重,学习多域图像的联合分布。它们可以在不给出对应关系的情况下在域之间转换图像。InfoGan[4]通过使用判别器来复制输入向量的部分来学习一部分变化因素。解缠因素的许多最近方法使用神经网络。其中许多是完全监督的[16, 22, 11, 18,19],即它们对所有要解缠的因素使用标签。例如,Peng等人[16]使用包括身份、姿态和标志在内的多个标签来源解缠面部身份和姿态。与身份和姿态相关的04 A. Szabó, Q. Hu, T. Portenier, M. Zwicker, P. Favaro0标签Tran等人[22]可以学习姿态不变特征并从任意姿态合成正面人脸。在深度视觉类比制作[19]中,监督信号是一幅图像。特征表示被分为两部分以表示不同的因素。来自不同输入的这些部分的组合被馈送给解码器,解码器必须重构目标图像。我们也使用与[19]中相同的特征交换技术,但我们的训练不需要地面真实目标图像。半监督方法仅使用部分数据样本的标签。Siddharth等人[21]提出了一种混合生成模型,结合了结构化图形模型和非结构化随机变量,从而实现了半监督解缠。我们的主要关注点是弱监督学习,其中并非所有属性都带有标签。Shu等人[20]通过在网络中建模图像形成的物理过程来解缠内在图像因素(反照率和法线图)。他们使用3D可变模型先验来指导训练。DrNet[5]从视频中解缠姿态和内容。假设后续帧包含相同的对象,他们可以通过对特征进行对抗项来消除姿态中的内容信息。Mathieu等人[15]也使用了[19]中的特征交换。他们使用GAN来避免使用地面真实目标图像。在我们的工作中,我们不像[20]那样使用任何先验信息。与[5]相比,我们的对抗项允许更高维的特征,并且与[15]不同,我们的GAN不以类标签为条件,因此我们可以保持参数数量恒定。此外,我们的对抗项可以明确避免捷径问题。03 解开属性0我们对两个模型的设计和训练感兴趣。其中一个模型应该将数据样本(例如图像)映射到一个特征,该特征明确地分为子向量,每个子向量与特定属性相关联。另一个模型应该将这个特征映射回图像。我们称第一个模型为编码器,第二个模型为解码器。例如,给定一辆汽车的图像作为输入,我们希望编码器输出一个具有两个子向量的特征:一个与汽车视角相关,另一个与汽车类型相关。这种分离应该简化属性的分类或回归(例如示例中的汽车视角和类型)。它还对通过解码器进行高级图像编辑非常有用。例如,可以通过交换相应的子向量来实现从一幅图像到另一幅图像的视角或汽车类型的转移。接下来,我们介绍数据模型以及我们的编码器和解码器的定义(参见图2)。数据模型。我们假设观察到的数据x是通过一个未知的确定性可逆和平滑的过程f生成的,该过程依赖于因素v和c,因此x = f(v,c)。在我们之前的例子中,x是一幅图像,v是一个视角,c是一个汽车类型,f是渲染引擎。合理地假设f是可逆的,因为对于大多数情况,从图像中很容易看出因素。f是平滑的,因为我们假设因素的微小变化导致图像的微小变化,反之亦然。我们将渲染引擎的逆函数表示为f-1 = [f-1v, f-1c],其中下标表示恢复的因素。DecDecDecEncEncEncNv2Nc2Nv1Nc1Nv3Nc3x2x1x3L2x1L2x2Dscx1Dscx1 x2x3⊕1x2⊕1x1⊕2Nv(f(v, c)) = vNc(f(v, c)) = c.(1)Rv(Nv(f(v, c))) = vRc(Nc(f(v, c))) = c,(2)Dec(Nv(x), Nc(x)) = x,∀x.(3)x1⊕2 ≜ Dec(Nv(x1), Nc(x2)).(4)0理解属性转移中的退化和歧义0图2:学习解开变化因素。上图显示了编码器(Enc),解码器(Dec)和鉴别器(Dsc)如何通过输入三元组进行训练。具有相同名称的组件共享权重。0弱标记。在训练中,我们给出了一对图像x1和x2,它们在v(变化因素)上有所不同,但在c(共同因素)上相同。我们还假设这两个变化因素和共同因素是独立采样的,v1�pv,v2�pv和c�pc。图像生成为x1 = f(v1, c)和x2 = f(v2,c)。我们称这种标记为弱标记,因为我们不知道v或c因素的绝对值,甚至不知道v1和v2之间的相对变化。我们只知道图像对共享相同的共同因素c。编码器。让Enc是将图像映射到特征的编码器。为了简单起见,我们将特征分为仅包含两列子向量Nv和Nc,一个与变化因素v相关,另一个与共同因素c相关。然后,我们有Enc(x) = [Nv(x),Nc(x)]。理想情况下,我们希望找到图像形成函数的逆函数[Nv,Nc] =f-1,它可以从数据样本x中分离和恢复因素v和c。0实际上,这些方程不可用,因为我们的所有约束都包括解码器,解码器可以撤销v和c的任何双射变换并产生相同的输出x。因此,我们的目标是找到满足Nv和Nc的特征,即所谓的特征解开属性,对于所有的v,c和一些双射函数Rv和Rc,使得Nv对c是不变的,Nc对v是不变的。解码器。让Dec是将特征映射到图像的解码器。编码器-解码器序列受到形成一个自编码器的约束,因此0我们对两个模型的设计和训练感兴趣。其中一个模型应该将数据样本(例如图像)映射到一个特征,该特征明确地分为子向量,每个子向量与特定属性相关联。另一个模型应该将这个特征映射回图像。我们称第一个模型为编码器,第二个模型为解码器。例如,给定一辆汽车的图像作为输入,我们希望编码器输出一个具有两个子向量的特征:一个与汽车视角相关,另一个与汽车类型相关。这种分离应该简化属性的分类或回归(例如示例中的汽车视角和类型)。它还对通过解码器进行高级图像编辑非常有用。例如,可以通过交换相应的子向量来实现从一幅图像到另一幅图像的视角或汽车类型的转移。接下来,我们介绍数据模型以及我们的编码器和解码器的定义(参见图2)。数据模型。我们假设观察到的数据x是通过一个未知的确定性可逆和平滑的过程f生成的,该过程依赖于因素v和c,因此x = f(v,c)。在我们之前的例子中,x是一幅图像,v是一个视角,c是一个汽车类型,f是渲染引擎。合理地假设f是可逆的,因为对于大多数情况,从图像中很容易看出因素。f是平滑的,因为我们假设因素的微小变化导致图像的微小变化,反之亦然。我们将渲染引擎的逆函数表示为f-1 = [f-1v, f-1c],其中下标表示恢复的因素。0为了使用解码器合成图像,其中不同的因素从不同的图像中转移,我们可以定义组合图像为6A. Szabó, Q. Hu, T. Portenier, M. Zwicker, P. Favarof −1v (x1⊕2) = f −1v (x1)f −1c (x1⊕2) = f −1c (x2)(5)c1, c3 ∼ pc,v1, v2, v3 ∼ pv.(6)LAE ≜ Ex1,x2���x1 − Dec(Nv(x1), Nc(x2))��2 +��x2 − Dec(Nv(x2), Nc(x1))��2�.(7)LGAN ≜ Ex1,x2�log(Dsc(x1, x2))�+ Ex1,x3�log(1 − Dsc(x1, x3⊕1))�.(8)minDec,Enc maxDsc LAE(Dec, Enc) + λLGAN(Dec, Enc, Dsc)(9)0理想的解码器应该满足对于所有 x 1 和 x 2 的数据分离属性0在下一节中,我们描述了我们的分离训练方法。我们引入了一种新颖的对抗术语,它不需要对共同因素进行条件,而是仅使用图像对,因此模型参数的数量是恒定的。然后,我们解决了分离的两个主要挑战:快捷方式问题和参考歧义。我们讨论了我们的方法或任何其他方法可以明确实现的分离属性。03.1 模型训练0在我们的训练过程中,我们在目标函数中使用两个术语:自编码器损失和对抗损失。我们以函数形式描述这些损失,但是组件是使用神经网络实现的。在所有术语中,我们使用以下独立因素的采样0图像形成为 x 1 = f ( v 1 , c 1 ) , x 2 = f ( v 2 , c 1 ) 和 x 3 = f ( v 3 , c 3 )。图像 x 1 和 x 2 共享相同的共同因素,而 x 1 和 x 3是独立的。在我们的目标函数中,我们使用上述图像的成对或三元组。自编码器损失。在这个术语中,我们使用具有相同共同因素 c 1 的图像 x 1 和 x 2。我们将两个图像都输入编码器。由于两个图像共享相同的 c 1,我们要求解码器应该从编码器子向量 N v ( x 1 ) 和 N c ( x 2 ) 重构 x 1 。类似地,x 2从 N v ( x 2 ) 和 N c ( x 1 ) 重构。自编码器损失定义如下0对抗损失。我们引入对抗训练,其中生成器是我们的编码器-解码器对,鉴别器 Dsc是一个神经网络,它以图像对作为输入。鉴别器学习区分真实图像对 [ x 1 , x 2 ]和伪造的图像对 [ x 1 , x 3 ⊕ 1 ] ,其中 x 3 ⊕ 1 � Dec ( N v ( x 3 ) , N c ( x 1 ))。生成器学习欺骗鉴别器,使得 x 3 ⊕ 1 看起来像随机变量 x 2 (共同因素是 c 1,变化因素与 v 1 独立)。对抗损失函数定义如下0复合损失。最后,我们优化两个损失的加权和 L = L AE + λ L GAN ,0其中 λ 调节两个损失的相对重要性。Dec(Nv(x3), Nc(x1)) = x3.(10)̸0理解属性转移中的退化和歧义 703.2 快捷方式问题0理想情况下,在 L AE 的全局最小值处,N v 仅与因素 v 相关,N c 仅与 c相关。然而,编码器可能将其输入的完整描述映射到 N v ,解码器可能完全忽略 N c。我们称之为快捷方式问题。当发生这种情况时,解码器对其第二个输入是不变的,因此c 的数据分离属性 eq. (5) 不成立,我们有0通过减少Nv的维度,可以解决捷径问题,这样编码器就无法构建所有输入图像的完整表示。这也迫使编码器和解码器利用Nc来处理共同因子。然而,这种策略可能不方便,因为它导致耗时的试错过程来找到未知的正确维度。在下一个命题中,我们将展示通过损失(8)和(9)的对抗训练来解决捷径问题的更好方法。0命题1. 设x1, x2和x3是满足(6)的数据样本,其中因子c1, c3, v1, v2,v3是联合独立的,并且x3⊕1 � Dec(Nv(x3),Nc(x1))。当达到复合损失(9)的全局最优解时,因子c已经被分离出来,即f^(-1)c(x3⊕1)= c1。0证明. 在(9)的全局最优解处,[x1, x2]和[x1,x3⊕1]图像对的分布是相同的。我们计算因子f^(-1)c在数据上的统计量。对于图像x1和x2,我们得到0E(x1, x2) | f^(-1)c(x1) - f^(-1)c(x2)|^2 = E(c1) | c1 - c1|^2 = 0 (11)0通过构造(x1和x2)。对于图像x1和x3⊕1,我们得到0E(x1, x3) | f^(-1)c(x1) - f^(-1)c(x3⊕1)|^2 = E(v1, c1, v3, c3) | c1 - c3⊕1|^2 ≥ 0, (12)0其中c3⊕1 = f^(-1)c(x3⊕1)。当且仅当c1 =c3⊕1对于所有样本(在pc的支持中)时,我们才能达到相等。 ��03.3 参考模糊性0当将可变属性(例如视点)从一个图像转移到另一个图像时,可变属性的数值在参考框架中解释,而参考框架可以依赖于共同属性(汽车类型)。让我们考虑一个实际的例子,其中v � U[-π, π]是视点(方位角)(连续)(均匀分布),c �B(1/2)是汽车类型,其中U表示均匀分布,B(1/2)表示伯努利分布,其概率pc(c=0) = pc(c=1) =1/2(即只有2种汽车类型)。我们可以定义一个函数T(v, c) =v(2c-1),以便在更改汽车类型时,v的映射被镜像。通过构造,对于v ≠ 0和c1 ≠ c2,编码器Nv(f(v, c)) = T(v,c)是可行的,并且相对于汽车0,它颠倒了汽车1的方位角的顺序。每辆汽车都有自己的参考系统,因此不可能将视点从一个系统转移到另一个系统,如图1c所示。下面我们证明,虽然任务本身会产生这种模糊性,但可以分离c,但不能分离v。假设我们观察到所有图像的空间。在给定弱标签的情况下,我们还知道哪些图像x1和x2共享相同的c因子(例如,哪些图像具有相同的汽车)。这种标记等效于定义概率密度函数pc和联合概率px1,x2。在下面的命题中,我们将展示标记允许学习算法满足c的特征分离性质(2),但在命题3中,我们将展示对于v来说这是不成立的(参考模糊性成立)。关键步骤是弱标签允许对Nc施加比对Nv更严格的约束。for v ̸= 0 and c1 ̸= c2. The encoder Nv(f(v, c)) = T(v, c) is feasible and reversesthe ordering of the azimuth of car 1 with respect to car 0. Each car has its ownreference system, and thus it is not possible to transfer the viewpoint from onesystem to the other, as illustrated in Fig. 1c. Below we prove that it is possibleto disentangle c, but not v, as the task itself gives rise to this ambiguity.Let us consider the ideal case where we observe the space of all images. Giventhe weak labels, we also know what images x1 and x2 share the same c factor(e.g., which images have the same car). This labeling is equivalent to defining theprobability density function pc and the joint px1,x2. In the following proposition,we show that the labeling allows a learning algorithm to satisfy the featuredisentangling property (2) for c, but in Proposition 3 we show that this is nottrue for v (the reference ambiguity holds). The key step is that weak labels allowone to impose stricter constraints on Nc, than on Nv.̸̸̸08 A. Szabó, Q. Hu, T. Portenier, M. Zwicker, P. Favaro0命题2. 在给定弱标签的情况下,数据根据 p(x1, x2)进行采样。然后,对于c来说,特征分离性质(2)可以得到满足。0证明. 对于任何[x1, x2] � px1, x2,可以强制Nc(x1) =Nc(x2),这意味着Nc对v是不变的。因此,对于任何c,让我们定义C(c) �Nc(x1)作为仅依赖于c的函数。可以强制f^(-1)c(xa⊕b) =f^(-1)c(xb)(参见命题1),那么具有相同v但不同c的图像也必须产生不同的特征,C(ca) = Nc(f(v, ca)) ≠ Nc(f(v, cb)) = C(cb)。然后,存在一个双射函数Rc =C^(-1),使得性质(2)对于c成立。 ��0现在我们引入一个定义,我们需要用它来形式化参考模糊性。0定义1.当函数g生成样本[y1,y2],其中y1=g(v1,c)和y2=g(v2,c),并且与数据[x1,x2]具有相同的分布时,我们说函数g重现了数据分布。形式上,[y1,y2]�px1,x2,其中潜在因子是独立的,即v1�pv,v2�pv和c�pc。0下一个命题阐明了本文的第二个主要结果:可变因子v的参考模糊性发生在解码器在不满足解缠性质的情况下重现数据时。这意味着,即使我们可以访问所有数据并了解pv和pc的分布,我们也不能从弱标记数据中可证地解缠所有变化因子。0命题3.当pv为至少两个不同的v实例分配相同的概率值时,存在一个解码器可以重现数据分布,但不满足公式(2)和公式(5)中v的解缠性质。0证明。我们选择Nc�f^-1c,即渲染引擎的逆。现在我们来定义Nv和解码器。我们用va≠vb表示两个不同的可变因子,使得pv(va)=pv(vb)。然后,令v的编码器定义为0Nv(f(v,c)) �0� 0� 0v,如果v≠va,vb或c∈C va,如果v=vb且c/∈Cvb,如果v=va且c/∈C (13)̸̸̸̸̸ˆθDec, ˆθEnc, ˆθDsc = arg minθDec,θEnc maxθDsc L(θDec, θEnc, θDsc).(16)0理解属性转移中的退化和模糊性 90Cpc(c)dc/∈{0,1}。因此,Nv(f(v,c))�pv,且Nv(f(v,c1))≠Nv(f(v,c2)),对于v∈{va,vb},c1∈C和c2/∈C。最后,我们将解码器定义为0Dec(v,c) �0� 0� 0f(v,c),如果v≠va,vb或c∈Cf(va,c),如果v=vb且c/∈Cf(vb,c),如果v=va且c/∈C。(14)0注意,Nv(f(v,c))在功能上依赖于c,但在统计上与c是独立的。实际上,因为pv(va)=pv(vb),我们有0pNv,c(v,c) = pNv|c(v|c)pc(c) (15)0= [1/C(c)pv(v) + 1/C(c)[δ(v-va)pv(vb) + δ(v-vb)pv(va)]]pc(c) =[1/C(c)pv(v) + 1/C(c)[δ(v-va)pv(va) + δ(v-vb)pv(vb)]]pc(c)0=pv(v)pc(c)。0因此,对编码因子Nv,Nc没有统计约束将使其无法与原始因子v,c区分开来。最后,我们可以将[Dec(Nv(x1),Nc(x1)),Dec(Nv(x2),Nc(x2))]代入并重现数据分布,即[Dec(v1,c),Dec(v2,c)]�px1,x2。特征解缠性质不满足,因为Nv(f(va,c1))=va≠vb=Nv(f(va,c2)),当c1∈C且c2�C。类似地,数据解缠性质也不成立,因为f^-1v(Dec(Nv(f(va,c1)),c1))≠f^-1v(Dec(Nv(f(va,c1)),c2))。��03.4 实现0在我们的实现中,我们对所有模型使用卷积神经网络。我们用θ表示与每个网络相关的参数。那么,复合损失的优化可以写成0我们选择 λ =1,并且在对抗损失中添加正则化,使得每个对数都有一个最小值。我们定义log�Dsc(x1,x2) = log(� + Dsc(x1,x2))(对于其他对数项也是如此),并且使用� =10^-12。我们神经网络的主要组件如图2所示。编码器、解码器和鉴别器的架构取自DCGAN[17],稍作修改。我们在编码器的输出和解码器的输入处添加了全连接层。由于鉴别器的输入是图像对,我们沿着颜色通道将它们连接起来。我们在表1中描述了我们在所有实验数据集上的架构细节。归一化。在我们的架构中,编码器和解码器网络都使用具有卷积层、非线性激活函数(ReLU/leakyReLU)和归一化层的块,通常是批归一化(BN)。作为BN的替代,我们考虑了实例归一化(IN)[23]。BN和IN之间的主要区别在于后者仅计算均值10A. Szabó, Q. Hu, T. Portenier, M. Zwicker, P. FavaroShapeNet, CelebA, CUBMNISTSprites0表1:网络架构。在编码器和判别器中,我们使用了卷积层,卷积核大小为4,步长为2。在每个卷积层之后,我们添加了归一化和泄漏的ReLU层,泄漏系数为0.2。在解码器中,我们使用了反卷积层,卷积核大小为4,步长为2,后面跟着一个ReLU层。c代表卷积,d代表反卷积,f代表全连接层,数字表示通道数。0编码器 c64-c128-c256-c512-c512-f c64-c128-c256-f c64-c128-c256-c512-f0解码器 f-d512-d512-d256-d128-d3 f-d512-d256-d128-d3 f-d512-d256-d128-d3判别器 c64-c128-c256-c512-f c64-c128-c256-f c64-c128-c256-c512-f0表2:使用不同归一化技术在ShapeNet车辆上使用视点和车辆类型特征进行最近邻分类。性能以平均精度均值衡量。0归一化 视点 车辆类型0无 0.47 0.130批量 0.50 0.080实例 0.50 0.200和空间域中输入的均值和标准差,而不是沿批次维度。因此,每层输出的偏移和缩放在相同输入图像的每次迭代中都是相同的。我们在表2中比较了ShapeNet数据集上不同的归一化选择,在最近邻分类任务上报告了性能。在所有归一化情况下,特征维度的Nv和Nc都固定为1024。我们可以看到,批量归一化和实例归一化在视点分类上表现相同,而无归一化稍差。对于车辆类型分类,实例归一化明显更好。04 实验0我们在MNIST、Sprites、CelebA、CUB和ShapeNet数据集上测试了我们的方法,并在ShapeNet车辆上进行了消融研究。我们重点研究了特征维度和是否具有对抗项(即LAE +LGAN)或没有(即仅LAE)对捷径问题的影响。我们还表明,在大多数情况下,参考歧义在实践中并不会出现(MNIST、Sprites、CelebA、CUB、ShapeNet车辆和摩托车),只有在数据更复杂时才能观察到(ShapeNet椅子和船只)。捷径问题。ShapeNet数据集[3]包含可以从不同视点渲染的3D对象。我们只考虑了一类(汽车)和一组固定的视点。汽车具有高的类内变异性,它们128d16d2d(a)128d16d2d(b)(a)(b)(c)0.20.6AEAE+GAN(d)0理解属性转移中的退化和歧义 110视点0类型0视点0类型0图3:在ShapeNet上的属性转移。 (a)使用LAE合成的图像,顶部一行显示了取自的车辆类型的图像。第二、第三和第四行显示了使用2、16和128维特征Nv进行解码器渲染。 (b) 使用LAE +LGAN合成的图像。输入和特征维度的设置与(a)相同。02 16 128 1024维度0查看mAP0图4:维度和目标函数对Nv特征的影响。 (a)、(b)、(c)Nv特征上的t-SNE嵌入。颜色对应于真实视点。目标函数和Nv维度分别为:(a) LAE2维,(b) LAE 128维,(c) LAE + LGAN 128维。 (d)使用不同模型和Nv维度的视点特征进行视点预测的平均精度曲线。0没有旋转对称性。我们使用大约3K个汽车类型进行训练,300个进行测试。我们在每个对象周围渲染24个可能的视角,总共得到80K张图像。仰角固定为15度,方位角间隔为15度。我们将对象的大小归一化为适应100×100像素的边界框,并将其放置在128×128像素图像的中心。图3展示了ShapeNet汽车的属性转移。我们比较了具有不同Nv特征维度的LAE和LAE +LGAN方法。公共特征Nc的大小固定为1024维。我们可以观察到,当我们增加Nv的特征大小时,LAE的转移性能下降。这说明了捷径问题,即自动编码器试图将所有信息存储到Nv中。而LAE +LGAN模型在不损失质量的情况下渲染图像,与特征维度无关。在图4中,我们可视化了使用不同特征大小的几个模型的Nv特征的t-SNE嵌入。对于2D情况,我们不修改数据。我们可以看到,具有2维和128维的LAE和LAE +LGAN都能很好地分离视角,而具有128维的LAE由于捷径问题无法很好地分离视角。我们研究了Nv特征的维度对最近邻分类任务的影响。性能通过平均平均精度来衡量。对于Nv,我们使用视角作为真值。图4还展示了具有不同Nv特征维度的LAE和LAE +LGAN模型的结果。此实验中,Nc的维度固定为1024。可以看到,LAE对Nv的大小敏感,而LAE +LGAN则不敏感。LAE +LGAN也取得了更好的性能。参考模糊性。我们使用与汽车相同的设置(视角、图像大小)渲染了ShapeNet的椅子、船只和摩托车。训练集中有3500个椅子、1500个船只和300个摩托车类型,提供了0c v0视角0类型0(a)ShapeNet汽车0视角0类型0(b)ShapeNet椅子0视角0类型0(c)ShapeNet船只0视角0类型0(d)ShapeNet摩托车0图5:ShapeNet类别的属性转移。对于所有子图,对象类型来自最上面的行,视角来自最左边的列。0修改数据。我们可以看到,具有2维和128维的LAE和LAE +LGAN都能很好地分离视角,而具有128维的LAE由于捷径问题无法很好地分离视角。我们研究了Nv特征的维度对最近邻分类任务的影响。性能通过平均平均精度来衡量。对于Nv,我们使用视角作为真值。图4还展示了具有不同Nv特征维度的LAE和LAE +LGAN模型的结果。此实验中,Nc的维度固定为1024。可以看到,LAE对Nv的大小敏感,而LAE + LGAN则不敏感。LAE +LGAN也取得了更好的性能。参考模糊性。我们使用与汽车相同的设置(视角、图像大小)渲染了ShapeNet的椅子、船只和摩托车。训练集中有3500个椅子、1500个船只和300个摩托车类型,提供了0理解属性转移中的退化和模糊性 130c v0(a)0c v0(b)0c v0(c)0c v0(d)0图6:转移特征的渲染。在所有图中,变化因素从左列转移,公共因素从顶行转移。(a)MNIST [15];(b)MNIST(我们的);(c)Sprites[15];(d)Sprites(我们的)。0每个类别的图像数量在7K到84K之间。我们使用完整的目标函数LAE +LGAN对网络进行训练,并且与ShapeNet汽车的情况下使用相同的设置。在图5中,我们展示了属性转移的结果。我们可以看到,在所有情况下,对象类型都被正确转移,我们可以观察到四个类别中有两个存在参考模糊性。一些渲染的椅子是翻转的。最有趣的情况是船舶类别,视角角度根据船的类型有两种不同的解释。我们可能倾向于得出这样的结论,即具有相似形状的对象倾向于共享不同属性的相同参考(在船舶的情况下,大船似乎在彼此之间转移视角,但与较细的船不转移)。MNIST评估。MNIST数据集[12]包含大小为28×28像素的手写灰度数字。训练集有60K张图像,包含10个类别,测试集有10K张图像。公共因素是数字类别,变化因素是类内变化。我们选择具有相同数字的图像对进行训练,并使用我们的完整模型LAE +LGAN,Nv维度为64,Nc维度为64。在图6(a)和(b)中,我们展示了变化因素的转移。从定性上看,我们的方法和[15]都表现良好。在这种情况下,我们既没有观察到参考模糊性,也没有出现捷径问题,可能是因为同一类别内的对象非常相似。Sprites评估。Sprites数据集[19]包含60像素的彩色动画角色(Sprites)图像。训练集有500个Sprites,测试集有100个Sprites,验证集有72个Sprites。每个Sprite有20个动画和178个图像,因此整个数据集总共有120K张图像。Sprites的外观变化很大,它们在身体形状、性别、头发、盔甲、手臂类型、护胫和武器方面有所不同。我们将角色身份视为公共因素,将姿势视为变化因素。我们使用相同Sprite的图像对进行训练,并且不利用姿势标签。我们使用Nv维度为64,Nc维度为448来训练我们的系统。图6(c)和(d)展示了属性转移任务的结果。我们的方法和[15]都正确地转移了Sprites的身份,没有出现参考模糊性。CUB评估。CUB鸟类数据集[24]包含200种鸟类的12K张图像。在我们的模型中,我们选择鸟类作为公共因素,并使用014 A. Szabó, Q. Hu, T. Portenier, M. Zwicker, P. Favaro0c v0(a)CUB0输入0性别0眼镜0嘴巴0(b)CelebA0图7:CUB和CelebA数据集上的属性转移。(a)CUB鸟类,其中姿势来自最左列,物种来自最顶行。(b)CelebA,第一行显示原始图像,每个后续行显示以下属性的变化:性别、眼镜、张嘴。0在ShapeNet上使用相同的设置。属性转移的结果可以在图7a中看到。CelebA评估。CelebA数据集[14]包含200K张人脸图像。它包含了男性/女性、老/年轻等标记的二进制属性。我们使用与ShapeNet相同的设置,并训练了单独的模型,其中共同属性是标记属性之一。属性转移的结果可以在图7b中看到。05 结论0在本文中,我们研究了解开变异因素的两个基本挑战:捷径问题和参考模糊性。当所有信息仅存储在一个特征子向量中,而另一个被忽略时,就会出现捷径问题。参考模糊性意味着解释因素的参考可能取决于其他因素。这使得属性转移变得模糊。我们引入了一种新颖的自动编码器训练方法,使用图像三元组来解决解开变异问题。我们从理论上和实验上展示了如何
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功