0
理解属性转移中的退化和模糊性3
0
特征(见图1b);
3)我们展示了对参考模糊性的分析,并证明当只使用弱标签时,在解缠任务中这是不可
避免的。在图1c中,图像由两个汽车属性来描述:视角和类型。在这种情况下,参考模
糊性意味着从一幅图像提取的视角可能与不同汽车类型的视角具有不同的含义。令人惊
讶的是,这种模糊性似乎很少发生,通常只有在数据对所关注的属性的依赖性很复杂时
才会发生。
0
2相关工作
0
在本文中,我们使用自动编码器作为主要模型来构建特征并合成新数据。因此,我们简
要回顾与自动编码器相关的方法。由于我们使用对抗性方案训练我们的模型,我们还简
要概述了该领域的一些最新进展。最后,我们讨论了与我们目标密切相关的解缠因素的
先前工作。自动编码器。自动编码器[2,9,1]学习将输入数据重构为x=
Dec(Enc(x)),其中Enc(x)是内部图像表示(编码器),Dec(解码器)重构编码器的输
入。变分自动编码器[10]使用生成模型p(x,z)=p(x|
z)p(z),其中x是观察到的数据(图像),z是潜在变量。编码器估计后验的参数,Enc(x)
=p(z|x),解码器估计条件似然,Dec(z)=p(x|
z)。变换自动编码器[8]使用转换后的图像输入对进行训练。相对变换参数也被馈送到网
络中。由于内部表示明确表示了对象的存在和位置,网络可以学习它们的绝对位置。自
动编码器的一个重要方面是它们鼓励潜在表示尽可能多地保留有关输入的信息。GAN。
生成对抗网络[7]使用两个竞争的神经网络来采样逼真的图像。生成器Dec从随机噪声样
本z创建图像x=
Dec(z),并试图欺骗判别器Dsc,判别器必须决定图像是从生成器pg还是真实图像preal
中采样的。经过成功训练,判别器无法区分真实样本和生成样本。对抗性训练经常用于
对随机变量施加(隐式)约束,就像我们所做的那样。例如,BIGAN
[6]通过训练编码器Enc,使得当xpreal时,Enc(x)服从高斯分布。CoGAN
[13]通过在每个域中具有生成器和判别器,并共享它们的权重,学习多域图像的联合分布
。它们可以在不给出对应关系的情况下在域之间转换图像。InfoGan
[4]通过使用判别器来复制输入向量的部分来学习一部分变化因素。解缠因素的许多最近
方法使用神经网络。其中许多是完全监督的[16,22,11,18,
19],即它们对所有要解缠的因素使用标签。例如,Peng等人[16]使用包括身份、姿态和
标志在内的多个标签来源解缠面部身份和姿态。与身份和姿态相关的