没有合适的资源?快使用搜索试试~ 我知道了~
1103540可变形生成器网络实现外观和几何的无监督解缠0邢相磊 1 ,韩天 2 ,高瑞琪 2 ,朱松纯 2 ,吴英年 201 哈尔滨工程大学自动化学院,中国哈尔滨150001 2加利福尼亚大学洛杉矶分校统计学系,美国洛杉矶900950xingxl@hrbeu.edu.cn,{hantian,ruiqigao}@ucla.edu,{sczhu,ywu}@stat.ucla.edu0摘要0我们提出了一种可变形生成器模型,以纯无监督的方式解缠外观和几何信息。外观生成器模拟与图像相关的信息,包括颜色、光照、身份或类别,而几何生成器通过生成每个像素坐标的位移执行几何相关的变形,如旋转和拉伸,以获得最终图像。两个生成器作用于独立的潜在因素,从图像中提取解缠的外观和几何信息。所提出的方案是通用的,可以轻松集成到不同的生成模型中。大量的定性和定量实验证明了外观和几何信息可以很好地解缠,并且学到的几何生成器可以方便地转移到其他图像数据集以促进知识转移任务。01. 引言0学习观察背后的解缠结构[2,26]是理解和控制现代深度模型的基本问题。这种解缠表示不仅在构建更透明和可解释的深度模型方面有用,而且在诸多下游AI任务中也很有用,如迁移学习和零样本推理,这些任务是人类擅长但机器难以处理的[22]。在其他方法中,深度生成模型,例如生成器模型,在近年来学习图像表示方面显示出巨大的潜力。然而,学到的表示通常是纠缠的且不可解释的。学习深度生成模型的解缠和可解释表示是具有挑战性的,例如从没有给定面部标记的面部图像中。然而,在这个方向上只有有限的工作已经完成。在本文中,我们提出了学习可变形生成器的方法0该模型可以在统一的概率框架下以纯无监督的方式解开纯外观和几何信息。具体而言,我们的模型集成了两个生成器网络:一个外观生成器和一个几何生成器,具有两组独立的潜在因素。密集的局部位移由几何生成器生成,然后通过可微分的变形函数作用于外观生成器生成的图像强度,从而获得最终图像。该模型通过引入交替反向传播来学习两个潜在因素,并且也可以轻松扩展到其他生成模型,如可变形变分自编码器。所提出的方法可以学习到良好的解缠表示,可以将外观和几何知识转移到其他数据集和任务中。我们的贡献如下总结:0•提出一种可变形生成器网络,以纯无监督的方式解缠外观和几何信息。0•提出的方法是通用且不可知的。可以轻松扩展到不同的模型,如可变形变分自编码器。0•进行了广泛的定性和定量实验证明外观和几何信息可以很好地解缠,并且可以有效地转移到其他数据集和任务中。02. 相关工作0使用深度生成模型学习解缠表示的现有工作通常分为两类:隐式学习和显式学习。隐式学习方法通过潜在因素解缠进行处理,主要集中在两个类别上:生成对抗网络(GAN)[10,8, 28, 23, 33]和变分自编码器(VAE)[17, 30, 27,21]。InfoGAN [5] 和 β-VAE [13]是这两个家族的代表。尽管隐式方法X(x, y) = FI(Xa(x + dx, y + dy)),(3)X(x, y) =Dy�jDx�iXa(i, j)M(1 − |u − i|)M(1 − |v − j|)103550无监督学习的方法虽然可以学习外观和几何的表示,但其学习到的表示不可控且不够分离。另一方面,显式方法将外观和几何分别建模,并源于主动外观模型(AAM),其中[6,19]分别学习外观和几何信息。最近,[18]将形状几何融入到GAN中,并学习到了良好分离的外观和几何信息。然而,这些方法[19,18]在训练过程中需要每个图像的注释面部标记。无监督地解耦外观和几何信息是具有挑战性的,并且仍然很少被探索。最近由[31]提出的独立工作遵循了这个方向,但他们的模型仅专注于自动编码器(AE),并且与我们的模型相比,没有在概率框架下进行开发。03. 模型和学习算法03.1. 模型0图1.所提出模型的示意图。模型包含两个生成器网络:一个外观生成器和一个几何生成器。两个生成器通过变形函数组合在一起生成最终的图像。变形函数包括对图像坐标进行几何变换操作和可微的插值操作。改进变形函数的操作是可选的。0所提出的模型包含两个生成器网络:一个外观生成器和一个几何生成器,它们通过一个变形函数组合起来生成最终的图像或视频帧,如图1所示。假设任意图像或视频帧X∈RDx×Dy×3是由两个独立的潜在向量生成的,Za∈Rda控制外观,Zg∈Rdg控制几何信息。通过改变几何潜在向量Zg并固定外观潜在向量Za,我们可以改变物体的几何信息,例如以一定角度旋转它并改变其形状。另一方面,通过改变Za并固定Zg,我们可以改变物体的身份或类别,同时保持其几何信息不变,例如相同的视角或相同的形状。0该模型可以表示为0X = F(Za,Zg;θ)0= Fw(Fa(Za;θa),Fg(Zg;θg))+�(1)0其中Za�N(0,Ida),Zg�N(0,Idg),��N(0,σ2ID)(D=Dx×Dy×3)是独立的。Fw是变形函数,它使用几何生成器Fg(Zg;θg)生成的位移来变形外观生成器Fa(Za;θa)生成的图像,以合成最终的输出图像X。03.2. 变形函数0一个变形函数通常包括对图像坐标进行几何变换操作和可微的插值(或重采样)操作。几何变换描述了源坐标中每个位置(u,v)的目标坐标(x,y)。几何操作仅修改图像中像素的位置,而不改变颜色或光照。因此,外观信息和几何信息在所提出的模型中由两个生成器自然地解耦。几何变换Φ可以是刚性仿射映射,如空间变换网络中使用的那样[16],也可以是非刚性可变形映射,这是我们工作的情况。具体而言,输出变形图像X中每个规则网格(x,y)的坐标位移(dx,dy)(或密集光流场)由几何生成器Fg(Zg;θg)生成。这种可变形映射中的逐点变换可以表示为:空格 u v0Φ=Φ(Zg,θg)0空格x y0其中 ( u, v ) 是由外观生成器 F a ( Z a ; θ a )生成的图像的源坐标。由于通过方程(2)计算得到的 ( u, v) 不总是整数坐标,输出的扭曲图像 X的每个像素值可以通过可微的插值操作计算得到。设 X a =F a ( Z a ; θ a ) 表示由外观生成器生成的图像。扭曲函数 Fw 可以表示为:0其中 F I 是可微的插值函数。我们使用可微的双线性插值:0(4) 其中 M ( ∙ ) = max(0 , ∙ )。关于通过这种双线性插值的反向传播的详细信息可以在[16]中找到。L(θ)=1NN�i=1log p(Xi; θ)=1NN�i=1log�p(Xi, Zai , Zgi ; θ)dZai dZgi , (5)∂∂θ log p(X; θ)=1p(X; θ)∂∂θ�p(X, Za, Zg)dZadZg= Ep(Za,Zg|X;θ)� ∂∂θ log p(X, Za, Zg; θ)�(6)Zat+1 = Zat + δ22∂∂Za log p(X, Zat ; Zgt , θ) + δEatZgt+1 = Zgt + δ22∂∂Zg log p(X, Zgt ; Zat , θ) + δEgt(7)log p(X, Za; Zg, θ) = log [p(Za)p(X|Za, Zg, θ)]= − 12σ2 ∥X − F(Za, Zg; θ)∥2 − 12∥Za∥2 + C1log p(X, Zg; Za, θ) = log [p(Zg)p(X|Za, Zg, θ)]= − 12σ2 ∥X − F(Za, Zg; θ)∥2 − 12∥Zg∥2 + C2(8)∂∂θL(θ) ≈ 1N∂∂θ log p(Xi, Zai , Zgi ; θ)= 1N1σ2 (Xi − F(Zai , Zgi ; θ)) ∂∂θF(Zai , Zgi ; θ).(9)103560位移 ( dx, dy ) 在可变形卷积网络中被用于表示[7]。坐标位移 ( dx, dy ) 的计算被称为光流估计 [14, 3, 32,9, 15,29]。我们的工作涉及建模和生成光流,除了估计光流。位移 ( dx, dy )可能是由场景中物体的运动或相对于3D物体的视角变化引起的。将运动和3D模型融入几何生成器中是自然的,其中 Z g的变化或变异取决于运动和3D信息。03.3. 推断和学习0为了学习这个可变形生成器模型,我们引入了一种学习和推断算法来处理两个潜在向量,而不需要设计和学习额外的推断网络。我们的方法受到了生成器网络的最大似然学习算法的启发[12]。具体来说,所提出的模型可以通过最大化训练数据集 { X i , i = 1 , . . . , N } 上的对数似然来进行训练,0在完整数据的对数似然中积分掉 Z a i 和 Z g i的不确定性,得到观测数据的对数似然。我们可以通过以下著名结果计算 L ( θ ) 的梯度,该结果与EM算法相关:0由于方程(6)中的期望通常是无法解析计算的,我们采用Langevin动力学从后验分布 p ( Z a , Z g | X ; θ )中抽样,并计算蒙特卡洛平均值来估计期望项。对于每个观测值 X,潜在向量 Z a 和 Z g可以通过Langevin动力学交替抽样从 p ( Z a , Z g | X ; θ )中获得:我们固定 Z g 并从 p ( Z a | X ; Z g , θ ) 中抽样 Za ,然后固定 Z a 并从 p ( Z g | X ; Z a , θ ) 中抽样 Z g。在每个采样步骤中,0潜在向量的更新如下:0其中 t 是Langevin采样中的步数,E a t 和 E g t是独立的标准高斯噪声,用于防止采样陷入局部模式,δ是步长。完整数据的对数似然可以通过以下方式计算:0其中C1和C2是归一化常数。可以证明,给定足够的采样步骤,采样的Za0并且Zg遵循它们的联合后验分布。通过MCMC从后验分布中获得公平样本在计算上非常耗时。在本文中,我们运行持续采样链。也就是说,每次迭代的MCMC采样从采样的Za和Zg开始0在上一次迭代中。持续更新导致了足够长的链,可以从后验分布中进行采样,而热启动大大减少了MCMC采样的计算负担。基于持续MCMC的随机梯度下降的收敛性已经被[34]研究过。对于每个训练样本Xi,我们运行遵循Eq.(7)的Langevin动力学,得到相应的后验样本Zai和Zgi。然后将该样本用于Eq.(6)中的梯度计算。更准确地说,通过蒙特卡洛近似估计θ上的对数似然梯度:0N×0N×0整个算法通过两个步骤迭代:(1)推理步骤通过Langevin动力学推断潜在向量,(2)学习步骤通过随机梯度下降学习网络参数θ。两个步骤中的梯度计算都由反向传播提供动力。算法1描述了学习和推理算法的细节。103570算法1 学习和推理算法 要求:(1)训练样本{Xi ∈RDx×Dy×3,i =1,...,N}(2)Langevin步数l(3)学习迭代次数T确保:(1)学习到的参数θ(2)推断得到的潜在向量{Zai,Zgi,i = 1,...,N}01:令t ← 0,初始化θ。2:初始化{Zai,Zgi,i =1,...,N}重复3:推理反向传播:对于每个i,运行l步Langevin动力学,交替从p(Zai | Xi;Zgi,θ)中采样Zai,同时固定Zgi;从p(Zgi | Xi;Zai,θ)中采样Zgi,同时固定Zai。从当前的Zai和Zgi开始,每一步都遵循Eq.(7)。4:学习反向传播:更新θt+1← θt +ηtL'(θt),其中ηt是学习率,L'(θt)根据Eq.(9)计算。5:令t ← t + 1,直到t = T03.4. 可变形变分自编码器0提出的可变形生成器方案是通用的,不受不同模型的限制。事实上,我们的方法也可以通过VAE[17]进行学习,以获得可变形变分自编码器,通过利用额外的推理网络通过重新参数化来推断(Za,Zg)。具体来说,我们学习另一个q(Za,Zg | X;φ)来近似难以计算的后验p(Za,Zg | X;θ)。在近似分布中,外观和几何潜在向量被假设为独立的高斯分布,即q(Za,Zg | X; φ)= q(Za | X; φ)q(Zg |X;φ),其中均值和方差由具有参数φ的推理网络建模。这种可变形VAE模型是所提出的可变形生成器框架的自然扩展。我们在第4.1.1节中展示了一些初步结果。请注意,所提出的方案也可以用于对抗学习方法[10],通过为形状和外观设计单独的鉴别器网络。我们将其作为进一步的工作。在这项工作中,为了简化起见,我们专注于当前的学习和推理算法,因此不需要额外的网络。04. 实验0在本节中,我们首先定性地证明了我们提出的可变形生成器框架能够一致地解耦外观和几何信息。然后我们对所提出的模型进行了定量分析。所提模型的结构和参数列在附录中。0附录。在下面的实验中,每行我们通过在范围[-γ,γ]内改变潜在向量的某个单位来可视化生成的样本,其中我们将γ设置为10。04.1. 定性实验04.1.1 CelebA上的实验0我们首先在CelebA数据集[24]中随机选择了10,000张面部图像来训练可变形生成器。选择的图像经过OpenFace[1]处理,并进一步裁剪为64×64像素。为了研究所提方法在解耦外观和几何信息方面的性能,我们研究了几何潜在向量Zg和外观潜在向量Za不同组合的效果。(1)将几何潜在向量Zg设为零,从[-γ,γ]的均匀步长2γ中改变外观变量Za的一个维度010,同时将Za的其他维度保持为零。图2显示了一些典型的生成图像。(2)将Za设置为固定值,每次将几何潜在向量Zg的一个维度从[-γ,γ]的均匀步长2γ中改变010,同时将Zg的其他维度设置为零。图3显示了一些代表性的生成结果。0图2.外观潜在向量的每个维度都编码了颜色、照明和性别等外观信息。在第一行中,背景的颜色和性别发生变化。在第二行中,男性的胡须和女性的头发发生变化。在第三行中,皮肤颜色从深到浅变化。在第四行中,照明光线从面部的左侧变为右侧。0从图2中我们可以观察到:(1)尽管CelebA的训练面部具有不同的视角,外观潜在向量只编码了正面视图的信息;(2)外观潜在向量的每个维度都编码了颜色、照明和身份等外观信息。例如,在图2的第一行中,从左到右,背景的颜色从黑色变为白色,面部的身份从女性变为男性。在图2的第二行中,当Za的相应维度值减小时,男性的胡须变得更浓密,当Za的相应维度值增加时,女性的头发变得更密集。在第三行中,从左到右,103580图3.几何潜在向量的每个维度都编码了形状和视角等基本的几何信息。在第一行中,面部的形状从左到右由胖变瘦。在第二行中,面部的姿势从左到右变化。在第三行中,面部的垂直倾斜从下到上变化。在第四行中,面部的宽度从拉伸变为紧缩。0皮肤颜色从深到浅,从左到右,从第四行开始,面部的照明光线从左侧变为右侧。从图3中,我们得出以下有趣的观察结果:(1)几何潜在向量不编码任何外观信息。这些生成的图像的颜色、照明和身份都是相同的。(2)几何潜在向量的每个维度都编码了基本的几何信息,如形状和视角。例如,在图3的第一行中,面部的形状从左到右由胖变瘦;在第二行中,面部的姿势从左到右变化;在第三行中,面部的倾斜从下到上变化;在第四行中,表情从拉伸变为紧缩。0图4. 可变形VAE的外观插值结果。0引入的可变形VAE也能够有效地解缠外观和几何信息。对于额外的推断网络或编码器网络,我们使用与生成器模型相同的镜像结构,其中我们使用卷积层而不是卷积转置层。生成器网络结构以及其他参数与通过交替反向传播学习的模型保持相同。图4和图5展示了按照之前描述的相同协议进行的插值结果。从图2和图3的结果中,我们发现人脸图像的外观和几何信息已经被有效地解缠。因此,我们可以应用0图5. 可变形VAE的几何插值结果。0几何变形(例如图3中的操作)应用于外观生成器学到的所有规范人脸(例如图2中生成的人脸)。图6展示了将几何变形应用于图2中生成的规范人脸的效果。将图2与图6进行比较,我们发现旋转和形状变形操作不会修改规范人脸的身份信息,这证实了提出的可变形生成器模型的解缠能力。0(a) 旋转变形。0(b) 形状变形。图6.将几何生成器学到的(a)旋转变形和(b)形状变形操作应用于外观生成器生成的规范人脸。与图2相比,只有姿势信息变化,身份信息在变形过程中保持不变。0此外,我们通过从不同人脸中转移和重组几何和外观向量来评估所提出模型的解缠能力。具体而言,我们首先将7张CelebA中的未知图像输入到我们的可变形生成器模型中,使用Langevin动力学(300步)推断它们的外观向量Za1,Za2,...,Za7和几何向量Zg1,Zg2,...,Zg7。然后,我们转移和重组外观和几何向量,并使用{Za1,Zg2},...,{Za1,Zg7}生成六个新的人脸图像,如图7的第二行所示。我们还转移和重组外观和几何向量,并使用{Za2,Zg1},...,{Za7,Zg1}生成另外六个新的人脸,如图7的第三行所示。从第2列到第7列,第二行中的图像具有相同的外观向量Za,但几何潜变量Zg在每个图像对之间进行了交换。正如从图7的第二行可以观察到的那样,(1)原始图像的几何信息在合成图像中被交换,(2)推断的Zg可以捕捉到未知图像的视角信息。图7的第三行中的图像具有相同的几何向量Zg1,但外观向量Za在每个图像对之间进行了交换。从图7的第三行可以观察到,(1)外观信息被交换,(2)推断的Zawe can observe from the second row of figure 7, (1) the geo-metric information of the original images are swapped in thesynthesized images, and (2) the inferred Zg can capture theview information of the unseen images. The images in thethird row of figure 7 have the same geometric vector Zg1, butthe appearance vectors Za are swapped between each imagepair. From the third row of figure 7, we observe that (1) theappearance information are exchanged. (2) The inferred ZaFirst we quantitatively study the covariance between eachdimension of the latent vectors (Zg, Za) and input imageswith geometric variation.We use images with ground-truth labels that record geometric attributes, specifical-ly the multi-view face images from the Multi-Pie dataset[11].For each of the 5 viewing angles {−30◦, −15◦,0◦, 15◦, 30◦}, we feed 100 images into the learnedmodel to infer their geometric latent vector Zg and ap-pearance latent vector Za.Under each view θ∈103590图7.转移和重组几何和外观向量。第一行显示了CelebA中的7张未知人脸。第二行显示了通过将第一行中的第2-7张人脸的几何向量与第一张人脸的外观向量转移和重组生成的人脸。第三行显示了通过将第一行中的第2-7张人脸的外观向量与第一张人脸的几何向量转移和重组生成的人脸。0捕捉颜色、光照和粗糙外观信息,但会丢失更细致的身份信息。只从10kCelebA图像中学习有限的特征,模型可能不包含准确建模未知人脸所需的特征。04.1.2 面部表情数据集上的实验0接下来我们研究提出的可变形生成模型在面部表情数据集CK+[25]上的性能。按照上一小节相同的实验协议,我们可以研究外观潜在向量的每个维度(在几何潜在向量的值设为零后)和几何潜在向量(在外观潜在向量的值设为固定值后)对变化的影响。图8展示了解耦结果。我们没有使用CK+数据集提供的表情标签进行学习。尽管该数据集包含不同表情的面部图像,但学习到的外观潜在向量通常编码为中性表情。几何潜在向量控制着表情的主要变化,但不改变身份信息。为了测试在提出的模型中外观和几何信息是否解耦,我们尝试将CK+数据集中学到的表情转移到另一个面部数据集Multi-Pie[11]中,通过在目标面部数据集上微调外观生成器,同时固定几何生成器的参数。图8(c)展示了将图8(b)中的表情转移到Multi-Pie数据集中的面部图像的结果。CK+中灰色面部的表情已经转移到Multi-Pie中的彩色面部。0(a) 外观潜在向量的插值。0(b) 几何潜在向量的插值。0(c) 将(b)中的表情转移到Multi-PIE数据集中的面部图像。图8. (a)外观潜在向量的插值示例和(b) 几何潜在向量的插值示例。 (c)将学到的表情转移到Multi-PIE数据集中的面部图像。04.1.3 非人脸数据集上的实验0我们可以将模型转移到除了面部图像之外的更一般的数据集上进行学习。例如,从CelebA面部图像中学到的几何信息可以直接转移到猫和猴子等动物的面部上,如图9所示。当应用从人脸学习到的变形时,猫脸从左到右旋转,猴子脸的形状从胖变瘦。我们还在CIFAR-10[20]数据集上学习了我们的模型,该数据集包含各种对象类别的50,000个训练样本。我们随机从 N(0 , I d a ) 中采样 Z a 。对于 Z g ,我们将一个维度从 − γ 插值到 γ,并将其他维度固定为 0。图9展示了从汽车类别学习到的模型生成的插值示例。对于每一行,我们使用不同的 Z a并插值相同的 Z g 维度。结果显示 Z g 的每个维度0控制特定几何变换,即形状和旋转变形。04.2. 定量实验04.2.1 潜在向量和几何变化之间的协方差103600图9.从非人脸数据集中转移和学习模型。前两行展示了在应用CelebA数据集学习到的旋转和形状变换后,猫脸和猴子脸的几何插值结果。最后两行展示了在CIFAR-10数据集的汽车类别学习到的模型的几何插值结果。0{− 30 ◦ , − 15 ◦ , 0 ◦ , 15 ◦ , 30 ◦ },我们计算推断得到的潜在向量的均值 ¯ Z g θ 和 ¯ Z a θ。对于 Z g 的每个维度 i ,我们构造一个5维向量 ¯ Z g ( i )= [ ¯ Z g − 30 ◦ ( i ) , ¯ Z g − 15 ◦ ( i ) , ¯ Z g 0 ◦ ( i ) , ¯Z g 15 ◦ ( i ) , ¯ Z g 30 ◦ ( i )] 。类似地,对于 Z a的每个维度,我们在每个维度上构造一个5维向量 ¯ Z a ( i )。我们将视角向量 θ = [ − 30 , − 15 , 0 , 15 , 30]归一化为单位范数。最后,我们计算潜在向量( Z g , Z a)和具有视角变化的输入图像之间的协方差如下:0Rg i = |¯Zg(i)�θ|, Ra i = |¯Za(i)�θ|(10)0其中i表示潜在向量Zg或Za的第i个维度,|∙|表示绝对值。我们在图10中总结了几何和外观潜在向量的协方差响应Rg和Ra。Rg往往比Ra大得多。0图10.几何(或外观)潜在向量的每个维度与视角变化之间的协方差的绝对值,来自Multi-Pie的人脸图像。左子图显示与几何潜在向量的协方差;右子图显示与外观潜在向量的协方差。0此外,对于最大的Rg i和最大的Rai,我们在图11中绘制了潜在向量¯Zg(i)(或¯Za(i))与视角向量θ之间的协方差关系。从图11的左侧和中心子图中可以观察到,¯Zg(i)与两个最大的Rg i(Rg 5,0(a)0(b) 图11.(a)平均潜在向量¯Zg(i)(或¯Za(i))与视角向量θ之间的协方差关系。我们选择具有最大协方差的两个Zg的维度(Zg 5和Zg38,左侧和中心)和具有最大协方差的一个Za的维度(Za25,右侧)。(b)通过分别改变(a)中三个维度的值,同时将其他维度的值固定为零,生成的图像。0Rg38)与视角变化明显成反比例或成比例关系。然而,如右子图所示,对应于最大Ra i (Ra25)的¯Za(i)与视角变化没有强相关性。我们希望指出,我们不应该期望Za仅编码身份,Zg仅编码视角,因为不同的人可能有形状变化,不同的视角可能有光照或颜色变化。0此外,我们通过在Zg的维度上变化两个具有最大协方差响应的值[-γ,+γ],步长为2γ,生成人脸图像0在子节4.1.1中,将Zg的其他维度保持为零,将Za的维度变化为具有最大协方差响应的值[-γ,+γ],步长为2γ,生成人脸图像0在Za的其他维度保持为零的情况下,将Za的维度变化为10,生成的图像显示在图11(b)中。我们可以得出几个重要的观察结果。(1)前两行中的视角变化非常明显,第一行中的视角变化幅度大于第二行。这与Rg 5 > Rg38的事实一致,并且与图11(a)的左子图的斜率比中心子图的斜率陡峭的观察一致。(2)在第一行中,面部从右向左旋转,其中Rg5与视角成反比例关系。在第二行中,面部从左向右旋转,其中Rg38与视角成比例关系。(3)在第三行中很难找到明显的视角变化。这些生成的图像进一步验证了所提出模型的几何生成器主要捕捉几何变化,而外观103610MSRE方法VAE ABP 我们的030°110.99±0.11 117.28±0.12 89.94±0.10015°88.98±0.09 94.81±0.10 70.64±0.0800°48.78±0.05 48.36±0.06 46.10±0.060-15°87.89±0.10 94.12±0.11 75.11±0.090-30°107.94±0.12 120.58±0.13 92.66±0.110所有视角 89 . 02 ± 0 . 13 94 . 66 ± 0 . 12 76 . 52 ± 0 . 100表1.不同方法在Multi-Pie数据集的未见过多视角人脸上的均方重建误差(MSRE)每个图像(括号内为相应的标准差)。0生成器对几何变化不敏感。04.2.2 未见过多视角人脸的重建误差0由于所提出的可变形生成器模型可以从图像中解耦外观和几何信息,因此我们可以将从一个数据集中学习到的几何变形操作转移到另一个数据集中。具体而言,给定来自Multi-Pie数据集[11]的1000个正面人脸,我们可以在固定几何生成器的参数(从CelebA数据集中学习)的同时,微调外观生成器的参数,然后重建具有不同视角的未见过的图像。为了定量评估我们模型的几何知识转移能力,我们计算了来自Multi-Pie数据集的5000个未见过图像在视角{− 30 ◦ , − 15 ◦, 0 ◦ , 15 ◦ , 30 ◦}下的重建误差,每个视角有1000张人脸。我们将所提出的模型与VAE [17, 4]和ABP[12]等最先进的生成模型进行比较。为了公平比较,我们首先使用相同的CelebA训练集对原始的非可变形VAE和ABP模型进行训练,然后在来自Multi-Pie数据集的1000个正面人脸上进行微调。我们进行了10次独立运行,并报告了每种方法在不同视角下每个图像的均方重建误差和10次试验的标准差,如表1所示。可变形生成器网络获得了最低的重建误差。当测试图像来自于与训练图像接近的视角时,所有三种方法都可以获得较小的重建误差。当包含不同视角的测试图像时,可变形生成器网络获得明显较小的重建误差。我们的模型受益于从CelebA数据集中学习到的转移几何知识,而非可变形的VAE和ABP模型无法有效地学习或转移纯粹的几何信息。04.3. 平衡解释竞争0由于几何生成器仅为每个像素生成位移而不修改像素的值,所以颜色和照明信息以及几何信息在所提出的模型中自然地解耦。0为了正确解耦身份(或类别)和视角(或几何)信息,外观生成器和几何生成器之间的学习能力应该保持平衡。两个生成器相互合作生成图像。同时,它们也相互竞争解释训练图像。如果外观生成器的学习速度超过几何生成器,外观生成器将编码大部分知识,包括视角和形状信息,而几何生成器只会学习到一些微小的变形操作。另一方面,如果几何生成器的学习速度比外观生成器快得多,几何生成器将编码大部分知识,包括身份或类别信息,而这些信息应该由外观网络编码。为了控制两个生成器之间的权衡,我们引入一个平衡参数 α,它被定义为外观生成器和几何生成器每层滤波器数量的比例。我们仔细调整了 α ,在实验中将其设置为0.625。05. 结论0我们提出了一个可变形生成器模型,旨在将图像的外观和几何信息解耦为两个独立的潜在向量 Z a 和 Z g。学习到的几何生成器可以转移到其他数据集,或者可以用于数据增强,以产生超出训练数据集的更多变化,以获得更好的泛化性能。除了本文采用的学习和推断算法外,该模型还可以通过VAE和GAN以及它们的推广(如 β-VAE和info-GAN)进行训练,以实现一般的解耦。该模型可以通过为潜在向量添加过渡模型来推广到建模动态模式。外观向量的过渡模型可以生成非可跟踪运动的动态纹理,而几何向量的过渡模型可以生成可跟踪运动的直观物理效果。几何生成器还可以推广到结合刚性或非刚性3D对象的3D信息。0致谢0本工作是在第一作者作为UCLA的访问学者期间完成的,并得到了中国自然科学基金(No. 61703119),黑龙江省自然科学基金(No.QC2017070),DARPAXAI项目(N66001-17-2-4029),ARO项目(W911NF1810296)和ONRMURI项目(N00014-16-1-2007)的支持。我们感谢Mitchell K.Hill对写作的协助。103620参考文献0[1] Brandon Amos, Bartosz Ludwiczuk, and Mahadev Satya-narayanan. Openface: 一种通用的面部识别库及其移动应用.Technical report, CMU- CS-16-118, CMU School of ComputerScience, 2016. [2] Yoshua Bengio, Aaron Courville, and PascalVincent. 表示学习:综述与新视角. IEEE transactions on patternanalysis and machine intelligence , 35(8):1798–1828, 2013. [3]Thomas Brox, Andr´es Bruhn, Nils Papenberg, and JoachimWeickert. 基于变形理论的高精度光流估计. In Europeanconference on computer vision , pages 25–36. Springer, 2004.[4] Christopher P Burgess, Irina Higgins, Arka Pal, LoicMatthey, Nick Watters, Guillaume Desjardins, and Alexan- derLerchner. 理解Beta-VAE中的解缠. arX- iv preprintarXiv:1804.03599 , 2018. [5] Xi Chen, Yan Duan, ReinHouthooft, John Schulman, Ilya Sutskever, and Pieter Abbeel.InfoGAN: 通过最大化信息的生成对抗网络进行可解释的表示学习.In Advances in Neural Information Processing Systems ,pages 2172–2180, 2016. [6] Timothy F. Cootes, Gareth J.Edwards, and Christopher J. Taylor. 主动外观模型. IEEETransactions on pattern analysis and machine intelligence ,23(6):681–685, 2001. [7] Jifeng Dai, Haozhi Qi, Yuwen Xiong,Yi Li, Guodong Zhang, Han Hu, and Yichen Wei.可变形卷积网络. In Proceedings of the IEEE Conference onCom- puter Vision and Pattern Recognition , pages 764–773,2017. [8] Emily L Denton, Soumith Chintala, Rob Fergus, et al.使用金字塔状的对抗网络的深度生成图像模型. In NIPS , pages1486–1494, 2015. [9] Alexey Dosovitskiy, Philipp Fischer, EddyIlg, Philip Hauss- er, Caner Hazirbas, Vladimir Golkov, Patrickvan der Smagt, Daniel Cremers, and Thomas Brox.使用卷积网络学习光流. In Proceedings of the IEEEInternational Conference on Computer Vision , pages2758–2766, 2015. [10] Ian Goodfellow, Jean Pouget-Abadie,Mehdi Mirza, Bing X- u, David Warde-Farley, Sherjil Ozair,Aaron Courville, and Yoshua Bengio. 生成对抗网络. InAdvances in neural information processing systems , pages2672–2680, 2014. [11] Ralph Gross, Iain Matthews, JeffreyCohn, Takeo Kanade, and Simon Baker. Multi-pie. ImageVision Comput. , 28(5):807–813, May 2010. [12] Tian Han,Yang Lu, Song-Chun Zhu, and Ying Nian Wu.交替反向传播生成器网络. In AAAI , pages 1976–1984, 2017.[13] Irina Higgins, Loic Matthey, Arka Pal, ChristopherBurgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed,and Alexander Lerchner. Beta-VAE:使用受限变分框架学习基本视觉概念. 2016. [14] Berthold KPHorn and Brian G Schunck. 确定光流. Arti�cial intelligence ,17(1-3):185–203, 1981.0[15] Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, Margret Keu-per, Alexey Dosovitskiy, and Thomas Brox. Flownet 2.0:光流估计的深度网
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功