1i=122N+1个自然图像的重心图像变形的约束Wasserstein重心Dror SimonTechnionHaifa,以色列电子邮件:dror.cs.technion.ac.ilAviadAberdamTechnionHaifa,以色列aaberdam@cs.technion.ac.il摘要图像插值或图像变形是指两个(或更多个)输入图像之间的视觉过渡。为了使这种过渡看起来在视觉上吸引人,其期望的特性是(i)平滑;(ii)在图像中应用所需的最小变化;以及(iii)看起来是“真实的”,避免在转换中的每个图像中的不自然的伪像。为了获得平滑和直接的过渡,可以采用众所周知的Wasserstein重心问题(WBP)。虽然这种方法保证了Wasserstein度量下的最小变化,但结果的图像可能看起来不自然。在这项工作中,我们提出了一种新的方法,图像变形,拥有所有三个所需的属性-领带。为此,我们定义了一个受约束的变体的WBP,强制执行的中间图像,以满足图像先验。我们描述了一个解决这个问题的算法,并使用稀疏先验和生成对抗网络来演示它。11. 介绍两幅输入图像的图像变形是一种视觉效果,其中获得一系列图像,将一幅图像转换为另一幅图像。 通过将输入图像表示为x1,x2∈Rn,目标是找到一个将x1变换为x2的N个图像序列{yi}N,yi ∈Rn.一般来说,有无限可能的方式来转换一个图像另一个然而,一个愉快的过渡应该保持以下特性。首先,任何两个连续帧之间的差异应该是非常相似的,导致一个平稳的节奏动画。第二,整个过渡中的总体变化应该是最小的,避免不必要的变化。图像变形的简单解决方案是两个图像之间的简单线性插值,即,yi=N+1 −ix1+ix2。虽然这种方法确实是亲-(a) 瓦瑟斯坦重心(b) GAN隐空间线性插值(c) Ours图1:使用3种不同的方法将“t”图像变形为"y“,其中α ∈ { 0,0. 1、…1}(颜色用于突出过渡)。在图1a中,中间图像看起来不像英文字母。在图1b中,在整个转变过程中,变化的程度是不同的图1c展示了英文字符的平滑过渡。图像取自EMNIST数据集[1]。如果不进行平滑过渡,则会导致不自然的中间样本,其中包含令人不快的双重曝光伪影。因此,为了获得令人愉快的过渡,需要额外的要求。一种克服双曝光伪影的方法是解决Wasserstein重心问题(WBP)[3,4]。Wasserstein重心是一个概率分布函数,它最小化它到给定概率分布集合中每个元素的Wasserstein距离[5]的平均值。考虑两种输入概率分布,位于单形{p1,p2}∈ n上的元素,则WBP定义为pα= arg min(1−α)W2(p1,q)+αW2(p2,q),(1)q∈n其中,α∈[0,1],W2(p,q)表示p和q之间的欧氏Wasserstein距离(见第3节)。为了得到一个将分布p1变为p2的序列N+1个N+1个平滑地,常见的方法是求解方程(1),1源代码可在http://tiny.cc/barycenter获得α值的线性序列,例如α∈1{1,2,., N}个。79107911N+1个(b)瓦瑟斯坦重心(a)图像#1(c)GAN潜在空间线性插值(e)图像#2(d)Ours图2:使用3种方法将运动鞋变形为靴子,其中α ∈ {0,1,2,...,1}。在图2b中,中间图像8 8看起来模糊不清不切实际 在图2c中,首先鞋几乎不改变,然后立即改变为靴子。图2d展示了颜色和形状的平滑过渡。图像取自Zappos50k数据集[2]。实际上,求解两个输入图像的WBP导致平滑(规则)和直接的过渡,同时避免重影伪影。2也就是说,中间样品不一定像图1a和2b中所示的那样看起来为了克服这个问题,人们可以用自然图像流形上的测地线距离来代替102欧氏度量然而,这种流形通常是未知的或非常复杂的,使得这种方法不切实际。为了获得自然的中间图像,最近的工作建议使用生成对抗算法。网络(GAN)[6,7,8,9]。 在该体系结构中,一个生成网络G(·)将低维潜空间中的向量zi∈Rm,
0。该优化问题可以使用乘法器的交替方向法(ADMM)[21]来解决,导致以下步骤(参见算法1)。首先,我们找到WBP的正则化版本的解决方案q这个问题是严格凸的,以前已经研究过。在我们的工作中,我们遵循[4],其中提出了一个下降算法的对偶问题。第二用于各种信号处理任务的公知先验是稀疏表示先验[22,23,24]。该模型假定信号x∈Rn由取自固定矩阵D∈Rn×m(称为字典)的几列(也称为原子)的线性组合构成。当给定信号y时,将其投影到模型上包括找到它的稀疏表示向量α:step是前一步结果q在α=argminy−Dα2s.t. ǁαǁ