GANgealing:通过GAN-SupervisedLearning实现密集视觉对齐

9 浏览量更新于2023-10-25 收藏 5.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13470Facebook AI Research（FAIR）⇥平均图像输入图像凝固的图像通信可视化编辑传播GAN监督的密集视觉对准威廉·皮布尔斯1俊-朱燕2理查德·张3安东尼奥·托拉尔巴4阿列克谢·A。Efros1EliShechtman1加州大学伯克利分校2卡内基梅隆大学3Adobe Research4麻省理工学院CSAIL图1.给定未对齐图像的输入数据集，我们的GANgealing算法发现所有图像之间的密集对应关系顶行：来自LSUN Cats的图像和数据集第二行：我们学习的输入图像的变换第三行：Gangealing学习的密集对应底行：通过注释平均转换的图像，我们可以将用户编辑传播到图像和视频。请查看我们的项目页面以获取详细的视频结果：www.wpeebles.com/gangealing。摘要我们提出了GAN-Supervised Learning，一个框架，用于学习判别模型及其GAN-generated training数据联合端到端。我们应用我们的框架密集视觉对齐问题。受经典Congealing方法的启发，我们的GANgealing算法训练了一个空间Transformer，将来自未对齐数据训练的GAN的随机样本映射到一个共同的联合学习目标模式。我们显示了8个数据集的结果，所有这些都表明我们的方法成功地对齐复杂的数据，并发现密集的对应关系。GANgealing的性能明显优于过去的自监督对应算法，并在几个以太网上与最先进的监督对应算法相当（有时甚至超过），而无需使用任何对应监督或数据增强，尽管仅在GAN生成的数据上进行训练。对于精确的correspondence，我们提高了国家的最先进的监督方法多达3。我们展示了我们的方法在增强现实、图像编辑和图像数据集自动预处理中的应用，以用于下游GAN训练。代码和型号：www.github.com/wpeebles/gangealing1. 介绍视觉对准，也称为对应或配准问题，是许多计算机视觉中的关键要素，包括光流、3D匹配、医学成像、跟踪和增强现实。虽然最近已经在成对比对（将图像A与图像B对齐）上取得了很大进展[2，14，22，34，51，57，58，60，68全局联合对准（对准数据集上的所有图像）的问题还没有得到同样多的关注。然而，关节对齐对于需要公共参考框架的任务至关重要，例如自动关键点注释、增强现实或编辑传播（参见图1底行）。还有证据表明，在联合对齐的数据集（如 FFHQ [42] ， AFHQ[15]，CelebA-HQ [40]）上进行训练可以比在未对齐的数据上进行训练产生更高质量的生成模型在本文中，我们从一系列的经典作品的自动联合图像集对齐的灵感。特别是，我们受到Learned-Miller [48]开创性的无监督凝结方法的激励，该方法表明，可以通过不断将一组图像扭曲到一个共同的更新模式来对齐它们当你-13471！虽然直接像素级对齐可以在简单的二进制图像（例如MNIST数字）上令人惊讶地工作得很好，但是直接像素级对齐不足以处理具有显著外观和姿势变化的大多数数据集。为了解决这些限制，我们提出了GANgealing：一种GAN-Supervised算法，它可以学习输入图像的变换，使它们更好地进行联合对齐。关键在于采用GAN的潜在空间（在未对齐的数据上训练）来自动生成空间Transformer的成对训练数据[35]。至关重要的是，在我们提出的GAN监督学习框架中，空间Transformer和目标图像都是联合学习我们的Spatial Transformer专门使用GAN图像进行训练，并在测试时推广到真实图像。我们展示了跨越八个数据集的结果-LSUN Bicy-cles，Cats，Cars，Dogs，Horses和TV [87]，In-The-Wild CelebA [52] 和 CUB [83]- 这表明我们的GANDBING算法能够在数据集上发现准确，密集的对应关系。我们展示了我们的空间变换器在图像编辑和增强现实任务中是有用的。定量而言，GANgealing显著优于过去的自监督密集对应方法，在许多SPair-71 K[59]类别上的关键点转移准确度（PCK [4]）此外，GANgealing有时匹配甚至超过最先进的对应监督方法。2. 相关工作用于视觉的预训练GAN。先前的工作已经探索了GAN[27，67]在视觉任务中的使用，例如分类[10，12，55，74，84]，分割[56，79，82，90]和表示学习[7，20，21，23，36]，以及3D视觉和图形任务[28，64，72，89]。同样，我们也有一个共同的目标，即利用预先训练的深度生成模型来完成视觉任务。然而，过去的相关方法遵循一个常见的两阶段范式：（1）合成GAN生成的数据集，（2）在固定数据集上训练判别模型。相比之下，我们的GAN-Supervised Learning方法既学习了判别模型，也学习了GAN生成的数据。我们不依赖于手工制作的像素空间增强[12，36]，人类标记的数据[28，72，79，89，90]或使用领域知识对GAN生成的数据集进行后处理[10，56，82，89]。联合图像集对齐。平均图像长期以来被用于可视化相同语义内容的图像集的联合对准（例如，[78，95]），凝结[32，48]的开创性工作将无监督联合对齐作为一个研究问题。凝结使用顺序优化来通过经由参数变换（例如，仿射）。它在结构良好的数据集上产生了令人印象深刻的结果例如数字，但与更复杂的数据斗争该领域的后续工作假设数据位于低秩子空间[44，66]或将图像分解为颜色，外观和形状的组合[62]，以建立相同对象类别实例之间的密集对应关系。FlowWeb [92]使用循环一致性约束来估计完全连接的对应流图。上述每种联合视觉对齐和聚类在AverageExplorer [95]中提出，但作为用户驱动的数据交互工具。边界框监督已用于对齐和聚类对象类别内的多个模式[19]。自动变换不变聚类方法[24，25]可以在比较之前对齐集合中的图像，但仅在有限的最近，Monnier等人。[63]表明，可以使用网络来预测扭曲，从而消除了对每个图像优化的需要;这为大规模集合的同时对齐和聚类打开了大门。与我们的方法不同，这些方法假设图像可以与简单的（例如，仿射）颜色变换;这种假设对于像LSUN这样的复杂数据集是不成立的。空间Transformer网络（STNs）。空间变换器模块[35]是将可学习的几何变换纳入深度学习框架的一种方式。它回归一组翘曲参数，其中翘曲和网格采样函数是可微的，以使反向传播。STNs在区分任务中取得了成功（例如，分类）和应用，如鲁棒滤波器学习[16，37]，视图合成[26，65，93]和3D表示学习[39，86，91]。逆合成 STNs （ IC-STNs ）[49]倡导经典 Lukas-Kanade算法[6，54]精神的迭代图像对齐框架先前的工作已经将STNs纳入生成模型中，用于几何纹理解纠缠[85]和图像比较[50]。相比之下，我们使用生成模型来直接为STNs生成训练数据。3. GAN监督学习在本节中，我们将介绍GAN监督学习。在该框架下，从预训练的GAN生成器采样（x，y）对，其中x是来自GAN的随机样本，y是通过将学习的潜在操纵应用于x的潜在代码而获得的样本这些对用于训练一个网络工作者：xy. 该框架工作最大限度地减少了以下损失：L（f，y）=`（f（x），y），（1）这是一个重建损失。在vanilla监督学习中，f是在固定的（x，y）对上学习的。相比之下，在GAN-监督学习中，f和目标y都是端到端联合学习的。在测试时，我们可以自由地评估真实输入上的1347222W中国2w0G更新空间Transformer和学习模式图2.GANgealing概述。我们首先在未对齐的数据上训练生成器G我们通过在生成器的潜在空间中学习模式c来创建一个用于对齐的合成生成的数据集我们使用该数据集来训练空间Transformer网络T，以使用感知损失从未对齐映射到相应的对齐图像[38]。空间Transformer可自动概括对齐真实图像3.1. 密集视觉对齐在这里，我们展示了如何将GAN监督学习应用于Congealing [48]-一种经典的无监督对齐算法在这个实例中，f是一个空间T变换器网络[35]T，我们描述了我们的参数化下面是输入x和学习目标y我们把我们的算法GANGEALING。我们在图2中给出了一个概述。GANgealing通过在未对齐的输入数据集上训练潜在变量生成模型G开始。我们将G的输入潜在向量称为wR512。通过训练G，我们可以自由地从未对齐的分布中抽取样本，方法是对随机采样的 w 计算 x=G（w），其中表示潜伏期上的分布。现在，考虑一个固定的潜在向量CR512。该矢量对应于来自原始未对准分布的固定合成图像G（c）。传统冷凝的一个简单想法是使用G（c）作为目标模式y-即，我们学习空间TransformerT，其被训练为将每个随机未对准图像x=G（w）弯曲到相同的目标图像y=G（c）。由于G在其输入中是可微的，因此我们可以优化c，从而学习我们希望连接的目标。具体地，我们可以关于T工作尽可能轻松如果c的当前值对应于无法通过T预测的变换从大多数图像到达的姿势，则可以通过梯度下降将其调整为更多图像“可到达”的不同向量这种简单的方法对于具有有限多样性的数据集是合理的;然而，在存在显著的外观和姿态变化的情况因此，优化上述损失通常不会产生良好的结果（见表3）。代替对每个随机采样的图像G（w）使用相同的目标G（c），如果我们可以构建每样本目标，则将是理想的，该每样本目标保留G（w）的外观，但是其中目标图像中的对象的姿态和取向在目标之间大致相同。为了实现这一点，给定G（w），我们通过将w向量的一部分设置为等于目标向量c来产生相应的目标。具体地，令mix（c，w）R512指代其第一条目取自c并且其余条目取自w的潜在向量。通过对新的w向量进行采样，我们可以创建成对数据的无限池，其中输入是未对齐的图像x=G（w），并且目标y=G（mix（c，w））共享G（w）的外观，但处于学习的固定姿势。这就产生了GANgealing损失函数：Lalign（T，c）=`（T（G（w）），G（c）），（2）其中`是两个图像之间的距离函数。通过相对于目标特征向量最小化L，L对齐（T，c）=`（T（G（w）），G（mix（c，w），（3）|{y z} |{yz}c，GANgealing鼓励c找到一个使T的本文主要GGGC不感知损失不感知损失不感知损失GGw2w1134732k=12XL L LLWL（T，c）= minL（T，c）（6）LL⇡i=1WL----选择使用StyleGAN 2 [43]作为我们对G的选择，但原则上其他GAN架构也可以与我们的方法一起使用使用StyleGAN 2的一个优点是它拥有一些固有的风格-姿势解纠缠，我们可以利用这些解纠缠来构建上面描述的每个图像的目标具体来说，我们可以通过使用风格混合[42]来构建每个样本的目标G（mix（c，w））-c被提供给合成生成器的前几个输入，粗略控制姿势，w被馈送到粗略控制纹理的后面的层参见表3，以获得混合“截止点”的定量消融，其中我们开始馈入w（即，选择截止点作为W+空间中的层索引[1]）。空间 Transformer 参数化。回想一下，空间TransformerT将图像作为输入，并且回归并将（反向）采样网格gR HH H W H2应用于输入图像。因此，必须选择如何约束T回归的g。在本文中，我们探讨了一个T，执行相似性变换（旋转，统一的规模，水平- tal移动和垂直移动）。我们还探索了一个任意表达的T，直接回归无约束的每像素流场g。我们的最后一个T是将相似的空间变换器Transformer组合成无约束的空间变换器，我们发现这是最好的。与之前的工作[50，63]相比，我们没有发现多阶段训练的必要性，并训练我们的组合T端到端。最后，我们的Spatial Transformer还能够在测试时执行水平翻转-详情请参见补充B.4当使用无约束T时，添加一个总变差正则化器可能是有益的，该正则化器鼓励预测流平滑以减轻退化解：TV（T）=Huber（λxg）+Huber（λyg），Huber表示Huber损失，并且Huberx和Hubery表示偏导数w.r.t.在有限差分下的x和y坐标我们还使用正则化器，其鼓励流不偏离恒等变换：||G||二、C的参数化。在实践中，我们不直接将梯度反向传播到c中。相反，我们将parametricc作为空间的前N个主方向的线性组合[29，77]：Nc=w<$+idi，（4）i=1其中，w'是经验平均wvector，di是第i个prin-UNR方向，而dui是方向的学习标量系数而不是优化w.r.t. c直接，我们opti-把它放在W。r. t. 在此基础上，提出了一种新的解决方案。这种重新参数化的动机富有表现力因此，在没有额外约束的情况下，c的朴素优化可能会从自然图像的流形中产生较差的目标图像减小N使c保持在流形和防止退化的解决方案。N的消融见表3。我们的最终GANgealing目标是：L（T，c）=EwW[ Lalign（T，c）]+ λTVLTV（T）+ λILI（T）]。（五）我们将损失权重λTV设置为1000或2500（取决于"“的选择），损失权重λI设置为1。有关更多详细信息和超参数，请参见附录B3.2. 联合对齐和聚类到目前为止所描述的GANgealing可以处理高度多模态的数据（例如，LSUN自行车，猫等）。一些数据集，如LSUN Horses，具有非常多样化的姿势，无法通过数据中的单一模式很好地表示为了处理这种情况，GANgealing可以通过简单地学习多个目标潜在c来适应聚类算法。设K为c个向量的个数（组图）我们希望学习。由于每个c捕获数据中的特定模式，因此学习多个ckK将使我们能够学习多个模式。现在，每个ck将学习其自己的一组系数。同样，我们现在将有K空间变形金刚，每个模式一个正在学习。GANgealing的这种变体相当于同时对数据进行聚类并学习所有图像之间的密集对应关系在每个集群中。为了鼓励每一对ck和Tk，在特定模式下进行cialize，我们包括一个硬分配将未对齐的合成图像分配给模式的步骤：K对齐k对齐KK注意，K= 1的情况等同于先前描述的单峰情况。在测试时，我们可以将输入的假图像G（w）分配给其对应的聚类索引k= arg minkalign（Tk，ck）. 然后，我们可以用空间TransformerTk将其扭曲。然而，出现了一个问题，我们不能计算这个集群分配，在-放置真实图像-分配步骤需要计算对齐，这本身需要输入图像对应的w向量。这个问题的最明显的解决方案是对输入真实图像x执行GAN反演[8，11，94]以获得潜向量w，使得G（w）x。然而，尽管最近取得了进展，但非人脸数据集的精确GAN反演仍然具有一定的挑战性和缓慢性[3，33]。相反，我们选择训练一个分类器，直接预测输入图像的聚类分配。我们使用标准的交叉熵损失来训练分类器。（输入伪图像，目标聚类）对（G（w），k= 0），其中k= 0是使用上述分配步骤获得的我们用T的权重初始化分类器（替换warp头具有随机初始化的分类头）。与空间Transformer一样，分类器可以很好地推广到真实图像，尽管只在假样本上进行训练。13474图3.八个数据集上的密集对应结果。对于每个数据集，顶行显示未对齐的图像和数据集平均图像。中间一行显示了我们学习到的输入图像对齐最下面一行显示了图像之间的密集对应对于我们的聚类模型（LSUN Horses和Cars），我们显示了一个选定聚类的结果有关未经策划的结果，请参见附录F4. 实验在本节中，我们介绍了GANgealing在八个数据集上的定量和定性结果：LSUN自行车，猫，汽车，狗，马和电视[87]，野外名人[52]和CUB-200-2011 [83]。这些数据集的特点是物体的外观、姿态和遮挡具有显著的多样性。只有LSUN Cars and Horses使用聚类（K= 4）1;对于所有其他数据集，我们使用单峰GANgealing（K=1）。请注意，除图2外的所有图都显示了我们的方法应用于真实图像，而不是 GAN 样本。请访问www.wpeebles.com/gangealing了解完整结果。1K是一个可以由用户设置的超参数我们发现K= 4是我们聚类模型的一个很好的默认选择4.1. 第一千一百零六章凝空传播通过训练空间TransformerT，识别真实输入图像X.找到一组图像之间的密集对应的一种特别方便的方法是从我们的凝固坐标空间传播。如前所述，T回归并将采样网格g应用于输入图像。因为我们使用反向采样，所以该网格告诉我们在凝结图像T（x）中的每个点映射到原始图像x中的位置。这使我们能够传播来自凝固坐标空间的任何东西-密集标签、稀疏关键点等。如果用户注释单个凝结图像（或平均凝结图像），则他们可以通过简单地预测每个图像的网格g来将这些标签传播到整个数据集幼LSUN猫LSUN电视台LSUN汽车在野生名人LSUN马LSUN狗LSUN自行车13475图4. 使用GANgealing进行图像编辑。通过每个类别只注释一个图像（我们的平均转换图像），用户可以将他们的编辑传播到同一类别中的任何图像或视频。年龄x在他们的数据集通过一个向前通过T。图1和图3显示了所有八个节点的视觉结果-我们的方法可以在存在显著外观和姿势多样性的情况下找到准确的密集对应。GANGEALING准确地处理鸟类的各种形态，具有不同面部表情的猫和不同方向的自行车图像编辑。我们的平均凝结图像是一个模板，可以传播任何用户编辑的图像相同的例如，通过绘制卡通眼睛或将蝙蝠侠面具覆盖在我们的普通凝结猫上，用户可以毫不费力地将他们的编辑传播到大量的猫图像，并向前传递T。我们在图4和图1中显示了几个数据集的编辑结果。增强现实。正如我们可以传播密集的对应图像，我们也可以传播到个别的视频帧。令人惊讶的是，我们发现GANgealing在不利用任何时间信息的情况下应用于每帧视频时会产生非常平滑和一致的结果。这使得混合现实应用，如密集跟踪和过滤器。GANgealing可以优于 RAFT[75] 等监督方法 - 请参阅www.wpeebles.com/gangealing以获取结果。4.2. 直接图像到图像对应除了将对应从凝固空间传播到未对齐的图像之外，我们还可以找到密集的任何一对图像之间的直接对应关系xA13476⇥⇥⇥16张图片！BBOX1.6张19张！BBOX1.9 pix 15 pix！BBOX1.5张14张！BBOX1.4像素图5.各种SPair-71 K类别上的PCK@PMBBOX，适用于10-1和10-2之间的PMBBOX。我们报告的平均阈值（最大距离对应被认为是正确的）像素为256 256图像下每个情节。GANgealing在非常精确的阈值（2像素的误差容限）方面优于最先进的监督方法，有时甚至是相当大的幅度。

下载后可阅读完整内容，剩余1页未读，立即下载