无监督的基于部分的物体形状和外观的学习方法

66 浏览量更新于2023-10-19 收藏 2.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10955无监督的基于部分的物体形状和外观海德堡大学摘要大的类内变化是多个对象特征变化的结果。然而，图像只显示不同可变因素（如外观或形状）的叠加。因此，学习如何区分和表示这些不同的特征是一个很大的挑战，特别是在无监督的情况下此外，大型对象的连接需要一个灵活的基于零件的模型。我们提出了一种无监督的方法，通过在一个类别的所有实例上一致地学习部分来解开我们的学习对象表示模型的训练，同时利用合成变换图像之间的不变性和等变性约束。由于不需要零件注释或对象类的先验信息，因此该方法适用于任意类。我们评估我们的方法在广泛的对象类别和不同的任务，包括姿态预测，解开图像合成，和视频到视频的翻译。该方法在无监督关键点预测方面超越了最先进的技术，甚至在形状和外观转移任务上与有监督方法相比也毫不逊色1. 介绍计算机视觉的一个宏伟目标是在没有监督信息的情况下自动地了解世界上物体的特征。通常，图像显示多个此类变化因素的相互作用。我们想解开[9，2，5，17，10]这些不同特征的影响，并想象，即，合成新的图像，在那里它们被单独改变。例如，在观察了一个对象类别的许多不同的未标记的实例之后，我们想要了解它们在形状（例如相对于观看者的姿势和身体关节）和外观上的变化，毛皮/衣服或肤色的纹理和颜色差异由于物体变形通常会导致图像像素的复杂“拼接”，因此解开形状和外观的纠缠尤其具有挑战性1https://compvis.github.io/unsupervised-disentangling/图1：我们对基于零件的形状和外观进行无监督学习，实现了从无监督姿态估计到图像合成和重定向的众多任务。欲了解更多结果，请访问项目页面1[40，12]：移动肢体可以将先前背景像素的颜色改变为前景，反之亦然。为了解决形状和外观的解开问题，最近提出了几种监督方法[29，28，7，12，41，1]。通过在预先指定的形状表示上调节生成模型，它们能够成功地解释外观。然而，它们仅限于对象类别，对于这些对象类别，姿势标签很容易获得，例如人体和面部，但它们不能应用于任意对象类别的大量未标记数据。对于无监督学习，不是采用已知形状来捕获所有非形状因素，而是需要同时学习最近提出了一些无监督的方法来分解这些因素[40，52]。然而，这些工作只显示了相当刚性的对象的结果，如人脸或需要同一个人的多个实例[8]。对象变化可以是全局的，例如10956视点，但它通常是局部的（动物倾斜其头部，人有/没有夹克），因此需要局部的、分解的对象表示。传统的答案是组成的刚性部分[15，14，13]。背景下最近的无监督形状学习的一个实例是地标[45，58，21]。在本文中，我们提出了第一种方法来学习一个部分为基础的解纠缠表示的形状和外观的铰接对象类没有监督和从头开始。本着综合分析的精神[54]，我们通过生成过程来学习这些因素我们制定明确的等变和不变性约束的对象表示应履行，并将它们纳入一个完全可微的自动编码框架。我们的方法在无监督对象形状学习的最新技术基础上产生了显着的改进，在地标回归的任务上进行了评估。我们在各种各样的数据集上与竞争对手进行了比较，包括刚性和铰接对象，对于强铰接有特别大的收益。此外，我们对形状和外观的非纠缠表示甚至可以与最先进的监督结果进行竞争。我们还展示了视频到视频翻译任务的解缠结果，其中细粒度的清晰度在帧到帧的水平上平滑且一致地翻译。最后，由于我们的表示捕捉本地的外观，它也可以转移外观上的水平，个别的对象部分。可能的应用范围的概述在图中给出。1.一、2. 相关工作解开形状和外观。将对象表示分解为形状和外观是表示学习的一种流行方法。最近，在这个方向上已经取得了很多进展，通过对形状信息的生成模型进行调节[12，29，7，28，41，1]。虽然他们中的大多数人从整体上解释了对象，但只有少数人还引入了分解成部分[41，1]。与这些形状监督方法相反，我们在没有任何监督的情况下学习形状和外观。对于无监督解缠，已经提出了几个生成框架[17，5，24，8，40，52]。然而，这些作品使用整体模型，并在相当刚性的对象和简单的数据集上显示结果，而我们明确地用基于部分的公式来处理强清晰度基于零件表示学习描述一个作为部件组装的对象是一个经典范例用于学习计算机视觉中的对象表示[38，32，6，11]。什么构成一个部分，是这个方案中的定义通过视觉和语义特征或通过几何形状及其在视点变化和对象清晰度下的行为来最近，部分学习主要用于区分任务，如[13，33，42，30，53，22]。为了解决辨别性任务，部件将编码它们与对象的语义连接，并且可以忽略空间布置和接合。相反，我们的方法是由图像建模任务驱动的。因此，部件必须准确地编码空间结构和视觉外观。学习里程碑。有大量文献将界标作为对象结构的紧凑表示。然而，大多数方法使用手动地标注释作为监督信号[50，36，55，60，61，59，47，34、18、46、35、49、31、25、3]。为了在没有监督的情况下解决这个问题，Thewlisetal. [45]建议在图像的人工变换下强制地标位置的等变性。等价性的概念在早期的工作中已经形成[23]，并且已经扩展到学习密集的以对象为中心的坐标框架[44]。然而，只执行等方差鼓励一致的地标在可辨别的对象位置，但忽略了对象的解释性覆盖。Zhang等人[58]关于这个问题：等方差任务由自动编码器框架中的重建任务补充，该重建任务赋予界标视觉意义。然而，与我们的工作相反，他并没有分解物体的形状和外观此外，他的方法依赖于分离约束，以避免地标的崩溃。该约束导致界标的人工的、相当网格状的布局，其不缩放到复杂的关节。Jakab等人[21]提出了从另一个图像的地标表示的条件的生成一幅图像的全局特征表示与另一幅图像的界标位置相结合，以重建后者。而不是考虑地标，只形成一个代表性的空间对象结构，我们分解成一个对象的局部部分，每个都有自己的形状和外观描述。因此，学习部件，其在意义上完全捕获对象类在形状和外观上的变化此外，与所有这些工作（[45，58，21]）相反，我们在公式化我们的等方差约束时考虑了部分的扩展。此外，我们显式地解决的目标，解开形状和外观的一部分为基础的水平，通过引入不变性约束。3. 方法令x：Λ→R是描绘对象和背景杂波的图像。Λ<$N2是图像坐标空间。现在考虑一个图像x′：Λ→R，它显示了同一对象类别的另一个实例尽管有很大的不同-它们的图像像素的边缘，你可以识别出两者都是10957形状流解码器塞雷克当量2外观流图2：用于对象形状和外观的无监督学习的双流自动编码架构相关.是什么使两个图像相似，但没有两个像素是相同的？什么是典型的、显著的差异？我们怎样才能得到一个表示φ，它把图像映射到矢量φ（x）上，而矢量φ（x）既保留了这些相似性，又保留了特征差异？3.1. 基于零件的表示许多原因可能导致x变成x′（发音、视角、物体颜色或衣服、照明条件等的变化）。但我们可以把它们的影响近似和概括为外观变化和形状变化的组合物体变化的影响图像x上的形状可以用作用于下面的图像坐标的空间图像变换s：Λ→Λ来表示，使得图像xs描绘具有改变的形状的对象。同样，我们表示的效果作为图像变换A的图像X上的对象外观的改变，使得图像A（X）描绘具有改变的外观的请注意，许多图像更改本质上是局部例如，动物可能只移动身体的一个部分。类似地，它们的外观只有一部分可以变化，只换了衬衫而不是裤子这激发了表示的基于部分的因式分解，φ（x）：=（φ1（x），φ2（x），. . . ）缩放，以便外观和形状的局部变化保持局部，而不改变整体表示。然而，全球变化也可以通过将它们表示为一个组成部分来解释。各个零件表示φi的变化位置。3.2. 不变性和等变性现在让我们仔细观察图像x和x′之间的差异，以导出要学习的表示φ的 i）物体外观的变化（例如，在其颜色或纹理），不应影响其形状。ii）同样，形状的变化（例如，通过关节运动），不应改变外观。因此，表示需要分离对象的外观和形状，使得两者可以单独变化，即，一个部分的表示被分解为两个分量φi（x）=（αi（x），σi（x））。零件外观建模为n维特征向量αi（x）∈Rn.而零件形状被建模为零件激活图σi（x）：Λ→R+。我们将这些地图可视化为彩色图像（参见图2、图.3），其中每种颜色表示单个部分激活图。我们的表示在对象外观和形状变化下的不变性可以通过不变性约束i）αi（x）=αi（x）和ii）σi（a（x））= α i（x）来总结。σi（x）. 此外，形状的变化显然应该是由形状表示捕获。因此，对于空间变换s，我们得到了等方差约束iii）σi（xs）=σi（x）s。等方差约束简单地说，部分激活映射必须一致地跟踪它们所代表的对象部分（参见σi（ a（ x））和σi（x∈s）在图1中。2）的情况。外观转型近似方程7Eσa（x）零件形状σi（aσ（（））ia x当量当量4重建X提取物当量6项目方程X空间变换⋮⋮部分出现αi（xs）Eσσi（xs）Eα局部特征fxsFXxs10958¨¨¨我我我3.3. 学习目标函数表示φ的学习是通过将不变性和等变性约束从不变性部分集成到重建任务中来驱动的。不变性约束i）和ii）意味着！φi（x）=[αi（x），σi（x）]=[αi（x≤s），σi（a（x））].（一）令D（[φi（x）]i=1，. ，.）是原始图像x从编码部分表示φ1（x），φ2（x），. 使用解码器D. 我们试图重建x，同时要求表示服从（1）中总结的不变性约束，使用重建（2）和等方差损失（4）的表示学习考虑图像对x∈s和a（x）。我们建筑的主导设计原则是对局部形状和局部外观之间的相互作用进行建模。在一个完全可微的过程中，部分激活映射的等方差被用来从x个像素中提取部分外观，并将它们分配给x中相应的图像区域。零件形状。在一个形状流（cf. 图2），沙漏网络[31]Eσ通过部分激活映射σi（a（x））∈Rh×w学习局部化部分i。沙漏模型很适合这个任务，因为它保留了像素的局部性并整合来自多个尺度的信息[31]。多尺度语境是学习各部分之间关系的必要条件¨¨Lrec=？x −D. Σ Σαi（x≠s），σi（a（x））i=1，...Σ¨¨。（二）1并一致地将它们分配给对象。零件外观。现在，让我们通过以下方式对零件进行本地化：检测空间变换图像xxxs中的σi（xxs）此外，零件形状σi（x）的表示应为：变形下的等变然而，简单地最小化像素尺度上的等方差，即，使用相同的网络Eσ（cf.图2外观流）。学习零件外观αi（x≤s），则我们首先将所有规范化的部分行为进行堆叠ΣΣ¨i（xu∈Λ σi（x≤s）[u]和图像编码，即，的i u∈Λ<$σi（xs）[u]−σi（x）[s（u）]<$，（3）网络的第一卷积滤波器Eσ的输出应用于x×s。第二个沙漏网络Eα在实践中是不稳定的，有利于平凡的解决方案，统一的部分激活。因此，我们建立一个等值损失Σ栈作为输入，并将其映射到局部图像外观编码fx∈Rh×w×n上。为了获得局部应用，我们将所有位置的这些特征平均化其中部分i具有正激活L当量=λµµ[σi（xs）]−µ[σi（a（x））s]<$2我（四）α（xs）=Σu∈Λfxs [u]σi（xs）[u].（六）+λ[σi（xs）]−[σi（a（x））s]<$1，我u∈Λ σi（x<$s）[u]其中μ[σi（x）]和μ[σi（x）]表示σi（x）/u∈Λσi（x）[u]坐标上的平均和方差。注意重建原始图像。接下来我们侦查-从零件外观α（xs）和零件激活构造x我们已经使用了不变性ii），以便我们可以使用相同的如（2）中的形状编码σi（a（x））。我们模型的总体训练目标是最小化重建和等方差损失，L=Lrec+ Lequiv.（五）请注意，对象部分先验未知，但为了重建对象，表示φi自动我σi（a（x））使用U-Net [37]（cf. 见图2）。编码器的U-Net只是一组固定的下采样层。只有它的解码器是学习的。我们用部分激活的前两个矩来近似部分激活σi（a（x））1σi（a（x））[u]=1+（u−µ）T−1（u−µ），（7）学习将其组织成有意义的部分，以捕捉形状和外观的变化。特别是，我们不需要引入关于部件之间关系的人为先验假设，例如[58，45]中使用的分离约束。相反，零件表示的局部建模（参见秒3.4）因为形状和外观的分解成分驱使我们的表征去有意义地构建物体，并学习各部分之间的自然关系3.4. 基于零件形状和外观随后，我们将在其中，μi和μi表示归一化部分作用映射σi（a（x））的均值和方差。u∈Λσi（a（x））[u]. 因此，部分激活中存在的额外信息是不可能的。选择，迫使形状编码器Eσ集中于明确的部分定位（否则重建损失将增加）。第二个输入到解码器D在方程。2是局部外观αi（xs）。注意，αi（xs）是没有局部化的特征向量。我们利用这样的事实，即相应的部分作用σ∈i（a（x））表示图像x中的部分i的区域（参见，图2）将零件外观投影到本地化外观编码fx上：10959<$αi（x<$s）·σ<$i（a（x））[u]图2用于外观和形状的无监督学习fx[u]=我Σ1 +J.（八）σj（a（x））[u]10960表1：数据集的困难：清晰度、类内方差、背景杂波和视点变化。数据集Articul. 变种Backgr.视图CelebA猫头CCub-200-2011CCHuman3.6MCCBBC姿势CC狗跑CCC宾州行动CCCC为了重建x，U网可以利用fx，σ∈i（a（x））和x之间的局部对应。3.5. 实现细节对于外观变换，我们应用亮度、对比度和色调的变化。对于图像数据集，s是薄板样条（TPS）变换。在视频数据集上，除了应用合成TPS转换外，我们还运行了-Domly从相同的视频序列中采样另一帧，其充当x个帧。选择部件的数量是不重要的，因为我们的模型对于不同数量的部件是鲁棒的。二、用于Sect. 4.3训练[20]这是一个具有对抗性损失的解码器D。有关架构和实验装置的更多详细信息，请参阅补充资料4. 实验在本节中，我们将评估我们的无监督方法，用于学习外观和形状的非纠缠表示。第4.2节评估并可视化了无监督地标发现任务的形状表示。第4.3节探讨了我们表象的解开。在有条件的图像生成的任务，我们com-championing我们的无监督的形状/外观解缠性能对国家的最先进的解缠方法，利用地面实况形状注释。此外，在帧到帧视频翻译的任务中，我们展示了我们的表示在多个帧上的鲁棒性。此外，我们评估我们的方法的能力，以disentangle部分和他们的局部外观和形状使用部分明智的外观转移。4.1. 数据集[27 ]第27话我的心20万张名人脸，10万个身份。我们将所有图像调整为128×128，并排除MAFL子集的训练集和测试集，遵循[45]。如[45，58]所述，我们在MAFL训练集（19k图像）上训练回归（到5个地面真实地标），并在MAFL测试集（1k图像）上进行测试。猫头[56]有近9k张猫头的图像我们（一）（b）第（1）款图3：在Penn Action上学习的形状表示为了可视化，在一幅图像中绘制了16个部分激活图中的13个。（a）不同的实例，示出了类内一致性，以及（b）视频序列，示出了运动下的一致性和平滑性，尽管每个帧被单独处理。使用[58]的训练-测试分割进行训练（7，747张图像）和测试（1，257张图像）。我们回归了7个注释标志中的5个（与[58]相同）。图像被裁剪的边界框周围的平均地面构造真实地标坐标，并将大小调整为128×128。CUB-200-2011[48]包括CA。来自200种鸟类的12k野生鸟类图像我们排除了海鸟的鸟类，大致使用提供的地标作为边界框信息，并将大小调整为128×128。我们将奇偶校验与有关可见性眼睛的标志。为了与[58]进行比较，我们使用了他们发布的代码。BBC Pose[4]包含手语签名者在不断变化的背景前的各种外观的视频。21.我确已将他们的话告诉他们。测试集包括1000帧，并且测试集签名者没有出现在训练集中。对于评估，如[21]所述，我们利用提供的评估脚本，该脚本测量原始图像分辨率中d= 6像素左右的PCKHuman3.6M[19]提供人类活动视频。我们采用[58]的培训和评估程序。为了与[58]进行适当的比较，我们还使用数据集中提供的现成的无监督背景减除方法去除了Penn Action[57]包含15个不同运动类别的2326个视频序列。在这个实验中，我们使用了6种技巧（网球发球，网球击球，棒球投球，棒球挥棒，跳跃式千斤顶，高尔夫球挥棒）.我们粗略地裁剪了10961图4：对不同对象类别（如人或猫的脸和鸟）以及高度铰接的人体和奔跑的狗的地标的无监督发现。表2：用于Cat Head、MAFL（CelebA的子集）和CUB-200-2011测试集上的地标预测的无监督方法的误差。对于Cat Head和MAFL，误差以眼间距离的%表示，对于CUB-200-2011，误差以图像边缘长度的%表示。数据集#地标猫头1020MAFL10幼崽10[45]第四十五话26.7626.946.32-加卡布[21]--4.69-[第58话]15.3514.843.465.36我们9.889.303.243.91使用提供的边界框，然后将人物周围的图像调整为128×128。《狗跑》是由YouTube上的狗视频制作的，在与《宾州行动》相似的条件下，有1250张图片。狗在不同的背景前朝一个方向跑。17种不同的狗品种表现出广泛不同的外观。[26 ]第26话：一个人53k店内服装图像，高分辨率为256×256。我们选择了显示全身的图像（所有关键点可见，[3]），并使用所提供的列车试验拆分。与Esseret al.[12]我们使用了他们发布的代码。图5：将发现的关键点与CUB-200-2011上的[58]进行比较。我们改进了对象覆盖和地标一致性。注意我们灵活的部件放置与[58]的相当刚性的放置是一致的，因为它们的部件分离偏差。4.2. 形状的无监督学习评价图3可视化了学习的形状表示。为了定量地评估形状估计，我们测量从i t预测地面实况地标（仅在测试期间）的程度。这部分的意思是μ[σi（x）]（参见（4））用作我们的地标估计，并且当从我们的估计线性回归人类注释的地面实况地标时，我们测量误差。为此，我们遵循Thewlis等人的方案。[45]，在训练模型后固定网络权重，提取无监督地标并无偏差地训练单个线性层。在测试集上通过平均误差和正确地标的百分比（PCK）量化性能我们在一组不同的数据集上广泛地评估了我们的模型，每个数据集都有特定的挑战。关于每个数据集所隐含的挑战的概述，请参见Tab。1.一、在所有数据集上，我们的表现都远远优于最先进的技术。不同的对象类。在人类面部、猫面部和鸟类的对象类（数据集CelebA、Cat Head和CUB-200-2011）上，我们的模型在不同实例中一致地预测地标，参见。见图4。选项卡. 2与最先进的技术相比。由于不同的品种和物种，Cat Head，CUB-200-2011在实例之间表现出较大的差异。特别是在这些具有挑战性的数据集上，我们的表现远远优于竞争对手的方法。图5还提供了与CUB-200-2011上[58]的直接视觉比较。很明显，我们预测的地标更接近物体。与此相反，[58]已经学会了一个稍微变形，但仍然相当刚性的网格。这是由于它们的分离约束，这迫使地标相互远离。在我们的方法中，我们不需要这种有问题的偏差，因为局部化的、基于部件的表示和重建指导形状学习并更紧密地捕获对象及其关节。铰接对象姿势。对象清晰度使得一致的地标发现具有挑战性。图4表明，我们的模型在发音下表现出很强的地标一致性，并涵盖了整个人体意义-10962表3：在BBC Pose测试集上的地标预测的性能。作为上限，我们还报告了监督方法的性能。该度量是地面实况位置的6个像素内的点的百分比。BBC姿势精度监督查尔斯[4]79.9%菲斯特[35]88.0%[21]第二十一话百分之六十八点四我们百分之七十四点五表4：在Human3.6M测试集上比较监督、半监督和无监督方法的地标预测。误差以图像边缘长度的%为单位所有方法预测16个标志。Human3.6M错误w.r.t.图像尺寸[31]第三十一话2.16半监督张[58]4.14无监督的Thewlis [45]7.51[第58话]4.91我们2.79完全即使是细粒度的部分，如手臂，也会通过沉重的身体关节进行跟踪，这在Human3.6M和Penn Action数据集中很常见。尽管有更多的并发症，如视点变化或模糊的肢体，我们的模型可以检测到类似质量的PennAction上的地标，就像在更受约束的Human3.6M数据集中一样。此外，复杂的背景杂波，如在英国广播公司的姿态和宾州行动，并不妨碍找到对象。对DogsRun数据集的实验表明，即使是完全不同的狗品种也可以通过语义部分相关联。选项卡. 3和Tab。4.总结定量评价：我们在这两个数据集上的性能都大大优于其他无监督和半监督方法。在Human3.6M上，即使与利用光流超视的方法相比，在BBC Pose上，我们的表现比[21]好6倍。1%，显著降低了与监督方法的性能差距。4.3. 解开形状和外观物体形状和外观的分解表示允许单独改变这两个属性以合成新图像。灵活控制发电机的能力允许例如改变人的姿势或他们的衣服。与以前的工作[12，8，28，29，7，21]相比，我们在不需要监督的情况下实现了这种能力，并且使用了灵活的基于部件的模型而不是整体表示。这允许显式地控制对象的要被改变的部分。我们定量比较图6：在DeepFash-ion上转移形状和外观在没有注释的情况下，模型估计形状，第2列。从顶行图像中提取目标外观请注意，我们在没有图像对的情况下只使用合成变换进行训练。所有图像均来自测试集。反对有监督的最先进的人类形象的解开合成此外，我们定性评估我们的模型在无监督合成的静态图像，视频到视频的翻译，和本地编辑的外观转移。条件图像生成。对深Fashion [27，26]是用于监督解缠方法的基准数据集，任务是将人ID（外观）与身体姿势（形状）分离，然后以八种不同的姿势合成来自测试集的先前未见过的人的新图像我们从测试集中随机抽取目标姿势和外观条件反射。图6示出了定性结果。我们通过评估i）通过重新识别误差的外观相对于形状变化的不变性和ii）通过生成的和姿态目标图像之间的姿态距离的形状相对于外观变化的不变性来定量地比较监督的最先进的解缠[12]i) 为了评估外观，我们使用重新识别（ReID）算法[51] 通过三元组损失 [16] 微调 ImageNet 预训练 [39]Inception-Net [43]到Deep Fashion训练集。在生成的图像上，我们评估了 ReID 的标准指标、平均精度（mAP）以及Tab中的rank-1、-5和-10准确度五、虽然我们的方法是无监督的，但与有监督的VU-Net相比，它具有竞争力[12]。10963表5：在执行形状/外观交换之后，在合成图像上进行人员重新识别的平均精度（mAP）和等级-n精度。从Deep Fashion测试集输入图像。注[12]是监督w.r.t. 形状地图秩-1秩-5十阶[第12话]88.7%87.5%百分之九十八点七百分之九十九点五我们90.3%百分之八十九点四98.2%99.2%表6：形状/外观交换世代上的姿势估计的正确关键点（PCK）的百分比。α是像素距离除以图像对角线。请注意，[12]用作上限，因为它使用地面实况形状估计。α二、百分之五百分之五7 .第一次会议。百分之五百分之十[第12话]95.2%百分之九十八点四百分之九十八点九百分之九十九点一我们百分之八十五点六94.2%96.5%97.4%图7：BBC Pose上的视频到视频翻译。顶行：目标外观，左侧：目标姿态请注意，即使是形状上的细微细节也能准确捕捉。访问视频的项目页面。ii) 为了评估形状，我们使用姿态估计器提取关键点[3]。选项卡. 6报告了生成的和姿势目标之间的差异，以正确关键点（PCK）的百分比表示。正如预期的那样，VU-Net表现更好，因为它是用[3]的关键点训练的尽管如此，我们的方法实现了令人印象深刻的PCK没有监督强调的外观和形状的解开。视频到视频翻译。为了评估我们的解纠缠表示的鲁棒性，我们合成一个视频序列逐帧没有时间一致性约束。在BBC Pose [4]中，一个视频提供了一系列目标姿势，另一个视频提供了一系列源外观，然后执行重定向，图。7.第一次会议。虽然不存在时间耦合，但是生成的序列是平滑的并且姿态估计是鲁棒的。其次，对视频数据中的自然空间变形进行训练，使模型能够封装诸如平面外旋转和复杂的3D艺术等逼真的过渡。10964(a)（b）第（1）款(c)（d）其他事项图8：在Deep Fashion上交换部件外观。可单独更换零件，无需改变形状.我们展示了（a）头的部分交换(b) 躯干（c）腿，（d）鞋。所有图像均来自测试集。手甚至手指的振动由于基于部分的表示的局部性质，该模型对背景中的变化是鲁棒的，并且聚焦于对象，而背景仅被粗略地重建。零件外观转移。灵活的基于零件的表示允许显式控制局部外观。图8示出了衬衫、裤子等的外观互换在与整体表示[12，21，28，29，7]相比，我们可以保证转移集中在选定的对象部分。5. 结论我们已经提出了一种无监督的方法来学习对象的组成部分的结构，从外观解开形状。我们将不变性和等变性约束生成的框架。该模型发现一致的部分，而不需要事先假设。实验表明，我们的方法显着改善了以前的无监督方法。这项工作得到了DFG基金OM 81/1-1和NVIDIA公司硬件捐赠的部分支持。10965引用[1] G. Balakrishnan，A. Zhao，中国粘蝇A. V. Dalca，F.Durand和J. V. Guttag。合成人类在看不见的姿势的图像。arXiv预印本arXiv：1804.07739，2018。一、二[2] Y. Bengio，A. Courville和P。文森特表征学习：回顾与新的视角。TPAMI，2013年。1[3] Z. Cao，T.Simon，S.-E. Wei和Y.酋长利用局部仿射场进行实时多人二维位姿估计在CVPR，2017年。二、六、八[4] J. Charles，T. Pfister，D. R. Magee，D. C. Hogg和A.是的，先生。签名电视广播中上身姿态跟踪的域适应。InBMVC，2013. 五七八[5] X. Chen ，Y. 段河，巴西 - 地Houthooft ， J. 舒尔曼岛Sutskever和P.阿比尔Infogan：通过信息最大化生成对抗网络进行可解释表示学习。NIPS，2016年。一、二[6] T. F. Cootes，G.J. Edwards和C.J. Taylor. 活跃的模特。《欧洲儿童保育公约》，1998年。2[7] R. de Bem ， A.Ghosh ， T.Ajanthan ， O.Miksik ，N.Siddharth，和P. H. S.乇DGPose：用于人体分析的解纠缠半监督深度生成模型。 arXiv 预印本 arXiv ：1804.06364，2018。一、二、七、八[8] E. L. 丹顿和V。比罗德卡从视频中分离表示的无监督学习在NIPS，2017年。一、二、七[9] G. Desjardins、A. Courville和Y.本吉奥。通过生成纠缠解开变异因素arXiv预印本arXiv：1210.5474，2012。1[10] C. Eastwood和C.K. 威廉姆斯解纠缠表征的定量评价框架ICLR，2018年。1[11] A. Eigenstetter，M. Takami和B.奥默视觉识别的随机最大边缘组成。在IEEE计算机视觉和模式识别会议的Proceedings中，第3590-3597页。IEEE，IEEE，2014. 2[12] P. Esser，E. Sutter，和B.奥默一个用于条件外观和形状生成的变分u-网。CVPR，2018年。一二六七八[13] P. F.费尔岑斯瓦尔布河B. Girshick，D. A. McAllester和D. Ramanan使用区分性训练的基于部分的模型进行对象检测。TPAMI，2010年。2[14] R. Fergus，P. Perona，and A.齐瑟曼。通过无监督尺度不变学习的对象类别识别。在CVPR，2003年。2[15] M. A. Fischler和R. A.埃尔施拉格图像结构的表现和匹配IEEE Transactions on Computers，1973. 2[16] A.赫尔曼斯湖Beyer和B. Leibe为三胞胎的丢失辩护，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。7[17] I. 希金斯湖，澳-地 Matthey，A. 帕尔角 Burgess，X.格洛特M. Botvinick ， S. Mohamed 和 A.LerchnerBeta-Boundary：使用受约束的变分框架学习基本的视觉概念ICLR，2017年。一、二[18] C.约内斯库F. Li和C.斯明奇塞斯库用于人体姿态估计的潜在结构模型。见ICCV，2011年。2[19] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库胡-曼3.6米：自然环境中三维人体感知的大规模数据集和预测方法。TPAMI，2014年。5[20] P. Isola，J.- Y. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。arXiv预印本，2017年。5[21] T. Jakab，A.古普塔H. Bilen和A.维达尔迪用于学习视觉对象结构的条件图像生成。NIPS，2018年。二五六七八[22] M.兰姆湾，澳-地Mahasseni和S.托多洛维奇细粒度识别作为hsnet搜索信息图像部分。在CVPR，2017年。2[23] K. Lenc和A.维达尔迪学习协变特征检测器。在ECCV研讨会，2016年。2[24] Z. Li，Y.Tang和Y.他外具有类比关系的无监督解缠在IJCAI，2018。2[25] J. Lim，Y.，（1991 - 1995），美国，《生物学杂志》尤湾，澳-地Heo和J.Y.崔位姿变换网络：学习在变化的自动编码潜在空间中解开人体姿势。模式识别。Lett. ，2018年。2[26] Z. Liu，P. Luo，S. Qiu，X. Wang和X.唐Deepfashion：支持强大的服装识别和检索与丰富的注释。在CVPR，2016年。六、七[27] Z. Liu，P. Luo，X. Wang和X.唐在野外深度学习人脸属性。在ICCV，2015年。五、七[28] L.妈，X。贾湾，加-地孙湾Schiele，T. Tuytelaars和L.V.Gool姿势引导人物图像生成。在NIPS，2017年。一、二、七、八[29] L.马角，澳-地孙习乔治古利斯湖V. Gool，B. schiele和M.弗里茨分解的人物形象生成。CVPR，2017年。一、二、七、八[30] G. Mesnil，A.Bordes，J.韦斯顿湾Chaihik和Y.本吉奥。学习对象及其部件的语义表示。Mach Learn，2013. 2[31] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。ECCV，2016。二四七[32] T. D.阮氏T. Tran，D. Q. Phung和S.文卡特什用非负限制玻尔兹曼机学习零件表示法。InACML，2013. 2[33] D. Novotny，D.Larlus，和A.维达尔迪Anchornet：一种弱监督网络，用于学习语义匹配的几何敏感特征。在CVPR，2017年。2[34] M.佩德索利河特里夫特Tuytelaars和L. J.V.古尔。利用变形场模型定位弱监控下的面和面点。CVPR，2014。2[35] T. Pfister，J. Charles，and A.齐瑟曼。用于视频中人体姿态估计的流动卷积网。在ICCV，2015年。二、七[36] R. Ranjan，V. M.帕特尔和R。切拉帕Hyperface：一个深度多任务学习框架，用于人脸检测、地标定位、姿势估计和性别识别。TPAMI，2017。2[37] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络在MIC-CAI，2015. 4[38] D. A. Ross和R. S.泽梅尔学习基于零件的数据表示。JMLR，2006年。210966[39] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein等人图像网大规模视觉识别挑战。ICCV，2015年。7[40] Z. 舒，M. 萨哈斯拉布乌代河A. Guéler，D. Samaras，N.帕拉吉奥斯，还有我。Kokkinos变形自动编码器：形状和外观的非监督解缠。在ECCV，2018。一、二[41] A. Siarohin，E. Sangineto，S. Lathuili e`re和N. Sebe 用于基于姿态的人体图像生成的可变形gansCVPR，2018年。一、二[42] S. 辛格A.Gupta和A.A. 埃夫罗斯无监督发现中级判别补丁。ECCV，2012年。2[43] C.塞格迪W.刘先生，Y.贾，P.SermanetS.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A. 拉比诺维奇。更深的回旋。CVPR，2015。7[44] J. Thewlis，H. Bilen和A.维达尔迪通过稠密等变图像标记的对象帧的无监督在NIPS，2017年。2[45] J. Thewlis，H. Bilen和A.维达尔迪通过分解空间嵌入的对象地标的无监督InICCV，2017. 二四五六七[46] A. Toshev和C.赛格迪Deeppose：通过深度神经网络进行人体姿势估计。CVPR，2014。2[47] N. Ufer和B.奥默深度语义特征匹配。在IEEE计算机视觉和模式识别会议论文集，第6914-6923页2[48] C. Wah，S.布兰森山口韦林德山口Perona和S.贝隆吉加州理工学院-ucsd鸟类-200-2011数据集。技术报告加州理工学院，2011年。5[49] S.- E. Wei，V.Ramakrishna，T.Kanade和Y.酋长卷积姿态机器。在CVPR，2016年。2[50] Y. Wu和Q.纪在显著头部姿势和遮挡下的鲁棒面部标志检测。CVPR，2015年。2[51] T. Xiao，S.李湾，澳-地王湖，加-地Lin和X.王.用于人员搜索的联合检测和识别特征学习。在CVPR中。IEEE，2017年。7[52] X.兴河Gao，T.汉，S.- C. Zhu和Y. N.吴可变形发电机网络：外观和几何形状的无监督分离。arXiv预印本arXiv：1806.06298，2018。一、二[53] W. 杨，W.欧阳，H.Li和X.王. 端到端学习可变形混合部件和深度卷积神经网络，用于人体姿势估计。在CVPR，2016年。2[54] I. Yildirim，T. D. Kulkarni、W. Freiwald和J. B.特伦鲍姆。视觉中的高效综合分析：一个计算框架，行为测试和神经元表征建模。InCogSci，2015. 2[55] X. Yu，F. Zhou和M. Chandraker基于深度变形网络的目标界标定位。在ECCV，2016年。2[56] W. Zhang，J. Sun，and X.唐猫头检测-如何有效地利用形状和纹理特征。ECCV，2008年。5[57] W. Zhang，M. Zhu和K. G.德尔帕尼斯从行为到行动：用于详细动作理解的强监督表示。InICCV，2013. 5[58] Y. Zhang， Y. Guo，Y. Jin

下载后可阅读完整内容，剩余1页未读，立即下载