无监督图像分解算法：通过无监督学习图像分解为对象原型来识别对象类别和实例参数

127 浏览量更新于2023-10-14 收藏 2.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8640无监督分层图像分解为对象原型Tom Monnier1 Elliot Vincent1，2 Jean Ponce2 Mathieu Aubry11LIGM，E´coledesPonts，Uni vGustav eEif fel，CNRS，Marne-la-Valle´ e，France2Inria，E´colenormalesupe´ rieure，CNRS，PSLResearchUni versity，巴黎，法国imagine.enpc.fr/~ monniert/DTI-Sprites摘要我们提出了一个无监督的学习框架，用于将图像分解为自动发现的对象模型层。最近的方法，模型图像层与自动编码器网络相反，我们将它们表示为一小部分原型图像的显式变换我们的模型有三个主要组成部分：（i）一组具有透明通道的可学习图像形式的对象原型，我们称之为sprites;（ii）可微参数函数，预测在给定图像中实例化sprites所需的遮挡和变换参数;（iii）具有遮挡的分层图像形成模型，用于将这些实例合成为包括背景的完整图像。通过联合学习子画面和遮挡/变换预测器来重建图像，我们的方法不仅产生准确的分层图像decomposition，而且还识别对象类别和实例参数。我们首先通过提供与标准多对象合成基准测试（Tetrominoes，Multi-dSprites，CLEVR 6）上的最新技术水平相当的结果来验证我们的方法。然后，我们证明了我们的模型的适用性，以真实的图像中的任务，包括聚类（SVHN，GTSRB），cosegmentation（魏兹曼马）和对象的dissection，从未经过滤的社交网络图像。据我们所知，我们的方法是第一个分层的图像分解算法，学习一个明确的和共享的概念的对象类型，是强大的，足以适用于真实的图像。1. 介绍本文的目的是在没有任何监督的情况下学习图像的分层分解，其中每一层都是原型对象的转换实例这种图像的可解译和分层模型可以有益于大量的应用，如对象发现[16，6]、图像编辑[72，21]、未来帧预测[71]、对象姿态预测[72]、图像编辑[73]和图像编辑[74]。估计[53]或环境抽象[1，44]。最近的作品在这个方向[6，21，46]通常学习分层的IM-图1：我们的方法在没有监督的情况下学习，将图像分解成层，作为原型对象（称为精灵）的转换实例进行建模。我们展示了CLEVR [30]（顶部）上的分解示例以及Tetrominoes [21]和GTSRB [60]（底部）的发现精灵示例透明度使用浅灰色棋盘进行可视化。通过自动编码器网络生成层来进行年龄分解。相比之下，我们明确地将它们建模为具有透明度的一组原型图像的变形，我们将其称为精灵。这些精灵通过几何和色度变换映射到它们的实例上，从而产生我们所谓的对象层。然后从有序的对象层组装图像，使得每个层在它们重叠的区域中遮挡先前的层。8641我们的构图模型让人想起经典的计算机图形精灵模型，流行于20世纪80年代的控制台和街机游戏。虽然经典的精灵只是简单地放置在不同的位置并与背景合成，但我们以类似于Jojic和Frey在视频建模方面的工作[ 31 ]的精神重新审视了这个概念，并在更一般的意义上使用了这个术语：我们的精灵可以经历丰富的几何变换和颜色变化。我们共同学习在一个无监督的方式都sprites和参数函数预测他们的transformations解释图像。这与最近由Monnier等人设计的用于聚类的深度变换不变（DTI）方法有关。[51 ]第51段。与这项工作不同的是，如何以往任何时候，我们处理的图像，涉及有限的空间支持，不同的变换和潜在的相互遮挡解释的对象的数量可变。这使得问题非常具有挑战性，因为对象不能被独立地处理，并且图像合成的可能数量在层数中是指数的。我们在第4.1节中通过实验证明，我们的方法与通常用于图像分解评估的合成数据集的最新技术水平相当[21]。由于我们的方法明确地建模图像组成和对象转换，它也使我们能够在这些数据集上执行简单和受控的图像操作。更重要的是，我们证明了我们的模型可以应用于真实图像（第4.2节），在那里它成功地识别对象及其空间范围。例如，我们报告在流行的SVHN基准测试[52]上的最新技术水平上绝对增加了5%，并且在Weizmann Horse数据库上获得了良好的共分割结果[4]。我们还定性地表明，我们的模型成功区分前景从背景上具有挑战性的社会网络图像集。捐款.总之，我们提出：• 无监督学习方法，其将图像解释为具有背景模型的变换的精灵的分层组合物;• 使用通常的实例分割评估和对语义分割的附加评估，在标准合成多对象基准上获得了强有力的结果，据我们所知，竞争方法从未报道过语义分割;以及• 结果对真实图像的聚类和cosegmentation，我们相信这从来没有证明了早期的无监督图像分解模型。代码和数据可以在我们的项目网页上找到。2. 相关工作分层图像建模。通过合成连续层来构建图像的想法已经可以在Materon [48]介绍枯叶的早期工作模型，其中图像被组装为一组模板，这些模板部分地彼此遮挡并分层放置最初的意思是材料统计分析，这项工作是由李等延伸。[40]涉及自然图像的尺度不变表示Jojic和Frey [31]提出将视频序列分解为经历空间修改的层- 称为灵活的精灵-并演示了视频编辑的应用程序。利用这一思想，Winn和Jojic [70]引入了LOCUS，这是一种从未标记图像中学习对象模型的方法，并对其进行了前景分割评估最近，方法[73，43，57，9，3]使用生成对抗网络[19]来学习分层图像组合，但它们仅限于前景/背景建模。虽然我们还对分层图像形成过程进行建模，但我们超越了图像序列和前景/背景分离的简单设置，将图像分解为多个对象，每个对象属于不同的类别并可能相互遮挡。将图像分解为对象。我们的工作与最近利用深度学习在无监督环境中学习基于对象的图像分解的工作趋势密切相关。第一线的作品从空间混合模型的角度来处理这个问题来自Greff等人的几部作品。[23，22，24]引入空间混合，用神经网络对复杂像素依赖性建模，并使用迭代细化来估计混合参数。MONet [6]联合学习递归分割网络和变分自动编码器（VAE）来预测组件掩码和外观。相反，IODINE [21]使用迭代变分推理来细化与空间广播解码器[69]联合解码的对象表示结合MONet和IODINE的思想，GENESIS [15]使用自回归先验预测用于对输入的掩蔽区域进行自动编码的对象掩蔽表示。利用迭代注意力机制[64]，Slot Attention [46]以类似于IODINE的方式产生以对象为中心的表示。其他相关方法是[63，68，74]。另一组方法建立在Eslami等人的工作基础上。引入AIR [16]，这是一种基于VAE的模型，使用空间注意力[28]迭代指定要重建的区域。这特别包括SQAIR [36]，SPAIR [13]和最近的SPACE[44]，特别是将空间混合用于模拟复杂背景。据我们所知，这些方法中没有一种明确地对对象类别进行建模，也没有证明对真实图像的适用性相比之下，我们代表每种类型的对象由不同的原型，并显示在互联网上的图像的结果。变换不变聚类。如果每个图像包含单个对象，则以无监督方式识别对象类别可以被视为聚类问题8642×个联系我们×个1Jℓℓα cα图2：概述。给定一个输入图像（以红色突出显示），我们为每一层预测要应用于最佳重建输入的子画面的变换。给定预测的遮挡矩阵δ，变换的子画面和背景可以被组成许多可能的重建。我们引入贪婪算法来选择最佳重建（以绿色突出显示）。最新的方法对学习到的特征进行聚类[25，29，35，62]，并且不显式地对图像进行建模。相比之下，变换不变聚类显式地对变换建模，以在聚类之前对齐图像。Frey和Jojic首先通过在期望最大化（EM）[14]过程中整合像素置换变量来引入该框架[17，18一些作品[50，39，11，12]在图像对齐的简单设置中开发了连续参数变换的类似想法，后来再次应用于[45，49，42，2]的聚类最近，Monnier等人[51]通过利用神经网络预测空间对齐，将这些想法推广到全球对齐和大规模- 实现为空间变换器[28]、颜色变换和形态修改。同样与我们相关的是，SCAE [35]利用胶囊[26]的思想来学习仿射感知图像特征。然而，发现的胶囊被用作用于聚类和对图像的适用性的特征。3. 方法在本节中，我们首先呈现我们的图像形成模型（ Sec.3.1 ），然后描述我们的无监督学习策略（Sec.3.2）。图2显示了我们的方法的概述。符号。我们写一个1：n的有序集。. .、n、逐像素乘法，并对图像使用粗体符号。给定大小为H W的N个彩色图像x1：N，我们希望学习将它们分解为由K个精灵的实例化定义的L个对象层3.1. 图像形成模型分层组合工艺。受分层图像模型[48，31]的早期工作的启发，我们建议将图像分解为L个对象层1：L，它们彼此重叠每个对象层都是一个四通道图像大小为H W的图像，三个通道对应于彩色RGB外观图像oc，最后一个oα是透明图像。分解为对象的情况尚未得到证实。c共分段和对象发现。我们的方法也可以涉及到传统的方法，对象发现，ERY，其中的任务是识别和定位对象，监督。第一组方法[58，56，7，59]将图像描述为视觉词，以利用主题建模和本地化对象的方法。另一组方法旨在计算图像中区域之间的相似性，并使用聚类模型来发现对象。这尤其包括用于共分割的[20，32，65，55，33和[54，10，66，41，67]用于对象发现。尽管这些方法展示了强有力的结果，但是它们通常使用或α通道/o。给定层〇1：L，我们将我们的图像形成过程定义为递归合成：∀ℓ>0,cℓ=oℓ⊙oℓ+(1−oℓ)⊙cℓ−1,(1)其中c〇=0，并且组合物的最终结果是cL。请注意，此过程明确地对遮挡进行建模：所述第一层对应于距所述相机最远的对象，并且层L是最接近的，遮挡所有其它层。特别地，我们通过使用〇a= 1的第一层来对背景进行建模。展开方程中的递归过程（1）、分层合成过程可以以紧凑的形式重写手工制作的功能，如显着性措施或现成的L L对象建议算法，其经常被监督。更重要是，它们不包括图像形成模型。Cδ（01，. . . ，〇L）=Σ。Y（1−δjoα）Σ⊙oα⊙oc，（2）=1j=18643×个ℓℓCNL¨2不不̸不β′武克不不ℓη武克武克ηλX其中δj=1[j>]是j >的指示函数。δ是我们称为遮挡矩阵的L/L二进制矩阵：对于给定的索引j和δ，如果层j遮挡层δ ，则δj=1，否则δj=0这给出了Eq. （2）明确解释：每一层的外观都被其自身的透明度所掩盖通道oα和其它层j阻塞它，即为此δj=1。请注意，我们明确地引入了依赖于我们在图1中说明了我们的图像形成模型，并在图2中提供了详细的示例。3.2. 学习我们在没有任何监督的情况下通过最小化目标函数来学习图像模型：因为我们稍后将预测它，这直观地对应于层重新排序。雪碧造型。我们将每一层都建模为一个明确的跨-L（s1：K，1：L，ψ）=Σi=1mink1，…KL. Σj=11[kj=0]+形成K个可学习的精灵s1：K之一，其可以被视为表示对象类别的原型每个�i−C ψ（xi）.T1（xi）（sk1），. . .、TL（xi）（skL）2Σ，（五）子画面sk是一个可学习的任意大小的四通道图像，一个RGB外观图像sc和一个透明度通道其中s1：K是精灵，1：L和ψ是神经网络k预测变换参数和遮挡ma-k。sαK. 为了处理数量可变的对象，我们对对象进行将空子画面s0=0添加到K个子画面候选中，并惩罚期间使用非空子画面学习（见第二节）3.2）。这样的建模假设我们知道对象的最大数量的上限，这在这样的设置中是相当标准的[6，21，46]。受最近为聚类[51]设计的深度变换不变（DTI）框架的启发，我们假设可以访问一族可微变换β由β-e.g.R6中β的仿射变换使用空间Transformer [28]实现-并且我们将每个层建模为应用于K个精灵之一的变换β我们定义了两组变换对于给定的层：（i）T放置参数化的变换对于给定的图像xi，λ是标量超参数，并且1[kj=0]是kj=0的指示函数。第一个和是在数据库中的所有图像上，最小值对应于对用于每一层的子画面的选择和第二总和对非空子画面的数目进行计数。如果λ>0，则该损失鼓励使用最小数量的非空子画面进行重建。实际上，我们使用λ=10−4。注意我们的损失和梯度之间的相似性基于K均值算法[47]的自适应[5]，其中最接近原型的平方欧几里德距离最小化，以及其变换不变版本[51]，包括神经网络建模变换。除了上一节描述的分层合成模型之外，与我们的η通过sprη和共享的所有精灵在该层，和（ii）νk特定于每个精灵并由以下参数化的变换好的更正式地，对于给定的层和子画面k，我们写：模型是L子画面选择和我们接下来讨论的遮挡建模。层SPR精灵选择。因为在Eq. （5）是Tβk（sk）= Tη◦ Tνk（sk），（3）接管（K+1）L个可能的选择，导致为其中β=（η，ν）和T=T铺设◦ T弹簧许多重建，在所有组合的详尽搜索在处理多个问题虽然它可以包含在Tspr中，但我们将Tlay分开以约束变换并避免坏的局部最小值。例如，我们使用它来建模一个粗略的空间定位，以便一个层中的所有精灵都关注图像中的同一对象。相反，我们使用spr来模拟sprite特定的变形，例如局部弹性变形。在对背景建模时，我们考虑一组不同的K′背景原型b1：K′，而没有transarency y，以及不同的变换族bkg。为了简单起见，我们在没有背景的情况下写出方程，并在本文的其余部分省略特定于精灵的变换，写成Tβ（sk）而不是Tβk（sk）。总而言之，我们的图像形成模型由遮挡矩阵δ、每层子画面选择（k1，. . . ，kL），对应的变换参数（β1，. . . ，βL），并且输出图像x，使得：伊什博克伊什博克（η，νk）对象和层。因此，我们提出了一个迭代的贪婪al-8644δ值K1KL按深度排序然而，我们通过实验观察到在算法1中描述并且当L>2时使用的用于估计最小值的算法。虽然它提供的解决方案当然不能保证是最佳的，但我们发现它在实践中表现良好在每次迭代中，我们逐层进行，并迭代地为每个层选择使损失最小化的精灵k，保持所有其他对象层固定。这将要执行的重建的数量减少到T（K+1）L。在实践中，我们已经观察到对于Tetrominoes在1次迭代之后以及对于Multi-dSprites和CLEVR 6在2-3次迭代之后达到收敛，因此我们在这些实验中分别使用T = 1和T = 3。我们的实验表明，在我们的消融研究中，第二节。4.1，这种贪婪的方法产生的性能相比，一个详尽的搜索建模时，少量的层和子画面。遮挡建模。在我们的公式中定义的组合过程中明确建模遮挡。（2）由于o，. . . ，ox= C。不（s）、.. . 、T（s）Σ。（4）1升β1βL8645←←←∈2×个×个−×个算法一：贪婪的精灵选择。输入：图像x，遮挡δ，（K+1）×L对象候选层T（x）（sk），步长T通常用作评估。因此，最近的方法（例如[6，21，15，46]）首先通过定量表现评估他们推断物体空间排列的能力输出：子画面索引初始化：ℓ（k1，. . .，kL）用于对象实例发现。博学者的知识对象的概念，然后通过定性评估1，. . . ，L，k0，o01，对于t = 1，. . . ，T做#次迭代2，其中. . ，Ldo#在层上循环令人信服的以对象为中心的图像处理[6，21]，包括区域重建[6，46]或现实生成3k ←minkΣλ1[k=0]+采样[15]。这些方法都没有明确地建模对象的类别，据我们所知，它们的4x− Cδ（o1：−1， T（x）（sk），o+1：L）2Σ适用性仅限于合成图像。ℓ5o←T（x）（sk）6端部2在本节中，我们首先在标准的多目标综合基准上评估和分析我们的模型4.1）。然后，我们证明了我们的方法可以应用于7端8返回k1，. . . ，kL层学习专门化图像中的不同区域这似乎对应于损失函数的局部最小值，并且模型无法对层进行重新排序以预测正确的遮挡。因此，我们放松模型并预测遮挡矩阵δ = ψ（x）[0，1]L×L，而不是保持其固定。更确切地说，对于每个图像x，我们使用神经网络预测1个L（L−1）值真实图像（Sec. 4.2）。我们使用我们的模型的2层版本来执行聚类（4.2.1），共分割（4.2.2），以及从未经过滤的Web图像集合（4.2.3）中进行定性对象发现。4.1. 多目标综合基准测试数据集和评估。Tetrominoes [21]是通过在35 35图像中放置三个没有重叠的Tetrominoes生成总共有19种不同的Tetro- minoes（计算离散旋转）。多精灵[34]包含60 k大小为64×64的图像，其中包含2到5个对象sam-网络后接sigmoid函数。然后将这些值整形为具有零对角线的下三角L L矩阵，并且通过对称性计算上部分，使得：<δji. 虽然这种预测的遮挡矩阵不是二进制的，并且不直接转换成对应的遮挡矩阵。层重新排序，它仍然允许我们使用等式2来计算合成图像。（2）以及与每个对象相关联的遮罩注意，这样的矩阵可以对更复杂的遮挡关系（诸如非传递遮挡关系）进行建模。在推断时，我们简单地用δij>0替换δij。5以获得二元遮挡关系。我们还尝试计算对应于真实层重新排序的最接近矩阵，并获得了类似的结果。请注意，当我们使用背景模型时，其遮挡关系被固定，i. e. j>1，δj1=1。培训详情。我们的培训策略中有两个要素对学习的成功至关重要。首先，在[51]之后，我们采用了从最简单的转换开始的课程学习。其次，受Tieleman [61]和SCAE[35]的启发，我们以鼓励掩码为二进制的方式在掩码中注入均匀噪声（详见补充资料）。这使我们能够解决颜色和alpha通道之间存在的模糊性，并获得清晰的遮罩。我们在补充材料中提供了有关网络架构，计算成本，所用转换和实现的更多细节4. 实验评估基于对象的图像分解模型的质量是模糊和困难的，并且在合成多对象基准上的下游应用，例如[34]由一组3种不同的形状组成：椭圆、心形、正方形。CLEVR6 [30，21]包含34，963个合成生成的图像，大小为128 128。每个图像由可变数量的对象（从3到6个）组成，每个对象从6个类别中采样- 3种不同的形状（球体，圆柱体，立方体）和2种材料（橡胶或金属）-并随机渲染。因此，我们使用每个对象类别一个精灵和与每个图像的最大对象数量一样多的层来训练我们的方法，必要时使用背景层根据标准实践[21，46]，我们通过对所有图像进行平均来评估320个图像上的对象实例分割，调整后的排名指数（ARI）仅使用地面实况前景像素（我们表格中的请注意，由于背景像素被过滤，ARI-FG强烈支持像[21，46]这样的方法，这些方法过度分割对象或不区分前景和背景。为了限制显式地对背景进行建模的模型的惩罚然而，我们认为，前景/背景分离是至关重要的任何下游应用程序，也主张使用一个真正的ARI度量计算的所有像素（包括- ING背景），我们包括在我们的结果。此外，我们认为，知识的对象类别应进行评估，并包括定量结果的无监督语义分割的补充材料。结果我们的结果与表1中的现有技术方法进行了定量比较。在Multi-dSprites上，根据其高值自动过滤了超出5次运行的异常值8646表1：多对象实例发现。遵循标准实践，我们报告在5次运行上平均的ARI-FG（仅在前景我们还报告了我们的结果与真正的ARI，一个指标，我们主张未来的比较。我们标记结果（△），其中一个离群运行被过滤掉。方法公制Tetrominoes Multi-dSprites CLEVR 6 MONet [6]ARI-FG-90.4± 0.896.2±0.6碘[21] ARI-FG 99.2± 0.4 76.7± 5.698.8±0.0插槽属性[46] ARI-FG 99.5△± 0.291.3± 0.398.8±0.3ARI-FG 99.6± 0.292.5△±0.3九十七2±0。2我们的ARI 99.8± 0.1 95.1△± 0.190.7±0.1图3：多对象发现。从左到右，我们示出了输入、重建、语义（每种颜色对应于不同的子画面）和实例分割，并且第一分解层被着色为w.r. t。面具的实例与其他人相比，重建损失。我们的方法获得的结果与所有基准的最佳竞争方法不相上下。虽然我们的方法在描绘2D场景的基准测试上更成功，但它仍然在CLEVR6上提供了良好的结果，其中图像包括3D效果。我们提供我们的结果使用真正的ARI指标，我们认为是更有趣的，因为它是不偏向于过度分割的方法。虽然竞争方法没有报告这种测量，但官方IODINE实现1中显示的CLEVR 6分解示例给出了完美的100% ARI-FG分数，但ARI达到20%。与所有竞争的方法相比，我们的方法明确的模型类别的对象。特别是，它能够学习可以与每个对象类别相关联的原型图像。从CLEVR6和Tetrominoes发现的精灵如图所示。1.一、注意Tetrominoes上的学习精灵是如何锋利的，以及我们如何识别材料1https://github.com/deepmind/deepmind-research/blob/master/iodine图4：以对象为中心的图像操作。给定来自CLEVR6[30]的查询图像（左上），我们显示了最接近的重建（右上）和几个图像操作（接下来的四行）。从上到下，分别使用不同的精灵，改变物体的颜色，改变物体的位置和修改比例。在CLEVR6通过学习两个不同的精灵为每个形状。在图3中，我们显示了在三个基准测试中获得的一些定性结果。给定样本图像，我们从左到右显示最终重建，语义分割（在补充材料中定量评估），其中每种颜色对应于不同的子画面，实例分割和图像分解的前四层。请注意，我们如何成功地预测遮挡，模型变量数量的对象，分离不同的instances，以及识别对象类别和它们的空间范围。更随机的分解结果是补充资料和我们的网页上显示。与其他方法相比，通常需要一种形式的监督来解释学习的表示为对象的视觉变化，我们的方法具有的优势，提供了一个直接访问的对象实例参数，使我们能够直接操纵它们的图像。在图4中，我们示出了不同的以对象为中心的图像操纵，诸如对象交换以及颜色、位置和比例变化。请注意，我们也可以渲染出分布实例，如粉红色球体或巨大的圆柱体。消融研究。我们在表2中分析了我们模型的主要组成部分。出于计算的原因，我们评估我们的贪婪算法的多dSprites 2-子集的多dSprites只包含2个对象-并显示出相当的性能，一个详尽的搜索在所有的组合。8647×个表2：消融研究。结果在5次运行中取平均值。数据集模型ARI-FG ARIMulti-dSprites2 Full95.5±2.1 95.2± 1.9w/o贪婪算法。 94.4± 2.795.9±0.3Multi-dSprites Full91.5±2.2 95.0±0.3不发生预测值85.7± 2.2 94.2± 0.2丁氨醇满99.6±0.2 99.8±0.1无共享转换 95.32019 - 06 -22 00：00：00遮挡预测在包含许多遮挡的Multi-dSprites上进行评估。因为我们的模型具有固定的遮挡，无法重新排序层，所以当学习遮挡时，性能明显更好。最后，我们比较了Tetrominoes上获得的结果时，只建模精灵特定的转换，没有共享的，并显示了两个设置之间的明显差距。我们提供了K和λ的影响，在补充分析。局限性。我们的优化模型可能会陷入局部最小值。Multi-dSprites上的典型故障模式可以在图1中的重建3其中学习三角形而不是心形。这个精灵可以对齐到一个目标的心脏形状使用三个不同的等效旋转，我们的模型并没有设法收敛到一个一致的。这个问题可以通过建模更多的精灵，手动计算重建不同的离散旋转，或指导变换预测与监督精灵变换。4.2. 真实图像基准测试4.2.1聚类数据集。我们评估我们的模型在两个真实的图像clustering数据集使用2层，一个用于背景和一个用于前景对象。SVHN [52]是一个标准的聚类数据集，由从Google街景图像中裁剪的房屋号码中提取的数字组成根据标准实践[27，35，51]，我们对标记的子集（99，289张图像）进行评估，但也使用530k未标记的额外样本进行训练。我们还使用GTSRB数据集的平衡子集[60]报告了交通标志图像的结果，我们称之为GTSRB-8。我们在训练分割中选择了具有1000到1500个实例的类，产生8个类和1000个实例。10，650张图片，我们调整为28 ×28。结果我们使用全局聚类精度将我们的模型与表3中的最先进方法进行比较，其中使用匈牙利算法[37]计算聚类到类的映射。我们用与类一样多的精灵和一个背景原型来训练我们的2层模型。在这两个基准上，我们的方法都提供了有竞争力的结果。特别是，我们在标准SVHN基准上提高了5%的绝对增长。表3：聚类比较。我们报告平均聚类精度。我们用官方实现（）标记我们自己运行的方法，使用数据增强（▽）或ad-hoc表示（†用于GIST，‡用于Sobel滤波器）。方法运行GTSRB-8 SVHN图5：定性聚类结果。我们比较了使用DTI聚类学习的原型和我们在GTSRB-8（左）和SVHN（右）上发现的精灵。类似于DTI聚类，我们的方法执行集群，ING在像素空间中的独家，并提供viding可解释的结果的优势图5显示了在GTSRB-8和SVHN数据集上学习的子画面，并将它们与使用DTI聚类学习的原型进行了比较。特别注意发现的GTSRB-8子画面的清晰度。4.2.2共分段数据集。我们使用Weizmann Horse数据库[4]来定量评估我们面具的质量。它由327个侧视马图像组成，大小为128 128。尽管与最近的共分割数据集相比相对简单该数据集主要用于经典（非深度）方法，由于计算原因，这些方法在30张图像上进行了训练和评估，而我们在全集上进行了训练和评估。结果我们将我们的2层方法与表4中的单个子画面与经典的共分割方法进行比较，并报告分割精度-正确分类为前景或背景的像素的平均百分比-平均超过5次运行。我们的研究结果与这些经典的ap-学习特征[25]第二十五话20-38.6▽SCAE [35]5-55.3‡IMSAT [27]1226.9▽57.3▽†扫描[62]590.4▽54.2▽像素值DTI-Clustering [51] 10 54.357.4我们1089.463.18648×个表4：Weizmann Horse共分割比较。[55][32][38][75][76] [77]准确度（%）74.980.184.686.487.687.9图6：定性共分割结果。从Weizmann Horse [4]学习的Sprite和mask（左）和一些结果示例（右）为每个输入，其重建，分层合成和提取的前景。接近虽然最近的方法可以在这个数据集上超越我们的方法，我们认为，获得与这种竞争方法相当的性能已经是我们在Fig.6我们的方法的一些视觉结果首先，发现的精灵清晰地描绘了一匹马的形状，它的面具清晰而准确。从这个真实图像集合中学习这样一个可解释的精灵已经很有趣了，并且验证了我们基于精灵的建模对真实图像的一般化其次，虽然建模的变换是相当简单的（颜色和空间变换的组合），我们表现出良好的重建和分解，产生准确的前景提取。4.2.3未过滤的Web图像集合我们展示了我们的方法的鲁棒性，从Web图像集合中发现的精灵可视化。我们使用与[51]中介绍的相同的Instagram集合，其中每个集合都与特定的主题标签相关联，并且包含大约15k的大小调整和中心裁剪为128128的图像。我们应用我们的模型与40精灵和背景。图7 显示了从与#santaphoto 和#weddingkiss 相关的Instagram集合中发现的8个最佳定性精灵。即使在这种情况下，图像大多是噪声，我们的方法设法发现有意义的精灵和分割清晰的视觉变化。例如，我们可以区分站着的圣诞老人和坐着的圣诞老人，以及单独或被孩子们包围的圣诞老人我们还展示了#santaphoto所示的8个精灵中的一些的重建和图像合成的示例。图7：Web图像结果。我们展示了从Instagram集合中发现的40个精灵中的8个最佳定性精灵（顶部），以及由#santaphoto（底部）所示的精灵之一代表的样本的分解结果。5. 结论我们引入了一个新的无监督模型，它联合学习精灵，变换和遮挡，将图像分解为对象层。除了标准的多对象合成基准，我们已经证明，我们的模型导致实际的改进，为真实图像我们甚至表明它足够健壮，可以在未经过滤的Web图像集合上提供有意义的结果虽然我们的对象建模涉及独特的原型图像和小的转换集限制其实例的多样性，我们认为，占这样的多样性，同时保持一个基于类别的decom-位置模型是极具挑战性的，我们的方法是第一个探索这个方向，据我们所知。确认我们感谢 FrancoisDarmon 、 HugoGermain 和 Da vidPi-card提供的宝贵反馈。这项工作得到了以下方面的部分支持：法国政府，由国家研究机构管理，作为EnHeritANR-17-CE 23 -0008项目和“未来投资”计划（ANR-19-P3 IA-0001，PRAIRIE 3 IA研究所）的一部分; RapidTabasco项目; Adobe的礼物; Louis Vuitton/ENS人工智能主席; Inria/纽约大学合作;来自GENCI-IDRIS的HPC资源（2020-AD 011011697）。8649引用[1] Ankesh Anand ， Evan Racah ， Sherjil Ozair ， YoshuaBengio，Marc-Al e xandreCot e´ ， andR.D ev onHjelm.Atari中的无监督状态表示学习NeurIPS，2019。一个[2] Roberto Annunziata、Christos Sagonas和Jacques Cali。将数百万张图像与深度惩罚性重建凝结结合起来。在ICCV，2019年。三个[3] Relja Arandjelovic 和 Andrew Zisserman 使用复制粘贴GAN的对象arXiv：1905.11369，2019. 二个[4] Eran Borenstein和Shimon Ullman 学习分割。见ECCV，2004年。二七八[5] L e'onBottou 和 YoshuaBengio 。 K-Means 算法的收敛性NIPS，1995年。四个[6] 克里斯托弗 ·P Burgess 、 Loic Matthey 、 NicholasWatters、Rishabh Kabra、Irina Higgins、Matt Botvinick和Alexander Lerchner。Monet：无监督场景分解和表示。arXiv：1901.11390，2019. 一二四五六[7] 曹亮亮和李飞飞。用于并发对象分割和分类的空间相干潜在载于ICCV，2007年。三个[8] Kai-Yueh Chang，Tyng-Luh Liu，and Shang-Hong Lai.从共显性到共分割：一种高效的完全无监督能量最小化模型。 CVPR，2011。 8[9] Mick aeülChen、Thi erryArt ie`res和Ludo vicDen o ye r。基于重绘的无监督对象分割。在NeurIPS中。2019. 二个[10] Minsu Cho ， Suha Kwak ， Cordelia Schmid ， and JeanPonce.在野外无监督的物体发现和定位CVPR，2015。三个[11] Mark Cox，Sridha Sridharan，Simon Lucey，and JeffreyCohn.最小二乘凝聚用于图像的无监督对齐。CVPR，2008。三个[12] Mark Cox，Sridha Sridharan，Simon Lucey，and JeffreyCohn.大量图像的最小二乘凝结。ICCV，2009年。三个[13] 埃里克·克劳福德和乔埃尔·皮诺。用卷积神经网络实现空间不变无监督目标检测在AAAI，第33卷，2019年。二个[14] A. P. Dempster，N. M. Laird和D. B.鲁宾不完全数据的最大似然法。《皇家统计学会杂志》，1977年。三个[15] 放大图片作者：Adam R.Kosiorek，Oiwi Parker Jones，and Ingmar Posner.GENESIS：Generative Scene Inferenceand Sampling with Object-Centric Latent Representations.在ICLR，2020年。二、五[16] S. M. Ali Eslami，Nicolas Heess，Theophane Weber，Yuval Tassa，David Szepesvari，Koray Kavukcuoglu，and Geoffrey E Hinton.参加，推断，重复：快速场景理解与生成模型。在NIPS，2016年。一、二[17] Brendan J Frey和Nebojsa Jojic。使用EM算法估计图像的混合CVPR，1999年。三个[18] Brendan J Frey和Nebojsa Jojic。使用EM算法的变换不变聚类。TPAMI，2003年。三个[19] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成对抗网络。在NIPS，2014。2[20] 克里斯汀·格劳曼和特雷弗·达雷尔。从部分匹配的图像特征集中进行类别的无监督CVPR，2006。三个[21] KlausGref f 、 Raphae¨ lLopezKaufman 、 RishabhKabra 、NickWatters 、 Chris Burgess 、 Daniel Zoran 、 LoicMatthey、Matthew Botvinick和Alexander Lerchner。多目标表示学习与迭代变分推理。在ICML，2019。一二四五六[22] Klaus Greff ， Antti Rasmus ， Mathias Berglund ， TeleHao，HarriValpola，andJürgenSchmidhube r. Tagger：深度非超视知觉分组。在NIPS，2016年。二个[23] Klaus Gref f ， Rupesh Kumar Sriv astav a ， andJür genSchmid- huber.通过重构聚类进行绑定在ICLR工作-商店，2016年。二个[24] Klaus Gref f ， Sjoerdv an Steenkiste ， and Jür genSchmidhuber.神经期望最大化。在NIPS，2017年。二个[25] PhilipH¨usser，JohannesPlapp，VladimirGolkov，ElieAl-jalbout，and Daniel Cremers.关联深度聚类：训练没有标签的分类网络。在2018年的GCPR三、七[26] 杰弗里·EHinton，Alex Krizhevsky，and Sida D.王.转换自动编码器。在ICANN，2011年。三个[27] Weihua Hu ， Takeru Miyato ， Seiya Tokui ， EiichiMatsumoto，and Masashi Sugiyama.通过信息最大化自增强训练学习离散表示。ICML，2017。七个[28] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu. 空间 Transfo

下载后可阅读完整内容，剩余1页未读，立即下载