无监督分层图像生成学习分割方法

86 浏览量更新于2023-10-25 收藏 1.26MB PDF 举报

图像分割

无监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1225GANSeg：通过无监督分层图像生成学习分割何兴哲Bastian Wandt Helge Rhodin不列颠哥伦比亚{xingzhe，wandt，rhodin} @ cs.ubc.ca摘要将图像分割成其部分是用于诸如图像编辑之类的高级视觉任务的常见预处理。然而，为监督训练注释掩码是昂贵的。存在弱监督和无监督方法，但是它们依赖于图像对的比较，例如来自多视图、视频帧和图像增强，这限制了它们的适用性。为了解决这个问题，我们提出了一种基于GAN的方法，该方法生成基于潜在掩码的图像，从而减轻了以前方法所需的完整或弱注释。我们表明，这种掩模调节图像生成可以忠实地学习时，条件的掩模在一个层次上的方式对2D潜点，明确定义的位置的部分。在不需要监督的面具或点，这种策略增加了鲁棒性的面具的观点和对象的位置变化。它还允许我们生成用于训练分割网络的图像掩码对，该分割网络在已建立的基准上优于最先进的无监督代码可在 https://github.com/xingzhehe/GANSeg 上找到。1. 介绍本文研究了无监督的零件分割问题在图像中发现对象部分是计算机视觉中的一个基本问题，因为部分提供了对对象外观和姿态变化具有鲁棒性的中间表示[17，48]。许多高级任务受益于零件表示，例如3D重建[31，67]，姿态估计[27，42]和图像编辑[14，66]。关键点和零件分割图是最常用的形式之一。然而，他们的监督训练[12，43，56]需要每个新应用领域的像素级注释，因为标签很难推广到其他对象类别，并且部件数量及其粒度在任务中各不相同。在关键点检测方面，存在几种无监督检测器[20，64]，但分割方法仍处于起步阶段[17，32]。分割没有像素的部分层次注释是困难的，因为它需要将部分与其他部分以及前景与背景分开。现有的无监督方法主要遵循与应用于无监督关键点检测的相同策略[52]。真实图像通过仿射映射或薄板样条进行变换，以找到在已知变形下等效的部分。为了精确地再现，它们需要额外的信息，例如显着图[17]或假设对象始终居中[32]，这是有约束的。例如，当应用于面部数据集[33]时，颈部和肩部通常被忽略，尽管几乎是每个图像的一部分。我们的目标是改进无监督的部分分割任务。我们建议首先训练一个生成式对抗网络（GAN）[10]来生成内部以潜在掩码为条件的图像。这种GAN公式化描述了现有自动编码器网络中对图像对和预定义图像变换的依赖性。通过这种方式，网络从数据集而不是从预定义的图像变换中学习零件分布。随后，我们使用生成器来合成几乎无限的掩模图像对，用于训练分割网络。图1提供了我们模型的概述。我们解决的关键问题是如何设计一个GAN，它可以生成具有有意义的部分分割掩模的图像，即，将像素分组为通常一起移动并且在图像之间具有共享外观的区域。我们从一个从监督分割网络[3，43]借来的骨干架构开始，GAN策略的灵感来自于其最近在无监督关键点检测[14]中的应用我们的创新是通过多个抽象层次的图像的分层生成，包括使用面具。在第一层中，我们使用高斯噪声来生成部分外观嵌入和一组2D潜在点。与[14]直接从点到图像生成不同，我们首先将点分组以定义每个部分的位置和比例。在第二个抽象层次中，我们使用部分相对位置编码，1大多数现有的文献都是指在单神经元上训练时的无监督没有注释的图像，以及在使用多视图或视频进行辅助任务训练时的自我监督我们遵循这个惯例。1226分层图像生成点零件遮罩前景图像基于真实图像的列车部件分割图1.GANSeg. 一个分割网络（右）是在一个新的分层图像生成器（左;从点到掩模，从前景到图像）生成的掩模图像对上训练的。它是无人监督的，适用于面孔，人，鸟和花。生成2D特征图，然后用CNN生成掩码。在第三级中，前景图像是从特征图与对应的appearance嵌入的组合生成的独立地，背景图像被生成为具有随机位置以解开前地和背景。最后，前景与背景混合。生成的遮罩在这里再次用于定义混合权重。我们的GAN框架成功的关键是几个设计选择，这些设计选择保留了部件的平移等方差[22]，这不适用于传统的自动编码器方法，如附录E所述。因此，由于不知道绝对位置，卷积网络被迫纯粹根据掩模的空间范围来调节图像;移动部分掩模将移动图像部分。这是我们无监督学习中一个至关重要的归纳偏差。我们的贡献有三个方面：1. 一种无监督的GAN方法生成用于训练零件分割的掩模-图像对;2. 一种新的分层图像发生器，它鼓励有意义的部分分割;3. 减轻对显着图和对象位置的先验假设。道德-风险。GAN可以被滥用来创建深度伪造。然而，我们的方法并不适用于编辑也不改善图像质量，而是改善场景理解。我们的最终输出是一个探测器，它不能被滥用来生成新的图像，但不必要的监视应用程序是一个风险。效益由于我们的方法是完全无监督的，因此它可以应用于尚未标记的对象，动物或情况。2. 相关工作无监督地标检测方法在没有任何监督信号的情况下发现图像中的关键点。大多数现有的作品发现关键点，通过比较对图像的同一对象类别。通常的想法是关键点随着图像的变化而变化。该变化可以从相同对象类别的视频[7，21，28，30，36，47]和多视图[40，41，50]中推断出来虽然视频和多视图自然包含图像对，但依赖于图像集合的无监督学习的视频和多视图需要通过针对数据集调整的预定义随机变换[20，34，52，64]和学习变换[57，61]创建的图像他们的基本思想是相似的。关键点必须遵循应用于原始图像的变换-等方差最近，[14]介绍了一种替代方法。他们使用GAN生成图像以及相应的潜在关键点，并使用它们来训练检测器。与稀疏关键点相比，我们的目标是在像素级生成掩码，这是通过引入分层生成器来实现的。1227职位点发生器零件位置部分的出现口罩前景图像前景生成器共混掩码生成器⇥NXKKk=1xi，σ我Kn/1Kn个每kkk=1无监督前景分割的目的是以无监督的方式将前景对象从背景中分割出来Gupta等人。[11]学习前地的补丁级掩码以利于表示学习，然而，这只是粗略的。 Singh等人。[49]使用多级GAN 来理清前景的形状和纹理，但他们只专注于编辑。Bielski等人[2]建议重新定位生成的前景，以将其从背景中分离出来。Katircioglu等人[24，25]将该区域检测为不能从周围修复的前景ing，以前用于光流的策略[63]，然而在所有训练示例或光流估计器中需要类似的背景Chen等人[4]实现了嵌入背景1级2级3级无监督的前景分割，通过重新搜索前景外观来解开前景和背景。Voynov等人。[54]和Yang等人。[62]介绍了使用预训练GAN的基于比较的分割方法，比基于生成的方法取得了更好的结果正如[2，4]所指出的，这样的无监督方法可以很容易地进入平凡的解决方案，其中背景包括整个前景。为了抵消，我们引入两个损失，克服平凡的解决方案。此外，我们发现在网络架构中保持平移等变性可以自然地减少琐碎的解决方案。这是我们选择使用GAN的另一个重要原因，我们将在第3节和补充部分中解释。与上述方法相比，即使它们专门用于前景分离，也会产生类似的结果，同时我们提供更细粒度的部分分割。无监督局部分割的目标是对物体的多个部分进行像素级的掩模，包括在没有掩模注释的情况下将前景与背景分离。Collins等人[6]使用矩阵分解来找到图像中的相似部分，但它需要在训练时测试图像，这使得它的计算能力很强。Hung等人。[17]从无监督关键点检测中吸取了教训，并将其扩展到使用各种损失函数来预测对象的部分分割掩模，这些损失函数保留了掩模的几何形状和语义一致性然而，它需要现成的显着图或地面真实背景掩码。Liu等人。[32]减轻了对背景遮罩的需求，但他们使用中心先验将对象遮罩约束到图像的中心，这可能是一个约束偏差。例如，在肖像图像中，头发通常不被掩蔽。可以使用时间信息[9，48]来实现更好的分割结果。与所有这些方法相比，我们的模型使用较少的信息（单个图像图2. 分层生成概述。第一层（红色）：点生成器将两个高斯噪声向量转换为部分位置和外观嵌入。级别2（橙色）：掩模生成器将零件位置和嵌入转换为定义零件支撑的掩模。级别3（绿色和蓝色）：前景生成器使用上一级别的数量来生成前景图像，该图像最终与独立生成的背景混合。3. 方法我们训练了一个生成对抗网络（GAN）[10]来生成点，部分蒙版，前景，背景和分层图像。图2给出了我们的方法的概述。在第二阶段，我们生成掩模图像对来训练Deeplab V3 [3]分割网络，从而实现无监督的部分分割。我们的核心网络架构设计原则是建立一个层次结构，在以下三个阶段的每一个保持其部分表示的翻译等变性3.1. 级别1：点生成和零件比例在第一层中，我们利用独立的噪声向量来生成K个零件的位置和外观。我们发现，通过首先预测每K个点的n，将其分为K个组，每个点n，训练是最稳定的零件的位置和比例由相应的n个点的平均值和标准差计算，这使训练规则化。图3给出了底层PointGenerator模块的概述它需要两个噪音矢量-tors作为输入z点，z应用程序（0D噪声，ID噪声和D噪声），其中D噪声是噪声维数。我们使用3层多-层感知器（MLP），用于将z点映射到每100K个点的n个点{x1，…X}K .然后我们计算零件位置{x1，…xK}和局部尺度{σ1，. .，σK}，没有视频或显着图），但在一半上优于这些最成熟的指标和数据集，正如我们在实验中所评估的那样，第4节。最近提出的n个每1Kn个每KqPnper kxi-xk2DatasetGAN [65]也利用a GAN来分割部分，但他们仍然需要一些地面真实掩码，因为部分在网络中没有明确地解开。对于{x1，...，xnper}K其中k=1，… K.=MLP点（z点），（1）BG外观BG位置背景生成器X =i=1K =、1228KconstKK⌦22KKk=1KK职位部分的出现MLPMLP嵌入图3. 一级。点生成器使用两个高斯噪声向量分别生成零件位置和零件外观我们使用另一个3层MLP将z应用映射到动态2RDemb的部分应用向量。根据[14]，我们定义一个常数嵌入向量wconst2RDemb，图4.2级遮罩生成器使用点、零件位置、零件比例和零件外观嵌入来生成遮罩。RDembEscherichiaL. 我们正式写作，H（p）= exp. -kp-xk/σ，22部分然后我们执行一个元素级乘法，在wdynamic和wconst之间进行切换，以获得最终的部分嵌入k k2kK（四）Kwk2研发emb.也就是说，W掩码（p）=XHk（p）wk。wdynamic=MLPapp（zapp）（2）k=1wk=w动态汽车旅馆（3）注意，我们使用σ2而不是2σ2为了获得更锋利的其中是元素级乘积。重要的是，用于外观和位置的噪声源是独立的，以防止外观干扰位置信息。3.2. 第二层：从点到面在第二层，掩模生成，我们使用高斯热图来模拟局部独立性和位置编码[39]，以生成相对于预测部件位置的掩模。我们编码相对而不是绝对热图，使网络更容易生成清晰的遮罩。所生成的嵌入映射W_mask随后将与掩码起始张量M（0）R_D_emb_H_W一起用于生成掩码。为了避免泄漏绝对位置信息，我们不使用常数张量[23]或线性映射噪声[39]。相反，我们使用像素位置和每100K点的n之间的差异的低频位置编码[51]。也就是说，M（0）（p）=[sin（p）FC（[p-x 1，.， p-xnper]）），1公里（5）点和图像像素之间的位置，以保持cos（n）FC（[p-x1，.，p-x nper]））]K1远距离的关系，以防止泄漏的绝对坐标信息，这将违反翻译等方差为了进一步保持平移等效性，我们在比真实图像范围更大的网格中初始化位置编码，并在每次2x上采样后裁剪为固定的边缘大小[22]，这可以防止卷积层传递边界信息（有关更多细节，请参见第3.3这些操作都是用Mask Gen实现的，其中，FC代表完全连接的层，不带活动连接，函数（线性投影）。通过定义掩码起始张量M（ 0 ）和掩码嵌入映射W_mask，我们生成掩码M=[M_bg，M_1，.，MK]R（K+1）HWwith SPADE Res-块[39]，M（i）=SPADE ResBlock（M（i-1），Wmask）如图4所示的发电机。它需要每100K点的nM=softmax（M（Tmask））（六）{x1，…xnper}K ，零件位置x 和部分尺度σ，以及部分嵌入wk作为输入。我们使用等式1中定义的每个部分的平均值和标准偏差为每个部分生成高斯热图。然后将嵌入w，k与对应热图的每个像素相乘，生成空间局部化的嵌入图。我们假设特征图的可加性（更多细节见补充）。所有K个特定于部件的嵌入被求和以形成单个特征图W掩码2组平均点零件位置戈桑Heatmaps零件位置广播嵌入位置编码打开相对位置口罩点SPADE重新阻止SPADE重新阻止SPADE重新阻止SPADE重新阻止1229其中i=1，…，T掩码，T掩码是块的数量，并且为背景保留了额外的通道。有关SPADE ResBlock的更多详细信息，请读者参阅补充文件和原始文件[39]。理论上，批量归一化[18]可能会泄漏绝对位置信息并破坏平移等方差。然而，在实践中，实验表明SPADE具有很强的局部解纠缠[14，39，66]。1230口罩广播嵌入相对位置零件位置MLPBG外观位置编码相对位置均匀随机背景位置X2⌦⇥--⇠N UGD⇥前景图5. 第3级-第一部分。前景生成器使用零件位置、零件外观嵌入和遮罩。3.3. 第3级：掩模条件图像生成在第三层中，我们分别生成前景和背景，并通过重用上一层的遮罩将它们线性前景生成器如图5所示。它将K+1个掩码M、K个部件位置xk和K个部件外观嵌入wk作为输入。与生成蒙版的过程类似，我们首先用相应的蒙版广播嵌入，以生成前景嵌入图Wfg2RDembHW，KWfg（p）=Mk（p）wk。（七）k=1然后，我们使用K个部分位置来生成前景起始张量F（0），其中低频位置编码类似于等式5。最后我们使用SPADE ResBlocks生成前景特征图F2RDembHWF（i）=SPADE ResBlock（F（i-1），Wfg）、（8）F=F（Tfg），其中 i=1，… ， Tfg和Tfg是SPADE ResBlocks 的数量。与此无关，背景发生器将两个噪声向量作为输入zbgapp（0D噪声，ID噪声和D噪声），ubg位置（[1，1]2）。我们首先使用3层MLP将zbgapp映射到背景外观向量wbg2RDembwbg=MLPbg app（zbg app）。（九）对背景中心ubgpos和像素位置之间的差使用位置编码，以生成背景起始张量B（0），类似于等式5。最后我们使用AdaIN ConvBlocks [15]生成背景特征图B2RDembHW图6. 第四级-第二部分。背景生成器使用高斯噪声矢量和随机位置，以生成平移不变背景。其中i = 1，…，Tbg和Tbg是AdaIN Con-vBlocks的数量。有关AdaINConvBlocks的更多细节，我们请读者参阅我们的补充或原始论文[15]。结合前景和背景。回想一下，我们生成背景掩模MbgRHW连同零件掩模。这用于将前景和背景结合在一起。通过将特征图馈送到双层CNN中来生成最终图像。也就是说，I=Conv（（1-Mbg）<$F+Mbg<$B）（11）其中是逐像素乘积。上采样和裁剪。为了简单起见，我们对所有上述特征图使用大小H W。对于蒙版，前景和背景生成，起始张量在每个边界处具有10像素宽的边缘，与[22]相同，因此中心特征图不会干扰边界。例如，我们不是在范围 [ 1 ， 1]2 中生成 H 0 W 0 网格，而是生成（H0+20）（W0+20）范围内的网格[-1-20/H0，1 + 20/H0][-1-20/W0，1 + 20/W0]。我们使用这个网格来计算蒙版、前景和背景的起始张量。在每个SPADE ResBlock和每个AdaIN ConvBlock之后，我们在特征图上使用2x上采样。边距变为20像素宽。为了限制增加的边界宽度，我们对特征图进行子裁剪以保持10像素的边界。高斯热图是在一个10像素宽的网格上计算的，分别针对每种分辨率。3.4. 培养目标我们的分层GAN使用以下损失函数在图像集合上进行端到端训练。对抗性损失。我们记为生成元和零。我们使用非饱和损失[10]，LGAN（G）=Ez<$Nlog（exp（-D（G（z）+1）（13）发电机和后勤损失B（i）=AdaIN ConvBlock（B（i-1），Wbg）（十）LGAN（D）=EzNlog（exp（D（G（z）+1）+（十四）B=B（Tbg）ExBracket数据 log（exp（-D（x））+1）SPADE重新阻止背景SPADE重新阻止SPADE重新阻止SPADE重新阻止AdaIN ConvBlockAdaIN ConvBlockAdaIN ConvBlockAdaIN ConvBlock（十二）12312L GMk（p0）KK 2K对于非线性，梯度惩罚[35]仅应用于实际数据，Lgp（D）= ExP数据rD（x）。（十五）几何集中损失来自同一段的像素通常是连接的，并集中在其中心周围，如[17]所假设的我们强制掩模位于其中心周围的区域中，具有几何浓度损失Lcon（G）= X X P Mk（p）kp-x k.（十六）k=1p均p0在[17，32]中，我们训练了一个线性回归模型，从零件中心到地面真实关键点没有偏差。误差度量是在由眼间距离归一化的平均L2距离方面的地标回归误差分割为45609张图像用于GAN训练，5379张具有关键点标签的图像用于回归，283张用于测试。CelebA-aligned[33]包含200 k张脸，每个脸居中，以便眼睛对齐。在[52]之后，我们使用三个子集：没有MAFL的CelebA训练集（160k图像），MAFL训练集（19k图像），MAFL测试集（1k图像）。误差度量与CelebA在野外的误差度量相同。CUB-2011[55]包含11，788张鸟类图像。我们遵循[4]使用10，000张图像进行训练，1，000张用于测试-请注意，背景蒙版不受以下条件的约束：（）con.我们发现，这种损失本身就可能导致部件塌陷，因为它会导致小的掩模面积。为了缓解这个问题，我们在下面介绍面积损失。区域损失。我们强制遮罩区域大于高斯热图的区域，高斯热图不是预定义的，而是从第1级中生成的点预测的。如果该部分可见，则该损失促进掩模的可见性。否则，面积损失会导致更小（接近零面积）的高斯热图。L是a（G）=Xmax.0，XHk（p）-XMk（p）！-是的剩下的778个用于验证。我们使用这个数据集来分析分割覆盖率的准确性。我们聚集部分片段以形成前景掩模，并计算预测的前景掩模和地面真实前景掩模之间的交集（IoU）[17，32]。为此，我们将前景蒙版计算为部分蒙版之和。花[38]由8，189个花的图像组成。地面真实掩模是通过专门为花卉构建的自动化方法获得的[38]。我们遵循[4]使用6，149张图像进行训练，1，020张用于测试，1020张用于验证。度量是前景遮罩的IoU。太极[33]包含3049个培训视频和285个测试k=1pp（十七）人们表演太极的视频我们训练GAN，我们将凭经验证明，这种损失使面具更一致。最后的损失是L（D）=LGAN（D）+λgpLgp（D），（18）发电机的最终损耗为L（G）=LGAN（G）+ λconLcon（G）+ λareaLarea（G）。（十九）4. 实验根据相关工作[17，32，48]，我们分析了我们的方法在零件定位和已建立基准上的掩模覆盖方面我们提供了各种各样的图像，包括人脸，动物，花卉和人类的结果。补充资料提供了其他示例。4.1. 数据集和指标我们的评估遵循先前工作中建立的特定于网络的协议CelebA-in-the-wild [33]显示了无约束条件下的名人面孔，并用于估计部件位置和面罩质心的一致性。我们遵循[17]从MAFL训练集和测试集中删除面部覆盖小于30%像素区域的作为1232训练图像（不是视频）使用5000个图像来拟合回归模型，并使用300个其他图像来进行测试。为了公平比较，我们使用与[48]相同的5300张图像该度量，即平均误差（MAE），计算为18个回归关键点与其地面真实值之间的L2距离之和我们还根据提供的前景蒙版计算IoU。4.2. 基线我们比较了以下无监督方法，大多数需要更强的假设：DEF[6]在训练时使用测试SCOPS[17]使用显着图。 Liu等人[32]要求掩模中心接近图像中心的强先验。Siarohin等人[48]训练视频利用时间信息。4.3. 定性分析我们在图7中显示了检测示例，并在图8中将我们的预测掩码与基线进行了定性比较。我们的遮罩具有更好的前景对象覆盖率，更少的碎片部分，以及更好的一致性，相同的部分遮罩映射到不同图像中的相同身体部位例如，肩膀几乎存在于野生CelebA [33]的所有图像中，但SCOPS [17]不能始终发现这个明显的部分，可能是因为1233†方法类型幼崽花GrabCut [44]前景分割0.3600.692PerturbGAN [2]前景分割0.380-恢复[4]前景分割0.4260.764IEM + SegNet [45]前景分割0.5510.789[17]第17话我的世界我们部分分割部分分割0.329†0.6290.544†0.739表2.前景-背景分割。CUB和Flowers上的度量我们使用K=8为我们和SCOPS [17]。该标志意味着正在接受我们的培训，使用他们的官方实施。方法类型MAE编号IoU“德国国防军[6][第17话]Siarohin等人[48]我们无列车/试验分流在视频上训练显着图的图像在单个图像上训练494.48†411.38<$389.78417.17-0.5485†0.76860.8538图7.检测示例显示了测试数据集上的忠实部分分割，具有不同的对象大小和复杂性。[17]第十七话图8. 面具质量比较我们定性比较野生CelebA（第一行）和太极（第二行）上的掩模我们的面具有更好的质量比其他方法，由于我们的hierarchi- cal发电机。方法类型对齐（K=10）野生（K=4）野生型（K=8）Thewlis等人[五十二]地标7.95%-31.30%？Zhang等人[64个]地标3.46%-百分之四十点八二？LatentKeypointGAN [4]地标百分之五点八五25.81%21.90%Lorenz等人[34个][第20话]地标地标3.24%3.19%15.49%†19.42%†11.41%†8.74%†[17]第17话部分--31.30%？SCOPS [17]（无显著性）部分-46.62%22.11%SCOPS [17]（具有显著性）部分-21.76%百分之十五点零一Liu等人[32个]部分-百分之十五点三九12.26%Huang等人[16]（带详细标签）部分--8.40%我们部分3.98%12.26%6.18%表1.CelebA上的地标检测。该度量是在由眼间距离归一化的平均L2距离方面的地标回归（无偏差）误差（越低越好）。虽然基于配对的方法在对齐的CelebA上工作得更好，但它们并不概括得很好。我们基于世代的方法在Wild CelebA上更强大。标志？ [17]和[32]的报告。他们使用的显着图集中在面部。有关更多定性比较，请参阅补充资料。4.4. 零件中心一致性表1示出了关键点检测的结果。我们的方法优于其他部分分割方法的部分一致性度量的挑战CelebA在野外。基于关键点的方法性能更好1234†表3. Taichi上的零件分割。”[48]这是一个比喻。所有结果都是在K= 10的情况下给出的。在对齐的面部图像上的特征不能推广到真实世界的例子。表3中的Taichi结果证实了我们的模型在一致性（MAE指标）方面具有可比性，即使其他模型使用额外的信息进行训练。此外，我们使用[34]的协议在CUB上评估我们的模型我们的估计误差为3.23%（由图像边缘长度归一化的 L2误差），低于（优于）Zhang 等人 [64] （ 5.36% ）和 Lorenz 等人 [34]（3.91%）。4.5. 掩模覆盖率由于[17，32]中使用的数据集对于训练GAN来说太小了（见限制），我们只使用足够大的CUB-2011 [33]和Flowers [38]数据集。为了与SCOPS [17]进行比较，我们重新训练了他们的模型。我们在我们的训练/验证/测试分割中使用地面真实掩码和所需的显着性掩码，并使用它们的默认参数。此外，我们将我们的结果与已经在这些数据集上报告的无监督前景-背景分割方法进行了比较。注意，这些方法关注前景-背景分割而不是部分分割。他们的方法是为这项任务量身定制的，而这对我们来说是一个副产品。如表2所示，我们的模型优于具有更好掩模覆盖率的非监督部分分割方法，并且与专用前景分割方法相当在最具挑战性的Taichi数据集上，我们在掩模覆盖率（前景IOU）方面优于表3中的所有方法，即使它们使用了额外的信息，如显着性图和视频。4.6. 消融试验图9显示了从完整模型中删除不同部分时的定性比较我们显示生成的掩模，而不是显示真实图像上1235Ours Siarohin等人[48个]图10. 局限性。该方法对于训练集中代表不足的姿势（第1和第2列）和遮挡（面部的左眼标记为蓝色，通常在耳朵上）失败，这与其他方法（如[48]（第4列））相同。在一些罕见的情况下，发电机无法产生良好的身体形状上太极（第5列）.图9. 消融测试。从上到下：模型禁用1)点，2）分离背景，3）点和分离背景，4）几何浓度损失，5）面积损失，和6）无（全模型）。出于可视化的目的，我们以灰度显示背景。所有贡献都在数据集上得到改善。我们的GAN这些面具更直接地解释了我们的模型。关于部件数量的烧蚀试验，请读者参阅补充文件。禁用点。我们从网络中删除了点生成，反过来也删除了高斯热图和SPADE块。相反，我们使用AdaIN[15]，它是SPADE的空间不变版本。我们使用部分嵌入的平均值作为 AdaIN 特征图的嵌入，并使用StyleGAN [23]中的学习常数张量替换起始张量禁用分离的后台生成。我们将背景生成器集成到前景生成器中，并将背景作为其中的一部分处理。禁用损失。我们删除了损失，并在图9中显示了每个数据集的示例。如果没有几何集中损失，掩模会变得支离破碎。没有面积损失，一些部分消失。令人惊讶的是，即使没有点和单独的背景生成，模型也可以发现图像中除人体以外的一些共有部分，如图9第三行所示。我们假设这是由于我们的空间变异网络设计与翻译equivariance鼓励各级。总的来说，很明显，我们的分层结构是至关重要的掩模生成。5. 局限性和未来工作我们的GAN训练需要更大的数据集（>5000个图像），这不适用于一些现有的基准测试，但对于具有大型未标记图像集合的领域是可以接受的。图10所示为相关工作的典型故障案例。在一些罕见的情况下，仅对于Taichi数据集，生成器无法生成良好的形状。然而，检测仍然是准确的，因为在实际数据中没有这种不寻常的形状当图像中的一部分被遮挡时，相关联的掩模仍将有时，鸟的前/后和人的左/右被翻转。与[48]的比较表明，这对于2D方法和扩展到3D和遮挡处理的要求是常见的。6. 结论我们提出了一种基于GAN的方法，用于从未标记的图像集合中学习零件分割。至关重要的是我们的分层生成器设计，它以一种由粗到细的方式合成图像，并内置了独立性和不变性。它形成了现有自动编码器技术的可行替代方案，并为未来从2D图像学习基于零件的3D模型开辟了道路。确认这项工作得到了UBC高级研究计算（ARC）GPU集群、加拿大计算GPU服务器和华为-UBC联合实验室项目的支持。完整模型不含Con无面积不含BG无PT无 *不含PT BG1236--引用[1] Bilal Alsallakh，Narine Kokhlikyan，Vivek Miglani，JunYuan，and Orion Reblitz-Richardson.小心垫子- cnn会有盲点。2021年，在国际学术会议上发表。14[2] Adam Bielski和Paolo Favaro扰动生成模型中对象分割的出现神经信息处理系统进展，32：7256三、七[3] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 第1、3条[4] Mick aeülChen，ThierryArt ie`res，andLudo vicDen o ye r.通过重绘实现无监督对象分割。神经信息处理系统进展32（NIPS 2019），第12705-12716页，2019年。三六七[5] 楚翔翔，田智，张波，王新龙，魏晓林，夏华夏，沈春华.视觉变换器的条件位置编码。arXiv预印本arXiv：2102.10882，2021。14[6] Edo Collins Radhakrishna Achanta和Sabine Susstrunk。用于概念发现的深度特征分解。在欧洲计算机视觉会议（ECCV）的Proceedings中，第336-352页，2018年。三六七[7] Xuanyi Dong，Shouou-I Yu，Xinshuo Weng，Shih-EnWei，Yi Yang，and Yaser Sheikh.配准监督：一种提高面部标志检测器精度的无监督方法。在IEEE计算机视觉和模式识别会议论文集，第360-368页，2018年。2[8] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image recognition atscale.在2020年的学习代表国际14[9] Qingzhe Gao，Bin Wang，Libin Liu，and Baoquan Chen.通过装配实现无监督的共部件分割。arXiv预印本arXiv：2106.05897，2021。3[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672一、三、五[11] Kamal Gupta，Saurabh Singh，and Abhinav Shrivastava.补丁程序：学习本地潜在代码进行识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第4746-4755页，2020年。3[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页1[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。14[14] 何兴哲，巴斯蒂安 · 旺特，赫尔格 · 罗丁。 Laten-tkeypointgan：通过潜在关键点控制gans。arXiv预印本arXiv：2103.15812，2021。一、二、四、七[15] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年。五八十二[16] 黄梓萱和尹莉。通过区域分组实现可解释的精确细粒度识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第8662-8672页，2020年。7[17] Wei-Chih Hung ， Varun Jampani ， Sifei Liu ， PavloMolchanov，Ming-Hsuan Yang，and Jan Kautz. Scops：自我监督的共同部分分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第869-878页，2019年。一、三、六、七[18] Sergey Ioffe和Christian Szegedy。批量归一化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。四、十二[19] Md Amirul Islam，Sen Jia，and Neil DB Bruce.卷积神经网络编码了多少位置信息？ arXiv 预印本 arXiv ：2001.08248，2020。14[20] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和 AndreaVedaldi。通过条件图像生成的对象地标的无监督学习神经信息处理系统的进展，第4016-4027页，2018年。一、二、七[21] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和 AndreaVedaldi。从未标记的视频中对可解释的关键点进行自我监督学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第8787-8797页，2020年。2[22] 泰罗·卡拉斯、米卡·艾塔拉、萨穆利·莱恩、埃里克·哈克·奥嫩、简·赫尔斯滕、贾科·莱赫蒂宁和蒂莫·艾拉。无干扰生成对抗网络。 arXiv 预印本 arXiv ：2106.12423，2021。二、四、五、十四[23] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第4401-4410页，2019年。四八十二[24] Isinsu Katircioglu，Helge Rhodin，Victor Constantin，Jorg Sporri，Mathieu Salzmann，and Pascal Fua.通过背景修补进行自我监督的人体检测和分割。 IEEETransactions on Pattern Analysis Machine Intelligence ，01：1-1，2021。3[25] Isinsu Katircioglu，Helge Rhodin，Jorg Sporri，MathieuSalzmann，and Pascal Fua.通过多视图一致性的人体检测和分割。在IEEE/CVF计算机视觉国际会议论文集，第2855- 2864页，2021年。3[26] Osman Semih Kayhan和Jan C van Gemert。关于cnns中的平移不变性：卷积层可以利用绝对空间位置。在IEEE/CVF计算机视觉和模式识别会议论文集，第14274-14285页14[27] 马丁·基费尔和彼得·文森特·盖勒。人体姿态估计与领域的部分。在大卫·弗利特，托马斯·帕杰德拉，1237Bernt Schiele 和 Tinne Tuytelaars ，编辑， ComputerVision-ECCVSpringer国际出版。1[28] Yunji Kim，Seonghyeon Nam，In Cho，and Seon JooKim.用于指导类条件视频预测的无监督关键点学习。神经信息处理系统的进展，第3814-3824页，2019

下载后可阅读完整内容，剩余1页未读，立即下载