InSeGAN:无监督的3D生成对抗网络用于分割深度图像中的刚性对象实例

187 浏览量更新于2023-10-14 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

100231个2个InSeGAN：一种生成式深度图像Anoop Cherian1Goncalo Dias Pais2∠Siddarth Jain1T im K.Marks1AlanSullivan11Mitsubishi Electric Research Labs（MERL），Cambridge，MA2Instituto SuperiorTe´ cnico，Uni versity of Lisbon，Portug al{cherian，sjain，tmarks，sullivan}@ merl.comgoncalo. tecnico.ulisboa.pt摘要在本文中，我们提出了InSeGAN，这是一种无监督的3D生成对抗网络（GAN），用于分割深度图像中刚性对象的（几乎）相同实例。使用分析合成的方法，我们设计了一种新的GAN架构，以合成多实例深度图像与独立控制每个实例。InSeGAN采用一组码向量（例如，随机噪声向量），每个对由学习的隐式对象模板表示的对象的3D姿态进行发生器有两个不同的模块。第一模块，实例特征生成器，使用每个编码的姿势将隐式模板转换第二模块（深度图像渲染器）聚合由第一模块输出的所有单实例特征图，并生成多实例深度图像。鉴别器将所生成的多实例深度图像与真实深度图像的分布为了使用我们的模型进行实例分割，我们提出了一个实例姿态编码器，该编码器学习接收生成的深度图像并为所有对象实例再现姿态代码向量。为了评估我们的方法，我们引入了一个新的合成数据集“Insta-10”，由100，000个深度图像组成，每个图像具有来自10个类之一的对象的5个实例。我们在Insta-10以及真实世界嘈杂的深度图像上的实验表明，InSeGAN实现了最先进的性能，通常比现有方法表现更好。1. 介绍识别对象的（几乎）相同实例是日常生活中普遍存在的问题。例如，当从容器中取出回形针，从盒子中选择苹果，或从图书馆书架上取下一本怎么-*在MERL实习期间所做的工作图1.通过In-SeGAN在两个多实例深度图像上解开的分割和单个实例（左：具有5个实例的Nut;右：10个实例的圆锥体-具有挑战性）。In-SeGAN仅需要未标记的多实例深度图像用于训练。对于每个输入图像，示出了超分辨率深度图像（我们使用深度池化（Z缓冲）和阈值化来从所生成的单个实例产生实例分割（“分割”）。请注意，我们的方法自动学习对象的形状当机器人被部署用于这样的拾取任务时，它们需要能够识别用于规划其抓取和接近的实例[30，2]。这样的问题在大型制造业、工业和农业环境中是常见的[43，42，40，16，20]。示例包括从箱子中拾取零件的工业机器人、拾取包裹并将其放置到送货卡车中的仓库机器人，或者甚至是在超市中拾取相同水果的水果拾取机器人在这些场景中，机器人然而，它们可以访问大量未标记的图像，每个图像包含对象的多个实例，诸如当它们被标记时的盒子的深度图像。渲染图像输入深度图像分割InstaGAN渲染的单个实例分割渲染图像输入深度图像InstaGAN渲染的单个实例10024在传送带上从生产部行进到包装部。我们在本文中的目标是建立一个无监督的实例分割算法，使用未标记的深度图像，每个包含多个相同的实例的3D对象。我们的问题设置与通常考虑的实例分割设置非常不同，例如Mask-RCNN [12]，3D点云分割[28]，场景理解[9]和其他[10，21，25]。虽然这些方法通常考虑从杂乱的背景中分割实例，但我们的背景通常是简单的;然而，前景实例可能被严重（自）遮挡，或者可能在它们的姿态上在外观上急剧变化（参见图1B）。例如1解决我们的实例分割问题的现有方法使用3D CAD模型[18]，使用原始形状[11]拟合3D实例，或使用经典图像匹配技术来识别实例[4，33]。最近，一些人试图使用深度学习方法来解决这个任务。例如，在Wu etal.[41]，提出了一种3D渲染框架，该框架被训练以推断分割掩码;然而，它们的损耗倾向于局部最小值。在最近的IODINE [9]，MONET [5]和Slot Attention [29]深度模型中，重点是RGB场景分解，并且可能不会推广到将前景实例彼此分割。在本文中，我们提出了一个通用的无监督框架，例如深度图像分割，我们称之为InSeGAN。我们的模型受到最近几项工作中的关键观察的启发（例如，[23，32]），系统地注入生成对抗网络（GAN）的随机噪声可以控制所生成图像的各种属性。一个自然的问题是，我们是否可以生成具有特定数量的实例的图像，这些实例分别输入相应数量的随机噪声向量。如果是这样，则实例分割可以被简化为简单地将测试图像解码成若干噪声向量，每个噪声向量生成其相应的实例。InSeGAN实现了这个想法，使用3D GAN和图像编码器的组合内的分析合成框架，如图所示。二、训练数据由深度图像的未标记集合组成，每个图像由刚性对象的η个实例组成。InSeGAN学习对象形状的隐式3D表示和将随机噪声向量映射到3D刚性变换的姿势解码器。发电机有两个阶段。在第一阶段中，将解码的3D变换应用于隐式对象模板，实例特征生成器将其转换成单个对象实例的特征图表示。在第一阶段从η个随机噪声向量生成η个这样的实例表示之后，第二阶段聚合这些实例表示并将它们馈送到深度图像渲染器中以产生与第一阶段相似的合成深度图像。如经由鉴别器所实施的，在训练图像的分布中更大。为了实现实例分割，我们训练了一个编码器，该编码器将生成的多实例深度图像作为输入，并将其编码到一个潜在空间中，在该潜在空间中，它必须匹配最初在GAN流中生成图像的随机噪声向量，从而关闭生成周期。在推理时，给定的深度图像首先经过编码器以获得其单实例潜向量集;然后将这些数据馈送到GAN中，以单独地合成每个实例（每个图像片段）。两个示例测试图像的结果1.一、虽然实例分割的任务已经在各种上下文中被应用，但在本文中我们所追求的上下文中没有包含此任务的现有数据集。例如，MSCOCO [27]和CityScapes [6]等标准数据集中的图像包含几个不同类别和背景的对象，这些对象可能不属于公共潜在空间。我们引入了一个新的数据集，称为“Insta-10”，由10个对象类和每个类10，000个深度图像组成。每个图像是使用物理引擎来渲染的，该物理引擎模拟了对象的5个实例被随机放入其中的仓实例可能具有显著的遮挡和大小变化（由于距相机的距离变化），使得任务非常具有挑战性。我们使用这个数据集来比较我们的方案与密切相关的方法。我们还将我们的实例分割方法应用于嘈杂的深度图像中的块的真实数据集。我们的研究结果表明，在SeGAN优于所有的现有方法的显着利润率上的大多数对象类。现在我们总结一下本文的主要贡献：我们提出了InSeGAN，这是一种3D GAN，它可以从随机的多个实例中学习生成多实例深度图像。噪声向量以无监督的方式。我们提出了一个两阶段的生成器结构的In-SeGAN，其中第一阶段生成每个实例的特征图表示，和第二aggr-门这些单实例特征图，并呈现多实例深度图像。为了实现分割，我们提出了一个实例姿态编码器，该编码器将多实例深度图像编码成一组潜在向量，该潜在向量将生成它。为了训练这个编码器，我们引入了新的周期一致性损失。我们已经创建了一个新的大规模和具有挑战性的数据集Insta-10，我们正在公开该数据集，以推进对该主题的研究。我们在合成数据集和真实数据集上的实验表明，InSeGAN实现了最先进的性能。在Insta-10数据集上，InSeGAN相对于Wu等人的最新方法显示出近35%的相对改进。[41]和近9.3%对Lo- catello等人。[29]第10段。·····10025XXXXX ∈ X∈∼→XX联系我们2. 相关工作在本节中，我们将回顾一些与我们的方法密切相关的方法。多个对象和实例分割：在IODINE [9]中，提出了一种变分生成模型，例如使用潜在向量的迭代细化来表征对象实例的RGB图像分割，类似于期望最大化（EM）算法。他们的关键思想是使用固定数量的潜在向量来描述场景，并迭代地推断这些向量与实例的关联，这种方法对于复杂的场景（例如我们在数据集中考虑的深度图像）可能是不稳定的。在Slot Attention [29]中，以无监督的方式为每个实例学习抽象场景组件（称为插槽），但它们不考虑场景或实例的3D结构。在Liaoet al.[26]和O3 V-体素[13]，通过图像合成在对抗设置中创建多个对象实例。这两种方法都产生一个3D特征潜在空间-前者是3D对象的2D图元，后者是3D体素表示-对于每个对象实例。使用固定数量的实例，[26]通过投影图元来创建深度和alpha贴图来组成在[13]中，作者提出了一种生成视频序列以提取多个实例图像的方案它们遵循类似于[5，9]的框架，其中初始图像通过编码器从真实图像的序列生成。然而，它们为每个对象生成特征体素表示。在每个时间实例，渲染每个对象并将它们组合在一起。存在以监督方式解决2D和3D图像的多实例分割问题的现有方法。这些方法中的大多数，例如，[12，34]，首先从输入中提取感兴趣区域（RoI），随后对每个所选区域中的对象进行Mask RCNN [12]通过创建新的分割分支来对每像素对象片段进行分类，从而扩展了Faster RCNN [35]。DeepMask [34]学习这些RoI及其底层掩码，然后通过Fast RCNN [8]进行分类。沿着类似的路线，点云分割已经在最近的几个作品中进行了探索例如，[45，38]提出了一种2D架构。GsPN [45]提出了一种网络来生成具有特定分段和边界框的形状。SGPN [38]生成一个相似性矩阵和分组建议，以创建用于分类的独立聚类。与这些流行的方法（例如分割）相比，我们的不同之处在于我们从无监督的角度来处理问题。3D解缠：最近的几项工作已经提出了用于经由隐式或显式表示使用深度学习来解开3D属性的方法。 DeepVox-els [37]提出了一种学习对象的隐式3D表示的合成方法。方法学以从学习的体素特征体积合成对象的新视角从这些体素，可以创建对象的显式3D模型然而，他们的模型不是生成的，需要相机参数。HoloGAN [32]提出了一种生成方法，该方法创建单个实例的隐式3D体积。它首先学习3D表示，使用目标姿势进行变换，然后投影到2D特征并渲染到最终图像。我们的方法受到了HoloGAN的启发，但我们通过导出一个用于解开对象实例的方案来超越它。另一个相关的工作是PlatonicGAN [14]，它创建了一个对象的3D表示，同时通过对抗学习生成不同的不可见视图。然而，与HoloGAN中一样，该方法仅限于单个旋转对象。先前的工作是最相似的我们是吴等al. [41]，其提出以无监督的方式解开对象实例虽然我们的目标相似，但我们提出的框架完全不同。[41]的框架需要对点遮挡进行显式建模，并使用倒角距离计算点云对齐，这使得该方案在计算上昂贵。我们通过使用深度图像来避免这些挑战，并且我们引入了一个可以有效地隐式学习这些步骤的判别器。3. 该方法假设是给定的数据集，其中每个X是由刚性对象的η个请注意，中的所有图像中均描绘了相同的刚性对象。为了简化符号，我们还将使用来表征x的分布。此外，为了清楚地呈现，我们假设η是已知的并且是固定的，然而注意，通过使用具有不同数量的实例的训练图像来针对任意数量的实例扩展InSeGAN是直接的我们在InSeGAN中的目标是只从（没有任何标签）学习模型，以便在测试时，当给定深度图像x，学习的模型输出与深度图像中的每个实例相关联的分割掩码在下一节中，我们将简要概述In-SeGAN架构，然后详细介绍其每个组件。3.1. InSeGAN概述InSeGAN的基本架构遵循标准的生成对抗框架，但有几个重要的转折。它由生成器模块G组成，生成器模块G取n个噪声向量，而不是取单个噪声向量作为输入（如在典型的GAN中）。z1，z2，zn，每个zRd N（0，Id），并且生成多实例深度图像作为输出。因此，G：Rd×n，其中用于表示生成的深度图像的分布，当G经过良好训练时，限制为X→ X我们10026XXZ {}X →∈∼∈X转X∈∈极限为X→X，由鉴别器D引导，→×特殊欧氏群的元素我们-��1��图2. InSeGAN中训练方案的示意图。框架中有三个不同的控制流，如黑色、红色实线和红色虚线箭头所示黑色箭头捕获产生多实例深度图像的生成过程，而实心红色箭头描绘将虚线红色箭头描绘了通过使用编码的潜在向量来训练实例编码器以重新创建已经生成的图像的控制流。用矩阵ZRd×n和Z的分布表示噪声向量的集合为=N（0，Id）n。接下来，训练识别器模块D以区分其输入是由G生成的图像还是来自数据分布的样本。模块G和D在一个最小-最大对抗游戏中进行训练，这样G就学会了生成可以欺骗D的图像，而D反过来又学会了区分它的输入是真的还是假的;当D不能识别它的输入是来自G还是来自D时，最佳情况就出现了除了生成器和鉴别器模块之外，我们还有一个实例姿态编码器模块E，这是实现实例分段具体而言，E：Rd×n取作为生成的深度图像的输入，并且学习输出vec。与生成输入深度图像的潜在噪声向量匹配的潜在噪声向量。InSeGAN的本质是让生成器G产生深度图像，对于这些深度图像，实例片段是隐式已知的（通过Z），使得E可以在它们上被训练以学习解开实例。在合并各个实例，然后进行基于深度的对象间遮挡推理。受上述见解的启发，我们提出将生成器G分成两个不同的模块：（i）实例特征生成器，其生成单个对象实例的特征图，以及（ii）深度图像渲染器模块，其聚合单实例特征图并渲染多实例深度图像。由于假设实例是同一对象的，因此我们建议对每个噪声向量z进行采样Z来自相同的潜在分布，zN（0，Id）。此外，我们的系统学习一个隐式的3D对象模型（模板），当几何变换，产生的实例的不同外观。我们在生成器管道中的第一步是产生6- DOF（6自由度）3D刚性几何变换，该变换可以应用于隐式对象模板以产生表示每个输入的变换隐式模型站姿为此，每个噪声向量z∈Z。isconnvΣerted编码器E将最终学习对来自的真实图像进行实例分割。InSeGAN训练管线的概述如图所示。二、接下来，我们将详细描述每个模块3.2. InSeGAN发生器InSeGAN的关键是使生成器G共同完成两个任务：（i）产生与输入图像分布匹配的深度图像X，以及（ii）识别所生成的图像X中的每个对象实例。为此，我们注意到，没有其他实例，每个实例是任意3D姿态中的对象的独立深度渲染多实例深度图像可以通过以下步骤来生成：使用姿态解码器模块（参见图1B）。2），这是一个完全连接的神经网络，表示为G p：RdR6。给定噪声向量z，Gp产生对应的轴角表示;这接下来被转换为特殊欧几里德群SE（3）中的元素。我们用Λ： R6SO（3）R3表示该算子，即，Λ产生旋转矩阵RSO（3）（特殊正交群）和平移向量tR3。在此上下文中的一个自然问题是为什么我们不直接对变换矩阵进行采样（例如，HoloGAN [32]）。这是因为，如不久将清楚的，我们需要将实例姿态编码器模块E的输出与实例的姿态表示相匹配，并且具有欧几里得嵌入。对齐+L2损失实例姿态编码器实例特征生成器深度图像渲染器多实例鉴别器时代L1损隐式对象模板姿态解码器真/假中文（简体）10027∈RRSXXR∈S埃∈R.. .ΣΣΣF FΣ F≈◦2a对于这些表示，与直接使用底层非线性几何流形的旋转矩阵（或轴角）参数化相比，在计算上提供了更有效的相似性度量[17，46]。接下来，我们使用这样创建的变换矩阵，即，Λ（Gp（z）），以几何地变换隐式形状张量TRh×h×h×k（我们使用h=4，k=128）;该参数eter张量由所有实例共享，并且在训练（与流水线中的其他模块一起）时将隐式地捕获对象的形状和外观。与 HoloGAN [32] 类似，我们使用空间Transformer网络（STN）[19]将几何变换应用于该隐式模板。变换后的T被重塑为Rkh×h×h，并使用单实例投影模块 Gs 从 3D 投影到 2D ，以输出 xfRc×h×h，捕获实例的特征映射表示。上述步骤可以正式地写为：F（z）：=GsSTN ~ G p（z），T.（一）接下来，我们提出通过平均池化这些特征图来组合这些特征图，然后使用渲染模块Gr渲染多实例深度图像，如下所示：x=G（Z）：=G（¯）其中¯=1（z），（2）|Z|z∈Z其中表示由G生成的深度图像。该生成控制流程在图10中使用黑色箭头描绘二、3.3. InSeGAN鉴别器如在标准GAN中，鉴别器D的任务是决定其输入是否来自产生训练集的多实例深度图像的自然分布（即，）或由我们的属合成-torG（即，）.遵循标准架构，D由若干2D卷积、实例归一化和LeakyRELU层组成，并在[0，1]中输出分类得分。训练鉴别器和生成器的目标分别是使以下损失最小化：3.4. InSeGAN实例姿态编码器我们现在介绍我们的实例姿态编码器模块E，它是实例分割的关键。该模块的任务是将由G产生的多实例深度图像X作为输入，并重建用于生成X的Z中的每个噪声向量（对实例姿态进行编码）。编码器输出Zf，一组潜在向量。事实上，由于x是通过聚合对象的n个独立采样的实例外观而产生的，因此将该过程反转相当于将x分解为其各自的实例。因此，当生成器被良好地训练时，即，xx，我们最终将学会在地面真实图像中解开每个实例。虽然这个想法在概念上很简单，但实际上实现它并不简单。 Thereare four main difficulties: (a) the input Z to thegenerator and the output Zˆ of E are unordered sets,which need to be aligned before comparing them; (b) theaverage pooling operator in (2) aggregates several featuremaps into one—an operation that loses the distinctivenessof each of the instance feature maps; (c) the depth rendererGrmayremoveoccludedpartsoftheinstances,thusposingambiguities when mapping them back to the noise vectors;and(d)theposeencoderGpprojectsitsnoiseinputtothespace of rigid body transforms, an operation that is inher-ently low-rank and nonlinear. 我们通过对编码器施加损失来解决这些挑战，以便它学会反转生成器中的每个模块我们将编码器分解为E = G−1 G−1，包括：（i）图像去渲染器G−1，它获取深度图像并产生特征图，以及（ii）实例解码器G−1，它从G−1获取特征图并产生Z。对齐和重建：为了解决我们的第一个难题-在（a）中，我们提出在计算集合Z和Z（上的重建损失之前对齐具体而言，我们寻求找到对准矩阵πΠ（Z，Z（），其中Π表示所有这种对准的集合（即，在它的内部，使重构损失最小化：L=¨Z−其中π=arg min OT（π，D（Z，Z）），LD：=−ExXlog（D（x）） −EZZlog（1 −D（G（Z）），LG：= −EZZlog D（G（Z））。（三）E哪里π⑵，π∈Π（Z，Z）（四）我们的鉴别器的任务与先前的工作中的任务显著不同，因为它必须学习：（i）计算渲染实例的数量是否匹配数据分布中的实例的数量，（ii）验证通过变换仍在学习的对象模板T获得的渲染的3D姿态对象是否捕获个体外观（iii）渲染图像的布局是否类似于训练深度图像中的实例的组成。幸运的是，通过访问合适的数据集，D可以在用生成器进行逆向训练时自动实现这些期望的行为D表示Z和Z中列之间的成对距离，OT是一些合适的匹配方案。我们使用通用最优传输(IPOT[44]）方案来实现对准，其返回用于在使用L2距离比较矩阵之前对准矩阵的置换矩阵π*我们在图1中使用红色实线箭头显示了此编码器控制流。二、中间重建：解决困难（b）以及（c）在编码器设计中，其涉及学习1如果数据实例的数量很小，我们也可以使用匈牙利匹配方案[22]来实现OT，这通常比最佳传输方法快得多。注意：我们的实验表明，贪婪的对齐方式是没有用的-见4.1节。10028−12EE∈pFL¨ F −¨a我pp每个生成的实例图3. InSeGAN推理流水线（参见第3.5详情）。反转深度渲染器，我们使用E中derenderer子模块G−1的输出。具体地，G-1被迫学习隐式对象模板：模板被实现为权重张量，通过反向传播学习。R r重建（2）中的平均池化特征图F¯。让我们用…表示损失i=Gr（x）.姿势解码：虽然可以应用上述的方法，但即使对于姿态解码器Gp，中间特征解码策略也不会非常有效地将其输出Λ（Gp（Z（））与在生成过程期间产生的刚性变换进行这是因为Λ产生的几何矩阵涉及旋转矩阵，并且因此优化将理想地需要SO（3）[1]空间中的黎曼优化方法，这不太适合于诸如Adam [24]的标准优化方案此外，可能有几个不同的几何变换，可以实现相同的输出[46]。为了避免这种技术性，我们建议直接学习刚性变换，避免精确重建变换，而是要求它在一般情况下具有所需的结果。该过程。具体地，我们建议使用产生的Z由编码器，并使用它作为噪声矩阵以产生深度图像G（Z）;然后将该深度图像与使用Z在前一遍中生成的深度图像进行比较。下面的损失L抓住了这个想法：LE=G（Z）−G（E（x））1。（五）上述控制流程如图1所示图2由从噪声向量z^通过姿态解码器并到达深度渲染器的虚线红色箭头表示，即，G.编码器丢失：当训练编码器模块的参数时，我们组合上述三个损失（关于其架构的细节，参见补充材料）：LE=LE+λ1LE+λ2LE，（6）其中λ2当反向传播编码器损失的梯度时，我们固定生成器参数，否则它们将与编码器参数共同适应，使训练不稳定。2我们在所有实验中都使用λ1=λ2=1从上面的损失梯度。在训练期间，反向传播反转图1B中的所有箭头。二、3.5. InSeGAN推断在推理时，我们假设仅给出由刚性对象的多个实例组成的深度图像;我们的目标是分割实例并分别呈现每个实例，同时在输入上产生实例分割。为此，我们的推理流水线类似于生成过程，但具有如图所示的一些重要差异。3.第三章。具体地，为了推断，我们将多实例深度图像输入到实例姿态编码器模块E，其产生一组潜在向量每个zZ被单独输入到训练的单实例中生成器Gs，其输出使用Gr渲染以形成对应于我们强调，在推理阶段，深度图像渲染器位于单实例生成阶段-这与训练设置形成对比，在训练设置中，渲染器将聚合特征张量作为输入。一旦单个实例被渲染，如图1B所示。在图3中，我们在这些实例深度图像上使用深度方面的最大池化以用于实例间遮挡推理，随后对单个实例进行阈值化（并将基本图像滤波器应用于单个实例）。阈值化移除在深度渲染期间引入的任何偏差为了产生逐像素分割，我们使用为给定像素选择的生成实例的索引3.6. 训练管道我们训练我们的完整框架，包括InSeGAN生成器G，鉴别器D和编码器E，通过最小化由下式给出的所有损失的总和：L=LD+LE+ LG（七）使用PyTorch autograd计算各个模块的梯度我们使用Adam来训练我们所有的模型，学习率为0.0002，β1=0。5，且β2= 0。九十九。��一次一美元实例姿态编码器实例特征生成器深度图像渲染器��1��学习对象模板姿态解码器深度合并10029螺栓Obj010.70.70.60.60.50.50.40.40.30.30.22000 4000 6000 800010000数据集大小(a) Datasize1 2 3 4 5 6 7InstaGAN中使用的实例数（gt=5）(b) 实例图4. mIoU与（a）训练数据集大小，（b）模型中的实例数n（地面实况具有5个实例）。4. 实验和结果在本节中，我们将通过实验展示InSeGAN在实例分割任务上的经验优势。我们将首先介绍我们的新合成数据集Insta-10，我们的大部分实验都基于该数据集。然后，我们介绍了一个真实世界的数据集，我们收集来评估我们的方法的应用（自然）。图5. Insta-10物体的定性结果。第一行：用于生产Insta-10的CAD模型。第二行：输入深度图像。第三行：由InSeGAN渲染的深度图像。第四行：InSeGAN的预测分割。RGBImageDepth Image（input）InSeGANKMeansFelzenszwalb et al.图6.真实数据的定性结果我们展示了RGB图像、嘈杂的深度输入和产生的分割。有噪声的）真实对象的深度图像。Insta-10数据集：虽然存在用于例如分割的若干真实世界数据集，诸如MSC 0 C 0 [27]和CityScapes [6]，但是它们通常涉及背景对象以及与待分割的对象无关的其他东西。此外，CLEVR [21]等数据集被提出用于视觉推理任务，因此可能无法完全分析分割质量。为了填补这一空白，我们引入了Insta-10，一个大规模的数据集输入Wu等人SC K均值我们由CAD对象模型的多个实例的深度图像组成。我们从实例中删除颜色和纹理，分析的困难条件下，其中有最小的属性以外的形状的分割性能。这是受到大多数工业对象通常不具有纹理的观察的启发[15]，除了有时RGB可能分散基于形状的分割器的直觉之外。为了创建数据集，我们使用了10个CAD对象模型（3个来自无T数据集[15]）7、我们自己的图书馆。我们使用PhysX物理模拟器3来模拟将物体顺序放入一个箱子中，产生合成的多实例深度图像。我们在每个深度图像中使用了相同对象的5个实例，产生了大量的实例间遮挡，并且我们选择了bin宽度，使得实例分割具有挑战性但不太难（即使对于人类）。除了深度图像之外，我们还提供与每个图像相关联的点云和地面实况实例分割掩模;这些掩码仅用于评估而不是训练。我们为每个对象收集了10K个图像，整个数据集中总共有100K个深度图像，每个图像都有尺寸224×224。样品图像在图1A和1B中。5和7。使用机器人的真实世界深度图像：除了合成的Insta-10数据集，我们还分析了adapt-3https://developer.nvidia.com/physx-sdk图7.与其他方法的定性比较。我们的计划的实际设置的能力。对于该实验，我们使用包含4个相同木块的盒子（参见图1）。6），其中使用Intel RealSense深度相机（D435）捕获深度图像。为了产生由不同配置的块组成的多个不同图像，我们编程了一个Fetch机器人[39]来在图像之间摇动盒子。我们使用该设置收集了3，000个深度图像，其中我们手工注释了62个图像，我们保留用于评估。来自该设置的深度图像是非常嘈杂的，并且因此，对象的形状通常看起来不相同。评价指标和实验设置：为了评估我们的计划，我们使用平均交集超过工会（mIoU），语义分割的标准度量。对于训练和评估，我们将与每个类相关的数据子集在Insta-10数据集中，我们在每个类别中使用100个随机选择的图像进行验证对于测试集，我们选择了KMeans失败的100个图像，从而避免了对于标准方法来说微不足道的分割。性能分析：在Insta-10数据集上，我们比较了非深度和深度学习方法的方法。非深度方法包括经典分割算法[31，3，36]。深度学习比较-螺栓Obj01螺母止动器气缸螺栓锥连接器5针Obj01Obj14产品介绍MiouMiou10030LEEpE方法螺母别说了油缸活塞螺栓锥康涅狄格5针Obj01目标14 产品介绍平均mIoU非深度学习方法K-Means0.640.2970.70.180.350.5540.6280.2080.4960.590.464光谱聚类[31]0.560.360.540.220.410.560.580.250.470.570.452GrabCut [36]+ K均值0.5720.2320.5720.4720.2310.5190.4970.5970.5570.6050.486GraphCut [3]0.5690.10.5890.4470.120.4760.120.5970.5400.5110.373深度学习方法Wu等人[41个]0.450.280.570.270.330.380.430.230.440.570.385碘[9]0.0260.0590.0190.0400.0890.0320.0340.0580.0530.1180.053插槽地址[29日]0.3750.2760.5350.430.680.6620.6280.6550.6220.4810.535InSeGAN（2D）（我们的）0.2150.3650.2580.5240.4350.5850.6280.3650.2860.5320.419InSeGAN（3D）（我们的）0.7730.3010.7600.5390.470.6550.6420.6860.5910.4830.590表1.通过每种方法预测的分割掩码与地面实况掩码之间的平均IoU（mIoU）和Insta-10数据集上的2D GAN结果表明，我们的3D生成器明显优于2D生成器。所有的损失都很重要吗？InSeGAN发生器中有三种损耗：（i）La，对准损失，（ii）Li表生成器和mIoU两个类上实现的。GAN以及（iii）所生成的深度图像与所重新生成的深度图像之间的E对于（i），我们比较了用于对齐的贪婪选择与用于对齐的贪婪选择。使用最佳运输。我们提供两个对象类，螺栓和Obj01的烧蚀研究如从表2中清楚的，使用贪婪对齐导致较低的性能。我们还发现使用Lp 从经验上讲是非常重要的0.857表3.使用机器人收集的真实世界数据的结果包括：（i）Wu et al.[41]，这是最类似于我们的;(ii)IODINE [9]，用于场景分解而不是实例分割;和（iii）时隙张力[29]。我们使用（ii）和（iii）的公共代码，使用它们的默认超参数。在表1中，我们展示了这些结果。我们发现，对于大多数对象类（6/10），InSeGAN优于所有其他方法。在Stopper类上，这是最困难的，InSeGAN优于所有其他方法，除了谱聚类。总的来说，In-SeGAN显示出比性能最好的先前方法（在所有10个类别中平均）相对提高9.3%。我们发现最近的IODINE [9]方法在我们的图像上失败了，可能是因为它是为场景分解任务设计从表3中，我们看到我们的方法也推广到真实数据。在图5中，我们示出了由InSeGAN产生的若干定性结果。补充材料中提供了更多结果。4.1. 消融研究在本节中，我们将分析设计中的每个组件，并根据经验证明其重要性。3D 生成器重要吗？为了回答这个问题，我们将InSeGAN中的3D模块（3D隐式模板，姿态编码器和STN）替换为2D卷积和上采样层，类似于编码器和鉴别器中使用的那些。在表1中，我们提供了3D模型的比较。发电机失L（OT）+L+L一我pEL（贪婪）++L+L一E Ep我EE EL（OT）+L一我EE螺栓Obj010.424 0.6860.383 0.6640.312 0.360L（OT）一0.303 0.4022. InSe中各种损耗的烧蚀研究E方法MiouKMeans0.797谱聚类0.668图分割[7]0.436InSeGAN1003110-20%的性能提升。我们的分析证实了我们架构中使用的所有损耗的重要性。我们需要所有的训练样本吗图如图4（a）所示，我们绘制了性能与增加数据样本数量的关系我们在训练集中的10K深度图像的随机子集上训练。显然，更多的训练数据是有用的，但这个增量似乎取决于对象类。实例数错误图4（b）中，我们绘制了性能与增加InSeGAN中使用的实例数量我们将n从1增加到7。这是与真实实例数（每个深度图像中5个）的不匹配。该图显示，当实例的数量接近地面实况时，InSeGAN表现得在补充材料中，我们展示了如何处理每个图像中未知数量的实例n5. 结论在本文中，我们提出了InSeGAN，一种新的3D GAN来解决无监督的实例分割。我们发现，通过将鉴别器与精心设计的生成器配对，即使在混乱和严重遮挡的情况下，该模型也可以重建单个对象我们引入一个新的大规模数据集，我们正在公开提供，以实证分析我们的方法。我们的方法展示了最先进的结果，以及推广到现实世界的图像。展望未来，一个方向是扩展框架，使用多个隐式模板来分割图像中不同对象的混合。10032引用[1] P-A Absil，Robert Mahony，and Rodolphe Sepulchre. 矩阵流形上的优化算法。普林斯顿大学出版社，2009年。六个[2] MarcosAlonso，AlbertoIzaguirre和ManuelGran n a。机器人抓取与拣仓的研究现状第13届工业和环境应用软计算模型国际会议，第367Springer，2018. 一个[3] 尤里·博伊科夫和弗拉基米尔·科尔莫戈洛夫。最小割/最大流算法在视觉中能量最小化的实验比较IEEE模式分析和机器智能学报，26（9）：1124-1137，2004。七、八[4] 德克·布赫霍尔茨拣箱：经典问题的新方法，第44卷施普林格，2015年。二个[5] ChristopherPBurgess 、 LoicMatthey 、 NicholasWatters、Rishabh Kabra、Irina Higgins、Matt Botvinick和Alexan der Lerchner。莫奈：无监督场景分解和表示。arXiv预印本arXiv：1901.11390，2019。二、三[6] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE Conf. ComputerVision and Pattern Recognition（CVPR），第3213-3223页，2016中。二、七[7] Pedro F Felzenszwalb和Daniel P Huttenlocher。高效的基于图的图像分割。国际计算机视觉杂志，59（2）：167-181，2004。八个[8] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。三个[9] KlausGref f 、 Raphae¨ lLopezKaufman 、 RishabhKabra 、NickWatters 、 Chris Burgess 、 Daniel Zoran 、 LoicMatthey、Matt Botvinick和Alexander Lerchner。多目标表示学习与迭代变分推理。 arXiv 预印本 arXiv ：1903.00450，2019。二、三、八[10] Abdul Mueed Hafiz和Ghulam Mohiuddin Bhat。实例分割综述：最新技术。国际多媒体信息检索杂志，第1-19页，2020年。2[11] Kensuke Harada 、 Kazuyuki Nagata 、 Tokuo Tsuji 、NatsukiYamanobe 、 AkiraNakamura 和 YoshihiroKawai。用圆柱体近似的概率方法进行物体面元拾取。2013年IEEE机器人与自动

下载后可阅读完整内容，剩余1页未读，立即下载