识别和操作图像中的对象特征

135 浏览量更新于2023-10-25 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6558学习操作图像中的单个对象Yanchao Yang杨燕超加州大学洛杉矶分校视觉实验室yanchao. cs.ucla.edu陈宇彤<$清华大学chen-yt16@mails.tsinghua.edu.cn加州大学洛杉矶分校视觉实验室soatto@cs.ucla.edu摘要我们描述了一种训练生成模型的方法，该生成模型具有（近似）独立和局部化的潜在因素。这意味着扰动潜变量只影响合成图像的局部区域，对应于对象。与其他无监督生成模型不同，我们的模型支持以对象为中心的操作，而不需要对象级注释或任何形式的注释。我们的方法的关键是空间解纠缠的组合，通过上下文信息分离损失和感知周期一致性来实施，通过损失来惩罚响应于潜在因素的扰动的图像分区中的变化。我们测试了我们的方法11. 介绍生成模型通常旨在捕获自然统计数据，同时隔离独立的变异因素。如果这样的因素对应于要事后实例化的任务中的感兴趣变量，或者如果模型要用于用户想要独立地控制结果的图像合成，则这可以是有益的。从大型图像集合中学习的生成模型，例如变分自动编码器（VAE）或生成对抗网络（GAN）确实隔离了独立的变化因素，但这些因素会影响图像的全局统计数据。我们感兴趣的是空间局部化的变化因素，使图像统计的操作可以发生在对象的水平，而不是整个图像。虽然人们可以学习条件生成模型，但这通常需要对独立因素进行注释。我们的目标是学习空间和语义独立的潜在因素，*同等缴款。[2]本工作是在作者访问加州大学洛杉矶分校期间完成的1代码可在：https://github.com/ChenYutongTHU/Learning-to-操作图像中的单个对象-实现图1.在不知道对象的情况下扰动学习的因子会全局影响合成场景（中）。以对象为中心的生成因子可以将柱子的颜色从绿色（左）更改为黄色，而不会影响其他对象（右）。需要任何注释。我们称之为以对象为中心的生成因素。现有的文献对象为中心的生成模型仅限于分段常数或光滑的图像。我们引入了两个变分约束，一个来自上下文信息分离（CIS）原理[36]，但扩展到多个对象，另一个来自强制感知周期一致性，这是图像到独立控制区域的我们illustrate- trate我们的模型在现有的数据集上的特点，并引入两个新的数据集的复杂性增加。2. 相关工作表示学习有两种方法，任务驱动，目标是学习数据的函数，捕获与任务相关的所有信息并丢弃其他所有信息（足够的不变）[1]，以及解纠缠，目标是在分离独立变量的同时重建数据[3，32]。从技术上讲，后者是前者的一个特例，即任务变量是数据本身，潜在因素的独立性然而，文学在很大程度上是在不同的轨道上发展的。一个独立的分类法可以根据监督的水平来设计。虽然分离表示通常指的是无监督学习，但任务驱动表示可以是无监督的（如果任务是预测或重建），半监督或完全监督。在无监督表示学习方法中，变分自编码器（VAE）[24]试图提取6559潜在的因素，迫使一个变的瓶颈，在generative模型。这也可以被看作是任务驱动表示的一种特殊情况，其中任务是数据本身。[1，30]表明，潜在因素往往是独立的，并且可以在生成环境中轻松操纵。另一种不同的方法使用对抗性损失[12]将已知分布（通常是高斯分布）映射到数据分布的近似值，因此输入分布可以被认为是一组独立因子。为了鼓励学习的表示与潜在的生成因素的对齐，已经提出了几个约束来强制潜码的解开[17，5，1，30，22，9，4，18]。InfoGAN [10]通过显式地最大化潜变量子集与生成图像之间的相互此外，可以利用特定领域的知识来学习分解的表示[33，32，21]。在所有这些方法中，解纠缠是在潜在空间中寻求的，而不是基于定义数据的域。对于图像的情况，我们希望独立因子对应于图像的紧凑和简单连接的区域，对应于对象。在所有这些方法中，对独立因子的操纵通常对图像具有全局影响，而不是使得能够一次操纵一个对象。我们希望开发出自然地解开空间域的模型，以及其他潜在的变化因素。当然，可以分割图像并独立地表示每个区域，但这样做首先需要检测对象的能力。最近的结构化表示学习方法已经被提出，使推理场景中的对象。AIR [11]提出了一种用于图像生成过程的结构化生成模型。SQAIR [25]提出了一个额外的状态空间模型来加强时间一致性，使得序列内的分解是一致的。它们的结构化模型的能力和已知/平凡背景的假设限制了AIR和SQAIR。DRAW [15]采用注意力以结构化的方式生成具有对象的图像。在[37]中，图像被分解为语义掩码、纹理和几何形状，需要大量的人工监督。和[26]提出了一种自动编码器，将图像去渲染为图形代码，通过显式指定变化来训练图形代码。类似地，[35]采用图形引擎作为解码器来执行可解释的表示，然而，这不是向后可微的。NEM [14，34]构建空间混合模型将像素聚类为对象，但仅适用于灰度图像。IODINE[13]还采用空间混合模型来联合推断分割和对象表示。[13]在纹理或杂乱的场景上表现不佳，罪魁祸首是假设像素可以根据低维spa分组为对象。混合模型自深度神经网络[28，8，38]出现以来，语义分割已经有了相当大的改进，实例分割也是如此，其中网络必须区分相同语义类的不同实例[31，19，27，7]。然而，这些方法依赖于密集注释的地面实况分割掩模。另一方面，无监督目标分割是一个长期存在的问题，但大多数方法在推理过程中需要复杂的优化。最近，用于对象分割的非监督学习方法已经显示出前景：UMODCIS [36]提出了用于二进制移动对象检测的上下文信息分离，具有端到端训练，无需手动监督或伪掩码。后来，[2]提出了复制粘贴GAN来发现图像中的二进制对象掩码;然而，必须特别注意防止琐碎的解决方案。只有少数的工作处理分割和对象为中心的表征学习在一个统一的框架。除了少数采用结构化模型的变分推理之外，MONet [6]还在VAE框架内引入了一个递归分割网络，并联合训练它们以提供分割和学习表示。在下一节中，我们描述了我们的方法，并在下面的节。4.我们测试了模型捕获数据统计信息的能力，同时能够独立控制场景中对象对应的潜在因素。3. 方法设x ∈ RH×W×3是一幅彩色图像，z ∈ RN是x的生成因子，它代表了数据的不同特征。当任务是数据本身时，我们的模型使用信息瓶颈作为推理标准，由此表示（编码器）q φ（z|x）描述了潜在因素（瓶颈）z，并且解码器p θ（x|z）允许从潜在因子z中采样图像。编码器和解码器通过最小化信息瓶颈拉格朗日（IBL）[1]来训练：L（φ，θ; x，β）= −Ez <$qφ（z|x）[log p θ（x|z）]+βKL（q φ（z|x）n（z））（1）其中KL是当β= 1时，IBL降低到证据下限（ELBO）。当β >1时，[1]通过分析和[17]的经验证明，潜在的因素被解开了。然而，这些因素总是全局地影响生成的图像，如图所示。1.一、这里我们的目标是推断以对象为中心的生成因子，使得我们可以扰动与单个对象相关联的因子，并且扰动将不会影响场景中的其他对象或实体6560Ss图2. 系统概述。我们的方法通过使用上下文信息分离标准将图像域划分为相互独立的区域，这需要一个修补网络，然后提取生成因子，这些生成因子在空间和统计上与感知周期一致性约束所强制执行的身份一致性分离。为了简单起见，我们省略了掩码。换句话说，我们的目标是使生成因素不仅在统计上，而且在空间上解开。为此，我们构建了一个分割网络，将彩色图像映射到K个分割掩码Σn：RH×W×3→ [0，1]H×W×K;n（i，j，k）=1，ni，jK（二）图3. 使用以二值化边缘图为条件的上下文的平均修复误差是用边缘条件计算的上下文信息的良好度量：给定未知图像的二值边缘图，当上下文包含较少的互信息（第一行）时，掩蔽区域（问号）的平均修复误差将较大，当上下文包含较多的互信息（第二行）时，掩蔽区域的平均修复误差将较小。loss在[6]中也用于以无监督的方式学习对象相关然而，一个问题来自Eq。（3）：为什么最小化上述损失会产生将图像域划分为对象的分割网络？给定足够小的编码容量，可能的是，将偏置图像x以将图像x分割成比完整图像更容易编码和解码的（4）表示重构误差。然后，当对象碰巧是恒定颜色的斑点时，就像它们出现在某些数据集中一样，多精灵和对象室[20]，用于[6，13]中的实验。但是，如果我们想将我们的方法应用于纹理对象或杂乱的场景，而这些对象根本不是彩色斑点，那该怎么办呢？空间解缠。赋予我们的方法Σ注意i、jk（i，j）= 0意味着不在现实中学习以对象为中心的生成因素的能力-的场景，我们适应上下文信息Sepa-第k个通道中的对象如果所有的非零通道*Σ[36] 的定量（ CIS ）标准，避免了方程的缺点。（四）、我们将CIS扩展到多个未知数目的对象，并将其与表示学习相结合，而L（φα，φs，θ; λ，x，β，λ）=K与L（φα，φs，θ; φk，x，β，λ）=L（φα，φs，θ; φk，x，β，λ）（三）在Eq.（3），这反过来又施加额外的定期-通过代表性瓶颈。这样，生成因素的统计和空间分解在学习过程中同时发生。CIS的基本思想是，当上下文不包含关于图像的子区域的信息时，— E zk<$qφα·qφslogp θ（[x·k，k]）|zk）+ βKL（q φα（zα|x·k）p（zα））10）重建或3 .第三章。为了测量μ-K K+λKL（q φs（z| Ωk)ǁp(z ))(4)实际信息，一个地区之间的联合分布，K K必须具体说明其背景。在这里，我们选择使用其中qφα和qφs分别是x中对象的外观和形状相关因子然后，联合解码器θ使用zk={zα，zs}重建每个对象的外观和掩码，z k ={ z α，z s }是条件分布p（x|在二值化的边缘λ x上的图像x的（λx）。注意，还可以使用图像p（x）的边缘分布，这通常可能导致性能下降，因为互信息是kK外观和形状相关因素。请注意，Eq。（3）是信息瓶颈拉格朗日方程的总和。（4）定义在各个段或“对象”上。类似的使用p（x）计算的补间像素取决于空间接近度而不是场景的结构。通过instan- tiating一个有条件的修复网络，我们的基于CIS的6561空间解纠缠损失变为：Σ⟨Ωk,ǁψ(Ωk,x·(1−Ωk);∇x)−xǁ⟩LSD（λ; λ，x）=K⟨Ωk,ǁxǁ⟩+ǫ（五）其中，·，·表示点积，·是元素级的L1范数，它保持输入的维数，是一个小的正常数，可以防止被零除。在[36]中，表明在高斯条件的假设下，互信息可以用修复误差近似。请注意，条件修复网络接受条件x和被k屏蔽的图像的上下文x·（1−k），并输出修复后的图像。如果将上下文与每个对象完美地分离，这种空间解纠缠损失将被最大化，从而最小化了Pocks内部和外部之间的互信息。感知周期一致性。假定解码器p θ从以对象为中心的生成因子zk生成图像，我们可以扰动指定对象z k的因子zk<$N（zk，I）（等式2）。（7）），并将扰动图像x与{zk}{1，. K}\kzk（等式然后提取扰动图像的以对象为中心的生成因子（等式（ 8 ））。（ 9 ）、（10））。如果不仅因子在统计上和空间上被很好地分离，而且分离因子的恒等式对局部扰动是鲁棒的，我们将期望从扰动图像中提取的因子在其它对象的zkkUniform（1，K）（6）zkN（zk，I）（7）x<$←p θ（[x，<$]|{zk}{1，..（K}\kzk）（八）Ωˆ=Ω(xˆ)(9)图4. 多dSprites上的空间解纠缠：我们的方法可以分割包含各种数量的具有严重遮挡的恒定彩色对象的图像（最后两行）。图5. 物体空间解纠缠：我们的方法适用于具有平滑颜色物体，复杂形状和不同照明条件的3D场景。同时最小化上下文信息（第二项）以防止过分割;即，属于同一对象的像素应该被分组在一起。此外，它必须对第三项引入的扰动具有鲁棒性，这不仅强加了感知一致性，而且还可以防止身份切换;即，分配给第k个掩模的对象应该在扰动之后，特别是在空间扰动之后，再次分配给掩模这对于涉及视频的应用特别有用，因为时间一致性将在{z <$qφα，qφsx，（十）培训，我们将在实验中展示其有效性k}<$−ΣL（φα，φs，θ，θ，x）=φ z-z <$+ z<$−z<$（11）精神科。PC l l k klK请注意，当我们需要跟踪不同对象的状态以进行时间分析时，也需要此特性。通过结合Eq.（3），（5）和（11）我们有我们模型的最终训练损失：4. 实验我们首先描述了用于评估的数据集，然后详细说明了实施细节和培训过程，之后提供了定性和定量的比较最大参数ψminφα，φs，θ，θL（φα，φs，θ; θ，x，β，λ）4.1. 数据集Multi-dSprites：dSprites [29]由二进制图像组成-γLSD（φ; φ，x）+ηLPC（φα，φs，θ，φ，x）（12）请注意，分割网络现在出现在三个术语中，这鼓励分割网络对图像进行分割（第一个术语）一个形状不同的物体（正方形、椭圆形、心形），比例、方向和位置。在 Multi-dSprites [20] 中，从dSprites中随机选择1-4个形状，随机着色并在随机着色的背景上组成6562图6. 遍历Multi-dSprites上以对象为中心的生成因子：输入图像和相应的空间解纠缠（第一行）。剩下的部分：遍历特定对象的统计学上分离的生成因素。请注意，扰动仅影响目标对象，背景颜色也可以修改。在位置、比例和旋转上具有遮挡和独立变化;见图中的示例图像。4.第一章Object Room[20]包含3D场景的渲染图像，这些场景由1到3个随机选择的3D对象组成，这些对象的形状、颜色、大小和姿势都是独立的。3D场景的墙壁和地板也随机着色。一旦投影，对象可能会表现出显著的外观变化，这取决于照明和视点。检查图中对象室的图像。5，我们仍然可以看到图像远非真实，即使物体没有均匀着色。多纹理：为了测试我们提出的方法是否适用于复杂的外观，例如，纹理对象，我们创建了多纹理数据集。为了生成该数据集，随机选择1到4个形状，并使用随机着色的棋盘图案独立纹理化。然后，这些纹理对象随机放置在一个随机着色的木制纹理背景（图。（八）。图7. 遍历对象为中心的生成因素在Ob-Obsroom：我们可以改变规模，位置，和绿色柱的颜色不断不影响其他人。此外，它的形状可以从圆形变形为三角形。图8. 多纹理的空间解纠缠：通过上下文信息分离的显式空间解纠缠，我们的方法可以分割具有复杂纹理的对象。飞行动物：尽管与Ob-Oscillator Room数据集相比，Multi-Texture在对象外观上更复杂，但均匀纹理的对象在图像统计中仍然看起来不自然，与现实世界中看到的图像相差甚远。因此，我们提出了飞行动物数据集。我们收集了两组自然图像。一个包含来自10个不同景观的背景图像，例如，山脉、沙漠和森林，每个都有10个不同的实例;另一组包含24种不同动物的清晰前景图像，每种动物有10个不同的实例。我们选择1到5个对象，随机缩放并将它们放置在随机的6563图9. 在Multi-Texture上遍历以对象为中心的生成因子：虽然对象不是恒定着色的，但仍然可以通过空间解纠缠的显式建模来学习解纠缠的以对象为中心的生成因子。背景图像与闭塞。此外，我们扰动每个分量的强度来模拟不同的光照条件。有关示例图像，请参阅图。10个。4.2. 培训详细信息分割网络架构：与DeepLabV2架构[8]类似，我们使用ResNet50 [16]作为分割网络的骨干，后面是四个并行的扩张卷积层，其响应被聚合以生成K个分割掩码。可训练参数的总数为24M。修复网络：我们采用了[36]中的修复网络。它由两个对称编码器组成，分别对二值化边缘图和掩蔽图像（上下文）进行编码，并重新编码;以及具有来自两个编码器的跳跃连接的联合解码器。修复网络中的参数总数为13M。编码器和解码器φα，φs，θ：我们采用[22]中提出的VAE结构。代替单个图像编码器，我们实例化两个对称编码器φs和φα，其中φs编码作为分割网络输出的单通道对象掩码，φα编码掩码对象以获得外观相关的生成因子。解码器接收以对象为中心的生成因子并生成对象我们的编码器-解码器中的参数总数为1.7M。训练：Adam用于初始学习率为1 e-4、1 e-8和beta（0.9，0.999）的所有模块。与[36]一样，我们发现预训练的修复网络将稳定训练。我们随机裁剪输入图像使用具有不同高度、宽度和位置的矩形掩模，并训练修补网络以最小化掩模区域内的修补误差（L1训练在50K步后停止。然后，我们对抗性地更新分割网络和修复网络，以在以对抗性方式执行的所有模块的联合训练之前加速空间解纠缠，如等式（ 1 ）所示。（12），并在4M次迭代后停止。在训练过程中，按照[5]中提出的方案调整容量约束。4.3. 结果与我们最接近的方法是MONet [6]，据我们所知，这是唯一一种在统一框架中学习分割和表示非恒定颜色对象的方法。由于我们无法访问本地实现，我们通过在我们的框架中训练相同的K路分割网络来重新实现MONet，但使用与[6]相同的损失这也消除了可能妨碍公平比较的结构性偏见。请注意，我们设置K= 6，这大于MONet训练中可能出现的对象的最大数量。在下文中，我们展示了每个数据集上的分割和学习到的以对象为中心的生成因子。我们还将展示对联合学习的对象分割掩码的定量评估。多精灵：如图所示。4、我们的方法设法分离不同的对象，使得VAE可以学习每个单个对象和背景的表示。请注意，无监督分割对于未知数量的对象和严重的遮挡效果很好。考虑到空间解纠缠是通过分割实现的，我们将每个掩蔽的对象和背景转发到编码器-解码器，并在瓶颈处获得以对象为中心的我们观察到，在训练过程中，某些维度偏离了先验高斯分布。如[5]中所解释的，这些维度表现出与dSprites的独立生成因素一致的语义意义。图6显示了具有三个对象的图像的分割和对象中心解纠缠。通过扰动一个人的潜在因素，同时保持其他对象的表征不变，可以一次操纵一个对象对于每个对象，我们可以控制它的独立因素，包括沿两个正交轴的位置，旋转，缩放，形状和颜色，通过一次遍历潜在空间中的一个维度。对象房间：我们的方法在对象房间数据集上也表现良好，即使在各种光照条件下对不同对象产生阴影效果，如图所示。五、以对象为中心的统计解纠缠在图中呈现。7.第一次会议。同样，我们可以通过改变不同对象的位置、形状和颜色来编辑场景，这显示了对3D场景编辑的适用性6564图10. 飞行动物的空间解缠。我们的方法可以在空间上解开与自然统计的图像，其中的对象和背景是高度非均匀的，并且对象的形状比正方形或椭圆形表现出更多的变化数据集M-dSprites目标房间M纹理F-动物莫奈0的情况。84± 6。4δ0的情况。80± 8。3δ0的情况。37± 0。3δ0的情况。18± 2。8δ我们0的情况。92± 6。6δ0的情况。85± 5。6δ0的情况。88± 2。6δ0的情况。81± 5。5δ表1. MONet [6]和我们的方法之间的分割质量的定量评估。以平均交叉-联合评分衡量性能，报告平均值和方差，其中δ= 10−3。 MONet在Multi-dSprites而他的房间里，却有一个人，或者说是一个人。多纹理和飞行动物（纹理或复杂的自然外观）的曼斯显著下降。我们的方法在不同的数据集上表现得很好。图11. 在飞行动物上遍历以对象为中心的生成因素：输入图像（左上角）的空间解纠缠显示在第一列中，第二列显示解码器重建的对象其他列显示每个对象上的遍历。尽管如此，我们仍然可以单独改变每个空间解纠缠对象的形状或外观。例如，在第二行中，当扰乱獾的表现时，黄色框中的动物的外观从猫头鹰状插值为狐狸状，而其他四种多纹理：我们在多纹理数据集上进行了实验，以证明我们提出的方法可以在纹理图像上进行空间解纠缠。如图8，我们的方法可以准确地分割出具有棋盘纹理的正方形和椭圆形，证实了上下文信息分离约束可以防止网络天真地将棋盘分成两种相互关联的不同颜色。图9示出了解纠缠和以对象为中心的操纵结果。即使对于复杂的纹理对象，我们的方法仍然能够学习允许我们一致地改变对象的因素，包括背景。飞行动物：为了验证我们的方法不限于合成图像，但也可以处理自然的，我们进一步测试我们的方法在飞行动物数据集与真实的风景和动物。如图10，即使具有复杂的外观和形状，我们的方法也可以从自然景观中分割出动物，这比分割多精灵和对象中均匀着色的对象更具挑战性表2. 对身份转换的定量评估：注意，通过施加感知循环一致性约束，身份转换减少到255分之0。房间类似地，我们的方法可以学习场景中每个动物的解纠缠表示，然后一次编辑一个动物，如图所示11个国家。然而，由于外观和形状的复杂性，以及重建质量和解纠缠瓶颈容量之间的权衡，β-VAE框架不足以在保持物体细节的同时对每个物体进行统计解纠缠。我们将在下一节中进一步讨论这一点。定量评估：我们将我们的方法与在上述四个数据集上重新实现的MONet [ 6 ]进行了比较。我们报告了平均交叉联合评分（均值±方差）。如表1所示，我们的方法在所有四个数据集上都取得了比MONet更好的分数。特别是在Multi-Texture和Flying Animals中，对象具有复杂的纹理，没有明确的信息分离（CIS）约束，MONet往往主要基于颜色信息进行分割。同时，CIS使我们的模型能够将对象“视为”具有彼此相关的不同部分的实体。为了说明这一点，我们在图12中呈现分割结果。请注意，莫奈根据颜色将黑白熊猫分解为不同的通道，而我们的方法完全可以检测到它，而不会受到颜色的影响。感知周期一致性我们希望我们的模型表现出第3节中提到的感知一致性，感知周期一致性没有是的身份转换21/2550/2556565图12.比较我们的方法和MONet之间的分割，由于缺乏明确的空间解纠缠，无法捕获具有自然统计的对象。这意味着，在时间相干序列中，每个分段通道应当跟踪相同的对象，而无需身份切换。为了验证感知循环一致性约束的有效性，我们在多纹理数据集上训练了两个分割网络，一个具有感知循环一致性，而另一个没有。然后，我们生成256个具有不同位置和遮挡的样本序列。图13通过在顶行中的序列上可视化它们的第一输出通道来比较两个网络的行为。在没有感知周期一致性的情况下，第一输出通道主要检测椭圆，但偶尔可以切换到正方形，特别是当两个物体接近时。然而，在启用感知周期一致性约束的情况下，分段网络可以使每个输出通道在整个序列中聚焦于固定目标，而没有身份切换。我们通过计算目标开关的数量来评估两个网络5. 讨论对旨在“解开”的方法的评价是主观的，因为我们不知道该模型将用于什么：通常希望隐变量对应于图像形成过程的已知组件，例如姿势、比例、颜色和形状。然而，将其作为定量基准可能会产生误导，因为如果这是目标，我们只需明确地捕捉这些因素，例如，通过条件，图13. 感知循环一致性的有效性：注意，对象将不时地被分配到分割网络的不同通道（第二行），这在空间解纠缠中示出了时间不一致性，然而，所提出的感知循环一致性消除了这种不一致性，使得对象的状态可跟踪。图14. 遮挡会影响Flying Animals数据集上空间分离的准确性。橙色框突出显示发生遮挡的区域和受影响的对象。功能生成模型我们所观察到的是，在我们的模型中明确实施的感知循环一致性使表征能够持久化，因此对象的身份当模型被用作顺序设置中的先验时，这将使时间一致性成为可能，如图所示。十三岁我们的模式有局限性。VAE的使用迫使在影响重构图像的质量的容量与由瓶颈迫使的解纠缠之间进行硬权衡。对于复杂的场景，可能不存在模型既忠实地捕获图像统计又分离隐藏因素的折衷参数的宽范围。另一个限制是修复模型的能力。对于高度纹理化或复杂的场景，未被遮挡的区域需要以高于我们的模型所提供的粒度级别来捕获细粒度上下文，这可能使得分割网络难以在发生遮挡时学习完美的分割，如图所示。十四岁确认研究由 ONR N 00014 -17-1-2072 和 N 00014 -19-1-2229支持。6566引用[1] 亚历桑德罗·阿奇里和斯特凡诺·索亚托。深层表征中不变性和解纠缠的出现. The Journal of Machine LearningResearch，19（1）：1947https://arxiv.org/abs/1706.01350 一、二[2] Relja Arandjelovic和Andrew Zisserman使用复制粘贴机制发现对象arXiv预印本arXiv：1905.11369，2019。2[3] Yoshua Bengio Aaron Courville和Pascal Vincent表示学习：回顾与新的视角。IEEE Transactions on PatternAnalysis and Machine Intelligence ， 35 （ 8 ）： 1798-1828，2013. 1[4] DianeBouchacourt 、 RyotaTomioka 和 SebastianNowozin。多级变分自动编码器：从分组观察中学习解缠表示。第三十二届AAAI人工智能会议，2018。2[5] Christopher P Burgess 、Irina Higgins、Arka Pal、LoicMatthey、Nick Watters、Guillaume Desjardins和Alexander Lerchner。理解β-vae中的解缠。arXiv预印本arXiv：1804.03599，2018。二、六[6] ChristopherPBurgess 、 LoicMatthey 、 NicholasWatters、Rishabh Kabra、Irina Higgins、Matt Botvinick和Alexan der Lerchner。莫奈：无监督场景分解和表示。arXiv预印本arXiv：1901.11390，2019。二三六七[7] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割在IEEE计算机视觉和模式识别会议集，第4013-4022页，2018年。2[8] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。二、六[9] Tian Qi Chen，Xuechen Li，Roger B Grosse，and DavidK Duvenaud.分离变量自动编码器中的解纠缠源。神经信息处理系统的进展，第2610-2620页，2018年2[10] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成式对抗网络进行可解释的表示学习神经信息处理系统的进展，第2172-2180页，2016年2[11] SM Ali Eslami ， Nicolas Heess ， Theophane Weber ，Yuval Tassa，David Szepesvari，Geoffrey E Hinton，etal.注意，推断，重复：快速场景理解与生成模型。神经信息处理系统的进展，第3225-3233页，2016年。2[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26722[13] KlausGref f 、 Raphae¨ lLopezKaufman 、 RishabhKabra 、NickWatters、Christopher Burgess、Daniel Zoran、LoicMatthey、Matthew Botvinick和Alexander Lerchner。多目标表示学习与迭代变分推理。在第36届机器学习国际会议论文集，ICML，第2424-2433页，2019年。二、三[14] KlausGreff，SjoerdvanSteenkiste，andJürgenSchmidhube r. 神经期望最大化。神经信息处理系统的进展，第6691-6701页，2017年。2[15] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。DRAW：一种用于图像生成的递归神经第32届国际机器学习会议论文集，ICML，第1462-1471页，2015年。2[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。在欧洲计算机视觉会议上，第630-645页。施普林格，2016年。6[17] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae：使用受约束的变分框架学习基本视觉概念。ICLR，2（5）：6，2017. 2[18] Wei-Ning Hsu，Yu Zhang，and James Glass.无监督学习从序列数据中分离和解释表示。神经信息处理系统的进展，第1878-1889页，2017年2[19] 胡元婷，黄家斌，亚历山大·施温。Maskrnn：实例级视频对象分割。神经信息处理系统的进展，第325-334页，2017年。2[20] 里沙布卡布拉克里斯伯吉斯LoicMatthey，Raphael Lopez Kaufman ， Klaus Greff ， MalcolmReynolds ， and Alexander Lerchner. 多对象数据集。https：//github.com/deepmind/multi-object-pixets/，2019.三、四、五[21] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第4401-4410页2[22] Hyunjik Kim和Andriy Mnih。通过因子分解法解开。第35届国际机器学习会议论文集，ICML，第2654-2663页，2018年。二、六[23] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在Yoelvic Bengio和Yann LeCun，编辑，第三届学习表征国际会议，2015年。6[24] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。第二届国际学习表征会议，ICLR，2014。1[25] Adam Kosiorek、Hyunjik Kim、Yee Whye Teh和IngmarPosner。依次参加、推断、重复：运动物体的生成模型。神经信息处理系统的进展，第8606-8616页，2018年2[26] Tejas D Kulkarni ， William F Whitney ， PushmeetKohli，and Josh Tenenbaum.深度卷积逆图形网络。神经信息处理系统的进展，第2539-2547页，2015年26567[27] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络在IEEE计算机视觉和模式识别会议的论文集，第8759-8768页2[28] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页，2015年。2[29] Loic Matthey ， Irina Higgins ， Demis Hassabis ， andAlexander Lerchner.dsprites：解纠缠测试sprites数据集。https：//github.com/deepmind/dsprites-dataset/，2017. 4[30] Ori Press、Tomer Galanti、Sagie Benaim和Lior Wolf。基于自动编码器的无监督图像内容传输中的新兴解缠。第七届国际学习表征会议，ICLR，2019。2[31] Bernardino Romera-Paredes和Philip Hilaire Sean Torr。循环实例分割。欧洲计算机视觉会议，第312-329页。施普林格，2016年。2[32] Luan Tran，Xi Yin，and Xiaoming Liu.用于姿态不变人脸识别的解纠缠表示学习gan。在IEEE计算机视觉和模式识别会议论文集，第1415-1424页一、二[33] Sergey Tulyakov，Ming-Yu Liu，Xiaodong Yang，andJan Kautz. Mocogan：分解运动和内容以生成视频。在IEEE计算机视觉和模式识别集，第1526-1535页，2018年。2[34] Sjoerd van Steenkiste，Michael Chang，Klaus Greff，andJ ür genSchmidhube r. 关系神经期望最大化：对象及其相互作用的无监督发现。第六届国际学习表征会议，2018年。2[35] Jiajun Wu，Joshua B Tenenbaum，and Pushmeet Kohli.神经场景去渲染。在IEEE计算机视觉和模式识别会议论文集，第699-707页2[36] YanchaoYang，AntonioLoquercio，DavideScaramuzza，and Stefano Soatto.基于上下文信息分离的无监督运动目标检测。在IEEE计算机视觉和模式识别会议论文集，第879-888页，2019年。一二三四六[37] Shunyu Yao ， Tzu Ming Hsu ， Jun-Yan Zhu ， JiajunWu ， Anto- nio Torralba ， Bill Freeman ， and JoshTenenbaum.通过逆图形的3d感知场景操纵。神经信息处理系统的进展，第1887-1898页，2018年。2[38] Hang Zhang ， Kristin Dana ， Jianping Shi ， ZhongyueZhang ， Xiaogang Wang ， Ambrish Tyagi ， and AmitAgrawal.用于语义分割的上下文编码。在IEEE计算机视觉和模式识别会议论文集，第7151-7160页，2018年。2

下载后可阅读完整内容，剩余1页未读，立即下载