可解释的场景XML编码与渲染

107 浏览量更新于2023-10-16 收藏 2.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1神经场景去渲染吴嘉俊MIT CSAIL约书亚湾麻省理工学院CSAIL微软研究院摘要我们研究了整体场景理解问题我们希望获得一个紧凑的，有表现力的，可解释的场景表示，编码信息，如对象的数量和它们的类别，姿势，位置等。这样的表征将使我们能够推理，甚至重建或操纵场景的元素。先前的工作已经使用基于编码器-解码器的神经架构来学习图像表示;然而，以这种方式获得的表示通常是不可解释的，或者仅解释场景中的单个对象。在这项工作中，我们提出了一种新的方法来学习一个可解释的分布式表示的场景。我们的方法采用了一个确定性的渲染功能作为解码器，映射一个自然结构化和分离的场景描述，我们命名为场景XML，到一个图像。通过这样做，编码器被迫执行渲染操作的逆操作（也称为渲染操作）。解渲染）以将输入图像变换为解码器用来产生图像的结构化场景XML我们使用基于对象建议的编码器，该编码器通过最小化监督预测和无监督重建误差来训练。实验表明，我们的方法在两个不同的图形引擎上的场景去渲染效果很好，我们学到的表示可以很容易地适应广泛的应用，如图像编辑，修复，视觉类比制作和图像字幕。1. 介绍对于视觉理解来说，图像表示中需要哪些属性？我们认为，表示需要紧凑，表达，和解释。紧凑性使得存储和利用大量数据成为可能表现力允许它捕捉图像中对象的数量、类别、外观和姿势的变化。最后，一个可解释的和解开的表示使我们能够推理，甚至重建或操纵图像的元素。神经网络学习的图像表示通常是紧凑和富有表现力的，但很难解释。最近，研究人员研究了如何获得可解释的代表[4，21，35]。他们大多采用了一种编码-图1：我们的目标是以整体的方式解释图像。由于图像是由图形引擎在不定长度的输入上渲染的，我们的目标是恢复输入，以便可以重建和操作精确的这里我们展示了我们使用的XML的简化版本。解码框架，使用神经网络进行推理和近似渲染。然而，这些方法通常假设每个输入图像仅包含在干净背景前面的单个居中对象。因此，它们对于实际应用来说不够鲁棒和强大，在实际应用中，我们经常看到具有不确定数量的对象、严重遮挡和杂乱背景的图像与[8，21]中使用的神经解码器相比，图形引擎中使用的确定性渲染函数自然会采用结构化和分解的输入来生成图像。从这个角度来看，如果我们假设给定的图像是由通用图形引擎渲染的，那么我们的目标可以是恢复渲染器所需的结构化表示，以重建精确的图像（也称为去渲染）。通过这种方式学习图像表示，我们可以免费实现可解释性，并且我们还可以将该表示应用于图像编辑等一系列应用。然而，由于多种原因，该图像去渲染问题非常棘手。首先，由于我们不再假设局部对象，并且图像中的对象数量是未知的，因此我们的表示应该可扩展到不同位置的任意数量的对象这无法通过学习固定维度图像表示的传统卷积网络直接实现以前的作品讨论了在这些情况下使用像LSTM [14]这样的回流网络。然而，在这方面，699700对于具有许多对象的场景，手动定义对它们的顺序排序是不直观的并且经常是不方便的在这项工作中，我们从自下而上的视觉识别研究中汲取灵感，并提出了一个基于对象建议的框架其次，我们希望编码的表示是gener-alizable各种图形引擎，虽然他们可能需要非常不同的输入。因此，我们设计了一个统一的结构化语言，命名为场景XML，它可以很容易地转换为渲染器可以采取的输入我们在两个具有不同渲染引擎的数据集上评估我们的框架：一是抽象场景数据集[39]，另一个是我们用Minecraft图像及其3D渲染器构建的新数据集。第三，编码表示的空间和图像的空间不共享相同的度量：一对接近的潜在表示可以对应于具有显著不同的视觉外观的图像，反之亦然。因此，学习从图像到标记表示的直接映射并不能保证重建的良好性能。在本文中，我们探讨了在端到端神经网络框架内的两个空间中具有损失函数的可能性。这在技术上是不平凡的，因为图形引擎通常是不可微的，只有少数例外[22] 。为了克服这个问题，我们使用多样本REINFORCE算法[32]进行优化。我们的贡献有三个方面：首先，我们提出了一个新的问题公式，场景去渲染，旨在通过结合图形引擎和结构化表示来整体地解释场景和内部对象;其次，我们设计了一个新的端到端场景去渲染框架，它涉及到潜在表示空间和图像空间的优化;第三，我们展示了我们的框架的有效性，展示了它如何在两个完全不同的数据集上实现多个应用程序，其中一个是Minecraft平台上的新数据集。2. 相关工作我们的工作与使用神经网络学习可解释表示的研究密切相关[13，21，35，4，33]。Kulkarni等人[21]提出了一种卷积逆图形网络。拍摄一张人脸图像，网络学习推断其属性，如姿势和光照。Yang等[35]和Wuet al.[33]探索了从椅子图像中学习姿势和内容Chen等人[4]提出了在没有直接监督的情况下学习解纠缠表示虽然所有这些方法处理的图像的一个单一的对象（椅子，脸，或数字），我们研究的问题，一般场景去渲染的对象数量不确定，并可能严重闭塞。另一个相关研究是关于图像识别或合成的序列生成模型[15，11，https://minecraft.net(a) 标准自动编码器(b)一种通用自动编码器图2：广义编码-解码结构。与标准自动编码器（a）不同，我们的广义结构（b）使用图形引擎作为解码器，其本质上将可解译和解纠缠表示作为输入，并渲染高质量图像。9，27，1]，这通常涉及像LSTM这样的递归网络[14]。其中许多作品还同时训练了一个网络作为近似渲染器。相比之下，我们在框架中显式地对图形引擎进行建模，并让神经网络专注于逆图形。使用真实的渲染器为我们提供了一个免费的可解释的表示，并生成更高质量的图像。我们的框架还涉及“视觉作为反图形”，合成分析或具有数据驱动建议的生成模型[ 36，37，30，20，34，16 ]的领域然而，我们的重点仍然是使用前馈模型自下而上的识别和推理。请参见[3]，以获得对综合分析方法的详细回顾。3. 神经场景去渲染我们现在提出我们的分析和方法的场景去渲染问题.我们首先将我们的方法作为一个广义的编码-解码结构进行高级抽象，然后讨论优化和实现细节。3.1. 广义编解码结构传统的自动编码器有神经网络作为编码器和解码器，如图2a所示。网络的目标是将输入编码为紧凑的表示（瓶颈层），然后重建输入。以这种方式学习的潜在向量可以被视为输入的信息表示。作为通用解码器的渲染引擎标准自动编码器的潜在表示既不可分解也不可解释，因此很难推广到其他任务。在这里，我们提出了一个通用的编码-解码结构，其中我们使用图形引擎作为解码器，如图2b所示。与神经解码器不同，图形引擎本质上需要结构化和可解释的图像表示作为渲染的输入。通过这种方式，广义自动编码器自然地学习将图像编码为可解释的图像表示。广义结构需要实现两个目标：第一，最小化反演701图3：图像及其场景XML的一部分，对图像中对象的背景、类别、外观、位置和姿势进行编码。第二，最小化渲染图像上的无监督重建误差。在第3.2节中，我们将探讨如何整合和平衡这两个目标以获得更好的性能。场景XML我们希望我们的框架是独立的所涉及的图形引擎。具体来说，我们希望将编码器连接到一个元渲染器，该元渲染器将学习到的表示转换为特定图形引擎可以接受的输入。为此，我们设计了一个跨平台的结构化图像表示，命名为场景XML，作为编码器的输出。我们的目标是设计场景XML的方式，需要最少的努力，将其连接到各种图形引擎。我们目前的设计本质上是以对象为中心的表示。它以一些背景的简短描述开始，类似于 HTML 中的然后，对于每个对象，我们跟踪其类别，外观（大小和颜色），在3D空间中的位置（{x，y，z}）和姿势（偏航，俯仰，滚动）。在未来，我们计划还包括其物理属性，并对其实际的3D形状建模，而不是使用具有固定几何形状的类别作为抽象。图3显示了一个示例图像及其相应场景XML的一部分。对于每个输入图像，我们的框架学习在场景XML中解释它，然后将XML转换为图形引擎可以接受的结构化输入我们将在第4节中详细描述如何将场景XML适配到图形引擎。3.2. 通过REINFORCE进行正如第一节所讨论的，视觉上相似的图像可能有非常不同的潜在表征;而且，在渲染之后，表示空间中的两个相似点可能导致具有显著不同外观的图像。我们在图4中展示了一个示例。通过对表示中单个维度的值（这里是云的深度）进行微小的更改，渲染的图像看起来完全不同。因此，在训练期间，我们希望最小化推断/编码步骤之后的预测误差和合成/渲染步骤之后的重建误差。然而，这实际上并不简单，因为图形引擎通常是不可微的，使得难以反向传播梯度。受近期作品的启发[26，1，17]，我们将其作为一种强化图4：潜在空间的小变化（例如，云的深度）可能导致渲染图像中的显著差异。因此，重要的是要考虑这两个空间中的损失。学习问题，并采用多样本REINFORCE范式[23，32]来解决这个问题。具体地说，我们在编码器的末端有一个随机层，而不是确定性预测，在那里我们的最终预测可以从某些分布中采样（例如，高斯表示位置和姿态，多项式表示类别）。我们从输入中获得多个样本，对于每个样本，我们在渲染后计算其重建误差。我们使用负对数误差作为样本的奖励r，其方差减少了从其他样本计算的基线。然后，REINFORCE算法允许我们计算这些随机层上的梯度，并将其反向传播到所有层，w=α（r-b）e，（1）其中w是我们从中采样的分布的参数，α是学习率，b是从其他样本计算的强化基线，e是依赖于分布的特征资格。请参阅[23，32]了解更多详情。从潜在表征到图像的映射是高度不连续的。对于潜在表征中的每个维度，当我们在流形上移动时，它对渲染图像的影响会发生变化。建立精确的相关性模型是困难的;然而，从不同的角度来看，图形引擎和强化学习（RL）框架的使用隐含地指导识别网络在不同情况下平衡每个维度的权重。半监督课程学习RL公式还为无监督学习提供了可能性：我们可以尝试直接最小化重建误差，并且希望网络自动学习图形引擎所需的解纠缠表示。不幸的是，我们注意到这在实践中是不可行的。这种失败的一个原因是编码器的参数化引起的大搜索空间。为了解决这个问题，我们采用了一种基于课程的方法，在这种方法中，我们通过使用少量标记图像上的重建误差和标签预测损失来初始化训练。此后，我们仅使用未标记的数据微调模型我们观察到，强化学习框架可以帮助减少702图5：我们的神经场景去渲染框架由三个组件组成。给定一个输入图像，它首先生成一些部分提案（第一阶段）。然后，它试图解释每个提议中是否有对象，如果有，它的属性是什么（阶段II）。最终，这些推理结果被整合并发送到图形引擎进行渲染，从而可以重建原始图像（阶段III）。我们对潜在表征空间和图像空间都有监督还要注意，潜在表示具有广泛的应用，包括图像编辑、字幕等。图6：我们使用分段建议而不是框建议，因为严重遮挡的对象（如示例中的太阳）无法从框建议中正确解释在重建过程中，我们还需要被遮挡对象的分段来准确计算它们对REINFORCE的奖励。通过课程学习训练编码器所需的监督[2]。这种半监督学习设置在实践中可能很有用，因为标记数据通常很少。我们在第4节中展示了结果。3.3. 实现细节网络结构基于广义编码-解码结构，我们的框架有一个神经编码器和一个图形引擎作为广义解码器，如图2b所示。我们现在详细描述我们的编码器，并将在第4节后面的实验中提供两个图形引擎解码器的描述。我们的编码器有两个组件：用于产生可能包含对象的建议的建议生成器，以及用于区分每个建议中是否存在对象，以及如果存在，则其属性是什么的对象解释器。我们的提案生成器（图5-I）生成细分建议而不是边界框。这是因为严重遮挡的对象无法从框建议中正确解释。例如，在图6中，网络无法定位和解释严重遮挡的太阳，即使有一个完美的盒子建议。此外，在重建过程中，模型最好也将太阳的盒子建议错误地解释为云，这仅仅是因为云在盒子中占据了更大的面积与此相反，分部提案则不受这一问题的影响。对于提案生成器，我们使用来自实例分割方法MNC的网络结构[6]。它是一个级联模型，其中网络首先学习框实例（感兴趣区域或RoI）的特征图和坐标，并通过RoI池化层发送它们以提取框的特征然后，它预测每个框内的候选对象的掩码请参考[6]了解有关提案生成器结构的我们为每个图像计算100个对象解释器（图5-II）将段pro-masked（掩蔽图像）作为输入，并预测段中是否有如果网络相信一个对象存在，它还预测场景XML所需的属性。对于每个片段，我们考虑图像中与片段的IoU超过0.3的对象，并选择具有最大IoU的对象作为训练对象解释器的基础事实。最后，我们对所有片段的解释应用非最大抑制（NMS），并将其发送到解码器（图形引擎）进行渲染（图5-III）。当渲染器可用时，我们可以通过合成分析进一步改进我们的预测在这里，我们将网络预测视为采样算法的初始化，本文中我们使用Gibbs采样在每次采样迭代中，我们703绘制潜在表示的新样本，渲染它，并将重建的图像与原始图像进行比较。对于离散变量，我们从均匀分布中采样，对于连续变量，我们从高斯分布中采样，初始值作为其均值。我们运行10次采样迭代。实验表明，这有助于获得更准确的解释的图像。细化有助于降低重建误差，但通常只有在大多数特性已经被正确推断的情况这使得它有利于最终的微调，而主要的去渲染框架恢复了大部分信息。在整个实验中，我们使用SGD进行优化，并将批量大小设置为50，学习率设置为0.001，动量设置为0.9，权重衰减率设置为10−4。我们在Torch中实现了我们的框架[5]。4. 评价我们现在介绍评估结果。我们首先描述实验装置;然后，我们展示了我们的框架如何使用两种不同的渲染器对场景进行反渲染，一种用于抽象场景数据集[39]，另一种用于Minecraft。我们还解释了如何构建一个新的Minecraft图像数据集，图7显示了其中的示例。4.1. 设置方法如第3节所述，我们的模型使用带有REINFORCE和综合分析细化的分段建议我们首先将我们的完整神经场景去渲染框架（NSD完整）与四个简化的框架进行比较，以揭示每个组件对结果的贡献。前两个是我们的框架训练，没有综合分析或REINFORCE，一个使用框建议（box），另一个使用段建议（seg）。第三个是我们的基于片段的模型，只有REINFORCE，而没有合成分析（seg+）。最后一个是我们在半监督环境（semi）中的框架：我们首先在10%随机采样的带有标签的训练图像上使用两个空间中的损失来训练它，然后在整个训练集上对其进行微调，但只使用重建损失而不使用任何潜在表示的标签。我们还比较了另外两个框架：一个传统的CNN具有固定数量的潜在表示维度，以及一个端到端的CNN+LSTM，其目的是对图像进行编码，然后从编码中顺序解释对象。具体地说，• CNN：我们的CNN基线假设图像中的对象不超过X个，并且对象按其类别索引排序。因此，对于输入图像，它预测一个X×Y矩阵，其中Y是场景XML中对象表示在这里，我们使用一个没有预训练的ResNet-18模型[12]。• CNN+LSTM ：我们的 CNN+LSTM 基线类似于Karpathy等人的字幕模型。[19 ]第10段。的图7：我们新的Minecraft数据集中的图像。数据集中的对象在大小、位置和姿态上各不相同，并且可能被严重遮挡或裁剪。CNN组件，也是ResNet-18 [12]，学习输入图像的编码;递归网络是具有256-dim潜向量的LSTM [14在这里，对象也按其类别索引排序。评价标准如第1节和第3节所述，我们希望最小化表征推断中的误差和图像重建中的误差。请注意，重建误差（而不是推断误差）强调大对象。在评估过程中，我们计算每个方法在两个空间中错误推断值的百分比。对于连续变量，我们将每个变量的空间划分为20个bin，如果推断值与地面真值位于同一个bin中，则将其视为我们还进行了一项人体研究，在Amazon MechanicalTurk上向五名受试者展示了每个测试图像和两种不同方法的重建图像，并询问他们哪一种看起来更接近原始图像。然后，我们计算，对于一对方法，一个比另一个更“优选”的可能性4.2. 去渲染抽象场景抽象场景是计算机视觉[39]、自然语言处理[24]和推理[31]中的一个新兴研究课题抽象场景的渲染引擎通常是高效的，但仍然能够捕捉对象外观和遮挡的变化因此，我们选择首先在抽象场景上探索我们的场景去渲染框架。我们使用抽象场景数据集（V1.1），也称为Mike和Jenny数据集[39]。该数据集包含1020个标题，每个标题有10张图片，总共有10020张图片。每个图像有3到18个对象。我们随机抽取90%的图像进行训练，剩下的10%用于测试。对象分为8个超类别，每个超类别包含多达34个子类别。这些天体有不同的外观、大小（由深度决定）和姿态;它们之间经常有严重的闭塞。场景XML为了将场景XML连接到抽象场景图形引擎的输入，我们从XML中为每个对象选择以下字段：类别（8-dim）、子类别（34-dim）、位置（2-dim）、深度（量化为3个bin）以及对象是面向左还是面向右（1-dim）.因此，每个物体都由48维矢量表征。704图8：抽象场景数据集上的结果。从左至右：（a）输入图像，以及（b）CNN模型的结果，（c）CNN+LSTM模型，（d）我们的具有框建议的去渲染框架，（e）我们的具有段建议的框架，（f）与（e）相同，但用REINFORCE训练，以及（g）我们的完整模型，在（f）之上进行综合分析细化。这些方法的详细信息见第4.1节，结果分析见第4.2抽象场景Minecraft推理Recon推理Recon抽象场景MinecraftCNN+LSTM NSD（seg）CNN+LSTM NSD（seg）CNN45.7345.2041.2216.59NSD（分段）87.250.057.850.0CNN+LSTM45.3141.3843.5220.22NSD（完整）96.668.659.653.4表1：定量结果。我们显示了抽象场景数据集和Minecraft数据集的不正确推断表示值和重建像素的百分比（%）。我们比较了在第4.1节中解释的方法，并在图8和图9中进行了评估，以及以半监督方式训练的框架的变体。我们的完整模型表现最好，而每个组件都对它有所贡献。图8显示了定性结果。CNN和CNN+LSTM基线可以捕获一些基本概念（例如，图像中有一个男孩和一个女孩），但几乎不能超越这些概念（图8b和c）。相比之下，基于框建议的框架学习解码大多数对象，尽管小对象，如第一行中的烤架，可能会被忽略（图8d）。分段建议有助于重建一组完整的对象（图8e），但有时会有重复。这个问题可以通过REINFORCE解决（图8f）。综合分析法表2：人体研究结果。受试者看到原始图像和两个重建图像从不同的方法。我们显示了他们更喜欢左边的方法而不是上面的方法的可能性的百分比（%）我们比较了三种不同的方法：CNN+LSTM，我们的分段建议框架（NSD seg）和我们的完整模型（NSD full）。我们的完整模型始终表现最佳Minecraft数据集上的边距较小，因为所有算法都表现得更好。这有助于纠正微小偏差（图8g）。我们在表1中显示了定量结果。正如预期的那样，我们的完整模型在潜在表示空间和重建图像空间中的表现都优于其他模型此外，框架中的每个组成部分（细分提案、REINFORCE和综合分析）都有助于绩效。我们的半监督模型与完全监督模型的表现几乎相同。表2显示了第4.1节中描述的人类研究的结果，其中我们比较了三种方法：CNN+LSTM，我们的基于段的框架（NSD seg），以及我们使用REINFORCE和合成分析的完整大多数人类受试者也更喜欢我们的完整模型，而不是只使用分段建议的模型，而两者都优于CNN+LSTM基线。NSD（盒）47.8528.1232.2011.42NSD（分段）44.1923.7632.117.71NSD（seg+）45.0922.4428.795.73NSD（半）45.2221.9630.057.62NSD（完整）42.7421.5526.415.05705图9：Minecraft数据集上的结果。从左至右：(a)输入图像，以及（b）CNN+LSTM模型的结果，（c）我们的去渲染框架与分段建议，以及（d）我们的完整模型与REINFORCE和合成分析。这些方法的详细信息见第4.1节，分析见第4.34.3. 渲染MinecraftMinecraft是一款流行的游戏，玩家可以控制智能体与虚拟3D环境进行交互与抽象场景数据集相比，抽象场景数据集主要位于深度信息有限的2D空间中，Minecraft环境在其3D渲染引擎以及照明，阴影和物理建模方面更加逼真。数据我们使用Malmo [18]引入了一个新的Minecraft图像数据集，它允许用户通过感知环境和发送命令与Minecraft进行交互。我们的数据集包含10，000张图像，每张图像由3到5个对象组成。这些对象来自一组12个实体：猪，牛，羊，鸡，狼，马，村民，盔甲，船，矿车和两种树木。这包括所有在马尔默可用的人类熟悉的实体（即，我们排除怪物之类的实体）。对于每个对象，我们均匀随机采样其位置和姿态。在极坐标系中，物体的位置由r和θ表示，玩家站在原点。有些对象还将其高度作为属性。我们现在不考虑飞行或漂浮的物体然后，我们将每个对象的位置转换为3D空间中的{x，y，z}（四舍五入到0.1），以便Malmo获得Minecraft图形引擎渲染的场景XML要将场景XML连接到Minecraft渲染引擎，我们为每个对象选择以下字段：类别（12维），在2D平面中的位置（2维，{r，θ}）、高度（1维）和旋转（3维用于偏航、俯仰和滚动）。因此，每个对象被编码为18-dim矢量。结果图9和表1和表2分别显示定性和定量结果这里的观察结果与4.2节中的抽象场景数据集的观察结果相似图10：图像编辑的结果。给定一幅图像，我们可以使用推断的表示和图形引擎修改对象的位置、姿势和类别图11：图像修复的结果。我们的框架表现良好，但它几乎完全闭塞的对象或部分失败。将来，我们可能会包括上下文建模来纠正一些错误（例如，第一排的女孩，当面对熊时，应该感到惊讶或害怕，而不是高兴）。我们的完整模型通过获得更准确的潜在表示和重建而优于其他模型。5. 应用我们的学习表示具有广泛的应用，由于其表达性和可解释性。我们展示了在图像编辑，修复，视觉类比制作和图像字幕的前emplars我们的框架在这些看似无关的任务中获得了良好的性能。图像编辑给定一个图像，一旦我们恢复其可解释的潜在表示，我们可以很容易地对其进行更改。例如，我们在图10中显示，我们可以更改对象的位置、姿势和类别。修复我们的框架可以从损坏的图像中恢复原始图像（图11），即使对象被严重裁剪，例如，第二排的树。正如预期的那样，我们的框架无法恢复输入中完全缺失的对象，例如顶部的女孩的面部表情和底部的鸡。在未来，我们可能会结合上下文建模来缓解这个问题。视觉类比制作视觉类比制作[25]或视觉学[28]是人工智能和视觉领域的一个新兴研究课题典型的设置是给系统一对图像A和706图12：视觉类比的结果。给定一对参考图像和一个查询，我们的框架可以根据对象的位置和姿态（顶部）以及对象的数量（底部）进行类比。详情见正文A′和一个附加的源图像B，并要求一个类比B′。虽然以前的作品着眼于学习对象之间的类比，我们研究的问题，使场景涉及多个对象的类比。我们考虑一个原则性的提法，这个看似模棱两可的问题。给定两个图像表示ZA和ZA′，我们考虑它们的最小编辑距离-从ZA导出ZA′所需的最少操作次数。然后，我们将这些运算应用于ZB，得到一个类比ZB′。我们考虑的操作是改变对象的姿势、位置和类别，复制或删除对象，以及交换两个对象。学习一种表达性、可解释性和分离的表示可能是解决这个问题的一个很好的方法。在图12中，我们在由我们的场景去渲染框架重建的表示之上示出了深度优先搜索（深度上限为3）的结果。它不仅成功地对物体的位置和姿态进行了类比，而且还对图像中物体的数量进行了类比。图片说明我们探索描述图像从我们推断出的潜在表示，而不是端到端的学习。首先，由于表示包含了原始图像的全部知识，我们免费获得了一些基本的描述，例如，右下角有一个快乐的男孩，面朝左边。对于涉及高级语义理解的字幕，我们可以构建另一个模型来将潜在表示映射到字幕。我们考虑两个试点研究。首先，我们训练一个seq2seq模型[29]，它读取图像表示，并直接生成标题。它的核心是一个256-dim的LSTM 。我们与读取原始图像并生成标题的CNN+LSTM模型进行比较。我们在抽象场景数据集上训练这两个模型，对90%的标题进行采样，并使用相应的图像进行训练，其余的用于测试。或者，对于测试图像，我们可以在表示空间中找到具有最小编辑距离的训练图像，并传输其字幕。我们比较了从最近邻像素空间的字幕传输。图13：图像字幕的结果。与使用原始像素相比，LSTM和最近邻方法使用去渲染表示效果更好。图13显示了定性结果，与使用原始像素相比，使用我们的分布式表示时，LSTM和最近邻都表现得更好。6. 讨论在图像理解中，神经网络用于推理和合成已经很流行这方面的研究是富有成果和鼓舞人心的;然而，目前的神经近似渲染器还没有准备好用于实际应用。相比之下，图形引擎已经相当成熟，特别是对于虚拟环境[10，38]。我们认为，将黑盒图形引擎结合到一个通用的编解码结构中可能是一个有前途的方向基于这一观察，本文提出了一个神经场景去渲染框架的图像表示学习和重建。我们考虑了两个简单而丰富的图形引擎，并提出了一个基于Minecraft的新数据集。实验结果表明，该方法具有良好的性能，并且学习的表征在各种视觉任务中具有广泛的应用。将我们的框架扩展到现实世界的图像将需要一个更灵活的场景表示，超越当前的对象属性公式，和一个更强大的图形引擎，因为我们假设访问一个准确的渲染器。或者，我们可以采用近似渲染器或两者，通过清醒/睡眠阶段的亥姆霍兹风格建模进行场景合成和识别[7]。这打开了扩展到一般情况的可能性，即使在实际渲染功能不可用时。致谢本研究得到ONR MURI N 00014 -16-1-2007、大脑、心智和机器中心（NSF STC奖CCF-1231216）和丰田研究所的支持。J.W.由英伟达的一位同事提供支持。这项工作的一部分是在J. W.是微软研究院的实习生我们感谢Wei Donglai和匿名评论者提供的有用建议。707引用[1] J. Ba、V. Mnih和K. Kavukcuoglu多目标识别与视觉注意。2015年，国际会议。二、三[2] Y. Bengio，J. Collobert和J.韦斯顿当前学习。InICML，2009. 4[3] T. G. Bever和D.波佩尔合成分析：一个（重新）出现的语言和视觉研究计划。Bi-olinguistics，4（2-3）：174-200，2010. 2[4] X. Chen ， Y. 段河，巴西 - 地 Houthooft ， J. 舒尔曼岛Sutskever和P.阿比尔Infogan：通过信息最大化生成对抗网络进行可解释表示在NIPS，2016年。一、二[5] R. Collobert，K. Kavukcuoglu和C.法拉比特Torch7：类似matlab的机器学习环境。在BigLearn中，NIPS研讨会，2011年。5[6] J. Dai，K.He和J.太阳通过多任务网络级联的实例感知语义分割在CVPR，2016年。4[7] P. Dayan，G. E.欣顿河M. Neal和R. S.泽梅尔亥姆霍兹机器。神经计算，7（5）：8898[8] E. L. Denton，S.钦塔拉河Fergus等人使用对抗网络的拉普拉斯金字塔的深度生成图像模型。2015年，在NIPS中。1[9] S. Eslami，N.Heess，T.Weber，Y.Tassa，K.Kavukcuoglu和G. E. 辛顿注意，推断，重复：使用生成模型快速理解场景在NIPS，2016年。2[10] A. 盖东，Q.Wang，Y.Cabon和E.维格虚拟世界作为多目标跟踪分析的代理。在CVPR，2016年。8[11] K. 格雷戈尔岛Danihelka，A.格雷夫斯D.Rezestival和D.好极了。Draw：用于图像生成的递归神经网络ICML，2015。2[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，2015。5[13] G. E. Hinton，P.达扬湾J. Frey和R.M. 尼尔无监督神经网络的Science，268（5214）：1158，1995. 2[14] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735-1780，1997。一、二、五[15] J.Huang 和 K. 墨菲图像的遮挡感知生成模型 ICLRWorkshop，2015年。2[16] 诉Jampani，S.Nowozin，M.Loper，和P.诉盖勒信息采样器：生成式计算机视觉模型中的判别式推断方法CVIU，136：322[17] D. Jayaraman和K.格劳曼跳跃前先看：通过预测运动效果实现端到端主动识别。在ECCV，2016年。3[18] M.约翰逊，K。霍夫曼，T. Hutton和D.比格内尔马尔默人工智能实验平台InIJCAI，2016. 7[19] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐CVPR，2015。5[20] T. D. 库尔卡尼山口Kohli，J.B. Tenenbaum和V.曼辛格卡图片：一种用于场景感知的概率编程语言。CVPR，2015。2[21] T. D. Kulkarni、W. F. Whitney，P. Kohli，and J. 特南鲍姆深度卷积逆图形网络。2015年，在NIPS一、二[22] M. M. Loper和M. J.布莱克。Opendr：一个近似可微分的渲染器。2014年，在ECCV。2[23] A. Mnih和D. J. Rezeland.蒙特卡洛目标的变分推理。InICML，2016. 3[24] L. G. M. 奥尔蒂斯角Wolff和M.拉帕塔学习解释和描述抽象的场景。在NAACL-HLT，2015年。5[25] S. E.里德，Y。 Zhang， Y. Zhang和H.李你深度视觉类比。2015年，在NIPS中。7[26] D. J. Rezende，S.Eslami，S.Mohamed，P.巴塔利亚山Jader-berg和N.海斯图像三维结构的无监督学习。在NIPS，2016年。3[27] D. J. Rezende，S.穆罕默德岛Danihelka，K.格雷戈尔，D. 维尔斯特拉深度生成模型中的一次性泛化InICML，2016. 2[28] F. 萨代吉角L. Zitnick和A.法哈迪。视觉类比：回答视觉类比问题。2015年，在NIPS中。7[29] I. Sutskever，O.Vinyals和Q.诉乐用神经网络进行序列到序列在NIPS，2014。8[30] Z. Tu和S.- C.竹基于数据驱动马尔可夫链蒙特卡罗的图像分割。IEEE TPAMI，24（5）：657 2[31] R. Vedantam，X. Lin，T.巴特拉角劳伦斯·齐特尼克，还有D. 帕里克通过视觉抽象学习常识在ICCV，2015年。5[32] R. J·威廉姆斯简单的统计梯度跟踪算法用于连接主义强化学习。MLJ，8（3- 4）：229-256，1992. 二、三[33] J. Wu ， T. 薛， J.J. 林， Y。 Tian ， J.B. Tenenbaum，A.Torralba和W. T.弗里曼。单图像三维解释器网络。在ECCV，2016年。2[34] J. 吴岛，智-地Yildirim，J.J. 林，W。T. Freeman和J.B.特伦鲍姆。Galileo：通过将物理引擎与深度学习集成来感知物理对象属性。2015年，在NIPS中。2[35] J. Yang，S. E.里德，M.- H. Yang和H.李你用于三维视图合成的递归变换弱监督解缠。2015年，在NIPS中。一、二[36] A. Yuille和D.克斯汀视觉作为一种推理：综合分析？Trends in Cognitive Sciences，10（7）：3012[37] S.- C. Zhu和D.芒福德图像的随机文法基础和测试方法，计算机图形学和视觉，2（4）：2592[38] Y. 朱河，巴西-地Mottaghi、E.Kolve，J.J. Lim，台湾野牡丹A.古普塔湖Fei-Fei和A.法哈迪。使用深度强化学习的室内场景中的目标驱动视觉导航。在ICRA，2017年。8[39] C. L. Zitnick和D.帕里克使用视觉抽象将语义聚焦。CVPR，2013。二、五

下载后可阅读完整内容，剩余1页未读，立即下载