基于对象上下文的新视图场景布局生成

68 浏览量更新于2023-10-25 收藏 1022KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16990基于对象上下文的新视图场景布局生成1GerhardP. Hancke 2Rynson W.H.西安电子科技大学计算机科学与技术学院2香港城市大学计算机科学系摘要场景的新视图预测具有许多应用。现有的工作主要集中在通过图像空间中的逐像素预测来生成新颖的视图图像，通常会导致严重的重影和模糊伪影。本文首次尝试在布局空间中对新视点预测进行给定一个场景布局和相机变换作为输入，我们的目标是为指定的视点生成一个合理的场景布局这样的问题是具有挑战性的，因为它涉及从少至单个2D场景布局的场景的3D几何形状和语义的准确理解。为了解决这个具有挑战性的问题，我们提出了一个深度模型来捕获上下文对象表示，通过显式建模场景中的对象上下文变换。上下文化的对象表示对于生成不同视图的几何和语义一致的场景布局是必不可少的。实验表明，我们的模型在许多室内和室外场景中，无论是定性还是定量，都超过了几个强基线我们还表明，我们的模型，使广泛的应用，包括- ING新颖的视图图像合成，新颖的视图图像编辑，和非模态对象估计。1. 介绍场景的多视图预测在3D场景理解中非常重要，并且已经研究了很长时间[6，10]，具有潜在的应用，例如机器人，虚拟现实（VR）和增强现实（AR）。有一条研究路线是从新的视点生成场景的图像[5，31，42]。然而，这些作品直接通过逐像素预测在图像空间中渲染场景，通常会导致严重的重影和模糊伪影。在本文中，我们采取了一个新的看法预测的场景中的布局空间。本文提出了新视点场景布局生成的新问题。拥有一个强大的新视图场景布局模型不仅可以输入场景布局输出场景布局(a) 室内场景(b) 室外场景图1.新视图场景布局生成。给定室内场景（a）或室外场景（b）的单个布局作为输入（第1列），我们的模型可以为不同视点（第2列和第3列）生成合理的新视图场景布局。即使在大的摄像机移动的情况下，也可以从不同的视图生成一致和清晰的场景布局，而且还为广泛的应用提供了场景理解先验如图1所示，给定室内场景（a）或室外场景（b）的单个布局作为输入，我们的目标是为不同的视点（第2列和第3列）生成场景的新颖视图布局。然而，生成合理的新视图场景布局是一个极具挑战性的问题。它需要从一个单一的2D场景布局的3D几何形状和语义的场景的准确的理解。对象的大小、位置和形状在不同视点的观察区域和未观察区域中可能会发生很大变化。因此，由于输入的单个2D场景布局的模糊性，回想一下人类认知系统在这项任务中是如何工作的。考虑图1（a）所示的室内场景的输入布局。人类可以使用输入布局中的对象的几何先验和语义关系来推断不同视点的场景布局。几何先验包含公共对象属性（例如，窗口的形状），而语义关系表示不同类型的对象之间的交互，16991新视图图像编辑输入布局3D场景表示新视点图像合成情境化对象表示新视图布局生成非模态目标估计应用图2.现有的新颖视图布局到图像合成方法[12，14]（左）和所提出的新颖视图场景布局生成方法（右）之间的简要比较。现有的作品直接将输入布局映射到3D场景表示（例如，MPI [14]或混合表示[12]），然后在图像空间中执行逐像素投影相比之下，我们的方法考虑了布局空间中对象之间的空间从上下文对象表示生成的新视图场景布局对于场景理解至关重要，并使各种应用成为可能。确定这些对象（例如，床和桌子）应该在目标视图中合成。受此启发，我们提出了一个基于学习的模型，新的视图场景布局生成，通过明确建模的对象空间和语义的交互场景。我们的方法包括三个主要阶段。首先，给定一个输入场景布局，我们提出了一个对象上下文变换（OCT）模块来提取上下文对象表示，编码场景中的对象形状，位置和大小。目标视图中对象之间的上下文关系通过视图感知注意机制来学习其次，我们提出了一个对象布局生成（OLG）模块，以产生的形状，大小和位置为目标视图中的每个对象。最后，我们使用一个对象布局组合（OLC）模块来组合所有预测的对象布局，并生成一个合理的新视图场景布局作为输出。为了评估我们的模型的有效性，我们进行了大量的室内和室外场景的实验。结果表明，我们的模型可以生成几何和语义上更一致的新视图场景布局，与基线相比此外，我们展示了我们的模型的广泛的应用，包括新颖的视图图像合成，新颖的视图图像编辑，和amodal对象估计。综上所述，本文的主要贡献包括：• 我们首次尝试通过学习场景中的对象上下文来研究新视图场景布局生成的新问题• 我们提出了一个新的模型，该模型由一个OCT模块来捕获的上下文对象表示，一个OLG模块来预测布局的个人ob-bridges，和一个OLC模块来合成预测的对象布局正确的输出场景布局。• 实验结果表明，我们的模型可以从一个单一的输入布局生成几何和语义一致的新颖的视图场景布局，使广泛的应用。2. 相关工作新颖的视图合成。新视点合成是指在给定场景的单个或多个图像的情况下，从新的视点生成图像早期的解决方案是基于使用几何公式的多视图重建[4，6，8，27，43]。由于视图混合，它们的结果经常受到遮挡和不正确的纹理细节的影响最近的工作利用了不同的3D表示，包括多层感知器[30]、多平面图像[41]、分层深度图像[28，31]、点云[23，34]和神经辐射场（NeRF）[22]。Zhi等人[39]将NeRF视为用于联合几何和语义预测场景特定隐式表示。可以通过将所学习的场景表示变形为目标视图来生成新的视图图像。然而，所有这些视图合成方法都在包含像素级外观的图像空间中工作。相比之下，我们在布局空间中处理新视图预测问题我们的模型的输入是一个单一的场景布局，捕捉场景结构，在许多应用中是有用的。虽然最近很少有作品[12，14]也使用语义场景布局作为输入，但它们只是将输入布局转换为不同类型的场景表示，并遵循传统的新颖视图合成管道，在图像空间中执行逐像素投影。如图2（左）所示，3D场景表示由一组位于参考图像固定深度处的前平行平面组成当相机移动较大时，这样的设计仍然会导致模糊的预测。与此相反，我们的模型直接生成几何和语义一致的场景布局不同的观点，利用对象上下文转换，而无需显式的三维建模。所生成的场景布局可以进一步用于各种应用中，包括新颖视图图像合成。场景布局生成。近年来，我们已经注意到在视觉社区中场景布局生成的兴趣越来越大。LayoutGAN [19]使用GAN模型来输入布局新视点图像合成.........16992L1不L2不L3不Ln不p pRrr123RcRc12rc3S t...RnRCNCamera TransformationctCtCtRMLPs对象上下文转换Rc对象布局生成Lt对象布局组合LsG我{1}|}{1}|}}{1}|初始对象表示对象布局输入布局Xs表示提取输出布局Xt图3.新视图场景布局生成模型的整体流水线。给定源视图中的单个场景布局XS和相机变换CT作为输入，我们首先通过对一组分解的对象布局LS和CT进行编码来提取初始对象表示R。初始对象表示R由对象上下文变换（OCT）模块更新，从而产生捕获场景中对象的空间和语义交互的上下文化对象表示Rc。对象布局然后，OLG生成（OLG）模块从r。预测每个对象i在目标视图处的布局Li。最后，对象布局组合我不是(OLC)模块合成预测的对象布局Lt以在目标视图中生成输出场景布局Xt生成固定数量的元素的语义和几何属性LayoutVAE [17]提出了一种条件VAE模型来生成给定标签集的场景的可行布局，即，所有元素的类别Qiao等人[25]提出了一个生成模型来从独立对象布局预测完整场景布局。Lee等[18]使用图神经网络从一组输入约束生成布局。Luo等人[20]介绍了一种条件变分自动编码器来生成室内场景的多样化和逼真的最近的作品[1，11，35]还使用基于变压器的网络，通过捕获布局中元素之间的高级关系来生成和完成布局与这些场景布局生成和完成工作不同，我们的目标是为3.1.概述和符号场景布局可以被认为是由场景中具有不同大小、类别和位置的一组对象组成形式上，新颖视图场景布局生成问题的目标是开发一个模型，该模型可以通过将源视图中的单个场景布局图Xs和相对相机姿态变换（从源视图到目标视图）作为输入来生成目标视图中的场景布局XtX t= G（X s，c t）.（一）为了对对象级上下文信息建模，我们decom-将X放置到一组对象布局中，L={Li∈不同的观点，没有被探讨过。{0，1}高×宽×高S|i= 1,..., n}，其中H和W是高度注意力机制。原始的注意力机制[32]被应用于序列到序列机器翻译，并用于许多NLP任务。其核心思想是对输入元素之间的长期依赖性进行建模。最近，注意力机制已经开始在计算机视觉任务中显示出有希望的结果，例如图像识别[7]，对象检测[3]，图像分割[38]和图像生成[33]。与上述工作不同的是，我们提出了一个对象上下文转换模块，并将视图感知注意机制应用于一个新的问题，即，新视图场景布局生成。3. 方法在这一节中，我们将介绍我们的新视角场景布局生成问题的方法.我们首先概述了这个问题和建议的管道，然后描述我们的模型中的模块的细节。最后，我们指定了训练过程中使用的损失项和布局的宽度，C是对象类别的总数，n是场景中对象的数量。请注意，单个对象类的多次出现将在对象布局的同一通道中显示为一组连接或不相交的遮罩。我们将对象内部的每个像素填充为一个one-hot向量来表示对象类别，并将其外部的值归零。图3显示了我们的模型的整体管道它包含三个关键模块：对象上下文变换（OCT）模块、对象布局生成（OLG）模块和对象布局合成（OLC）模块。特别地，我们首先使用两个多层感知器（MLP）来分别提取对象嵌入E =ei i=1，.，n和摄像机变换向量Ct。 E和Ct被连接到另一个MLP以形成初始对象表示R=ri i=1，.， n. 我们将R传递到OCT模块以获得情境化对象表示Rc= r ci = 1，.， n通过建模对象之间的空间和语义交互。然后，我们将Rc馈送到OLG模块以预测......16993不我r=（r+wrW）W，ii，jjV P不Σ{ox，o，oh，ow}，而对象掩码分支预测双-我我其中m是头的数量，W0是线性反式。图4.用于学习对象上下文信息的视图感知注意力块（VAB）。地层来自每个头的输出被组合以封装对象之间的多个关系。通过这样做，上下文对象表示不仅包含其自身的几何和语义信息，而且还包含与目标视图中的其他对象的空间和语义交互。然后将上下文对象表示馈送到OLG模块中。3.3.对象布局生成（OLG）模块对象布局Lt={Li|i=1，… n}中。给定上下文对象表示的集合，Rc={Rc|i=1，…n}，我们提出了一个OLG模块，最后，我们通过ii组合所有预测的对象布局L tOLC模块输出场景布局Xt。我们在下面介绍这三个模块的详细信息。3.2. 对象上下文转换（OCT）模块给定初始对象表示，一个简单的解决方案是将其直接传递给解码器以预测预测每个对象i的独立布局Lt。OLG模块包含一个对象边界框分支和一个对象掩码分支。对象边界框分支预测每个对象的位置和大小与四个参数y我我我nary形状遮罩的对象。（ox，oy）指质心对象边界框的坐标，并且（oh，ow）表示目标视图。然而，我们的实验表明，在这项任务中表现不佳主要原因是对象表示在源视图和目标视图之间没有空间对齐。为了利用关于场景的语义和几何信息在不同视图上的归纳偏差，对象表示应该考虑所有输入对象和相机变换。因此，我们提出了一个OCT模块，通过将对象上下文信息集成到每个对象的特征表示中来学习特别是，我们设计了一个视图感知Atten- tion块（VAB），利用局部和全局的视图感知对象之间的依赖关系。图4显示了VAB架构的细节。视图感知注意力基于初始对象表示和相机变换信息。VAB使用三个不同的全连接层来生成查询Q、键K和值V。我们对查询和键执行矩阵乘法以获得注意力矩阵A。我们在注意力计算之后添加一个剩余连接。每个对象i的情境化表示rc计算为：nCi对象边界框的高度和宽度它们都是相对于场景布局的大小标准化的我们使用双线性采样器[16]将对象掩码扭曲到相应的边界框坐标，从而产生对象布局图Li，该对象布局图L i表示目标视图中的对象形状、大小和位置3.4. 对象布局组合（OLC）模块最后，我们提出了一个OLC模块来将预测的对象布局Lt连贯地组合成目标视图中的场景布局Xt注意我们需要处理遮挡（即，出现在Xt中相同位置的多个对象）和孔（即，在合成过程中，在X（t）中的某个位置没有物体出现为了解决对象之间部分遮挡的模糊性，我们提出了一个OrderNet来确定任何两个对象的相对顺序。Order-Net的输入是两个对象布局，输出是一个二进制标签，指示两个对象布局的相对顺序。地面实况命令是从深度图导出的在数据集中。OrderNet的架构基于VGG[29]。我们通过使用场景中相邻对象的相对顺序信息来训练OrderNet，j=1exp（Ai，j）（二）交叉熵损失根据预处理的输出经过训练的OrderNet，我们正确地组合对象布局，wi，j=nk=1 exp（A、（i、k）在目标视图中的单个布局Ai，j=（[ri;ct]WQ）（rjWK）T，其中[; ]表示级联操作。WQ、WK、WV和WP是线性转换层。wi，j是对象之间的计算权重n是场景中对象的总数我们还使用多头注意力作为：Rc=[总目1;. ;头m]WO，（3）Ct相机变换CWQRR1rc1R2Rc3W2K一WRcP3RnRCN初始对象表示WV情境化对象表示内积c级联添加......16994合成的布局可能看起来仍然不现实，因为在目标视图布局中可能存在丢失的区域为了进一步减少伪影，我们采用了四个细化块，以语义上有意义的方式自然地细化场景布局。每个细化块将粗略场景布局作为输入，以通过双线性上采样和卷积操作来产生细化的布局。有关网络体系结构的更多详细信息，请参见补充。16995x为ohx为ohx为ohx为ohx为oh∼∼λL=λL0λ+λL1×12bbox我我不我我不3.5. 培训我们设计了几个损失项，用于从对象级和场景级两个角度学习我们采用包围盒损失和面具损失的场景中的每个对象，和对抗损失，以确保所生成的场景布局的可扩展性。特别地，对于每个对象边界框，我们将预测的对象边界框obbox和对应的地面实况obbox之间的L1损失定义为：Li=obbox−obbo x1。（四）数据集。我们从RealEstate 10 K数据集[41]中收集每个帧的训练对，该数据集由Google LLC根据CC-BY 4.0许可证授权。它由80，000个室内和室外视频剪辑组成，所有帧都有摄像机姿势。具体来说，为了提取场景布局对，我们应用PSPNet [37]来获得语义分割注释，并通过连接组件标记来去除噪声并填充所获得的对象掩码中的漏洞然后，我们从语义分割结果中导出对象的边界框，并应用一个简单的多对象跟踪器[2]来查找不同对象之间的对应关系。意见.我们还应用预训练的MiDaS [26]来获得对于每个对象掩码，我们使用二进制交叉熵损失将预测对象掩模m_i与地面实况掩模m_i之间的逐像素差异惩罚为：深度信息请注意，在这些步骤中不使用如果一个对象没有出现在其中一个视图中，我们将其坐标我塑造=−milogmi+（1−mi）logg（1−mi），其中，mX y（五）是位置（x，y）处的预测对象掩码。比较方法。由于这是第一个新视角场景布局生成的工作，我们可以直接比较因此我们建议此外，为了鼓励生成的场景布局的可扩展性，我们通过对抗性学习来训练我们的模型：解决相关问题的几个基线，包括 UNet [15] ，LayoutGAN [19]和GVSNet [12]。UNet [15]学习输入布局和Ladv=ExBp房logD（x）+Exp假log（1−D（x）），（6）输出布局使用全卷积编码器-解码器架构。我们将输入场景布局与其中xpfak e是生成的场景布局，并且xpreal是真实场景布局。总之，我们训练模型时总损失为：相机变换信息作为输入并重新训练模型。LayoutGAN[19]以对象方式学习布局映射。我们修改了原始的LayoutGAN模型，使其采用我们的初始对象表示，如-我形状我我bbox我+λ2Ladv，（7）放。与3.3节中的OLG模块类似，我们在LayoutGAN中添加了一个对象掩码分支，以输出一个对象层-其中λ0、λ1和λ2是可控损失权重。4. 实验在本节中，我们首先介绍4.1节中的实验设置。其次，我们进行实验，以评估所提出的方法与几个基线的性能定量和定性在第4.2节。我们进一步进行消融研究，以分析第4.3节中提出的模块。最后，我们在4.4节中展示了我们的模型支持的三个应用程序。4.1.实验装置实作详细数据。我们使用PyTorch实现我们的网络。在训练和测试中，场景布局的大小调整为128 128的分辨率激活函数是泄漏-ReLU，其负斜率为0.2。网络参数随机初始化。我们采用 Adam 优化器， β1= 0.9 ，β2=0.99，学习率为0.0001。我们将损失权重λ0、λ1和λ2设置为1，1，0.1.注意头的数量设置为4。我们首先训练OrderNet以获得相邻对象布局的相对顺序，然后端到端地训练整个模型。对于每一个对象。我们将生成的对象布局合成为场景布局并重新训练模型。GVSNet [12]使用MPI语义从单个输入布局合成新视图图像。我们通过将网络中的中间MPI语义直接投影到目标视图中的场景布局来适应他们的方法评估指标。我们从不同的角度对生成的场景布局的质量进行了评价。我们首先计算Fre'chetInceptionDistance（FID）得分[13]，以通过使用布局图最后一个卷积层的布局特征来衡量生成的布局和真实布局之间的视觉质量我们还计算平均负对数似然（NLL）得分[17，25]来衡量生成的场景布局的整体可扩展性。此外，当从不同视点渲染场景时，对象语义应该是一致的。为了衡量这种一致性，我们定义了一个新的度量标准，称为视图语义一致性（VSC）：Ws（X）− Ws（X）L16996W顶壁绘画天花板天花板顶壁天空门窗帘软垫扶手椅地板壁油漆门窗口-墙板窗口-窗格门天空建筑树树木围建筑棕土天空树车抽屉胸部枕头门电视辐射器自助内阁会议桌床地板扶手椅靠垫床表椅子楼梯地板植物草路地球人行道水图5.基线和我们的模型之间的定性比较。给定输入场景布局（第1行），我们显示基线（第2、3和4行）、模型（第5行）和地面实况（第6行）的新视图场景布局其中X1和X2是从两个t t不同的用户指定视点。s是通过使用从Mi-DaS [26]导出的深度信息将生成的场景布局扭曲回源视点特别地，我们通过估计每个图像的尺度和移位将相对视差图像转换为绝对视差图像。我们计算扭曲的两个场景布局之间的平均每通道绝对误差。低VSC分数指示跨不同视图的测量场景布局的高视图一致性。4.2. 结果定性评价。图5显示了我们模型的一些定性结果，并与基线结果进行了比较.从结果中可以看出，我们的方法生成的布局在几何上更加一致。For example, in the2nd column, the layouts from both UNet and LayoutGANdo not follow the camera movement, compared with theground truth scene layout.尽管GVSNet的布局由于学习的3D场景表示而更好，但是当将3D表示投影到2D布局时，它仍然生成不切实际的伪影。相反，我们的布局遵循相机变换，以正确地排列目标视图中的所有对象。此外，我们可以看到，我们的方法可以在目标视图中生成更多的视觉上合理的场景布局。例如，第3列中的输入室内场景具有多个和COM-表 1. 所提议的方法与基线的定量比较（即， UNet 、LayoutGAN 、LayoutGAN+OLC 和GVS- Net）。我们使用NLL，FID和VSC评分来评估他们的表现。最佳结果以粗体突出显示。丛对象交互，例如，桌子上有一台电视机，床上有一个靠垫，墙上有三块玻璃窗。从基线生成的所有场景布局在对象边界周围包含明显的瑕疵（用白色标记），没有对象标签或指定了不正确的标签。相比之下，受益于学习的对象上下文，我们的方法可以生成更合理的场景布局。定量评价。定量结果如表1所示。与基线相比，我们的方法在所有指标上都取得了最好的结果，表明我们的我们可以看到，利用我们提出的OLC模块可以帮助提高 Lay-outGAN 的性能 . 与 UNet 和 LayoutGAN 相比，GVSNet在NLL度量上最接近我们的方法。主要原因是GVSNet将输入场景布局转换为3D场景方法UNet[15]NLL ↓FID ↓ VSC ↓2.31 126 0.132[19]第十九话2.05 112 0.098[19]第十九话 1.96 108GVSNet [12] 1.69 103 0.079我们的1.53 85 0.059地面实况我们[15]第十五届中国国际汽车工业展览会输入16997方法无摄像头转换1.65 101 0.089NLL↓ FID↓ VSC↓不带OCT模块1.71 109 0.093不含OrderNet 1.58 90 0.082不含细化不包括对抗性损失我们的（全型号）1.53 85 0.059表2.消融研究结果。最好的结果用粗体突出显示。表示来探索对象关系。然而，通过考虑场景中对象之间的空间和语义交互这再次证明了学习对象上下文变换在新视图场景布局生成问题中的重要性。输入布局SPADE [24][14]第十四话4.3. 消融研究为了研究不同的模块和损失函数如何影响最终结果，我们对模型的几个消融版本进行了消融研究：• w/o相机变换：我们在OCT模块中删除相机变换向量。• w/o OCT模块：我们删除OCT模块以评估对象上下文信息的重要性。• w/o OrderNet：我们移除OrderNet以评估生成的场景布局上的遮挡效果。• w/o细化：我们移除细化块来评估细化过程的效果。• w/o adversarial loss：我们训练模型时不使用adversarial loss。表2显示了消融研究的结果。如果不利用摄像机变换信息，则性能下降。这表明相机变换对于在OCT模块中提取视图感知对象上下文信息是有用的。如果OCT模块被完全移除，则性能变差，这意味着建模对象上下文变换对于新视图场景布局生成至关重要。如果没有OrderNet，VSC分数比NLL和FID分数受到的影响更大。这是因为不正确的深度顺序会导致生成的场景布局中的不一致合成。最后，在细化块和对抗性损失的帮助下，我们的模型学习生成更合理和一致的新视图场景布局。4.4. 应用受益于我们的模型，新颖的视图场景布局生成，我们在这里探索三个应用程序。新视图图像合成。该应用程序的目标是通过仅使用单个2D场景布局作为输入来生成场景的新视图图像这样的应用程序允许图6.新视图图像合成。我们比较了两个基线的合成大小的新视图图像（即，[24 ]与我们的[ 24]和[14]。用户可以容易地在数字画布上绘制场景布局，并生成具有几何一致和视觉上合理外观的场景的多视图图像具体来说，给定一个输入场景布局，我们首先使用我们的模型在目标视图中生成一个新的场景布局。然后，我们使用现成的语义图像合成方法[24]从生成的布局中合成照片般逼真的图像。请注意，我们可以通过在相同的潜在样式代码上调节生成的布局来强制不同视图的图像内容的一致性。我们将我们的结果与在BSD 3条款许可下许可的ADE20k数据集[40]上的两个基线进行比较。一种是使用SPADE [24]直接从输入布局生成新视图图像，另一种是最近的工作SVSNet [14]，它通过从输入场景布局推断完整的3D场景表示来生成新视图图像图6显示了室内和室外场景的一些视觉比较结果。我们可以看到，由于输入布局和目标视图图像之间的映射不对齐，SPADE会出现模糊的伪影。尽管SVSNet的视觉质量更好，但它仍然在场景边界周围产生不一致的伪影。相比之下，我们的方法可以根据目标视图中生成的场景布局生成更清晰的视觉结果。新颖的视图图像编辑。我们的方法还可以支持新颖的视图图像编辑。给定多个合成大小的小说视图场景布局，用户可以选择任何场景布局并编辑内容。然后，编辑操作的结果将相应地传播到场景布局的其他视点和对应的图像。特别是，我们首先编辑输入图像的场景布局。然后，我们使用我们的模型来生成新颖的视图场景布局。16998门人门壁门人门壁门人门壁绘画天花板窗玻璃床椅壁落地桌天花板绘画窗玻璃床椅壁落地桌绘画天花板窗玻璃床椅壁落地桌输入参考我们的地面实况图7.新颖的视图图像编辑。给定输入图像和布局（左上），我们显示了基于不同编辑操作（第2行用于删除两幅绘画，第3行用于移动绘画，第4行用于移动马桶）的两个不同视图（第2列和第3列）最后，我们将不同视图中生成的场景布局和源视图中的原始图像传递到跨域语义转移模型[36]，以产生一致的新视图图像，结合输入图像的视觉外观和生成的布局的结构。我们在图7中展示了一个示例。给定图7左上角的输入图像和布局，我们应用不同的编辑操作（例如，删除第二行的两幅画，移动第三行的一幅画，移动第四行的厕所）。两个不同视图中生成图像的结果显示在第2列和第3列中。我们可以看到，对场景布局的简单编辑操作可以无缝且一致地传播到新视图图像。非模态目标估计只给一张照片作为输入，这个应用程序的目标是在鸟瞰图中对非模态对象布局进行推理。由此产生的对象布局可以用于自动驾驶场景中的感知和场景理解。因此，我们探索使用我们的模型为amodal对象估计重建对象布局的鸟瞰图。给定单个正面视图图像，我们首先使用预先训练的语义分割模型[37]来获得相应的场景布局。我们将场景布局传递给OCT模块，以提取上下文对象表示。然后，我们通过使用我们的OLG模块预测鸟瞰图中的特定对象布局我们比较我们的方法与最近的工作，即，Mono-Layout [21]，利用对抗学习从单个图像中估计鸟瞰视图场景布局。我们遵循[21]中的数据集处理步骤，并在KITTI数据集[9]上重新训练我们的模型，以便在鸟瞰图中恢复人行道布局。我们采用平均交集超过联合（mIOU）作为评价指标。图8.故障案例。我们的模型可能无法恢复在输入布局中完全被遮挡的对象（第一行）。此外，我们的模型可能无法预测目标视图（第2行）中可变形对象的变化。分数越高表示性能越好。对于人行道，我们的方法和MonoLayout的mIOU分别为44.31和42.66。这表明我们的模型可以更好地分割物体形状。我们将此归因于我们模型中学习到的强上下文对象表示。5. 结论在本文中，我们采取了一个新的观点场景布局生成的问题为此，我们提出了一种基于学习的模型，该模型捕获上下文化的对象表示，以生成跨不同视图的几何和大量的定性和定量结果表明，我们的模型在许多室内和室外场景中优于几个基线。我们相信，我们的方法可以作为广泛的潜在应用的关键一步。虽然我们的模型取得了令人印象深刻的结果，作为第一次尝试，以产生新颖的视图场景布局，我们的方法是受到一些限制。首先，如果一个对象没有显示在源视图中，我们就不能在目标视图中恢复它。如图8的第1行所示，两个对象（即，绘画和窗玻璃）被输入布局右侧的墙壁完全遮挡。作为未来的工作，我们可能会学习一个概率生成模型，以捕捉在不同的视图中看不见的区域中固有的模糊性。可以从学习的分布中以高保真度对新对象进行采样。其次，我们的模型可能无法预测的变化，可变形的对象对应的视点变化。参见图8的第2行，举个例子。这将是一个有趣的未来的工作，明确编码场景中的对象动态。第三，由于隐式建模，我们的方法在一些分布外的相机姿势下可能无法很好地工作。我们相信，在不同的相机姿态下更好地建模对象关系可能是未来的一个重要方向。鸣谢：这项工作部分得到香港研资局的一个研究资源框架的支持（研资局参考编号：11205620）。输出视图1输出视图2轮班厕所轮班绘画删除绘画16999引用[1] Diego Martin Arroyo ， Janis Postels ， and FedericoTombari. 用于布局生成的变分 Transformer 网络。在CVPR，2021年。3[2] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。在ICIP，2016年。5[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。3[4] Joel Carranza，Christian Theobalt，Marcus A Magnor，and Hans-Peter Seidel.人类演员的自由视点视频。ACM TOG，2003年。2[5] Inchang Choi，Orazio Gallo，Alejandro Troccoli，Min HKim，and Jan Kautz.极限视角合成。在ICCV，2019年。1[6] Paul E Debevec，Camillo J Taylor，and Jitendra Malik.从照片中建模和渲染建筑：一种基于几何和图像的混合方法。在 Proceedings of the 23rd annual conference onComputer graphics and interac- tive techniques ， 1996中。一、二[7] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. ICLR，2021年。3[8] 安德鲁·费茨基，约纳坦·韦克斯勒，和安德鲁·齐瑟曼。使用基于图像的先验的基于图像的渲染。IJCV，63（2）：141-151，2005. 2[9] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。8[10] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。在SIGGRAPH，1996中。1[11] Kamal Gupta，Justin Lazarow，Alessandro Ruple，LarryS Davis，Vijay Mahadevan，and Abhinav Shrivastava.布局 - Transformer：具有自关注的布局生成和完成。ICCV，2021。3[12] Tewodros Habtegebrial、Varun Jampani、Orazio Gallo和Didier Stricker。生成视图合成：从单视图语义到新视图图像。在NeurIPS，2020年。二、五、六[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS，2017。5[14] 黄新平，曾宏宇，李新英，黄家斌。语义视图合成。在ECCV，2020年。二、七[15] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。五、六[16] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经IPS，2015年。4[17] Akash Abdu Jyothi，Thibaut Durand，Jiawei He，LeonidSi-gal，and Greg Mori.Layoutvae：随机场景布局生成17000从标签集中删除。在CVPR中，第9895-9904页，2019年。三、五[18] Hsin-Ying Lee，Lu Jiang，Irfan Essa，Phuong B Le，Haifeng Gong，Ming-Hsuan Yang，and Weilong Yang.神经设计网络：带约束的图形布局生成。在ECCV，2020年。3[19] Jianan Li ， Jimei Yang ， Aaron Hertzmann ， JianmingZhang，and Tingfa Xu. Layoutgan：用矢量线框对抗网络合成图形布局。IEEE TPAMI，2020。二、五、六[20] Andrew Luo，Zhoutong Zhang，Jiajun Wu，and JoshuaB Tenenbaum.场景布局端到端优化。在CVPR，2020年。3[21] Kauh Mani ， Swapnil Daga ， Shubhika Garg ， SaiShankar Narasimhan ， Madhava Krishna ， and KrishnaMurthy Jataval- labhula.Monolayout：单一图像的非模态场景布局。在WACV，2020年。8[22] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。在ECCV，2020年。2[23] DavidNovotny，BenjaminGraham和JeremyReizenstein。透视网：一个场景一致的图像生成器，用于真实室内环境中的新视图合成。NeurIPS，2019。2[24] Taesung Park，Ming-Yu Liu，Ting-Chun Wang，Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在CVPR，2019年。7[25] 乔晓天，郑泉龙，曹颖，刘伟豪。告诉我我在哪里：对象级场景上下文预测。在CVPR，2019年。三、五[26] Rene 'Ranftl，Katrin Lasinger，David Hafner，KonradSchindler和Vladlen Koltun。走向鲁棒的单眼深度估计：混合数据集的零拍摄交叉数据集传输。IEEETPAMI，2020。五、六[27] Steven M Seitz，Brian Curless，James Diebel，DanielScharstein，and Richard Szeliski.多视点立体重建算法的比较与评价。CVPR，2006。2[28] 施梦丽，苏世扬，约翰内斯·科普夫，黄家斌。使用上下文感知分层深度修复的3d摄影。在CVPR，2020年。2[29] Karen Simonyan和Andrew Zisserman用于大规模图像识别的深度卷积网络。arXiv：1409.1556，2014。4[30] 埃德加·苏卡，刘世坤，约瑟夫·奥尔蒂斯，安德鲁·J·戴维森。imap：隐式映射和实时定位。ICCV，2021。2[31] Shubham Tulsiani，Richard Tucker和Noah Snavely。基于视图合成的分层结构三维场景推理。在ECCV，2018。一、二[32] Ashish Vaswani，Noam Shazeer，Niki Parmar，JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，

下载后可阅读完整内容，剩余1页未读，立即下载