基于空间变换路由的未知摄像机及其在GQN性能提升上的优势

42 浏览量更新于2023-10-14 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5966STR-GQN：基于空间变换路由的未知摄像机陈文成国立成功大学jerrywiston@mislab.csie.ncku.edu.tw国立清华大学anitahu@cs.nthu.edu.tw国立台湾大学chusong@csie.ntu.edu.tw摘要几何感知模块广泛应用于最近的深度学习架构中，用于场景表示和渲染。然而，这些模块需要可能无法准确获得的固有相机信息。在本文中，我们提出了一个空间变换路由（STR）机制，在不应用任何几何先验的空间属性建模。STR机制将空间变换视为消息传递过程，并且视图姿态和路由权重之间的关系由端到端可训练神经网络建模。此外，占用概念映射（OCM）框架提出了场景融合过程中提供可解释的理由我们在几个数据集上进行了实验，结果表明，所提出的STR机制提高了生成查询网络（GQN）的性能可视化结果表明，路由过程可以将观测信息从某个视图的一个位置传递到另一个视图中的相关位置，这表明了该模型在空间认知方面的优势。1. 介绍从二维观测中理解三维场景的结构是计算机视觉领域的一个基本课题随着基于几何模型的进展，研究人员已经开发了几种技术来通过优化[10，13]和机器学习[21，24，25，20，4，27，26，5]从2D视图恢复3D几何形状。生成式查询网络（ Generative QueryNetwork，GQN）[3]不同于显式的三维几何重建，它仅根据观察到的图像和姿态信息，构造隐式的场景表示，实现了新的视图绘制。图1.该模型的基本概念，它把空间转换作为一个消息传递过程。不幸的是，GQN没有考虑空间属性，只有一个弱的推广能力。例如，GQN未能将从包含两个对象的场景中学习到的知识推广到包含四个对象的场景。基于几何光学和摄像机模型，最近的一些作品结合几何感知操作与GQN，使该模型可以应用于更复杂的场景。例如， E-GQN [19]利用极线来搜索观测中的特征。GRNN [22]应用相机投影和非投影来在2D视图和基于体素的特征存储器之间传递信息。然而，几何感知操作依赖于准确的相机内部参数，其需要额外的校准过程并且只能在固定且简单的成像情况下使用。为了设计可以灵活地应用于具有不同成像情况的不同视觉传感器的通用模型，因此出现了一个有趣的问题：模型是否可以通过观察学习3D空间的空间变换属性，而无需应用明确的几何先验，如相机投影矩阵、视野和失真系数？针对这一目标，本文设计了一种基于GQN的新体系结构，将空间变换和特征提取过程分离，从而学习与内容无关的空间认知概念。根据这一思路，我们提出了一个空间转换-5967形成路由（STR）机制，其将世界空间与视图空间之间的转换视为消息传递过程。如图1，观察到的特征首先被传递到世界空间中的几个位置。在融合世界空间中的不同观察的特征之后，特征然后被传递到查询姿势的视图空间。视图姿态和消息传递路径之间的关系由端到端可训练的神经网络建模。此外，在调查的场景融合操作和提取的特征的相关含义，我们开发的占用概念映射（OCM）融合不同的观察与概率模型的特征，并限制场景表示的规模。利用STR机制和OCM，我们介绍了空间变换路由生成查询网络（STR-GQN）（如图所示）。2）实现场景的表示和绘制。在多个基准上的评价结果表明，STR-GQN改进了基准GQN模型的性能，具有更高的泛化能力。此外，我们可视化高斯信号的消息传递结果，以揭示和解释我们的模型如何实现空间变换。2. 相关作品2.1. 3D重建从多视点图像中构造三维模型是计算机视觉领域中广泛研究的经典问题。运动恢复结构（SfM）[13]或同时定位和映射（SLAM）[10]方法优化重新投影误差以估计自我运动并构建场景的3D点云。最近的深度学习研究已经考虑了几何特性，以保持3D空间中的空间变换一致性，用于3D重建[21，24，25，20]和深度估计[4，27，26]的任务。为例如，一些作品[24，25，20]生成基于体素的结构，并利用可微分相机投影来预测2D视图并计算重新投影损失以保持3D-2D一致性。其他工作[4，27，26]通过深度和自我运动生成扭曲图，然后利用可微分扭曲操作来重建不同视图的图像。针对未标定相机的结构重建，Gordon等人。[5]学习内在参数并从视频中估计深度。然而，他们的工作需要具有大重叠区域的连续帧作为输入，而我们的工作可以应用于随机选择的帧。此外，而不是学习的摄像机模型的内部参数，我们学习的消息传递，这是一个更一般的机制，可以应用于不同种类的视觉传感器的路由路径。2.2. 视图合成视图合成的目的是在给定一个或多个图像的情况下生成场景的新视图。基于DNN，Tatarchenko等人[17]直接从单个视图生成新视图图像，而不应用地面实况深度或3D几何信息。后者的作品[28，12]生成扭曲流而不是RGB图像，以实现更高的感知特性。一些最近的作品[1，23]通过投影生成的深度图来构建翘曲流，进一步考虑场景的几何结构。对于多图像的情况，Sunet al.[16]预测每个输入视图的新视图的流程和图像，并聚集信息以生成最终结果。Choi等人[2]生成每个视图的预测深度概率体积，并将它们融合到目标视图的深度概率体积中。我们将在下面的小节中介绍其他基于神经场景表示和渲染的多图像视图合成方法2.3. 神经场景表示与绘制神经场景表示和渲染模型通过训练端到端神经网络来预测新视点的图像来学习场景的隐式表示。根据应用场景的不同，相关的工作大致可以分为两第一场景旨在对场景的变化（例如，具有不同颜色的对象或以不同姿势放置的对象），其外观分布基于很少的观察。例如，GQN [3]将各个视图姿态矢量与图像特征连接起来以提取场景表示。通过对不同姿态的场景表示求和，然后构造全局场景表示，并将其作为生成模型的条件，以针对新视图渲染图像基于GQN，E-GQN[19]应用了对极交叉注意机制，该机制利用对极约束来执行非局部注意，这可以帮助模型渲染更复杂的场景。另一个类似的工作是GRNN [22]，它利用不同的相机投影和非投影操作来在2D视图和基于体素的特征存储器之间传递特征。第二种场景旨在记录固定场景的细节，并通过丰富的观察来构建表示例如，一些作品[14，8，11]通过光线跟踪构建体积场景表示，并投影体积特征以构建查询视图的特征图。SRN [15]和Nerf [9]采用完全不同的策略，直接学习从查询位置到灯光信息的映射，并将场景信息存储在网络的权重处。该策略可以实现无限的空间分辨率的场景表示，并导致高质量的场景渲染性能。我们的工作主要针对第一种情况，最相关的工作是GRNN [22]，它应用了2D-3D5968KDistIJΣ=p（i，j）vci j，k图2.所提出的STR-GQN模型的架构。一致性来建模空间属性。然而，GRNN采用固定的相机投影/非投影操作的消息传递过程，而我们的模型学习的消息传递过程直接从观察。3. 方法我们工作的目标是仅基于图像和对应的姿势实现神经表示和渲染，而不知道相机的内部参数，这与GQN[3]中的问题设置相同。我们提出了一个可能的架构，学习空间变换的属性如图1、三维场景的认知可以用“世界细胞”来表示，“世界细胞”存储了世界空间中几个特定位置的信息。一旦我们从视觉接收到信息，这些信息将被存储在排列在二维空间中的“观察视图单元”中。观察视图单元的信息然后被传递到世界单元以构建场景表示。给定查询姿态，世界单元的信息将被传递到观察视图单元的特征，表示为VC_ij。将世界单元表示为wck，并且将基于不同观察融合世界单元的信息的场景单元表示为sck。每个单元被表示为c维向量。视图单元和世界单元之间的路由权重由空间变换路由网络（STRN）生成，该空间变换路由网络（STRN）将观察视图v或查询视图vq的相机姿态作为输入。卷积DRAW模型[6]被用作生成器以基于查询视图单元重建图像，其被表示为vcq。空间变换路由和场景融合机制的细节将在本节的其余部分中描述。3.1. 用于空间转换的消息路由设R为视图单元和世界单元的关系矩阵。每个元素R ij，k表示位置（i，j）处的视图单元与第k个世界单元之间的关系，即vc ij与wc k之间的关系。视图到世界路由过程被公式化为基于由关系R ij，k的归一化指数定义的概率分布pdist（i，j）的视图单元的加权和：在开始时，模型不知道信息如何在不同类型的细胞之间传递，并且每个细胞PK（i，j）=Σexp（Rij，k），exp（R′ ′）路由边具有相同的权重。根据不同的姿势探索环境后，也就是类似的信息wckK区i、ji j.（一）可能出现在不同的位置（即像素）。一旦发生重合，连接观察视图单元和对应的查询视图单元的路由路径上的所有权重将增加。在对权值进行多次修改后，消息传递的路由路径能更准确地反映空间变换的性质。为了对上述空间变换学习过程进行建模，我们提出了空间变换路由生成查询网络，如图所示。2.我们利用多个卷积层作为编码器来提取上述公式的缺点在于，由于概率分布的归一化，所有世界单元的信号具有相同的尺度。然而，对于不同的世界细胞，信号的尺度可能不相同。如示于图在图3中，给定像素的背投影面积随着观看深度而增加。假设对于不同的观察深度，信号幅度在像素覆盖区域上的积分是相同的，并且世界单元在世界空间中的大小是固定的，则通过世界单元的信号幅度将随着观察深度的增加而衰减此外，视野之外的世界i，′j′5969K∗KKK--IJKIJIJDistKKKKKKKk′ij，kVC=Σp（k）psc k。（三）每个位置码Cwc与其在真实世界中的位置相关但不相等。该网络的输出是一个3K维向量（K是世界单元的数量），然后将其整形为具有3维的K个世界细胞空间嵌入网络（WCE）。对于每个世界单元，net wce利用其在相机空间中的位置码c wc来预测对应的平截头体激活p act和空间嵌入向量e wc。K K图3.关系矩阵Rij，k和frustum激活pact的概念说明。小区不应接收任何信号。为了对上述现象进行建模，我们采用了一个名为“截头体激活”的附加激活项pact视图到世界路由过程的公式化然后可以被公式化为：查看单元空间嵌入网络（netvce）。对于每个视图单元，视图空间e_vc中的位置代码由归一化为[ 1，+1]的对应2D坐标构造。NETVCE采用每个视图单元的位置码来生成空间嵌入向量EVC。然后，由视图单元的空间嵌入向量和世界单元的空间嵌入向量的内积构造关系矩阵RSTRN的转发过程写为：wc=pactΣpdist（i，j）vci、j.（二）cwc=netw2c（v），e_wc，p_act=net_wce（c_wc），ewc=净vce（cvc），世界到视图路由过程将场景单元ij ijR ij，k=（e wc）T（e vc）。（四）被平截头体激活掩蔽为输入以构造查询视图单元。注意，每个场景单元的信息由不同观测的对应世界单元融合，因此场景单元和世界单元共享相同的空间。类似于视图到世界路由过程，世界到视图路由过程由基于由归一化的概率分布定义的概率分布的掩蔽场景单元的加权和来公式化。关系式Rij，k的指数：基季3.3. 用于场景融合的占用概念映射通过融合来自不同观测的特征，场景表示暗示了每个对象的更具体的属性，例如形状和位置。GQN采用简单的加法运算进行场景融合，这导致在给定不同观测数的情况下场景表示的不一致尺度。GRNN [22]采用递归神经网络pij（k）=Σexp（Rij，k），exp（R ′）网络（RNN）来更新场景表示，但是RNN的计算不能并行。更多-地区法ijijkK3.2. 空间转换路由网络关系矩阵R和截头体激活p根据不同的视图姿势进行更改。映射是-此外，没有提供明确的数学解释来支持上述融合机制。受机器人领域中的占用网格映射算法的启发[18]，我们提出了一种占用概念映射（OCM）框架，它不仅为场景融合操作提供了数学解释，而且保留了场景融合的基本概念。场景表示的比例。视图姿态和路由权重之间的关系被建模为空间变换路由网络让ok，c表示一个概念存在的随机变量工作（STRN）。所提出的STRN旨在将世界单元的3D相机空间位置和视图单元的2D视图空间位置投影到共同的“空间嵌入空间”。通过空间嵌入向量的相似性来计算给定视点姿态下的世界单元和视点单元如示于图4中，所提出的STRN由三个子网络组成：全球到摄像机定位网络（netw2c）。该网络以视点姿态v为输入，提取摄像机空间中世界单元的位置码。注意在第k个世界单元的3D位置处（即，〇 k，c= l）或不（即，〇 k，c=0），并且〇 ij，c表示概念c存在于视图单元的2D 位置（i，j）处的随机变量。OCM的目标是估计场景单元sc，k，c。其表示在给定观察到的图像x1：N的情况下，概念c在第k个世界单元的位置处的现有概率的后验：sc k，c=p（o k，c= 1|x1：N）（5）世界存在概率概念的对数几率IJ5970×个k，c×个NN×个×个recLLLLN1：Nn图4.空间变换路由网络（STRN）的结构，其中W和H表示视图单元的宽度和高度，K表示世界单元的数目，E表示空间嵌入的维数。空间定义为：log奇数（ok，c）=logp（ok，c= l）。（六）p（ok，c= 0）4. 实验4.1. 实验装置令wc，k，c表示第k个世界单元的第c个信道的值，其被假设为概念的似然比的对数：数据集。采用GQN [3]和E-GQN [19]中使用的五个数据集来评估我们的方法，包括 Rooms-Ring- Camera（RRC），Shepard-Metzler-7-Parts（SM 7），Rooms-Free-Camera （ RFC ）， Rooms-Random-objects（RRO）和Rooms-Ring-objects（RRO）。wck，c = logp（x|〇 k，c= l）。（七）p（x|（k，c= 0）Disco-Humanoid（DISCO）。RRC和SM7中的数据的图像大小是64 ×64像素，并且SM7中的数据的图像大小是64 × 64像素。场景单元由log-odds的后验来计算：sck，c=σ（logOdd（ok，c|x））=σ（Σwc）.（八）RFC、RRO和DISCO为128 × 128像素。此外，委员会认为，我们采用GRNN [22]中使用的ShapeNet数据集进行评估。评估所提出的模型的泛化能力的ShpaeNet数据集中图像大小为128×128像素。的n=1基于等式8中，场景融合的整个过程可以被公式化为针对不同观测的世界单元的总和，随后是S形激活函数，其将对数几率形式转换为概率形式并保持场景表示的尺度。在补充材料中描述了后验概率计算和路由过程分析的细节3.4.损失函数损失函数类似于GQN中使用的损失函数。让训练集和测试集是包含两个对象的场景的图像对于包含四个对象的场景，还有一个附加的评估集。培训设置。我们在训练过程中随机选择一到五个观察图像，并且总是采用三个观察图像进行评估。我们使用Adam优化器训练网络，学习率为5 10−5。对于每个数据集，我们采用0.1M样本进行训练批量大小为 32 ，总共 1.6M 训练步骤（约 300 个epoch）。实验是在一台配有Intel Xeon W-2125 CPU和NVIDIA RTX TITAN GPU的PC上进行的。Xq和Xq表示基础真值，并且表示重建的recg g ee e模型参数视图单元格的宽度和高度分别查询图像。（μl，σl）和（μl，σl）分别表示卷积DRAW模型中第l层的正态分布潜码的先验和后验。活泼地损失函数L由两部分组成，重构似然L_rec和正则化项L_reg：L=Lrec+γLreg是输入图像的1/4。世界像元的总数设置为1024，64的图像设置为204864像素和128 128像素。单元的通道数被设置为128，STRN中的空间嵌入的维度被设置为32，并且卷积DRAW的绘制步骤被设置为6。5971=MSE（xq，xq）+ γ ΣDKL（N（µe，σe）||N（µg，σg）），（9）比较模型。我们采用GQN [3]作为基线L模型，以评估拟议的STR机制是否其中γ表示正则化项的权重，并且在本工作中被提高了渲染结果的性能此外，我们将所提出的模型与E-GQN [19]进行了5972和GRNN [22]，其采用相机校准参数和几何感知操作来对空间属性进行建模。我们期望所提出的STR-GQN可以优于GQN，并且与E-GQN或GRNN一样好。4.2. 查看预测我们首先评估视图预测的重建误差。选项卡.图1示出了GQN [3]、E-GQN [19]和我们提出的STR-GQN的均方根误差和平均绝对误差。进行了另一个实验以将所提出的模型与GRNN [22]进行比较，因为GRNN采用了不同的设置，该设置去除了随机单元并应用了交叉熵像素匹配损失。我们在相同的GRNN设置下训练了所提出的模型和GQN模型，并评估了交叉熵误差，如表2所示。实验结果表明，STR-GQN在几乎所有数据集上的性能都优于基线GQN模型，证明了该方法在空间变换建模方面的有效性。与GRNN相比，所提出的具有STR机制的模型可以实现类似甚至更好的性能，GRNN也采用了2D视图和3D空间之间的消息传递的概念，但通过相机投影/非投影对过程进行建模。STR-GQN的性能略低于E-GQN。原因可能是E-GQN直接在观测图像上搜索特征，不受空间分辨率的影响相比之下，所提出的STR-GQN的性能受限于世界小区的数量。图5展示了所提出的方法和GQN在每个数据集上的渲染结果所提出的STR-GQN实现了更好的渲染质量比GQN，并保留了场景中的每个对象然而，在RRO和DISCO数据集上的结果揭示了我们工作的局限性虽然每个物体的位置都大致正确，但STR-GQN未能恢复桌子的角落和骨骼的肢体等详细结构。我们通过在包含比训练数据中的对象更多的对象的场景上测试模型来进一步评估泛化能力。如图在图6中，前两行是包含两个对象的场景的训练数据的示例，并且后四行展示了包含四个对象的场景上的模型的生成结果。我们观察到，GQN无法生成具有四个对象的场景，并且倾向于将场景表示映射到包含两个对象的场景。相比之下原因可能是GRNN和所提出的STR-GQN存储3D空间中不同小区域的对象特定信息，而GQN直接学习从潜码分布到包含两个对象的场景变化的映射。GQNE-GQN产品介绍平均绝对误差（像素）RRC7.40± 6.223.13± 1.3012.44± 12.8910.12± 5.1518.86± 7.163.59± 2.102.14± 0.5312.05± 12.796.59± 3.2312.46± 9.274.39± 2.083.11± 0.939.71± 7.947.17± 3.2413.55± 5.03SM7RFCRRO迪斯科均方根误差（像素）RRC14.62± 12.779.97± 4.3426.80± 21.3519.63± 9.1432.72± 6.326.8± 5.235.63± 2.2127.65± 20.7212.08± 6.5222.04± 11.088.52± 4.4310.56± 3.0217.01± 13.2213.78± 5.8723.57± 5.13SM7RFCRRO迪斯科表1.在均方根误差方面比较GQN、EGQN和STR-GQN。GQNGRNN产品介绍ShapeNetSM7RRC0.109± 0.0290.081± 0.0170.506± 0.0460.084± 0.0170.073± 0.0140.497± 0.0470.079± 0.0160.072± 0.0120.494± 0.019表2.基于无随机单元设置的交叉熵误差的图5.所提出的STR-GQN的渲染结果。4.3. 场景算法我们进行了[22]中介绍的场景算术实验，以证明每个世界单元对应到一个真实的3D位置。在图7中，列（A）示出了包含两个对象的场景，列（B）示出了包含出现在第一列中的一个对象的场景，并且列（C）示出了包含附加对象的场景。在将列（A）的场景表示减去列（B）的场景表示并将列（A）的场景表示与列（B）的场景表示相加之后。5973×× ×图6.在包含比训练数据中的对象更多的对象的场景上测试模型的渲染结果。图7.场景算法的绘制结果。对于列（C）的场景表示，预期结果包含列（A）中的剩余对象和列（C）中的与GQN相比，GRNN和所提出的STR-GQN生成更合理的结果，其中每个对象出现在正确的位置。然而，GRNN的结果比所提出的STR-GQN模型更不模糊。这可能是因为在我们的模型中只有2048个世界单元，而GRNN的体存储分辨率是323232，并可以存储更精细的细节。三维空间。虽然每个世界单元的真实3D位置是不可追踪的，但实验结果证明，所提出的STR-GQN学习将3D空间中不同空间区域的信息存储到不同的单元中。4.4. 布线过程我们展示了可视化的学习路由过程中提出的STRN。我们采样了两个姿势图8.分别给出了单像素信号和高斯信号的布线过程的可视化结果场景作为STRN的输入来生成路由权重，然后通过路由过程发送信号来观察信息如何传播到查询视图上。图8分别示出了单像素信号和高斯信号的可视化结果，其中第一列示出了对应的观察和查询姿态的图像，第二列示出了用用于观察的输入信号和用于查询姿态的扩展信号掩蔽的图像，并且第三列示出了输入信号和对应的观察和查询姿态的扩展信号的中心位置。查询姿态（由红线指示）的池外极线（由常规几何模型计算）。我们观察到扩展信号与输入信号中心位置的核线一致，这意味着所提出的STRN成功地学习了3D空间中的空间变换。此外，可视化结果还表明，观察点的信号在视空间中扩散到一个“面”上，而不是一条线上，这揭示了像素的面投影特性。我们还发现，在视图到世界路由和世界到视图路由的STRN应该是相同的否则，所提出的STR- GQN将缓慢收敛并且扩展信号将杂乱。综上所述，布线过程结果的可视化证明了空间变换可以纯粹从观察中学习，而无需应用透视法和校准参数的先验知识。4.5. 不同成像情况为了评估模型的传感器适应性，我们在RRC数据集上应用了几个图像处理操作（如图2所示）9）模拟不同的图像5974图9.在RRC数据集上应用不同图像处理操作的示例GQNGRNN产品介绍原始0.5060.4970.494拉伸0.510（0.004）0.510（0.013）0.504（0.010）低距离0.521（0.015）0.515（0.018）0.506（0.012）高距离0.538（0.032）0.537（0.040）0.522（0.028）表3.在具有不同图像处理操作的RRC数据集上训练的模型的交叉熵误差。ing过程。我们使用处理后的图像来训练/测试模型，并计算像素交叉熵误差，如表1所示。3.与使用原始数据集训练的模型相比，误差的增加也在括号中报告与GRNN相比，所提出的STR-GQN在像素交叉熵误差方面具有更好的性能，并且受图像处理操作的影响较小。4.6. 场景融合操作为了比较不同的融合方法，我们研究了基于RRC数据集的不同数量的观测图像的推断结果。请注意，我们随机选择了1到5个观察图像来训练模型。除了在GQN和提出的OCM中使用的“Sum”融合之外，我们还采用了在对场景表示求和之后应用L2归一化的“Norm”融合。选项卡. 4示出了基于不同数目的观测图像的不同融合方法的均方根误差括号中报告的值是与基于3个观察图像的结果相比的增加/减少性能。当观测图像数大于5时，“求和”融合方法的性能下降。所提出的OCM和“Norm”融合方法可以适应更大数量的观测图像比在训练过程中使用的。请注意，在本实验中，我们仅使用0.8M步数训练模型，因此表1中的值为4与Tab中的不同。1.虽然4.7. 复杂场景[3，19，22]中提出的数据集是简单的合成场景，没有复杂的纹理或光照条件。评估-表4.对于基于RRC数据集的每种融合方法，给出了不同数量的观测图像图10.对具有复杂纹理或光照条件的物体的一些绘制结果为了评估所提出的STR-GQN是否可以应用于更复杂的场景，我们基于[14]中提出的“花瓶”和“希腊”数据集以及[9]中提出的“椅子”和“材料”数据集以区别性的方式训练了所提出的模型。图10展示了上述数据集的一些渲染结果。由于页数限制，生成的完整结果和相应分析见补充材料。5. 讨论和未来的工作基于STR机制，建议STR-GQN成功地保留了3D的合理性，而不应用任何几何先验和额外的校准参数。扩展信号的可视化结果与极线一致，这表明STRN学习了变换和投影知识场景算法的结果证明，所提出的模型的每个世界细胞存储在一个特定的位置在3D空间中的对象特定的信息。该属性类似于GRNN中的体积存储器。我们期待着取代几何感知模块的空间相关的任务（如视觉里程计和三维重建）与建议STR机制。所提出的STR-GQN具有无法恢复细节结构和外观随视点变化的纹理主要原因是所提出的STR机制将特定3D位置处的特征考虑为对于不同视点是相同的。一个可能的未来方向是将所提出的方法与胶囊网络[7]结合起来，对旋转的等变特征而不是不变特征进行建模，以便我们可以利用更少的单元来存储更多的场景信息。总和规范OCM3次观察9.369.409.364次观察9.05（-0.31）9.04（-0.36）9.02（-0.34）5次观察9.02（-0.34）8.81（-0.59）8.57（-0.79）6次观察9.38（+0.02）8.69（-0.71）8.51（-0.85）5975引用[1] Xu Chen，Jie Song，and Otmar Hilliges.具有连续视图控制的基于单目神经图像的渲染。在IEEE/CVF计算机视觉国际会议论文集，第4090-4100页[2] Inchang Choi，Orazio Gallo，Alejandro Troccoli，Min HKim，and Jan Kautz.极限视角合成。在IEEE/CVF计算机视觉国际会议论文集，第7781-7790页[3] SM Ali Eslami ， Danilo Jimenez Rezende ， FredericBesse ，Fabio Viola，Ari S Morcos ，Marta Garnelo，Avraham Ru- derman，Andrei A Rusu，Ivo Danihelka，Karol Gregor，et al.神经场景表示和渲染。Science，360（6394）：1204[4] Cle' mentGodard，OisinMacAodha，andGabrielJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页[5] Ariel Gordon ， Hanhan Li ， Rico Jonschkowski ， andAnelia Angelova.来自野外视频的深度：来自未知相机的无监督单目深度学习。在IEEE/CVF计算机视觉国际会议的论文集，第8977-8986页[6] KarolGregor ， FredericBesse ， DaniloJimenezRezende，Ivo Danihelka，and Daan Wierstra.对概念的压缩。神经信息处理系统进展，第3549-3557页[7] Geoffrey E Hinton，Sara Sabour，and Nicholas Frosst.带有电磁路由的矩阵胶囊。在2018年学习表征国际会议[8] Stephen Lombardi 、 Tomas Simon 、 Jason Saragih 、Gabriel Schwartz、Andreas Lehrmann和Yaser Sheikh。Neural volume- umes ： Learning dynamic renderablevolumes from images.arXiv预印本arXiv：1906.07751，2019。[9] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。arXiv预印本arXiv：2003.08934，2020。[10] Raul Mur-Artal，Jose Maria Martinez Montiel，and JuanD Tardos. Orb-SLAM：一个多功能和精确的单目SLAM系统。IEEE Transactions on Robotics，31（5）：1147-1163，2015。[11] Kyle Olszewski，Sergey Tulyakov，Oliver Woodford，Hao Li ， and Linjie Luo. 可转换的瓶颈网络。在IEEE/CVF计算机视觉国际会议论文集，第7648-7657页[12] Eunbyung Park ， Jimei Yang ， Ersin Yumer ， DuyguCeylan，and Alexander C Berg.基于变换的新型三维视图合成图像生成网络在Proceedings of the IEEE conferenceon computer vision and pattern recognition，pages 3500[13] Johannes L Schonberger和Jan-Michael Frahm. 结构-从运动重新审视。在Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 4104[14] Vincent Sitzmann，Justus Thies，Felix Heide，MatthiasNießner，Gordon Wetzstein，and Michael Zollhofer.深体素：学习持久的3d特征嵌入。在IEEE计算机视觉和模式识别会议的论文集，第2437-2446页[15] Vince ntSitzmann，MichaelZollh？ fer，andGordonWet-zstein.场景表示网络：连续三维结构感知神经场景表示。在神经信息处理系统的进展，第1121-1132页[16] Shao-Hua Sun，Minyoung Huh，Yuan-Hong Liao，NingZhang，and Joseph J Lim.多视图到新视图：用自学的自信综合新的观点。在欧洲计算机视觉会议（ECCV）的论文集，第155-171页[17] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。用卷积网络从单幅图像建立多视图3d模型。在European Conference on Computer Vi-sion，第322-337页中。施普林格，2016年。[18] 塞巴斯蒂安· 特伦概率机器人 Communications of theACM，45（3）：52[19] Joshua Tobin，Wojciech Zaremba，and Pieter Abbeel.几何感知神经渲染。神经信息处理系统进展，第11559-11569页，2019年[20] Shubham Tulsiani、Alexei A Efros和Jitendra Malik。多视图一致性作为学习形状和姿态预测的监督信号。在IEEE计算机视觉和模式识别会议论文集，第2897-2905页[21] Shubham Tulsiani，Tinghui Zhou，Alexei A Efros，andJi-tendra Malik.通过可微光线一致性进行单视图重建的多视图监督。在Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 2626[22] 董晓宇、郑瑞森、卡捷琳娜·弗拉基-阿达基。学习空间常识与几何感知递归网络。在IEEE计算机视觉和模式识别会议论文集，第2595- 2603页[23] Olivia Wiles Georgia Gkioxari Richard Szeliski 和 JustinJohnsonSynsin：从单个图像进行端到端视图合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第7467-7477页[24] Jiajun Wu，Yifan Wang，Tianfan Xue，Xingyuan Sun，William T Freeman，and Joshua B Tenenbaum.通过2.5维草图重建三维形状。arXiv预印本arXiv：1711.03129，2017。[25] Xinchen Yan，Jimei Yang，Ersin Yumer，Yijie Guo，and Honglak Lee.透视Transformer网络：学习单视图三维物体重建，无需三维监督。神经信息处理系统的进展，第1696-1704页，2016年[26] HuangyingZhan ， RaviGarg ， ChamaraSarojWeerasekera，Kejie Li，Harsh Agarwal，and Ian Reid.单目深度估计和具有深度特征重建的视觉里程计的无监督学习在Proceedings of the IEEE5976计算机视觉和模式识别会议，第340-349页[27] Tinghui Zhou ， Matthew Brown ， Noah Snavely ， andDavid G Lowe.视频深度和自我运动的无监督学习。在IEEE计算机视觉和模式识别集，第1851-1858页[28] Tinghui Zhou，Shubham Tulsiani，Weilun Sun，JitendraMalik，and Alexei A Efros.按外观流查看合成欧洲计算机视觉会议，第286施普林格，2016年。

下载后可阅读完整内容，剩余1页未读，立即下载