基于单目神经图像的连续视图合成

156 浏览量更新于2023-10-12 收藏 2.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于单目神经图像的连续视图绘制陈旭宋杰OtmarHilligesAIT Lab，ETH Zurich{xuchen，jsong，otmar.hilliges}@ inf.ethz.ch......图1：交互式新颖视图合成：给定一个单一的源视图，我们的方法可以生成一个连续的序列的几何精确的新的意见下细粒度的控制。上图：给定一个类似街景的输入，用户可以指定一个连续的摄像机轨迹，我们的系统实时生成相应的视图下图：一个看不见的高分辨率互联网图像被用来合成新的视图，而相机是交互式控制的请参阅我们的项目主页†。摘要我们提出了一种方法来产生一个连续的流的新的意见下细粒度（例如，1◦步长）以交互速率进行摄像机控制。一种新颖的学习流水线直接从源颜色确定输出像素。将几何变换（包括透视投影、3D旋转和平移）注入到网络中，强制对底层几何进行隐式推理。潜在的3D几何表示在3D变换下是紧凑和有意义的，能够为单个对象和自然场景产生几何上精确的视图我们的实验表明，这两个提出的组件，变换编码器-解码器和深度引导的外观映射，导致显着改善generalization超出训练视图，并因此更准确的视图合成下连续6自由度相机控制。最后，我们证明了我们的方法在公共数据集上的性能优于最先进的基线方法。1. 介绍3D沉浸式体验可以使许多应用场景受益。例如，在网上商店中，人们通常*同等缴款。我喜欢在3D中交互地查看产品，而不是从离散的视角。同样地，在地图应用中，期望探索在拍摄照片的位置之外的这通常是不可能的，因为要么只有2D图像存在，要么因为存储和渲染完整的3D信息不缩放。为了克服这一限制，我们研究的问题，交互式视图合成与6自由度视图控制，只需要一个单一的图像作为输入。我们提出了一种可以在细粒度（例如，1英寸步长）摄像机控制（见图①的人。实时生成连续的新颖视图流是一项具有挑战性的任务。为了能够合成高质量的图像，需要对底层几何结构进行推理。然而，只有一个单目图像作为输入的三维重建的任务是严重不适定的。传统的基于图像的渲染技术不适用于实时单目设置，因为它们依赖于多个输入视图，并且在计算上也可能是昂贵的。最近的工作已经证明了通过训练一组视点对来学习从单眼输入预测新视图的潜力[52，62，40，8]。这†https://ait.ethz.ch/projects/2019/cont-view-synth/40904091通过直接合成目标视图[52，8]中的像素或预测流图以将输入像素扭曲到输出[62，51]来实现。然而，我们的实验表明，这样的方法是容易过度拟合的培训意见，并没有推广以及免费从非培训的观点。如果相机以小的增量连续移动，则使用这种方法，图像质量迅速降低。一种可能的解决方案是结合更密集的训练对，但这对于许多实际应用来说是不实际的可以利用几何表示的显式集成来进行视图合成，例如网格[26，34]或体素网格[58，6，16，54然而，这样的表示将限制相机围绕单个对象运行的设置的适用性。在本文中，我们提出了一种新的学习管道，它直接从源颜色中确定输出像素，但迫使网络隐式地推理底层几何结构。这通过将几何变换（包括透视投影、3D旋转和平移）注入到端到端可训练网络中来实现。潜在的3D几何表示是紧凑的和存储器高效的，在显式3D变换下是有意义的，并且可以用于产生单个对象和自然场景的几何精确视图更具体地说，我们提出了一种几何感知神经架构，由3D变换自动编码器（TAE）网络[21]和随后的深度引导外观扭曲组成。与现有的工作，直接连接视点参数与潜在代码相比，我们首先将图像编码成一个潜在的表示，这是明确的旋转，并在欧几里得空间中平移然后，我们从深度图中，我们计算密集的correspondences像素之间的源和目标视图通过透视投影，随后通过像素扭曲的最终输出图像。所有涉及的操作都是可区分的，允许端到端培训。在合成物体[3] 自然的风景[15]对图像质量、粒度、连续视点控制精度和场景几何隐式恢复进行了定性和定量评估。我们的实验表明，这两个组件，TAE和深度引导翘曲，大大提高了连续视图合成的鲁棒性和准确性。总之，我们的主要贡献是：• 我们提出的任务，从单目输入下的细粒度视图控制的连续视图合成• 这个目标是通过一个新的架构，集成了一个变换编码器-解码器网络和深度引导图像映射。• 进行了彻底的实验，证明了我们的方法与现有技术相比的功效。2. 相关工作多视图图像的视图合成。在视觉和图形学领域，对给定一系列图像作为输入来合成新视图的任务进行了深入的研究。策略可以分为显式计算场景的3D表示的策略[42，28，41，7，47，46，65，4，30]和隐式处理3D几何形状的策略[12，35，36]。其他人已经部署了全4D光场[18，31]，尽管代价是复杂的硬件设置和增加的计算成本。最近，深度学习技术已被应用于类似的设置中，以填充孔并消除由采样间隙、非遮挡和不准确的3D重建引起的伪影[14，19，61，55，49，13，37]。虽然改进了传统方法的结果，但这种方法依赖于多视图输入，因此限于相同的设置。单目输入的视图合成。最近的工作利用深度神经网络从数据中学习源视图和目标视图之间的单目图像到图像映射[29，52，8，62，40，51，59]。一条工作线[29，52，8，39]直接生成图像像素。鉴于任务的难度，直接图像到图像的翻译方法难以保留局部细节，并且经常产生模糊的图像。Zhou等人[62]估计流图以便将源视图像素扭曲到它们在输出中的位置。其他人通过图像完成[40]或通过融合多个视图[51]进一步细化结果。通常，通过将潜在代码与平坦化的视点变换级联来控制期望的视图然而，由于来自连续视点空间的稀疏训练对，视点参数到图像之间的精确映射难以学习我们的实验表明，这会导致一个捕捉到训练视图，图像质量迅速下降下连续视图控制。最近的工作展示了细粒度视图合成的潜力，但都局限于对象的单个实例[48]或者需要以深度图[63，33]、表面法线[33]甚至光场图像[50]的形式进行额外的监督，这些在实际设置中获取起来很麻烦相比之下，我们的方法由一个完全可微的网络组成，该网络使用图像对和相关变换作为唯一监督进行训练。3D从一个图像关于3D形状的推理可以用作自由视图合成的隐式步骤。考虑到从单个图像恢复3D形状的严重约束不足的情况，最近的工作已经部署了神经网络来完成这项任务。它们可以通过其输出表示分为网格[26，34]，点云[11，32，23]，体素[58，6，16，54，44]或基于深度图[9，60，53]。基于网格的方法仍然不够准确，由于间接的学习过程。点云通常是稀疏的，并且不能直接用于在输出图像中投影密集的颜色信息，并且基于体素的方法是4092由于存储器限制，分辨率以及对象的数量和类型受到限制。由于采样间隙和遮挡，当投影到其他视图中时，深度图变得稀疏和分层深度图表示[53]已用于缓解此问题。然而，大量的层将是必要的，这在可伸缩性和运行时效率方面构成了重大障碍。与显式模型相比，我们的隐式3D几何表示是紧凑的和内存高效的，在显式3D变换下是有意义的，并且可以用于渲染密集图像。深度生成模型。视图合成也可以被视为图像生成过程，这与图像的深度生成建模领域有关[27，17]。最近的模型[2，25]能够生成在许多方面具有多样性的高保真图像在[5，20]中研究了解开潜在因素，以提供对图像属性的控制。特别是，最近的工作[64，38]通过对几何的推理展示了观点解纠缠虽然这些方法可以用于视图合成，但生成的视图缺乏一致性，而且无法控制合成哪个对象。3. 方法我们的主要贡献是一种新颖的几何感知网络设计，如图所示2，由四个组件组成：3D变换自动编码器（TAE），自监督深度图预测，深度图投影和外观扭曲。源视图首先被编码成潜在代码（z=Eθe（Is））。我们的学习方案鼓励这种潜在代码z在3D度量空间中是有意义的在编码之后，我们将源和目标之间所需的转换应用于潜在代码。变换后的代码（zT=Ts→t（z））由神经网络解码以预测从目标视点观察到的深度图DtDt基于已知的摄像机内函数K和外函数Ts→t，被投影回到源视图中，从而在目标视图和源视图之间产生密集对应，被编码为密集后向流图Ct→s。这个流图用于将源视图逐个像素地扭曲到目标视图中。请注意，获得反向流并因此预测目标视图中的深度图是与先前工作的关键区别当在光线和像素空间之间移动时，像素值到目标视图It中的前向映射将引起离散化伪影，其在（源视图）深度图的重新投影之后可见为条带。整个网络以简单的每像素重建损失作为唯一的端到端训练指导总的来说，我们想学习一个映射M：X→Y，在我们的例子中，它可以分解为：M（Is）=B（Pt→s（Dθd（Ts→t（Eθe（Is），Is）=It，（1）其中B是双线性采样函数，Pt→s是透视投影，Eθe、Dθd分别是编码器和解码器网络。这种分解是我们工作的一个重要贡献。通过要求网络预测目标视图中的深度图Dθ t，我们隐含地鼓励TAE编码器Eθe产生特征的位置预测，并且解码器Dθd通过从指定视角渲染变换后的表示来学习在对应位置处生成特征。3.1. 改造自动编码器我们从最近的工作[45，22，57，43]中获得灵感，该工作本身建立在Hinton等人的早期工作基础上。[21]，其使用编码器-解码器架构来学习变换等变的表示，从而在图像和特征空间之间建立直接对应。我们利用这样一个潜在的空间来模拟视点和隐式3D形状之间的关系。为此，我们将潜在码 zs 表示为向量化的点集zs∈Rn×3，其中n是超参数。然后将该表示与地面实况变换Ts-t=[R|t]s→t，描述源视图Is和目标视图It之间的视点改变以获得旋转代码Zt：zt=[R|t]s→t·zs，（2）其中z是z s的齐次表示。以这种方式，网络被训练以对特征的位置预测进行编码，然后可以将其解码成图像。TAE模块中的所有功能（包括编码、向量整形、矩阵乘法和解码）都是不同的，因此可以通过反向传播进行训练3.2. 深度引导外观映射我们将zt解码为目标视图中的3D形状，表示为深度图像Dt。从Dt，我们通过透视投影Pt→s确定性地计算稠密对应场Ct→s。然后，密集对应被用于将纹理（源视图）的像素扭曲到对应的像素中。你就能看到了。这一切都是网络工作的功劳，视图到目标视图中，并使目标视图的预测对输入的纹理不变，从而产生清晰和细节保留的输出。建立对应关系。通过从深度图到3D坐标[X，Y，Z]的转换和透视投影，从目标视图中的深度图像Dt获得每像素对应性Ct-s[X，Y，Z]T=Dt（xt，yt）K−1[xt，yt，1]T（3）和[xs，ys，1]T→s[X，Y，Z，1]T.（四）4093双线性采样¨−I¨（6）投影转换自动编码器深度引导扭曲源视图三维潜在空间目标深度流目标视图图2：管道概述。对2D源视图进行编码，并且在解码器网络预测目标视图中的深度图之前显式地旋转潜在代码。通过透视投影获得密集对应，并使用双线性采样将像素从源视图扭曲到目标视图所有操作都是可区分的，并且是端到端训练的，没有地面实况深度或流程图。唯一的监督是目标视图和地面实况图像之间的L1重建损失其中每个像素（xt，yt）对源视图（xs，ys）中的对应像素位置进行编码。此外，K是描述沿着两个轴fx、fy和图像中心cx、cy的归一化焦距的相机固有矩阵。注意，只有焦距比fx/fy以及图像中心影响视图合成，而焦距的绝对比例仅对以正确比例预测几何形状重要以对应的方式变形。利用获得的密集对应，我们现在能够将源视图扭曲到目标视图。此操作传播纹理和局部细节。由于从Eq. 4是非整数，这是通过如[24]中提出的可微分双线性采样来完成的：Σ Σ为了训练网络，只需要成对的源视图和目标视图及其转换。网络权值通过最小化网络之间的L1预测的目标会被看到，而事实也会被看到。¨ ¨Lrecon=¨It¨t¨1为了最大限度地减少这种重建损失，网络学习生成逼真的新视图，预测必要的流量和深度图，并学习形成几何潜在空间。4. 实验It（x t，yt）=XsIs（xs，ys）max（0，1 − |xs − Cx（xt，yt）|）ysmax（0，1 − |ys − Cy（xt，yt）|）的情况。（五）我们现在评估我们的方法定量和定性-试着我们特别感兴趣的是评估图像质量，粒度和精度的细粒度的观点使用反向流Ct→s，根据预测的深度图Dt使得该方法服从基于梯度的优化，因为每像素重构损失的梯度提供了有意义的信息来校正错误的对应。梯度还流回以向TAE网络提供有用的信息，这是由于根据预测的深度图确定性地计算对应性的事实。虽然与[62]相似，但我们引入了预测深度的中间步骤，而不是直接预测对应性。这强制网络服从几何约束，解决不明确的对应关系。3.3. 培训我们网络中的所有步骤，即3D变换自动编码器（TAE），自监督深度图预测，深度图投影和外观扭曲，都是可区分的，这使得端到端训练成为可能。在所有模块中，仅TAE模块包含可训练参数（θe，θd）。控制首先，我们进行详细的实验，合成对象，连续的观点是很容易获得地面实况值得注意的是，我们以比在训练数据中观察到的小得多的步长来改变视点其次，为了评估概括性，我们测试我们的系统在自然城市场景。在此设置中，给定图像输入，我们指定所需的地面实况摄像机轨迹，系统沿该轨迹生成新视图。然后，我们运行一个现有的视觉里程计系统，这些合成的连续意见，以恢复相机的轨迹。通过将恢复的轨迹与地面实况进行比较，我们可以在考虑粒度和连续视图控制的情况下评估合成图像的几何最后，为了更好地理解我们提出的网络的机制，我们进一步研究了它的两个关键组件，即深度引导纹理映射和变换自动编码器。我们评估了中间的深度和流量，并定性地验证了TAE的潜在空间的意义。4094yi yi旋转+13°后的视图来源Tatarchenko et al.Zhou等人Sun等人Ours（w/o depth）Ours（w/o TAE）Ours（full）地面实况重叠的连续视图图3：ShapeNet上视点控制的粒度和精度的定性结果。在上面的两行中，我们从单个输入中生成并覆盖80个步长为1 μ m的连续视图。我们的方法表现出与地面实况相似的旋转模式，而其他方法大多收敛于固定的训练视图（见方框所示的汽车和椅子的轮子）。在最下面的一行中，给出了对特定视图的仔细观察，这表明以前的方法显示失真或收敛到相邻的训练视图（Zhou et al.[62]，Sun et al.[51]）。由Tatarchenko等人生成的图像[52] I'msorry.还描绘了相应的误差图最好用彩色观看。4.1. 数据集我们在两个具有挑战性的数据集上进行实验：合成物体[3]和真实的自然场景[15]。ShapeNet[3]是来自各种类别的3D合成对象的大型集合。与[62，40，51]类似，我们选择汽车和椅子来评估我们的方法。我们使用与[62]中提出的相同的列车测试分割对于训练，我们从54个具有不同方位角和仰角的视点渲染每个模型。方位角从0°到360°，步长为20°，仰角从0°到30°，步长为1]，并测量合成图像和地面实况之间的结构相似性除了L1损失之外，我们还报告了SSIM，因为它i）给出了感知图像质量的指示，并且ii）用作在训练期间不直接优化的进一步度量。在阈值δ（Acc）下的正确性百分比。如果满足max（yi，yi）<δ，则在像素i处的预测流量/深度yi被认为是正确的。我们对正确预测的像素的部分进行计数。这里δ = 1。05.旋转误差和平移误差定义为：10◦. 每个训练对由相同的两个视图组成Tr（R·RT）−1t~·tT例如，方位角差在±40°以内。R1=R2（2），TE=arccos（〜t 公司简介）（7）KITTI [15]是自动驾驶的标准数据集，包含不受控制的环境中的复杂城市场景。我们在KITTI里程计上进行实验该子集包含图像序列以及每个帧的全局相机姿态。总共有18560幅图像用于训练，4641幅图像用于测试。我们通过在源视图的10个最近帧从全局相机姿态获得相对变换4.2. 度量在我们的评估中，我们报告了以下指标：平均绝对误差L1用于测量地面实况和预测之间的每像素值差异结构相似性（SSIM）指数[56]的值为[-1，其中Tr表示矩阵的迹。4.3. 与其他方法相比我们比较了几个有代表性的国家的最先进的基于学习的视图合成方法。 Tatarchenko等人[52]将视图合成视为图像到图像的转换任务，并直接生成像素。在他们的框架中，观点直接与潜在代码连接在一起。Zhou等人。[62]生成流而不是像素。视图信息也直接连接。Sun等人。[51]结合了像素生成[52]和图像扭曲[62]。在Zhou et al.[62]和Sun et al. [51]不支持连续的观察点输入为了允许连续输入进行比较，我们将其编码的离散一个热视点替换为表示-240950.140.120.100.080.060.040.02Tatarchenko等人Zhou等人Sun等人Ours（w/odepth）Ours（w/oTAE）具有视角的余弦和正弦值的坐标系。相同的编码器和解码器用于所有比较。所有生成的视图的错误和SSIM在[−40<$，40<$]之间。与Fig.4.我们的方法在汽车和椅子上都明显优于以前的方法此外，我们双方烧蚀方法也比以前的方法表现得更好，证明了两种模块的有效性。车L1 SSIM椅子L1 SSIMTatarchenko等人[五十二]0.0840.9190.1100.917Zhou等人[六十二]0.0620.9240.0740.920Sun等人[五十一]0.0560.9260.0700.921我们的（无深度）0.0520.9320.0660.926我们的（不含TAE）0.0450.9430.0650.930我们的（满）0.0390.9490.0560.9380.0040 20 0旋转角度20 40表1：ShapeNet上细粒度视图控制的定量分析。所有生成的视图的平均L1误差和SSIM在源视图的[-40，40]之间。图4：L1重建误差作为汽车上视图旋转函数的比较.在整个范围内，我们的表现优于其他最先进的基线，并产生更平滑的损失进展。请注意，这里的0◦表示不对源代码视图应用转换。（±40° C、±20° C是由黑框指示的训练4.4. ShapeNet评估为了测试视点控制的粒度和精度，对于每个测试对象，给定源视图1s，网络合成器以1μ m的步长围绕源视图调整80个视图，这比用于训练的20μ m的步长密集得多（并且比先前报告的实验密集得多测试集总共包含100，000个对象的视图对。为了研究变换感知潜在空间的有效性，我们引入了我们的（w/o TAE），类似于[52，8，62，40，62]连接视点，同时仍然保持深度引导纹理映射过程。为了评估深度引导纹理映射过程，我们引入了Ours（w/o深度），它直接预测流量，而无需深度引导，但确实部署了TAE。视点相关错误。图4绘制了所有方法的L1反射误差在[−40<$，4 0<$]之间。请注意，这里的0◦表示不对源代码视图应用转换。我们的系统始终产生较低的错误。更重要的是它在非训练和训练视图之间产生低得多的方差（±40μ m，±20μ m是训练视图）。虽然先前的方法可以在训练视图上实现与我们类似的性能，但它们的性能在非训练视图上显著降低值得注意的是，我们的两个设计（TAE和基于深度的外观）对最终性能有贡献，并且捕捉到训练视图的问题随着两个分量（我们的（无TAE）和我们的（无深度））中的任一个被丢弃而持续存在。选项卡. 1总结了平均L1定性结果。图中的定性结果。3、确认定量结果。为了证明连续视点控制的能力，我们从一个单一的输入生成和叠加80个视图，步长为1μ m与以前的方法相比，我们的方法表现出与地面实况相似的旋转模式，而其他方法大多捕捉到固定的训练视图（Zhouet al.[62]，Sun et al. [51]）。这表明会发生过拟合，从而限制视图控制的粒度和精度仔细观察特定视图可以发现，以前的方法在非训练视图上显示失真，以红色突出显示由Tatarchenko等人生成的[52] I'msorry.4.5. KITTI评价我们现在在KITTI数据集的更现实的设置中评估我们的方法请注意，数据集只包含从汽车仪表盘记录的相当线性的向前运动这种设置是一个很好的测试平台，为设想的应用场景，其中一个人希望提取3D信息追溯。定性结果在图5中，我们示出了来自沿着直线相机轨迹合成的新视图的定性结果：[62]和Sun et al.[51]两者都难以处理训练设置之外的视点，并且产生失真的图像，而我们的是清晰的并且在几何上是正确的。我们的更忠实地再现了所需的运动比[62]和[51]保持静止。复杂的弹道恢复。为了模拟真实用例，我们引入了一个新的实验设置。我们指定任意所需的轨迹，特别是使相机远离汽车从这个规格，我们生成一个序列的100个图像沿轨迹。随后，我们运行一个最先进的视觉里程计[10]系统，以根据合成视图估计相机姿态。如果视图合成方法是L14096输入轨迹源t = [ 0 0 0.1]向前平移t = [ 0 0 0.6]图5：简单的相机运动。设置：给定源视图，我们合成超过0.6米的线性向前运动。我们的方法产生清晰和正确的图像，而[62，51]产生失真的图像。Zhou等人[62]我们的报告反映了一个合理的直接过渡。源Zhou等人Sun等人我们视点合成摄像机姿态估计输入轨迹基线我们图6：复杂的相机运动。设置：给定源视图和输入轨迹，沿用户定义的轨迹合成连续的视图序列（绿色）。轨迹是通过最先进的视觉里程计系统估计的[10]并与所需轨迹进行比较。从我们的轨迹估计的轨迹与地面实况很好地对齐，而[62，51]无论输入如何，大多数都产生直线前进或错误的运动。在几何精确的情况下，视觉里程计系统应当恢复期望的轨迹。图6示出了一个这样的实验。我们的估计轨迹与地面实况吻合良好。相比之下，[62]中的视图会导致错误的轨迹，[51]大多数情况下会产生直线运动，可能是由于过度拟合训练轨迹。定量结果。为了定量地评估几何特性，我们随机采样变换T =[R|t]。然后，我们估计相对论。输入和合成视图之间的逆变换T=[R|[10]与地面真实情况T比较。这是通过首先检测和匹配SURF特征来完成的[1]在两个视图中，然后计算和分解基本矩阵。我们在Tab中报告了数值错误。二、我们的方法在旋转和平移中产生了显著较低的误差，表明精确的视点控制。请注意，我们必须从该比较中删除[52]，因为SURF特征检测由于非常模糊的图像而失败。.........Sun等人我们Zhou等人4097流一级访问Zhou等人[62] 0.035我们的（无深度）0.029我们的（无TAE）0.022我们的（全）0.021百分之六十九点一百分84.6%百分之八十五点七深度一级访问- -- -0.1340.13289.0%百分之九十一点一源预测的3D结构表2：通过KIITI上的摄像机姿态估计的视点控制的精度评估4.6. 深度和流量评估预测的深度图和扭曲流的质量对于产生几何正确的视图是必不可少的。我们用两个度量（L1和Acc）评估深度和流量预测的准确性。选项卡. 3总结了ShapeNet的结果。我们的算法在流量和深度预测方面都达到了最佳精度，这直接有利于视图合成（参见选项卡. ①的人。消融基线的相对排名进一步表明，TAE和深度引导纹理映射都有助于提高流动精度。此外，TAE引导深度预测。为了说明重建的深度图确实是有意义的，我们预测不同目标视图中的深度，并将提取的法线图可视化，如图2所示。7 .第一次会议。这些实验表明，所提出的自我监督确实迫使网络推断底层3D结构（产生良好的深度，这是准确流图所必需的），并且它有助于最终任务，而不需要额外的标签。表3：汽车流量和深度预测的定量分析。所有预测流量和深度的平均L1误差和准确度在源视图的[-40，40]之间。我们的表现明显优于基准。图7：无监督深度预测。从源视图预测深度图，并将其可视化为从不同视角描绘的点4.7. 潜空间分析为了验证所学习的潜在空间在几何变换下确实是可解释的和有意义的，保持不变（i）。此外，旋转的潜在点只改变的观点，而不影响形状（ii）。图8：显示嵌入一致性的潜在空间分析。从左到右：不同对象之间潜在空间插值。从上到下：相同潜在代码的轮换。（全局帧中的法线，从深度提取4.8. 泛化到未知数据我们发现，由于使用了基于深度的扭曲，我们的模型可以很好地推广到看不见的数据。有趣的是，我们在2562图像上训练的模型可以直接应用于高分辨率（10242）图像，而无需额外的训练。推理过程在TitanX GPU上每帧需要50毫秒，允许实时渲染合成视图。这使得许多吸引人的应用场景。例如，我们的模型仅在ShapeNet上训练，可以在应用程序中使用，下载的2D图像可以栩栩如生，用户可以浏览3D中的描绘对象。使用在KITTI上训练的模型，用户可以通过生成自由视点视频或AR/VR内容来从单个图像探索3D场景（参见图1B）①的人。5. 结论我们已经提出了一种新的学习流水线的连续视图合成。其核心是一个基于深度的图像预测网络，该网络被迫满足显式公式化的几何约束。隐式表示在显式3D变换下是有意义的，并且可以用于产生单个对象和自然场景的几何精确视图。我们已经进行了thor- ough的合成和自然图像的实验，并证明了我们的方法的有效性。谢谢。我们感谢Nvidia捐赠用于这项工作的GPU。我们要感谢 Olivier Saurer 、 Velko Vechev 、 ManuelKaufmann 、 Adrian Spurr 、 Yinhao Huang 、 XucongZhang和David Lindlbauer进行了富有洞察力的讨论，感谢James Bern和Seonwook Park为视频配音。插值TERE我们i）在两个对象的潜在点之间线性插值Zhou等人[六十二]0.5570.086以及ii）旋转每个内插的潜在点集。这些点Sun等人[五十一]0.4350.080然后将集合解码为深度图，我们0.1080.019在全局帧中映射图8.显示插入的sam-旋转4098引用[1] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf：加速健壮的功能。在欧洲会议上。计算机视觉（ECCV），2006年。7[2] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练在proc 国际会议。关于学习表征（ICLR），2018年。3[3] Angel X Chang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimming Li ， SilvioSavarese ， Manolis Savva ， Shuran Song ， Hao Su ， etal.Shapenet：一个信息丰富的三维模型库。arXiv预印本arXiv：1512.03012，2015。二、五[4] Gaurav Chaurasia 、 Sylvain Duchene 、 Olga Sorkine-Hornung和George Drettakis。深度合成和局部扭曲的合理图像为基础的导航。ACM Transactions on Graphics（TOG），32（3）：30，2013。2[5] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。神经信息处理系统进展，2016年。3[6] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲会议上。计算机视觉（ECCV），2016年。2[7] Paul E Debevec，Camillo J Taylor，and Jitendra Malik.从照片中塑造和渲染建筑：一种基于几何和图像的混合方法。在计算机图形和交互技术上，第11ACM，1996年。2[8] Alexey Dosovitskiy 、 Jost Tobias Springenberg 、 MaximTatarchenko和Thomas Brox。学习用卷积网络生成椅子、桌子和汽车。IEEE Transactions on Pattern Analysisand Machine Intelligence，39（4）：692一、二、六[9] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度图预测神经信息处理系统进展（NIPS），2014年。2[10] Jakob Engel，Vladlen Koltun，and Daniel Cremers.直接稀疏测距法。IEEE Transactions on Pattern Analysis andMachine Intelligence，40（3）：611-625，2017。六、七[11] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在proc IEEE会议计算机视觉和模式识别（CVPR），2017年。2[12] Andrew Fitzgibbon ， Yonatan Wexler ， and AndrewZisserman.使用基于图像的先验的基于图像的渲染。国际计算机视觉杂志，63（2）：141-151，2005。2[13] 约翰·弗林，迈克尔·布罗克斯顿，保罗·德贝维克，马修·杜瓦尔，格雷厄姆·费弗，瑞安·奥弗贝克，诺亚·斯内弗利和理查德·塔克。Deepview：使用学习的梯度下降进行视图合成。正在进行IEEE会议计算机视觉和模式识别（CVPR），2019年。2[14] John Flynn，Ivan Neulander，James Philbin，and NoahSnavely.Deepstereo：学习从世界意象在 proc IEEE 会议计算机视觉和模式识别（CVPR），2016年。2[15] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在proc IEEE会议计算机视觉和模式识别（CVPR），2012年。二、五[16] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习对象的可预测和生成矢量表示在proc 欧洲会议。计算机视觉（ECCV），2016年。2[17] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NIPS），2014年。3[18] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。在计算机图形和交互技术上，第96卷，第43-54页2[19] Peter Hedman ，Julien Philip ，True Price ，Jan-MichaelFrahm，George Drettakis，and Gabriel Brostow.自由视点图像渲染的深度混合。SIGGRAPH Asia 2018技术论文，第257页。ACM，2018。2[20] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae：使用受约束的变分框架学习基本视觉在国际会议的程序。关于学习表征（ICLR），2017年。3[21] 杰弗里·E Hinton，Alex Krizhevsky，and Sida D.王.转换自动编码器。2011年国际人工神经网络会议。二、三[22] Geoffrey E Hinton，Sara Sabour，and Nicholas Frosst.带有电磁路由的矩阵胶囊。国际学习表征会议（ International Conf. on Learning Representations ，ICLR），2018。3[23] Eldar Insafutdinov和Alexey Dosovitsky使用可微分点云进行形状和姿态的无监督学习在神经信息处理系统（NIPS）的，2018年。2[24] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等 . 空间 Transformer 网络。神经信息处理系统进展（NIPS），2015年。4[25] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。正在进行IEEE会议计算机视觉和模式识别（CVPR），2019年。3[26] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在proc IEEE会议计算机视觉和模式识别（CVPR），2018。2[27] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。在国际会议上。关于学习表征（ICLR），2013年。3[28] Johannes Kopf ， Fabian Langguth ， Daniel Scharstein ，Richard Szeliski，and Michael Goesele.梯度域中基于图像的渲染ACM Transactions on Graphics（TOG），32（6）：199，2013。2[29] Tejas D Kulkarni，William F Whitney，Pushmeet Kohli，and Josh Tenenbaum.深度卷积逆图形网-4099工作神经信息处理系统进展，2015。2[30] Lubor Ladicky，Jianbo Shi，and Marc Pollefeys.把事情扯远。正在进行 IEEE会议计算机视觉和模式识别（CVPR），2014年。2[31] Marc Levoy和Pat Hanrahan。光场渲染。在计算机图形和交互技术会议上，第31-42页ACM，1996年。2[32] Chen-Hsuan Lin，Chen Kong，and Simon Lucey.密集三维物体重建的高效点云生成。第三十二届AAAI人工智能会议，2018。2[33] Miaomiao Liu，Xuming He，and Mathieu Salzmann.用于单图像新颖视图合成的几何感知深度网络。正在进行IEEE会议计算机视觉和模式识别（CVPR），2018。2[34] Shichen Liu，Weikai Chen，Tianye Li，and Hao Li.软光栅化器：无监督单视网格重建的可微分绘制。arXiv预印本arXiv：1901.05567，2019。2[35] Wojciech Matusik，Hanspeter Pfister，Addy Ngan，PaulBeardsley，Remo Ziegler，and Leonard McMillan.使用不透明外壳的基于图像的在ACM Transactions on Graphics（TOG），第21卷，第427-437页中。ACM，2002年。2[36] 莱纳德·麦克米兰和加里·毕晓普Plenoptic mo

下载后可阅读完整内容，剩余1页未读，立即下载