极端视图合成方法：从少量相机合成清晰极端视角的图像

58 浏览量更新于2023-10-12 收藏 4.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Extreme View合成InchangChoi1，2Orazio Gallo1Alejandro Troccoli1Min H. Kim2JanKautz1NVIDIA2 KAIST我们30×1×左外推输入相机右外图1：我们提出了一种新的视图合成方法，可以生成极端视图，即，从少量相机（在该示例中为两个）和从显著不同的视点合成的图像。在这个比较的方法，周等。[34]，我们显示了上面描述的相机设置的左视图。即使在30倍基线放大率下，我们的方法也能产生更清晰的结果。摘要我们提出了极端视图合成，一种新的视图外推的解决方案，即使在输入图像的数量很小，只有两个在这种情况下，遮挡和深度不确定性是两个最紧迫的问题，并且随着外推程度的增加而恶化我们遵循执行基于深度的变形和细化的传统范例，并做了一些关键的改进。首先，我们估计深度概率体积，而不仅仅是新视图的每个像素的单个深度值。这使我们能够利用chal-challenging区域中的深度不确定性，例如深度不连续性。在使用它来获得新视图的初始估计之后，我们显式地结合学习的图像先验和深度不确定性来合成具有较少伪影的精细图像我们的方法是第一个显示基线mag视觉上令人愉快的结果，放大倍数高达30倍。该代码可从https：//github.com/NVlabs/extreme-view-synth1. 介绍捕捉视觉内容并从不同的角度呈现的能力，通常称为新颖视图合成是计算机图形学中一个长期存在的问题如果解决得当，它可以实现远程呈现应用，如头戴式虚拟现实和混合现实，以及在2D屏幕上导航远程环境-这是Google街景推广的经验。每天上传到共享服务的内容量的增加为新颖的视图合成提供了丰富的数据源。然而，虚拟世界的无缝导航需要比这些稀疏观测提供的更密集的采样从稀疏视图合成是具有挑战性的，特别是当生成创建不遮挡的视图时，这是从输入相机外推而不是内插视点时的常见情况。早期的新颖视图合成方法可以通过在像素空间[4]或光线空间[20]中插值来生成新图像。新颖的视图也可以用明确使用3D信息的方法合成一个典型的方法是使用它来将输入视图扭曲到虚拟相机，并基于质量度量将它们合并[1]。这种方法的优点是它们明确地利用了几何约束。然而，深度并非没有缺点。首先是遮挡问题。第二，深度估计总是受到去-7781Zhou等人7782不确定性。如图2所示，当新视图被推离输入相机更远时，这两个问题都进一步加剧。现有方法通过将可靠的深度值传播到相似的像素[2]或通过显式地对其建模来处理不确定性[24]。但这些（一）（b）第（1）款（c）第（1）款（d）其他事项这些方法不能利用深度来细化合成的图像，也不能使用图像先验来处理不可避免的遮挡和伪影问题。最近的方法使用大数据集合并直接学习新视图[7，34]。基于学习的方法的力量然而，当虚拟相机的位置与输入的位置显著不同时，特别是当输入很少时，它们仍然会引起伪影。在他们的立体放大工作，周等。巧妙地提取场景的分层表示[34]。他们学习将图层结合到新颖的视图中，提供了一种规则化，可以实现令人印象深刻的立体声基础-线外推高达4。5倍。我们的目标是相似的，因为我们希望使用两个输入摄像头和额外的摄像头。迟来一个新的观点。此外，我们希望将基线外推得更远，提高30倍，如图1所示。此外，我们允许虚拟相机自由移动和旋转，而不是限制沿基线的平移在高层次上，我们遵循深度-扭曲-细化范式，但我们利用两个关键的见解来实现如此大的外推。首先，深度估计并不总是可靠的：我们使用深度概率卷，而不是精确的深度估计。其次，虽然图像细化网络在学习通用图像先验方面非常出色，但我们也通过根据深度概率卷对补丁进行采样来使用场景的显式信息。通过结合这两个概念，我们的方法工程视图内插和极端外推。我们展示了大量的例子中，虚拟相机显着偏离原始视图，即使只有两个输入图像的结果。据我们所知，我们的方法是第一个产生视觉上令人愉快的结果，这种极端的看法合成从非结构化相机。2. 相关工作新视图合成的早期方法可以追溯到几十年前[9]。图像插值方法是最先出现的方法之一，通过在输入图像[4]的相应像素之间或空间中的射线之间进行插值来工作[20]。当关于场景几何形状的信息可用时，新视图也可以合成为输入相机的加权组合[1，6]。所有这些方法通常都假设要给出额外的信息-对应关系、深度或几何形状。最近的方法产生了很好的结果，只需要图像作为输入。例如，这可以通过以下方式实现：图2：（a）一个点云和三个摄像头。（b）-（d）从红色、绿色和蓝色相机“捕获”的图像。点云是从红色相机的深度图生成的。深度不确定性会导致更大的工件作为视点移动远离红色相机。使用场景的适当表示，例如平面扫描体积，并通过学习权重将它们合并为单个图像[7]。进一步构建分层深度图像的概念[10]，Zitnick等人。开发了一个高质量的基于视频的渲染系统，用于动态场景，可以在视图之间插入[36]。Zhou等提出了一个基于学习层的场景表示，称为MPI [34]。他们的结果令人印象深刻，但很快就会退化，超出了小说观点的有限翻译。Mildenhallet al的作品。[23]和Srinivasanet al. [27]建立在MPI表示的基础上，进一步提高了合成视图的质量，即使对于较大的相机平移1。一种不同的方法是显式地使用深度信息，该深度信息可以直接从输入图像估计Kalantari等人，例如，学习从光场相机的子孔径图像中估计视差和新视图[14]。然而，对于虚拟相机的较大位移，深度不确定性导致明显的伪像。Chaurasia等获取精确但稀疏的深度，并基于它们在图像空间中的相似性使用超像素来传播它[2]。Penner和Zhang明确地对体素对应于空的空间或物理表面的置信度进行建模，并在执行新视图的前后合成时使用它[24]。深度学习技术学习先验知识的能力也为单图像方法铺平了道路。Srini- vasan等从单个图像中沿着每条射线学习光场和深度[28]。Zhou等将此问题视为外观流的预测，这允许他们从单个观察中合成3D对象或场景的新颖视图[35]。从一个单一的图像，谢等人。产生立体图像[32]，而Tulsiani等人。[29]第29话：一个人的幸福我们的方法不同于已发表的作品，因为它能够在大的视点变化和少至两个相机的情况下生成外推图像。[1]这些作品在本文提交后出版，在此收录是为了更全面地介绍最新技术水平。7783：候选补丁多视点深度估计整经与熔合一种新的视图合成方法新视图细化源相机虚拟相机输入视图和摄像机（a）深度概率体积（b）第（1）款新视图深度概率（c）初始新视图合成（d）其他事项精细新颖视图合成（e）图3：方法概述：从一组设定的输入视图（a）中，我们为每个视图（b）生成一组深度概率体积。给定新颖的视图相机姿态，我们通过输入深度体积（c）的变形和融合来创建其深度概率体积接下来，我们合成一个初始的新视图（d），我们用神经网络对其进行优化以合成最终的图像（e）。我们的图像细化是在深度分布指导下以基于补丁的方式完成的。3. 概述我们的目标是从N个输入视图Ii中合成一个新视图I NV。这个问题的一个常见解决方案是估计深度，并使用它来将输入扭曲和融合到新颖的观点然而，深度估计算法在困难的情况下挣扎，诸如深度不连续周围的区域;这导致了扭曲误差，并且又导致了最终图像中的伪像。当N为0时，这些问题进一步恶化。小，或INV被外推，即，当虚拟摄像机不在连接任意两个IN的中心的线上装上摄像头。而不是使用一个单一的深度估计一个给定的像素，我们的方法帐户的深度[22 ]第20段。我们首先估计N个分布Di，每个输入视图一个，并将它们组合以估计虚拟相机的分布，DNV，第4节。基于结合分布DNV，我们呈现出新颖的观点，到前面去，第五区。最后，我们通过输入视图中的相关补丁通知在补丁级别上改进INV我们根据深度分布及其不确定性进行选择，第6节。图3显示了该方法的概述。4. 估计深度概率体积存在从多个图像[15，8]、立体对[16，17]甚至单个图像[21，25]估计深度的几种方法。受黄等人工作的启发，我们将深度估计视为基于学习的多类分类问题[12]。具体地，深度可以被离散化为nd个值，并且每个深度值可以被视为一个类。然后，深度估计变成分类问题：Ii中的每个像素（xi，yi）可以与沿着Ri（xi，yi）的nd个深度值上的概率分布相关联，光线在（xi，yi）处离开相机并穿过场景。我们将相机i的所有光线的集合深度概率体Di∈Rh×w×nd，其中h×w是深度概率体的分辨率。用于估计Di的网络可以用交叉熵损失来训练，one-hot向量，对于正确的类为1，否则为0，其中，如Huang等人所述。[12 ]第10段。我们遵循均匀采样视差而不是深度2的常见做法，以提高更接近对象的估计精度。经验上，我们观察到，所得到的深度体积表现出理想的行为。对于大多数区域，该方法对于视差是相当确定的，并且沿着Ri（x，y）的概率在正确值周围呈现单个强峰值。在深度不连续的地方，点-透镜的扩展功能使像素有效地长到前景和背景，该方法倾向于产生多模态分布，每个峰值对应于背景和前景的视差水平，例如参见图4。这是特别重要的，因为深度不连续性是最chal，challing区域时，它来查看合成。求解深度概率体积需要我们知道每个输入视图的位置和相机我们使用Colmap估计这些[26]。对于给定场景，我们将最近和最远的视差水平设置为底部2和顶部98个深度视差，并使用nd=100个均匀间隔的视差步长。类似于Huang等人的方法，我们还交叉双边过滤由输入RGB图像引导的深度概率体积[19]。然而，我们发现θ α=25，θ β=10，μ=5更适合我们的情况，并将滤波器放大5倍。我们建议读者参考Kr aühenhuühl和Koltun关于每个参数的作用[19]。最后，我们可以估计概率体积DNV，[2]从技术上讲，“视差”仅在立体声对的情况下定义。这里我们用这个词松散地表示一个变量，是成反比的深度。7784Σ我们的实验，产生质量与三线性插值在成本的一小部分。合并所有视图后，我们将沿DNV中每条射线的值归一化以强制执行概率分布。图4：沿D中三条射线的深度概率分布。视差显示了距离深度不连续足够远在更接近边缘的地方，固有的不确定性被以下因素所捕获：5. 一种新观点的综合使用深度概率体积DNV，我们从输入I i向后弯曲像素，并且以从后到前的方式呈现对novel_vie_w的初始估计I_vN_V。具体来说，我们从最远的平面开始，其中d=0，并计算新视图中的像素为两个较低的峰值：一个对应于前景，一个对应于背景。INV （x，y）。d=0 =R.. Ii（xi，yi）·NV（x，y，0）>t}i =1：N 、D1D1DNVDNVD2DNVDNV（一）其中，I i是指示函数，并且（xi，yi）是I i中的坐标，其对应于I N V中的（x，y）。请注意，这些完全由相机的中心和d处的平面定义。R是一个函数，它合并来自I i的像素图5：为了计算相对于新视图的深度概率体积，我们对输入体积进行重采样并累积它们。这里，我们仅查看深度概率体积的平面切片，并且我们进行简化假设，即输入体积对于一个视差具有p=1，并且对于所有其他视差具有p=0。注意，在最终结果中沿着射线的概率之和不等于1，因此需要额外的归一化。新的观点通过重新排列这些概率卷。从概念上讲，每个视差d像素（x，y），DNV（x，y，d），可以通过找到来自输入相机的相交射线Ri然而，这在计算上是不确定的。曼丁我们注意到，这可以通过相对于DNV重新采样Di这种积累是合理的，因为沿着Ri的概率是一个适当的分布。这与传统的成本-成本在不同视图中不可比较的项目[11]：两个并不表示相应的差异同样可能是正确的。深度概率体积也类似于Penner和Zhang的软可见度体积[24]。然而，它们的表示是为了识别第一个表面前面的空白空间。因此，它们在不确定性区域（例如深度不连续性）中表现不同，其中深度概率体积甚至在最近的表面之外携带信息。图5示出了重建过程的示例，其中我们仅考虑体积的平面切片，并且为了简单起见，沿着输入射线的概率是二进制的。我们使用最近邻采样，基于根据摄像机中心的距离来加权以及相机主轴之间的角度。关于阈值t和权重的细节在补充中当我们将深度扫向更大的距离d时，即，靠近摄像头时，我们覆盖这些像素其中DNV（x，y，d）高于阈值3。所得到的图像IINNV通常将呈现伪像和孔，参见图6（a）。这是意料之中的，因为我们拒绝太不确定的深度估计，当我们从后向前扫描深度平面时，我们覆盖像素。然而，在这个阶段，我们只关心生成服从由深度概率体积捕获的几何约束的新视图的初始估计。6. 图像细化如第5节中所述合成的图像I_NV通常受到明显伪影的影响，如图6（a）和（c）所示。最值得注意的是，这些地区由于遮挡或缺少深度信息，以及深度不连续处边缘的典型此外，由于我们独立地渲染每个我们通过训练一个细化网络来处理这些工件，工作人员在修补层。F或INV中的一个pix elp，我们首先在它周围提取一个64×64的补丁PNV（为了清晰起见，我们省略了它对p的依赖性）。重建的目标精细化网络是为了产生更高质量的补丁，3对像素进行加权的替代方案是用相应的深度概率来加权它们的RGB值。然而，在我们的实验中，这导致了更软的边缘或重影，这对于细化网络来说更难修复（第6.1节）。我们推测，原因是这样的文物更{DΣ7785i→NVi→NV(a)(b)（c）第（1）款图6：通过仅对输入进行整形获得的novelviewIjienV呈现了几种类型的艺术品（a）。我们的细化网络使用深度概率以及来自输入图像的补丁来修复它们（b）。合成（顶部）和细化（底部）补丁的更多示例如（c）所示。更少的艺术品。人们可以考虑类似于去噪的细化操作，并训练网络以获取补丁PNV并输出细化的补丁，使用合成和地面真实补丁的数据集和适当的损失函数[13，33]。然而，在推理时，这种方法只会利用通用图像先验，而忽略输入图像所携带的有价值的信息。相反，我们转向深度概率体积。考虑光线接近深度不连续性行进的情况沿着这条射线的概率分布通常显示一个对应于前景的峰值和一个对应于背景的峰值，参见图4。然后，我们可以使用从这些深度重新投影的位置处的输入视图远离深度不连续面，分布通常具有单一的强峰，合成图像通常是正确的。尽管如此，由于我们独立地扭曲像素，轻微的深度不准确可能会导致局部变形。同样，来自输入视图的补丁可以通知细化网络关于底层结构，即使深度稍微偏离。最小化面片在不引起局部变形的情况下，我们用由深度平面引起的单应性来扭曲它们对于一个给定的-奇偶校验d=d<$，我们计算扭曲的补丁输入视图Ii. 贡献给每个补丁的补丁数图像块可以从一个视图改变到另一个视图：由于遮挡，输入图像可能无法“看到”特定的此外，沿着接近深度不连续性行进的射线的深度分布可以具有一个峰值或多个峰值。因此，我们需要设计细化网络，以处理可变数量的补丁。网络架构。我们使用的UNet架构，其性能证明了大量的视觉appli-阳离子。而不是在一堆连接的补丁上训练它，这将把我们锁定在一个特定的J值，我们独立地将编码器应用于每个可用的补丁。然后，我们对从所有可用补丁生成的特征执行最大池化，并将结果与合成补丁的特征连接起来，参见图7。编码器有七个卷积层，其中四个通过步幅卷积对数据进行下采样。我们还使用从编码器的四个下采样层到解码器的跳过连接。每个跳过连接是该层的合成大小的块的特征和对同一层处的候选块的特征的最大池化操作的级联。训练我们使用P^i，j =W（Pi，j，Hd=d<$），（2）MVS-Synth数据集[12]。我们使用知觉损失[13]，如Zhuo等人所做。[34]和亚当一起训练。更其中W（·，H）是基于以下条件对补丁进行封装的算子：单应性H，并且Hd=d <$$>是由视差d<$的平面引起的单应性。该补丁选择策略可以是被视为平面扫描体积的有根据的选择[5]，其中只有少数有用的补丁被馈送到细化网络中，而大量不相关的补丁只会混淆它，被忽略。在下一节中，我们将描述我们的细化网络，以及有关其训练的细节。6.1.改进网络如图7所示，我们的细化策略从每个图中选取一个合成的补丁PNV和一个J封装的补丁Pi，j。有关网络和培训的详细信息，请参阅补充资料。7. 评价和结果在本节中，我们提供了我们的方法的数值评估，并提出了几个可视化的结果。我们建议放大电子版纸张中的图像，以便更好地检查它们，并使用支持媒体的PDF查看器来播放动画图。执行时间。使用两个视图作为输入，深度概率体积花费40秒，视图合成（估计7786度量我们的扭曲我们的精致SMSSIM平均值平均峰值信噪比0.85124.6dB0.87727.38dB0.84225.49dB表1：我们提出的方法和SM的定量分析。“SM”是指由细化网络创建的图像，并且“SM”是指由Zhou等人的方法创建的图像。[34个]图7：细化网络将来自合成图像I_i_V 的块P_i_v以及来自每个输入vi_w_i的可变数量的打包块P_i，j作为输入。所有补丁都通过编码器网络。的特征使用最大池化来聚集扭曲的片。这两个特征集被级联并在合成细化的补丁PNV的解码器中使用。新视图和绘制中的深度体积）花费30秒，而细化网络花费28秒（所有平均值）。真实场景。虽然真实图像的序列不能被用来评估我们的算法数值，我们至少使用它们对结果进行视觉比较。我们进行了定性评估，并与SM对自己的数据进行了比较在他们的论文中，Zhouet al.显示当立体基线放大4倍时的结果。5倍。虽然他们的结果在该放大倍率下令人印象深刻，但在本文中，我们将包络推向极端，并显示了输入基线放大30倍的结果图1和图11显示了具有复杂结构和遮挡的立体场景对的30倍放大率在这个放大水平，Zhouet al.都受到强烈的伪影影响。即使在看起来重建正确的区域我们的方法生成的结果更清晰，伪影更少我们也比较合成场景。非盲图像质量指标，如SSIM [31]和PSNR需要地面真实图像。为了对我们提出的方法进行定量评估，我们使用MVS-Synth [12]数据集。MVS-Synth数据集提供了一组从游戏GTA-V中获得的高质量渲染，分为一百个序列。对于每个序列，提供彩色图像、深度图像和每个序列的相机每个序列中相机的位置是非结构化的。在我们的评估中，我们选择两个相邻的相机作为我们的方法的输入视图，并在序列中生成一些附近的视图。然后，我们计算合成图像和地面实况图像之间的PSNR和SSIM度量此外，我们可以使用相同的协议与Zhou等人的立体放大（SM）进行比较。[34]。尽管SM是针对放大立体对的基线而定制的我们选择与SM进行定量比较，因为它也解决了生成极端视图的问题，尽管是在更受约束的环境中。表1显示了我们的方法在改进之前和之后以及SM的PSNR和SSIM值。结果表明，细化网络确实提高了最终结果的质量。此外，在我们的方法输出上测量的指标高于SM。对照他们的方法在放大水平，他们显示，并观察到类似的结果，见补充。Penner和Zhang的方法可以说产生了新颖视图合成的最先进的结果。然而，他们的代码不可用，他们的问题设置是完全不同的，因为他们专注于插值，并依赖于比我们的方法更多的输入相机。然而，为了完整性，我们在图12中显示了与他们的方法的比较。我们的重建，尽管使用少得多的输入，显示出与他们的质量相当，虽然它降低了更大的外推。为了更广泛地验证我们的方法，灵感来自于Zhou等人实施的收集策略。[34]，我们从YouTube视频中捕获了一些帧序列图10显示了一些结果。最左边的一相机的颜色与相应图像周围的帧的颜色相匹配，灰色表示输入相机。我们提出了一些不同的相机位移和场景的结果，展示了我们的解决方案的实力。特别地，前三行示出了仅使用两个相机作为输入的结果，其中虚拟相机在输入相机之间移位了若干倍的基线。第三行示出了推进轨迹（即，摄像机向场景移动），这是特别困难的情况。不幸的是，这可能是7787(a)(b)（c）第（1）款(d)（e）（f）图8：我们的细化网络利用来自输入图像的相关补丁的信息这里（a）和（d）是IN V，（b）和（e）是通过训练网络以仅基于图像先验来细化补丁而创建的图像，（c）和（f）是我们的结果，其使用补丁P^i，j。与（b）和（a）相比，（c）中的屋顶结构更尖锐。厨房橱柜是与（d）和（e）相比，（f）正确呈现。图9：显示图10中前三个场景的动画.需要启用媒体的查看器，如Adobe Reader。单击图像开始动画。当并排比较图像时，即使在放大时，也难以理解外推的水平。但是，我们也在图9中显示了一个动画序列。要播放序列，请使用支持媒体的阅读器（如AdobeReader）单击图像。在副刊中，我们展示了额外的视频序列和动画，突出显示了其中一个场景中的视差程度。此外，我们的方法可以采取任何数量的输入图像。图10的最后两行显示了我们使用四个输入摄像机的两个场景完善网络。我们还进行了评估，以表明使用补丁作为输入的细化网络确实指导网络产生更好的输出。图8显示了我们的网络与具有相同参数数量的网络之间的比较体系结构的不同之处仅在于它没有广告补丁。可以观察到，即使单贴片网络（图8（b）和图8（e））不能重建局部结构，所提出事实上，由补丁引导的细化网络可以合成先前被遮挡的区域中的像素。7.1. 限制虽然细化网络可以修复伪影并填充非遮挡边界处的孔洞，但它不能在输入相机的截头体之外的区域中显示像素-这是一个需要不同解决方案的不同问题，例如基于GAN的合成[30]。优化网络还努力修复看起来自然的伪像，例如在错误位置重建的整个区域最后，因为深度值是离散的，所以某些新颖视图可能受到深度量化伪影的影响一个简单的解决方案是增加不一致级别的数量（以更大的内存占用和执行时间为代价），或者调整不一致的范围以更好地适应具体的场景。8. 结论我们提出了一种方法来合成新的意见，从一组输入相机。我们专门针对极端情况，其特征在于两个因素：少量输入摄像机，少至两个，以及大的外推，立体对高达30×。为了实现这一点，我们将trans-marted几何约束与学习的先验知识相结合。我们展示了几个真实场景和相机运动的结果，以及不同数量的输入相机。7788SM我们SM我们图10：双摄像头输入和四摄像头输入的极端视图合成。对于每一行，左侧的摄像机显示输入视图（浅灰色）和虚拟视图的位置图片边框的颜色左侧的摄像机以相同的比例渲染，以便于比较每种情况下的外推量。图11：与30倍基线放大率的立体放大率的比较。虽然在这两种方法中都可以看到一些不可避免的伪影，但我们的结果具有更少，更不明显的伪影，并且通常更清晰。请放大以获得最佳观看体验。致谢作者要感谢Abhishek Badki对图10的帮助，以及匿名评审员的周到反馈。引用[1] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化发光图绘制。ACM SIGGRAPH，2001年。一、二(a)（b）第（1）款图12：与Soft3D的比较[24]。(a)由Soft3D生成的帧，其使用来自Chaurasia等人的序列中的所有相机。[3]，以及通过我们的方法仅使用序列中间周围的两个输入相机生成的帧（b）。[2] 高尔河Chaurasia西尔瓦因杜赫和阿玛尼，OLG A索金-霍农和乔治·德雷塔基斯。深度合成和局部扭曲的合理图像为基础的导航。 ACMTrans- actions onGraphics，2013年。2[3] Gaurav Chaurasia、Olga Sorkine和George Drettakis。基于图像渲染的轮廓感知扭曲。在2011年的Eu-rographicsSymposium on Rendering8[4] 申昌Eric Chen和Lance Williams。查看中间件7789用于图像合成的装置。 ACM SIGGRAPH，1993年。一、二[5] 罗伯特·T·柯林斯一种真正的多图像匹配的空间扫描方法。IEEE计算机视觉与模式识别会议（CVPR），1996年。5[6] Paul E Debevec，Camillo J Taylor，and Jitendra Malik.从照片中建模和渲染建筑：一种基于几何和图像的混合方法。ACM SIGGRAPH，1996年。2[7] John Flynn，Ivan Neulander，James Philbin，and NoahSnavely. DeepStereo：学习从世界图像预测新的观点。在IEEE计算机视觉和模式识别会议（CVPR），2016年。2[8] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。IEEEInternational Conference onComputer Vision（ICCV），2015年。3[9] 内德·格林环境测绘和世界预测的其他应用。在IEEE计算机图形和应用（CGA），1986年。2[10] Li-Wei He ， Jonathan Shade ， Steven Gortler ， andRichard Szeliski.分层深度图像。ACM SIGGRAPH，1998年。2[11] Asmaa Hosni ， Christoph Rhemann ， Michael Bleyer ，Carsten Rother，and Margrit Gelautz.快速的成本-体积过滤，用于视觉对应和超越。2012. 4[12] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. DeepMVS：学习多视图立体视觉。在IEEE计算机视觉和模式识别会议，2018年。三五六[13] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议（ECCV），2016。5[14] Nima Khademi Kalantari ， Ting-Chun Wang ， and RaviRa-mamoorthi. 基于学习的光场相机视图合成。ACMTransactions on Graphics （ SIGGRAPH ）， 2016年。2[15] Abhish e kKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。在神经信息处理系统（NIPS）的进展，2017年。3[16] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习IEEEInternationalConferenceonComputerVision（ICCV），2017年。3[17] 放大图片作者：Sameh Khamis，Sean Ryan Fanello，Christoph Rhemann，Adarsh Kowdle，Julien P. C.瓦伦丁和沙赫拉姆·伊扎迪StereoNet：用于实时边缘感知深度预测的引导分层细化。在欧洲计算机视觉会议（ECCV），2018。3[18] Diederik P Kingma和Jimmy Ba。 Adam：随机最佳化的方法。国际学习代表大会（ICLR），2015年。5[19] Phi l ippKr？henb？hl和VladlenKoltun。具有高斯边缘势的全连接CRF中的有效推理神经信息处理系统进展（NIPS）2011. 3[20] Marc Levoy和Pat Hanrahan。光场渲染。在ACM SIGGRAPH，1996年。一、二[21] 李正奇和诺亚·斯内弗利。MegaDepth：从互联网照片中学习单视图深度预测在IEEE计算机视觉和模式识别会议（CVPR），2018年。3[22] Chao Liu ， Jinwei Gu ， Kihwan Kim ， Srinivasa GNarasimhan，and Jan Kautz.神经RGB→ D传感：来自摄像机的深度和不确定性。在IEEE计算机视觉和模式识别会议（CVPR），2019年。3[23] Ben Mildenhall ， Pratul P Srinivasan ， Rodrigo Ortiz-Cayon，Nima Khademi Kalantari，Ravi Ramamoorthi，Ren Ng，and Abhishek Kar.局部光场融合：实用的视图合成与规定的采样指南。在 ACM Trans-actions onGraphics（SIGGRAPH），2019年。2[24] Eric Penner和Li Zhang。用于视图合成的软3D重建。ACMTransactions on Graphics （ SIGGRAPH ）， 2017年。二四八[25] Ashutosh Saxena、Sung H Chung和Andrew Y Ng。从单个单目图像学习深度。神经信息处理系统进展（NIPS），2006年。3[26] JohannesLutzSchoünber ger和Jan-MichaelFrahm。结构从运动重新审视。在 IEEE 计算机视觉和模式识别会议（CVPR），2016年。3[27] Pratul P Srinivasan ， Richard Tucker ， Jonathan TBarron，Ravi Ramamoorthi，Ren Ng，and Noah Snavely.用多平面图像推进视图外推的边界在IEEE计算机视觉和模式识别会议，2019年。2[28] Pratul P Srinivasan，Tongzhou Wang，Ashwin Sreelal，Ravi Ramamoorthi，and Ren Ng.学习从单个图像合成4DRGBD 光场 IEEEInternational Conference on ComputerVision（ICCV），2017年。2[29] Shubham Tulsiani，Richard Tucker和Noah Snavely。通过视图合成的层结构3D场景推断。在欧洲计算机视觉会议（ECCV），2018。2[30] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.使用条件GANs进行高分辨率图像合成和语义操作在IEEE计算机视觉和模式识别会议中，第8798-8807页，2018年。7[31] ZhouWang ，Alan C Bovik，Hamid R Sheikh ，Eero PSimon- celli，et al.图像质量评估：从错误可见性到结构相似性。在IEEE图像处理交易，2004年。6[32] 谢俊源、罗斯·吉希克和阿里·法哈迪。Deep3D：使用深度卷积神经网络的全自动2D到3D视频转换。欧洲计算机视觉会议（ECCV），2016年。2[33] Hang Zhao，Orazio Gallo，Iuri Frosio，and Jan Kautz.神经网络图像恢复的损失函数。在IEEE Transactions onComputational Imaging（TCI），2017年。5[34] Tinghui Zhou ， Richard Tucker ， John Flynn ， GrahamFyffe，and Noah Snavely.立体放大：使用多平面图像学习视图合成。 ACMTransactionsonGraphics（SIGGRAPH），2018年。一、二、五、六7790[35] Tinghui Zhou，Shubham Tulsiani，Weilun Sun，JitendraMalik，and Alexei A Efros.按外观流查看合成欧洲计算机视觉会议（ECCV），2016。2[36] C.放大图片作者：陈文辉，陈文辉，陈文辉. J. Winder和Richard Szeliski。使用分层表示的高质量视频视图插值。 ACMTransactions on Graphics （ SIGGRAPH ），2004年。2

下载后可阅读完整内容，剩余1页未读，立即下载