多模态光场深度估计及基于深度学习的方法研究

27 浏览量更新于2023-10-26 收藏 979KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12953基于光场的多模态深度估计海德堡大学视觉学习实验室首页. iwr.uni-heidelberg.de摘要光场应用，特别是光场绘制和深度估计，近年来发展迅速。虽然最先进的光场渲染方法可以很好地处理半透明和反射对象，但深度估计方法要么完全忽略这些情况，要么只提供较弱的性能。我们认为，这是由于当前的方法只考虑一个单一的“真实”的深度，即使在不同深度的多个对象有助于一个像素的颜色。基于输出后验深度分布而不仅仅是单个估计的简单想法，我们开发并探索了几种不同的基于深度学习的方法来解决这个问题。此外，我们贡献了第一个“多模态光场深度数据集”，它包含了对像素颜色有贡献的所有对象的深度。这使我们能够监督多模态深度预测，并通过测量预测后验的KL散度来验证所有方法。通过我们全面的分析和新的数据集，我们的目标是开始一系列新的深度估计研究，克服该领域长期存在的一些局限性。1. 介绍光场记录及其应用，如虚拟现实的实时渲染或高度精确的深度估计，近年来已经有了很大的改进。然而，尽管光场绘制方法可以很好地处理透明和反射物体，但当前的深度估计方法在这些领域仍然表现不佳。现有的深度估计方法主要在三种情况下失败：物体边缘、半透明和反射表面。所有这三种情况都是由不同深度的多个物体造成的，这些物体对相机传感器上单个像素的投影颜色有贡献。大多数现有的模型基本上忽略了这些情况，并假设每个像素只有一个“真实”深度。相反，我们提出了一系列基于深度学习的方法来执行多模态深度估计，以及具有不确定性估计的深度估计。为此，我们从输出贝叶斯后验的基本思想(a) 包含多个视差层（右）的渲染场景视差y(b) 不同方法预测的差异后验图1.视差后验分布的比较。合成场景（a）包含不同深度的重叠对象(b) 显示了通过不同方法估计的单个像素的视差后验分布该像素捕获了两种视差模式（椅子（前景）和木墙（背景）的网格材料）。请注意，输出拉普拉斯分布的均值和宽度的单峰后验回归（UPR）网络会做出错误且不确定的预测。EPI-Shift Ensamble（ESE）检测接近地面实况（GT）的两种有效模式而标准回归模型只产生单一估计。从这个想法，并通过使用一个简单的和有根据的最大似然训练框架，我们开发了三种不同的光场深度估计方法，这三种方法都能够推断不确定性估计，并在训练期间使用多个地面真值。所提出的方法中的两种也能够在测试时预测每个像素的多个不同的深度值。ESEGTUPRp（y|x）12954为了训练我们的方法，我们建议利用多模态数据集，该数据集包含图像中可见的所有深度平面的精确深度，颜色和不透明度。这与仅包含单个“真实”深度值的其他当前数据集形成对比。我们的多模态数据集由随机生成的合成场景组成，其中有很大比例的遮挡和透明对象。这是第一次实现多模态深度估计的监督训练。我们的主要贡献如下：• 探索我们的三种新的深度学习方法，用于基于光场的深度估计，处理多个深度模式：（i）单峰后验回归（UPR）;（ii） EPI移位包络（ESE）;（iii）离散后验预测（DPP）• 发布第一个多模态光场数据集，包含所有对象的深度及其对图像• 对预测的深度后验分布进行全面评估。我们观察到，当传统方法的单峰深度假设成立时，限制性更强的UPR方法工作得很好。在不这样做的情况下，该模型能够表达高不确定性。一般来说，离散DPP方法优于UPR和ESE。2. 相关工作在本节中，我们首先讨论用于从光场进行深度估计的相关方法。其次，我们介绍了不同的后验预测方法，主要是不确定性量化工作的启发。2.1. 光场和多模态深度估计Sinha等人[20]在多视图立体声录音中单独的重复和反射。他们的方法离散dispar- ity空间，并利用平面扫描框架来计算基于成对归一化互相关的误差体积。最多两个不同的层提取此卷使用修改后的半全球匹配算法。Johannsen等人[11]介绍了一种用于多模态光场深度估计的类似方法。该方法使用小EPI补丁的字典，用于编码光场并估计每个像素的深度。此外，计算将单峰像素与双峰像素分离的掩模。上述两种方法都能够从光场估计多个深度模式，但不能与现有技术的基于深度学习的框架的整体性能竞争。我们参考附录D进行比较。Heber等人[6]介绍了第一种基于深度学习的光场深度估计方法。神经网络预测局部2D每像素超平面的斜率中第二优化步骤，从超平面参数推断视差图。由于噪声和不准确的结果在无纹理的地区，一个额外的后处理优化是必需的。该方法是从光场学习深度的方向上的第一步，但结果受到伪影和模糊的影响，这些问题在他们的后续工作中得到解决[7，8]。Shin等人[19]使用全卷积架构进行直接视差回归，由两部分组成：多流网络，由四个输入网络组成，用于水平，垂直和两个对角光场视图堆栈。这些流的输出特征由直接输出视差的全卷积头连接和细化。EPI-Net在HCI4D光场基准[9]上实现了最先进的性能，但由于其小的感受野而仅限于小的视差间隔。Leistner等人[13]解决了利用神经网络对高分辨率和宽基线光场进行光场深度估计的问题。他们没有增加网络的接收场，这会导致更差的泛化，而是提出用剪切变换（称为EPI-Shift）来变换输入图像。该方法应用一定数量的具有移位输入EPI的正向传递，并将结果加入到单个预测中。蔡等人的最新作品。[22] Chenet al. [1]旨在更好地利用光场数据。与以前的方法相比，它们利用所有光场视图，但在早期阶段将它们融合以减少冗余。关于Neural Radiance 领域（NeRF） Mildenhall 等人[15]开始了一系列新的研究，将给定场景的全光函数表示为神经网络。使用从不同视点记录的图像训练网络。乍一看，沿着NeRF框架中的射线的辐射也模拟了深度后向分布。然而，我们认为，这种假设并不普遍。Zhang等人[23]在NeRF模型中观察到固有的形状-辐射模糊性。这是由于仅使用光度损失进行训练而不是使用地面真实深度进行监督学习。因此，存在一个辐射场族，它完美地解释了所有训练图像，即使形状不正确。Tosi等人[21]解决了立体深度估计方法在深度不连续处的平滑偏差问题。他们的方法预测了每个像素的双峰拉普拉斯混合分布，并始终选择具有最大概率密度的模式以保持清晰的边缘。2.2. 回归后验传统的深度估计方法预测每个像素的单个深度值。在下文中，我们因此高光作品，专注于其他任务，估计整个后验. MacKay [14]通过提出一个问题引入了贝叶斯神经网络（BNN）12955|对培训过程的解释。该网络不是只预测一个输出，而是在给定输入的情况下对可能输出的可能性进行建模。给定数据集，网络权重的后概率可以通过最大化该可能性来推断。现在，贝叶斯规则使用最大似然和网络权重的一些先验分布来应用。然而，对于大型网络，这不能有效地计算。Neal [16]介绍了马尔可夫链蒙特卡罗（MCMC）方法来近似模型权重的后验。此外，他还分析了在大量模型权重中选择先验的重要性。这种方法能够有效地逼近和训练BNN。然而，即使是最近的MCMC方法也仅适用于有限数量的维度。Kendall和Gal [12]分析了与计算机视觉相关的不同类型的不确定性。他们建议通过训练网络预测其输出的方差来捕获任意的不确定性（数据中固有的不确定性）。认知不确定性（模型中固有的不确定性）可以使用无限数量的数据进行解释，并使用Monte-Carlo Dropout技术进行推断[3]。作者提出了一个单一的模型来推断这两种类型的不确定性。Ilg等[10]比较了光流的不同不确定性量化方法。他们将单个网络学习到的任意不确定性与此类网络的集合进行了比较，并进一步将其与由赢家通吃损失训练的多个头部的单个网络进行了比较。在计算中，作者发现Monte-Carlo Dropout在回归任务中效果不佳，并且集成也没有提供比单网络更好的不确定性。然而，我们认为，这是由于缺乏认识的不确定性的光流，由于利用的合成数据集是相当大的。如[12]所示，蒙特卡罗丢弃集合捕获了认识上的不确定性，如果有足够的数据，这可以解释。因为对于[10]使用的巨大合成数据集，认知不确定性应该接近于零，首先在单个网络上没有改进的空间。3. 方法在介绍我们的后验估计方法之前，我们解释一下光场深度估计的基础知识。4D光场通常由在规则网格上对齐的2D相机阵列记录。每个摄像机被分配一对所谓的视图坐标（u，v），例如，（1，1）左上角的摄像头。然后，图像中的每个像素也被分配一对图像坐标（s，t）。沿着图像空间中的一个轴和视图空间中的相应轴的切片，例如，固定u和s形成所谓的对极平面图像（EPI）。中央摄像机视图中的每个像素都以线结构注射肾上腺素这条线的斜率等于像素的负反向视差。因此，从光场进行深度估计的任务是稳健地检测该斜率。然而，这种方法假设表面是不透明的，光滑的和朗伯的.非纹理化、镜面或半透明区域和深度边缘是模糊的，因此即使对于最先进的方法也是困难的。在这项工作中，我们通过估计完整的深度后验分布，在这些情况下取得了进展。这对于具有多个有效深度模式的像素特别有用，这是由半透明或深度边缘处的点扩散引起的。不像以前的作品，只预测一个单一的深度，我们能够找到这些模式.3.1. 验后估计从这里开始，我们将简单地将深度估计网络的输入称为x，并将视差称为y。实际上，深度估计网络的输入是水平、垂直和对角EPI的级联。标准回归模型通常输出差异的单一猜测，y=fw （x），其中fw可以是EPI-Net[19]，净权重表示为w。相反，我们的目标是在给定输入光场x的情况下估计视差y的后验分布p（y x）。在下文中，我们提出了四种不同的方法，所有这些方法都对这种后验分布进行建模。为了监督可以代表多个模式的更复杂的后验分布，我们创建了自己的多模态深度数据集。与针对每个pi x el i仅包含单个地面实况视差yi的常见数据集不同，我们包括针对透明对象和深度边缘的多个深度模式y ij的视差。对于每个视差，我们还包括它对像素的颜色nij的数量，即，像素中物体的感知不透明度。从贝叶斯的角度来看，我们将ηij解释为该概率y的概率p（yi j）。这种选择在直觉和方法学意义上都是合理的：nij对应于在深度yij处由对象占据的像素面积的分数。在缺乏先验知识的情况下，这也等于任何子像素位置处的深度对应于该对象的概率。不透明度ηij和概率p（yi j）之间的这种相等在边缘以及诸如网格或编织网的精细结构处都是有效的。我们还扩展了定义，以适用于半透明材料，如印刷玻璃作为简化的假设。在附录B中，我们对ηij和p（yi j）之间的关系进行了更严格的检验。3.1.1单峰后验回归学习分布最常见的方法是最大似然（ML）学习，大多数损失函数可以重新表示为。ML目标旨在找到使对数似然最大化的模型参数w12956i=0时Σ−||Σ|L−|−|→ ∞M−⌊ ⌋ ⌈⌉1NIJIJW我1NBLESE我训练数据{（xi，yi）}N低于估计数可以分别应用于L1损失：后验分布在实践中，我们尽量减少负面影响，对数似然：LMM=1mm（y）|y−f（x）|（六）我 JLML=1logp（yNi我| x i, w).（一）然而，在任何情况下，这些网络将集中在一个单一的模式，或躺在中间，并弥补其错误的预-可以表明，该目标最小化p（y x，w）和真实后验p（yx）之间的Kullback-Leibler散度（KLD）。以前基于回归的方法[19]简单地使用L1损失来进行单一预测：通过表达一个非常高的不确定性，如图措辞。1.一、3.1.2EPI-移位-嵌入通常，规避这个问题的一种方法是使用网络的集合。M个网络预测M个不同的后验，而不仅仅是估计单个后验，L=1y我-fw （xi）|.（二）然后求平均值：p（y|x）=1p（y|（x，w）（7）我们看到，这等于ML目标，当pos-Mk假设内部是拉普拉斯分布p（y| x，w）exp（yµ /b）/2b，网络输出µ=f w（x），b= 1。这促使以下- 简单的扩展，这是Dawid-Pasttiani-score [2]的适应，后来在[12]中推广，除了使用对应于高斯后验的2-损失：我们允许网络改变后验的宽度b。有了这个，在所有具有学习权重w k的网络上，k= 1。. . M.已经表明，在现有方法中，集成提供了一些最好的不确定性估计[17]。它们的主要限制是高计算成本，特别是在训练方面。各种方法试图避免这种情况，只训练单个模型。例如，蒙特卡洛dropout表现出与真实系综相似的特征[5]。在-1p（y |x，w）= 2bexp.− |y−µ|，与[b，μ] = f w（x）.（三）相反，我们提出了一个新的方案，它独特地利用光场数据的性质，我们称之为EPI移位Entrance（ESE）。为了激励这一点，我们注意到技术-将其放回ML目标，我们得到以下预测不确定性的损失函数：nique从[13]，其中EPI以这样的方式被剪切，即全局偏移量Δy被添加到EPI的视差。这是有利的，因为它能够进行大规模的推断。不一致例如，用于宽基线光场相机。我们L=1Σ|i−yi|+logb，其中[μ，b]=f（x）。UPRN bi我我我我（四）将该运算表示为shift（x，y），并将其扩展为arbi。trary亚像素步骤。为了形成我们的EPI-Shift-Ensemble，我们这种损失可以直观地理解为：如果网络努力预测yi，可以通过增加该像素的比例参数b来对损失项为了避免针对任意输入的三值解，高b由正则化项logb惩罚。在实践中，我们让网络预测logb而不是b，以提高数值稳定性。这种方法为我们提供了每个像素的任意不确定性[12]的测量，这对许多下游应用都很有帮助。然而，隐含的反-以m为步长连续移动输入M次。这给出M个不同的增强输入，其中每个具有不同的人工视差偏移。每个输入都被馈送到网络中，并且由此产生的后验子被向后移动相同的偏移。通过这种方式，我们可以通过同一个网络得到M个不同的估计，每个估计都来自包含相同信息的不同输入。整体后验可以表示为1Σ。Σp（y|x，w）=py−k·y 。shift（x，k·y），w.K要想让这个方法发挥作用，真正的方法是--（八Σ我12957N）Rior也是Laplacian。不用说，这肯定是在多模态的情况下不成立，这不能用拉普拉斯分布来建模。对于多个地面实况深度模式yij，而不是像我们的数据集中那样只有yi，拉普拉斯分布的损失变为在求和中，k=M/2. . . M/2。对于单个后验的形状，我们使用与前面相同的拉普拉斯算子。请注意，每个被加数共享网络权重w，只有移位不同。然而，这种操作本身并不能防止单模式方法中出现的问题：网络将试图平均双模式，MMUPR =1p（y）的方式|yij−fw（xi）|+logblogbii（五）模式解决方案，或崩溃成一种模式。因此，我们在EPI-移位-包围中几乎看不到任何多样性，I jLIJ12958| |--MM∈ −−L| |Σb我我2L=b我IJ2CENW我 JL=−p（y）log。softmax. FΣ多模态后验为了防止崩溃，我们在训练过程中掩盖了损失，以便它仅适用于具有移位y′=yk的像素在一个步长y′<=y/2的范围内。在所有其他情况下，输出将具有很大的不确定性：1Σ。 |i−yi|+logbN我如果|y′|<∆y（a）示例性场景（b）第一视差（c）第二视差（图2.来自我们随机生成的数据集的示例性场景（a）。（b）和（c）示出了不同的视差模式。每个像素具有我们将其扩展到我们的多模态数据集，类似于我们的单峰网络：至少一个视差模式。在半透明对象后面和深度边缘处，存在第二视差模式（c）。1ΣΣ.|i−yij|+logbiif|y′|<∆yESENI j0否则。（十）相应的熵在使用此损失进行训练后，如果网络估计输入差异为y[y/2，y/2]，则网络将仅具有置信度（窄后验），并且预测的后验将始终集中在此范围内。当你使用这张网的时候-MM1CENjI jw（x i）j≠.（十三）在EPI-Shift-Entrance中工作，我们看到，如果合理的差异位于（k1/2）droxy和（k+ 1/2）droxy之间，则每个项k将仅贡献窄的后验，从而确保多样化的输出和多模态预测的可能性有三个细节需要注意：首先，模型不是作为一个集合训练的，单个模型和以前一样使用修改后的ESE-loss进行训练集成操作仅在推理时执行。其次，掩蔽损失不会减少我们训练集的有效大小，因为我们还将随机EPI移位作为数据增强过程的一部分这样，所有像素将在某个点随机地满足0，则像素被认为是多模态的。3 .第三章。4.2.3结果表1比较了所有方法的单峰、多峰和稀疏性能。在下文中，我们将解释我们的结果与上述applications：单峰视差估计与不确定性和多模态视差估计。就纯单峰性能而言，我们的基线方法和DPP表现最好。DPP的较高MSE是由离散箱数引起的小离散化误差引起的这些小错误远低于12963X|−|L方法单峰型MSE↓ BadPix↓单峰↓KL散度多式联运↓整体↓AuSE↓时间↓(in秒）基础（单位）0.3740.2294.7207.8765.421-2.188基础（多）0.5630.3075.2598.5146.025-2.211UPR（uni）0.4390.2351.7193.3811.8790.0712.260普遍定期审议（多次）0.6760.2851.9873.1562.1140.0722.287ESE（单位）1.2690.2234.1643.6284.1600.09917.492ESE（多个）1.8500.2294.2833.7194.2770.12116.902DPP（uni）0.7650.2091.6313.0571.7340.2724.348DPP（多个）0.6860.2311.8242.9871.9140.1974.382表1. 评估，从左到右：均方误差和常见BadPix007分数（具有yi的像素的y_i>0. 07），单峰、多峰和所有像素上的Kullback-Leibler发散，稀疏化误差下的面积（AuSE），一个正向通过的运行时间。我们的方法分别使用损失Lx（uni）和LMM（multi）进行训练。低越好阈值为0。07px，因此被BadPix度量忽略，这表明DPP确实比基线多预测了2%的像素。总体而言，普遍定期审议的执行情况仅略差于这两种方法。但由于对于由UPR直接监督的不确定性，该方法在稀疏化方面是优越的。这意味着它的不确定性度量最准确地反映了预测是否正确。我们的结论是，如果申请只需要一个单一的差异和信心是重要的，普遍定期审议应予以考虑。关于预测后验分布的准确性，DPP在单峰和多峰区域中表现最好。然而，与大多数softmax预测方法一样，它过于自信，如图D.3b中的稀疏化误差所反映的那样。尽管基于系综的不确定性估计模型很受欢迎，但ESE不能与其他两种方法相媲美。它在高度非纹理化的区域中表现得尤其差，对于所有“系综成员”具有大的且有噪声的不确定性输出bi。为了确定单峰视差估计，仍然使用具有最低不确定性的成员，但是由于噪声，这种选择变得任意。所选择的成员只能从潜在的大视差范围内的小间隔输出视差。平均而言，这会导致ESE与地面实况的高度偏差。相比之下，我们的其他方法能够“平滑”不确定区域中与相邻的更确定的像素的视差。这也反映在相对较高的MSE但较低的BadPix误差上：“正确”预测像素的数量与其他方法相当，但“错误”预测像素的偏差通常较高。此外，由于所有成员都对拉普拉斯算子的混合有轻微贡献，因此后验的密度沿着整个视差间隔更高，这导致与UPR和DPP相比更差的多模态KLD。因此，我们通常推荐DPP用于小、窄基线光场中的多峰预测。然而，由于其移位操作，ESE可以，不像其他方法在任意大的视差范围上操作，并且因此对于高分辨率或宽基线光场相机仍然是可取的。此外，它在稀疏化方面也表现得相对较好。将仅在一种模式上训练的方法与在多种模式上训练的相同方法进行比较表明，多模式训练导致UPR和DPP的多模式性能略好，但在单峰地区总是要付出代价。我们的基线方法不能有效地代表多模态后验，因为它只预测一个单一的差距。我们的结论是，应该根据预期的应用仔细选择确切的模型和训练方法。我们参考附录D，以获得估计视差后验分布的示例、对我们在常见HCI 4D光场数据集[9]上的方法的评价、其他定性结果以及与Sinha等人的比较。[20] Johannsenet al. [11 ]第10段。5. 结论总之：我们研究了稠密回归的后验估计问题，其示例性任务是从光场进行深度估计。因此，我们贡献了第一个具有多模态深度地面实况的光场数据集。此外，我们还介绍和比较了基于常见不确定性量化工具的多模态光场深度估计的新方法。我们观察到，如果这个假设成立，那么假设单个有效深度的方法工作得很好。一般来说，预测任意后分布的DPP效果最好。我们的ESE方法没有达到相同的性能，但估计准确率的信心措施，即使是宽基线光场。我们希望，我们的见解奠定了基础，深度估计的研究，克服了一些长期存在的限制领域。鸣谢：我们感谢德累斯顿工业大学信息服务和高性能计算中心（ZIH）慷慨分配的计算机时间。12964引用[1] JX Chen，Shuo Zhang，and YF Lin.基于注意力的多层融合网络光场深度估计。在 Proc AAAI Conf ArtifIntell，第35卷，第10092[2] 菲利普·达维德和宝拉·卡斯蒂亚尼。最佳实验设计的相干色散准则《统计年鉴》，第65-81页，1999年。4[3] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为一种近似：表示深度学习中的模型不确定性。在机器学习国际会议上，第1050-1059页。PMLR，2016. 3[4] Chuan Guo ， Geoff Pleiss ， Yu Sun ， and Kilian QWeinberger.现代神经网络的校准。国际机器学习，第1321PMLR，2017年。5[5] 原和之斋藤大辅和松野隼作为集成学习的辍学学习分析在人工神经网络国际会议上，第72-79页施普林格，2016年。4[6] Stefan Heber 和 Thomas Pock 光场形状卷积网络在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第3746-3754页2[7] Stefan Heber，Wei Yu，and Thomas Pock. U形网络-从光场的形状在BMVC，第3卷，第5页，2016中。2[8] Stefan Heber，Wei Yu，and Thomas Pock.基于光场形状的神经在IEEE计算机视觉国际会议论文集，第2252-2260页2[9] Katrin Honauer，Ole Johannsen，Daniel Kondermann，and Bastian Goldluecke.4d光场深度估计的数据集和评估方法亚洲计算机视觉会议，第19施普林格，2016年。二、六、七、八、十二、十五[10] Eddy Ilg、Ozgun Cicek、Silvio Galesso、Aaron Klein、Osama Makansi、Frank Hutter和Thomas Brox。光流的不确定性估计和多假设网络。在欧洲计算机视觉会议（ECCV）的会议记录中，第652-667页，2018年。三、七[11] Ole Johannsen，Antonin Sulc，and Bastian Goldluecke.稀疏光场编码揭示了场景结构。在IEEE计算机视觉和模式识别会议论文集，第3262-3270页，2016年。二八十二十三[12] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性神经信息处理系统的进展，30，2017。三、四[13] 泰特斯·莱斯特纳，亨德里克·席林，拉德克·马科维亚克，斯特凡·古姆霍尔德，卡斯滕·罗瑟.学习跳出框框思考：使用epi偏移的宽基线光场深度估计在2019年国际3D视觉会议（3DV）上，第249-257页IEEE，2019。二四六十一[14] 大卫·JC·麦凯。一个实用的反向传播网络的基本框架神经计算，4（3）：448-472，1992年。2[15] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。欧洲计算机视觉会议，第405-421 页。Springer ，2020年。2[16] 雷德福 · 尼尔神经网络的贝叶斯学习，第118 卷。Springer Science Business Media，2012.3[17] Yaniv Ovadia，Emily Fertig，Jie Ren，Zachary Nado，David Sculley ， Sebastian Nowozin ， Joshua Dillon ，Balaji Lakshmi- narayanan，and Jasper Snoek.你能相信你的模型的不确定性吗？评估数据集偏移下的预测不确定性神经信息处理系统的进展，32，2019。四、五[18] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al.Pytorch：一个操作风格的高性能深度学习库。神经信息处理系统的进展，32，2019。6[19] Changha Shin、Hae-Gon Jeon、Youngjin Yoon、In SoKweon和Seon Joo Kim。Epinet：使用对极几何结构的全卷积神经网络，用于来自光场图像的深度在IEEE计算机视觉和模式识别集，第4748二、三、四、六、十、十五[20] Sudipta N Sinha ， Johannes Kopf ， Michael Goesele ，Daniel Scharstein，and Richard Szeliski.基于图像的渲染具有反射的场景 ACM Transactions on Graphics（TOG），31（4）：1-10，2012。二、五、八、十二、十三[21] Fabio Tosi，Yiyi Liao，Carolin Schmitt，and AndreasGeiger.Smd网络：立体混合密度网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第8942-8952页2[22] Yu-Ju Tsai，Yu-Lun Liu，Ming

下载后可阅读完整内容，剩余1页未读，立即下载