快速光场视差估计的多视差尺度代价聚合模型

137 浏览量更新于2023-10-14 收藏 2.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6320多视差尺度代价聚合的快速光场视差估计黄志聪1、2、胡雪梅1、周雪2、徐伟柱1、岳涛11南京大学电子科学与工程学院2字节跳动zcong17huang@smail.nju.edu.cn，xuemeihu@nju.edu.cn，xuezhou@bytedance.comweizhuxunju@smail.nju.edu.cn，yuetao@nju.edu.cn摘要光场图像包含捕获的光线的角度和空间信息。光场的丰富信息使得能够实现直接的视差恢复能力，但也需要高的计算成本。在本文中，我们设计了一个轻量级的视差估计模型与基于物理的多视差尺度成本体积聚集的快速视差估计。通过引入边缘引导子网络，我们显着提高了边缘附近的几何细节的恢复，提高了整体性能。我们测试所提出的模型广泛的合成和真实捕获的数据集，提供了密集和稀疏采样的光场。Fi-8642010个十两运行时间104最后，我们显著降低了计算成本和GPU内存消耗，同时实现了与最先进的光场视差估计方法相当的性能。我们的源代码可以在https：//github.com/zcong17huang/FastLFnet网站。1. 介绍随着消费级光场相机的出现，来自光场的视差估计已经成为导出视差信息的有希望的方式[20，24]。已经提出了许多算法来从光场图像估计视差图[25，12，9，29]。随着人工神经网络的发展，提出了基于学习的算法[14，3，33，28，29，26]，大大提高了视差估计的性能。考虑到该问题的高维本质，3D CNN架构被广泛用于处理空间视差表示以获得更高的准确性[14，3，29]。然而，极高的计算成本和巨大的GPU内存消耗带来了很多困难的训练和部署的模型在实践中。尽管已经提出了几种快速视差估计方法[28，8，31]，但是它们遭受精度损失。图1.光场视差估计算法。在这项工作中，我们提出了一种快速且轻量级的端到端深度架构，而不使用任何3D CNN模块来估计来自光场图像的视差图。考虑到光场的不同视角具有不同的视差尺度，我们设计了一个基于物理的多视差尺度代价聚合模块，用于高效的代价正则化。所提出的方法可以节省计算和存储成本，同时提供金字塔视差信息，以获得更好的准确性和鲁棒性。放弃3D CNN架构可能会使具有精细结构和详细纹理的挑战性区域的结果恶化，因此提出了边缘引导子网络，通过将边缘信息集成到主网络中来保留微妙的细节边缘图可以突出精细结构和详细纹理应该给予更多关注的区域，并指导网络专门处理这些区域以获得更好的结果。基于边缘引导的多视差尺度代价聚合，所提出的网络可以实现具有竞争力的性能与国家的最先进的方法，具有更快的计算速度和更低的GPU内存消耗，如图所示LFDslfNe tEPI2RPRF-5LF-OCCFSLFDEEPI1PS-RFSPOCAEEpiNetEpiNe t-7我们的LFattNet均方误差6321····图1.一、综上所述，主要贡献如下：我们提出了一个快速和轻量级的端到端网络的光场视差估计。我们提出了一个基于物理的多视差尺度网络的快速和高性能的成本体积regularization和灰。我们设计了一个边缘指导子网络，以指导具有挑战性的区域上的边缘线索的视差估计，以获得更好的性能。对于密集和稀疏采样的光场，我们实现了与最先进的方法相当的有竞争力的性能，同时显著降低了计算成本和GPU内存消耗。2. 相关工作近年来，随着神经网络的发展，基于学习的方法取得了很好的效果。Tsai等人[29]提出将所有子孔径光场图像作为输入来构建用于正则化的成本体积[14，34]，其可以得到准确的视差估计。然而，该方法利用3D CNN架构进行视差回归，从而导致沉重的计算成本和巨大的GPU存储器消耗。Heber等人[5，6]首次使用人工神经网络来处理EPI。他们提出了一种端到端的深度网络，由U形编码器和解码器组成，用于从光场图像中提取几何和视差信息紧接着，Shinet al. [27]通过考虑用于视差估计的光场几何形状以及用于增强用于训练的光场图像的独特方法，提出了完全卷积神经网络[16]然而，这些方法对于噪声不够鲁棒，并且不能在真实世界数据中很好地执行，并且这些基于EPI的方法也不很适合于稀疏光场。下采样对于增加感受野同时减少计算是有用的。但同时，由于分辨率的损失，牺牲了细粒度细节的性能。多尺度聚合已被证明可以提高精度并降低计算成本和GPU内存。GCNet [14]提出了一种编码器-解码器架构，以在保留准确性的同时绕过计算负担。类似地，为了了解更多的上下文信息，PSMNet [3]使用了堆叠沙漏架构，并结合中间监督进行成本体积正则化。SSPCV-Net [32]以递归的方式将成本量从最低水平融合AANet [33]通过在相应尺度上对特征进行相关来构建多尺度成本量，然而，这些方法通常将成本体积处理为4D体积，对空间和视差维度两者进行下采样而没有区别，这可能大大降低准确性。考虑到光场图像的物理结构，从具有不同基线长度的视图获得的成本体积因此，对于光场视差估计，基于物理的多视差尺度代价聚合可以更好地适应光场的内在结构，并且以更少的计算代价实现更准确的估计结果。最近，边缘信息被提出来有效地改善各种计算机视觉任务的性能[17，1，18，35]。受这些方法的启发，我们将边缘指导引入到多视差尺度成本聚合中，以指导具有边缘线索的视差估计，并进一步提高性能。总之，在本文中，我们提出了一个快速和轻量级的端到端网络的基础上，边缘引导的多视差尺度成本体积聚合，实现优雅的性能，曼斯在估计精度和计算成本。3. 方法为了以较低的计算成本和GPU内存消耗估计密集和稀疏采样光场图像的视差图，我们提出了FastLFnet，一个快速的光场视差估计网络，不仅可以产生准确的估计，而且还显着加快推理。FastLFnet架构的概述如图所示。二、考虑到光场图像的冗余性，代替使用所有子孔径图像作为输入，我们仅使用沿着两个交叉方向的子孔径图像，即。水平和垂直的中心视图图像，以估计视差，以尽可能地减少计算成本。在与中心视图相同的角距离处的视图具有相同的视差尺度并且被分类为一种类型的锚点，而在图1中不同种类的锚点用不同的颜色标记。二、本节讨论了详细信息。3.1. 用于边缘引导的如图在图2中，输入图像被馈送到特征提取模块中以产生有效的特征表示。在这里，我们使用基本残差块[4]来提取可靠的特征，并且在深层中，我们使用步长为2的卷积进行下采样。特征图被下采样到四个尺度，然后进行双线性插值以将这些不同尺度的特征上采样到原始大小。然后将不同层次的特征连接起来并送入融合层进行多级融合。在特征提取模块的最终输出之前，我们通过BAM模块[22]传递特征图，以关注对匹配重要的区域。我们建议利用从中心视图图像中提取的边缘信息的注意机制来引导网络更多地关注精细结构和边缘细节。具体来说，我们提出提取边缘特征6322锚4锚4提取的特征花4锚定器3锚2锚1提取的特征成本1BAM锚1共享权重中心视图中心视图提取的特征2-流光场输入猫BAMEFE模块MCA模块猫BAM猫猫MCA模块成本1边缘特征花2EFF模块成本3花4猫起来起来起来瓶瓶瓶瓶起来瓶瓶瓶起来瓶瓶起来瓶× ×××个∗--∗--··⟨··⟩2D CNN重块级联特征提取模块合计成本量视差图边缘图边缘特征瓶瓶颈块起来具有增加数目的视差通道的瓶层4层瓶颈块图2.所提出的FastLFnet的概述，整体FastLFnet在图的右上方。2流光场输入表示在图的左上方，而EFE模块和MCA模块在底部。利用边缘特征提取（EFE）模块从中心视图图像中提取视差，并且然后将提取的边缘特征图集成到逐像素边缘特征融合（EFF）模块中以引导视差估计（参见第2节）。3.2详情）。如图2中，利用Sobel边缘检测算子从中心图像中获得初始边缘图需要4D（高度宽度差异特征大小）和3D卷积[14]，这在计算上是昂贵的并且需要大的G-PU存储器。为了克服这些问题，我们在消除特征维度的同时计算成本体积，如[19]，即[10]。由于来自特征提取模块的多层次特征携带了丰富的结构信息，该结构信息一个C（d，h，w）=N∠Fc（c，h，w），f经纱[Fs （c，h，w），d]，（1）对于视差边缘图的生成是重要的，具有相同空间分辨率的这些表示被馈送到EFE模块（参考网络细节的补充材料）。我们使用基本的残差块提取更高层次的特征，并得到输出的边缘特征。输出边缘图由11卷积层Sigmoid函数所提出的边缘引导子网络是有效和高效地与视差估计的主网络相结合一方面，EFE模块直接利用来自特征提取模块的特征图作为先验，这可以大大减少参数和计算成本，并且在训练时可以反过来影响主网络另一方面，我们将所获得的边缘特征图集成到EFF模块中以产生自适应加权注意力成本，该自适应加权注意力成本与聚合成本体积融合以指导视差估计。3.2. 多差异尺度成本聚合为了聚合来自不同视图的成本量，在不同视差处提取的特征图是共同的。其中，fwarp[，]表示用于针对给定的显示级别d将周围特征Fs扭曲到中心特征Fc的扭曲函数。表示沿着特征维度的内积，并且N是提取的特征的通道数。C（d，h，w）是在空间位置（h，w）和视差水平d处的聚合的成本。考虑到不同锚点的视图具有不同的视差尺度，我们提出了金字塔成本量策略来构造每种锚点的不同视差尺度的成本。对于同一锚点的视图，首先构建相应数量的成本，然后执行均值运算，从而导致每个锚点的一个输出成本。具体地，将最内视图的最大视差定义为d_max，最内视图的视差范围为[d_max，d_max]，导致视差水平为2dmax+1。对于最外面的视图，视差范围是[4dmax，4dmax]，即，视差L值为24dmax+1，导致更精确的视差偏移。这里，最大视差是指视图的视差的最大绝对值，并且视差水平是指离散视差的数量。EFE模块提取的特征边缘特征Sobel输入边贴图视差边缘贴图1×1转换瓶层回归是说是说相关性乙状1×1转换3×3Conv3×3Conv3×3Conv上采样上采样上采样乙状1×1转换3×3Conv3×3Conv基本块3×3Conv基本块3×3Conv3×3Conv6323.ΣΣ×个⊙Σ·1流双流4流频道号F4F8F16F32F4F8F16F32F4F8F16F32MSE x1001.9021.7052.0681.9551.7561.5461.2181.6531.8151.5231.4371.476运行时间/秒0.1620.2120.3570.8040.2560.3540.5931.4380.4160.5921.0652.591GPU内存/GB1.6051.7451.9112.7731.6951.8772.1073.3051.8212.1272.6494.349参数/M0.2670.4891.3664.8540.2670.4891.3664.8540.2670.4891.3664.854表1.不同视图子集和功能通道数的HCI基准消融结果从最小视差（负）到最大视差（正）的间隔中的奇偶校验。在获得不同差异的成本量之后-规模，我们提出了一个逐层多差异规模成本聚合架构，以整合这些金字塔成本卷。培训策略首先，我们在没有边缘指导的情况下训练我们的FastLFnet以获得粗略的结果。我们采用光滑的L1损失函数作为训练的第一步，它对异常值的敏感性较低视差损失Ldisp被定义为UMES。详细结构示于图1的MCA模块中。二、为了融合不同的视差维度L显示d，d=1smoothML1（i，j）.di，j，di，jΣ，（4）视图中，我们提出的架构集成的成本量层，并最终获得一个输出成本，聚合不同规模的成本量信息。从粗到细，我们的方法聚合的特征信息，形成沿视差维以及空间维，以提高精度和准确性。此外，我们提出了一个像素级边缘特征融合（EFF）模块，利用边缘注意引导其中，M是要预测的像素的数量，d是地面实况差异，并且d是预测的差异。在第二步中，我们将边缘引导子网络与特征提取模块相结合，同时固定网络其他部分的权值。我们仅输入光场图像的中心视图，并且由于缺乏对应的地面实况差异的边缘图标签，我们手动标记出数据集上的边缘图以用于用于引导聚合成本vol中的每个像素的机制让我们了解自己的体重。获取边缘要素后训练我们使用加权BCE损失L公元前监督从边缘特征提取（EFE）模块的地图，我们预测的边缘图，并且权重被定义为连接这两个要素，然后使用×× ×. Y+。. Y−。三层3 3卷积和一层1 1例患者进化第二层3 3卷积减少了信道数量与合计成本相同。我们采用了sigmoid函数加权的边缘指导的成本。通过以下方式获得指导成本量Cd，h，w=（1+Wd，h，w）⊙Cd′，h，w，（2）式中，Cd′，h，w是累计成本体积，Cd，h，w是已指导的输出成本。W，d，h，w表示加权注意力图，以引导成本量更多地关注边缘细节。表示逐元素乘法。最后，来自逐像素EFF模块的输出通过4层瓶颈[4]进行正则化。α= λ·|Y +|+的|Y −|， β = |Y +|+的|Y −|、（五）其中α和β表示阴性和阳性样本的权重Y+和Y-分别表示正样本集和负样本集λ控制阳性样品相对于阴性样品的权重最后，整个FastLFnet被联合训练在一起。由于第二步的训练，我们的网络已经能够预测视差图的边缘信息。为了在边缘结构中获得更好的性能，我们定义了一个边缘损失L边缘，其是视差估计的有效指导：3.3. 视差回归和损失我们利用如[14]中的软argmin操作来进行视差L边缘（e，e）=1次ML1（i，j）（ei，j，ei，j）、（6）回归以估计连续且精确的视差图。首先，我们使用softmax操作σ（）来计算概率卷的概率然后，最终预测的视差d（）被计算为通过其归一化概率加权的每个视差d的总和，即DMax其中，e是地面实况视差的边缘图，并且是预测视差的边缘图。通过Sobel边缘检测操作计算边缘图。因此，在该步骤处的总损耗被定义为L=Ldisp+λbLBCE+λeLedg e，其中λb和λe是用于平衡不同损失项的权重。d=−ΣDmax d×σ（Cd），（3）4. 实验其中D_max表示最外部视图的最大视差，并且C_d是视差的预测成本。D.这种回归比具有亚像素精度的基于分类的方法更鲁棒。对于我们的方法，可以执行视差估计和边缘指导，我们提出了一个三步6324在本节中，我们首先介绍数据集并描述实验设置。消融研究的目的是评估所提出的模块的贡献。最后，我们证明了我们的方法与定量和定性的结果，通过比较它与国家的最先进的方法在合成和现实世界的光场。6325×个×个×个双陆棋盒迪诺餐具柜[21][22][23][24][25][26][27][28][29]图3.我们的方法和其他比较方法的定性结果。对于每个场景，左下角的图像表示输入光场的中心视图图像。第一行是估计的视差结果，并且第二行示出了对应的绝对误差图（明亮的颜色表示大的误差）。4.1. 数据集4D光场数据集[7]包含28个精心设计的场景的合成数据集。场景由各种具有挑战性的对象和结构组成，并被划分为四个子集：分层、测试、培训和附加。每个光场具有512 - 512的空间分辨率和513 - 514的空间分辨率。具有视差范围[-4，4]个像素的9.9的角分辨率，而大多数视差位于[-1.5，1.5]个像素的范围内。在我们的实验中，我们随机抽取32个32灰度块进行训练，使用数据增强6326×个×个×个处理方法一个刻度不带BAM不带边缘FastLFnetMSE x1001.6501.4921.8441.218运行时间/秒0.7250.5820.5760.593GPU内存/GB2.3232.1032.1892.107参数/M1.2811.3610.9821.366表2.我们提出的每个组件的贡献的比较。如[27]中所述，采用了非漫反射和折射策略并排除了非漫反射和折射区域。我们使用Additional的子集进行训练，其他的用于验证和测试。稀疏光场数据集[26]稀疏采样的合成光场数据集，视图之间具有大基线。该数据集包含53个具有大视差范围的场景，即在[-20，20]像素的间隔内，这与利用相机阵列的真实捕获的光场相当。场景包含无纹理背景、镜面反射、漫射和对象遮挡。每个光场具有与4D光场数据集[7]相同的空间分辨率（512 512）和角分辨率（9 9）。由于大的视差范围，我们在训练期间将图像裁剪为大小H=W=128，并使用四个场景（熊，两个花瓶，冲浪板和机器人）进行验证，四个场景（家具，狮子，玩具砖和电子设备）进行测试，其他场景用于训练。4.2. 实现细节所提出的网络使用PyTorch平台[23]实现，Adam[15]（β1= 0.9，β2= 0.999）用作优化器。我们对模型进行了40000次端到端的迭代训练，第二步的批量大小为16，其他步骤的批量大小为8。初始学习速率被设置为0.001，并且每隔10000次迭代，第二步通过乘以0.2而衰减，并且每隔10000次迭代，其他步通过乘以0.5而衰减。训练的第三步骤中的损失权重分别被设置为λ b= 100和λ e= 2.2。损耗L_BCE中的参数λ被设置为1.1。整个训练过程大约需要17个小时，使用一个Nvidia 2080Ti GPU。方法CAE[21日]PS RF[第十一届]RPRF-5[八]《中国日报》EpiNet-7[27日]EpiNet[27日]LFattNet[29日]W/O边缘快-LFnetCottonDino餐具柜双陆棋点金字塔条纹平均8.1621.7040.3760.8608.7711.2270.7301.89910.3330.9490.6031.2246.0420.2060.1620.8145.8450.2350.1470.7943.8690.2200.0900.5185.6580.3180.3501.0704.2600.3390.1840.7424.7624.5890.0473.1715.5597.8810.0430.9053.02420.1140.0428.6431.5001.1550.0080.2651.8931.5490.0070.2641.7620.9590.0040.2202.6584.5080.0100.8541.4883.0700.0180.2312.9593.3775.6161.2691.3420.9551.928 1.291育肥变薄7.6141.1536.5972.2375.2622.5684.7021.5484.9901.4303.8102.2305.7523.4994.3002.427运行时间/秒GPU内存/GB参数/M832.081--1412.623--12.498--1.9764.3195.1162.0415.1035.1185.86210.9535.0580.6112.1890.9820.6242.1071.366表3. 定量比较（即， MSE x100）与其他4.3. 4D光场数据集首先，我们进行实验，以评估性能和效率之间的权衡的4D光场数据集。这里，我们使用光场图像的视图的三个不同子集作为输入，即1-流（水平）、2-流（水平和垂直）和4-流（水平、垂直和对角）。此外，我们评估了提取特征的通道数的影响。对于每个输入流，我们使用四个不同的通道数，Bers（4，8，16和32）进行比较。如Tab.所示。1，合并更多的视图或更大的特征数量，提高了性能，同时在成本高得多的计算成本。同时，简单地增加特征数可能导致过拟合问题。使用更少的视图或更小的通道数减少了计算成本和GPU消耗，而结果的准确性相应地下降。综合考虑性能和效率，我们选择了具有2个流输入和16个通道的网络，它表现得很好，效率相对较高。然后，我们进行烧蚀研究以比较4D光场数据集上FastLFnet的许多不同模型变体，使得所提出的方法的两个关键贡献的重要性，即，边缘引导子网络和多视差尺度成本聚合。此外，我们还评估了BAM模块对网络性能的有效性。比较结果见表。2，我们可以清楚地证明我们的设计选择FastLFnet。这里，MSE × 100表示100个均方误差（MSE）。所提出的边缘引导子网络提供边缘线索以细化对象细节以获得更准确的估计结果。S.多差异尺度成本量和所提出的成本聚合架构可以带来更多有用的信息图4.消融研究的目视比较，以显示申报FastLFnet每个组件的作用。从上4D光场数据集的最新方法[7]。最佳和次要结果分别由粗体和斜体文本指示。从左到右：中心视图、地面实况、FastLFnet、单比例、无BAM和无边缘。我们的集成FastLFnet在薄结构和边缘细节方面产生更清晰和更好的结果。6327并且以相对较低的计算成本极大地提高了视差估计的性能。此外，BAM模块的注意机制有助于在没有太多额外计算开销的情况下改善整体视差估计为了定性分析我们的FastLFnet的每个组件的重要性，我们进一步示出了在图4中的4D光场数据集的条纹场景上的不同消融设置的结果。4.第一章可以比较的是，利用仅具有一个视差尺度的成本聚合导致性能较差此外，通过比较发现，BAM模型有助于提高遮挡边界的视差精度。可以看出，随着边缘信息的整合，精细结构和无纹理区域的视差结果被恢复为具有更清晰的细节。定性比较进一步证明了所提出的网络结构的有效性。与最先进方法的比较我们将FastLFnet的性能与传统和基于学习的最先进方法（CAE [21]，PS RF [11]，RPRF-5 [8]，EpiNet-7 [27]，EpiNet [27]，LFattNet [29]）用于光场视差估计。我们在4D光场数据集上使用两个子集（训练和分层），并通过MSE比较性能由于EpiNet [27]不使用零填充，因此他们的结果在每个边界处丢失因此，为了进行公平的比较，Tab中的所有方法都裁剪了11个像素[ 26 ]这也适用于[27]。(This解释了我们的方法在Tab. 3与Tab中的略有不同。1和Tab。2.）。如Tab.所示。3、我们的方法在所有场景下的性能完全优于前三种方法MSE x100具有较大的裕度，并且与其他最先进的方法[27，29]的性能相当。这些方法的MSE和计算成本的比较总结在表1中。3 .第三章。为了进行公平的比较，基于学习的方法都在NVIDIAGTX 1080Ti GPU上进行了测试，这里我们使用4D光场数据集上3个子集（分层，测试和训练）的所有12个场景如图所示，我们的方法需要更少的推理时间和GPU内存，而在光场MSE电子邮件：info@ebsm.comOHLF [13]SflfNet [6]EpiNet [27]DslfNet [26]FastLFnet家具0.371.949.181.730.420.17狮子0.100.871.593.410.090.05积木0.221.103.700.360.570.16电气设备0.200.637.820.740.200.09平均0.221.145.571.560.320.12表4.稀疏光场数据集在MSE方面的性能比较结果。电子设备家具狮子玩具砖图5.在稀疏光场数据集上与[26对于每个场景，第二行表示[26]的结果，第三行显示我们的性能。同时具有可比较的视差估计精度。此外，为了对遮挡和边缘区域进行更多评估，我们应用了Fattening和Thinning度量，即，场景双陆棋的假前景/背景像素的分数（详见[7]），以评估背景和前景之间的遮挡边界的结果的准确性。所提出的方法也取得了类似的结果与其他人。有关边缘和不连续区域的更多结果和讨论，请参阅补充材料。为了进行视觉比较，我们在图4中的4D光场数据集的四个场景上示出了不同方法的视差估计结果。3.第三章。对于每种方法，我们显示了估计的视差图和相应的绝对误差图。结合误差图，我们可以看到，在具有精细结构和丰富边缘细节的区域中，如Boxes中的网格，Backgammon中的锯齿状前景平面，以及Sideboard中的桌子的锯齿状边缘，我们的方法与最先进的方法表现相当。6328(a)中心视图（b）DslfNet [26]（c）EpiNet [27]（d）LFattNet [29]（e）我们的图6.真实世界光场图像的定性结果数据集由[2]和[30]提供4.4. 稀疏光场数据集大多数现有的光场深度估计方法[27，31，6]主要集中在密集采样的光场，如4D光场数据集[7]，很少有方法可以处理稀疏采样的光场。我们在此通过实验证明，我们提出的方法不仅可以获得密集采样光场的竞争结果，而且还可以在稀疏光场数据集中实现出色的性能[26]。大的视差范围导致巨大的4D成本，因此基于3D-CNN的方法[29]不能直接应用于稀疏情况，因为它们对GPU内存的需求过大。我们将我们的方法与没有3DCNN的方法进行比较，例如，基于贝叶斯的EBSM[9]、基于EPI的EpiNet和SflfNet [27，6]以及基于光流的OHLF和D-slfNet [13，26]。我们的模型使用9个稀疏采样的稀疏光场图像进行比较。4个场景的定量比较结果如表1所示。4，我们计算MSE进行评估。我们可以看到，所提出的方法取得了更好的结果比别人。定性结果见图。五、对于每个场景，顶行表示中心视图图像和视差地面实况，并且第二行和第三行分别示出[26]和我们的方法的绝对误差图（左）和视差图（右）如图5、所提出的方法获得了更精确的结果，特别是在精细结构和边缘细节方面，证明了我们的方法不仅在密集光场数据上，而且在稀疏光场数据上的优越性。4.5. 真实世界的结果具有挑战性的实际捕获的数据集通常遭受深度不连续，模糊的场景和各种噪声问题。评估拟议的为了在真实捕获的光场上使用网络，我们直接使用在4D光场数据集上训练的模型，并在Lytro Illum相机捕获的真实世界光场图像[2]和（新）斯坦福光场档案[30]上测试我们的方法。我们将结果与[26]、[27]和[29]进行了比较。一些结果显示在图中。六、如图所示，我们的方法表现得非常好，并且估计的视差与其他方法相当甚至更好，进一步证明了我们的方法。5. 讨论和结论为了降低计算复杂度，我们放弃了3D CNN架构，导致在不连续区域处的更多错误。虽然所提出的边缘引导机制大大提高了MSE性能，但在一些其他度量（如细化）上的结果这可以通过在未来引入专门设计的网络模块和相应的损耗函数来改进。在本文中，我们提出了一种快速，轻量级的端到端的深度架构，用于从光场图像中估计视差图。提出了一种多视差尺度代价聚合模块，有效地对代价体积进行规则化;提出了一种基于边缘的引导子网络，进一步提高了算法在具有精细结构和细节纹理的复杂区域上的性能。该方法实现了具有竞争力的性能与国家的最先进的方法，更快的计算速度和更低的GPU内存消耗。确认本工作得到了国家自然科学基金项目61971465和中央大学基础研究基金（批准号：2000000000）的资助。0210-14380184）。6329引用[1] Asha Anoosheh、Torsten Sattler、Radu Timofte、MarcPolle-feys和Luc Van Gool。用于基于检索的定位的夜间到日常图像翻译。在2019年国际机器人与自动化会议（ICRA）上，第5958IEEE，2019。二个[2] Yunsu Bok Hae-Gon Jeon和In So Kweon。基于线特征的微透镜光场相机的几何校准 IEEE Transactions onPattern Analysis and Machine Intelligence，39（2 ）：287-300，2016。八个[3] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页，2018年。一、二[4] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。二、四[5] Stefan Heber 和 Thomas Pock 光场形状卷积网络在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第3746-3754页二个[6] Stefan Heber，Wei Yu，and Thomas Pock.基于光场形状的神经在IEEE计算机视觉国际会议论文集，第2252-2260页，2017年。二七八[7] Katrin Honauer，Ole Johannsen，Daniel Kondermann，and Bastian Goldluecke. 4d光场深度估计的数据集和评估方法。亚洲计算机视觉会议，第19-34页。施普林格，2016年。五六七八[8] 黄朝宗用于光场立体匹配的鲁棒伪随机场。在Proceedings of the IEEE International Conference onComputer Vision，第11-19页，2017年。一、五、六、七[9] 黄朝宗基于鲁棒伪随机场模型的经验贝叶斯光场立体匹配。IEEE Transactions on Pattern Analysis and MachineIntelligence，41（3）：552-565，2018。一、七、八[10] FG Irwin等人，An isotropic 3x3 image gradient operator。斯坦福人工智能项目，2014（02），1968年。三个[11] Hae-Gon Jeon、Jaesik Park、Gyeongmin Choe、JinsunPark、Yunsu Bok、Yu-Wing Tai和In So Kweon。基于学习的匹配代价的光场图像的深度。IEEE Transactions onPattern Analysis and Machine Intelligence，41（2 ）：297-310，2018。五、六、七[12] Hae-Gon Jeon、Jaesik Park、Gyeongmin Choe、JinsunPark、Yunsu Bok、Yu-Wing Tai和In So Kweon。来自小透镜光场相机的精确深度图估计在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition，第1547-1555页一个[13] Xiao r anJiang，Mica eülLePendu，andChristineGuillemot.利用来自光场视图的稀疏集合的遮挡处理的深度估计。2018年第25届IEEE图像处理国际会议（ICIP），第634-638页。IEEE，2018年。七、八[14] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在IEEE计算机视觉国际会议论文集，第66-75页，2017年。一、二、三、四[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。六个[16] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页，2015年。二个[17] Fujun Luan，Sylvain Paris，Eli Shechtman，and KavitaBala. 深度照片风格转移。在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 4990-4998，2017中。二个[18] Cheng Ma，Yongming Rao，Yean Cheng，Ce Chen，Jiwen Lu，and Jie Zhou.具有梯度引导的结构保持超分辨率在IEEE/CVF计算机视觉和模式识别会议论文集，第7769-7778页二个[19] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 4040-4048，2016中。三个[20] 吴仁Lytro用光场相机重新定义了摄影，2018年。一个[21] 在Kyu Park，Kyoung Mu Lee，et al.使用遮挡噪声感知数据成本的鲁棒光场深度估计。IEEE Transactions onPattern Analysis and Machine Intelligence，40（10）：2484-2497，2017。五、六、七[22] Jongchan Park，Sanghyun Woo，Joon-Young Lee，andIn So Kweon.Bam：瓶颈注意模块。arXiv预印本arXiv：1807.06514，2018。二个[23] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al.Pytorch：一个操作风格的高性能深度学习库。arXiv预印本arXiv：1912.01703，2019。六个[24] Christian Perwass和Lennart Wietzke单镜头3d-扩大景深相机。在Human Vision and Electronic Imaging XVII，卷8291，页829108中。国际光学与光子学会，2012。一个[25] NeusSabater 、 Mozhdeh Seifi 、 Valter Drazic 、 GustavoSandri和PatrickPe'rez。全光图像的精确视差估计欧洲计算机视觉会议，第548-560页。Springer，2014. 一个[26] 施静蕾，蒋晓然，克里斯汀·吉列莫。用于从密集和稀疏光场视图的灵活子集学习深度的框架 IEEETransactions on Image Processing ， 28 （ 12 ）： 5867-5880，2019。一、六、七、八[27] Changha Shin、Hae-Gon Jeon、Youngjin Yoon、In SoKweon和Seon Joo Kim。Epinet：使用对极几何结构的全卷积神经在IEEE计算机视觉和模式识别会议论文集，第4748-4757页，2018年。二五六七八6330[28] Alessio Tonioni 、 Fabio Tosi 、 Matteo Poggi 、 StefanoMattoccia和Luigi Di Stefano。实时自适应深度立体声O. 在IEEE/CVF计算机视觉和模式识别会议论文集，第195-204页一个[29] Yu-Ju Tsai，Yu-Lun Liu，Ming Ouhyoung，and Yung-Yu Chuang.用于光场视差估计的基于注意力的视图选择网络。在AAAI人工智能会议论文集，第34卷，第12095-12103页，2020年。一、

下载后可阅读完整内容，剩余1页未读，立即下载