基于空间-角度线索的深度学习算法用于光场图像的快速重建

33 浏览量更新于2023-10-13 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于空间-角度线索深度Henry Wing Fung Yeung1，Junhui Hou2，Jie Chen3，Yuk Ying Chung1，andXiaoming Chen41悉尼大学信息技术学院2香港城市大学计算机科学系jh. cityu.edu.hk（通讯作者）3南洋理工大学电气与电子工程学院4中国科学技术大学信息科学与技术学院抽象。密集采样光场（LF）有利于许多应用，如深度推断和捕获后重聚焦。然而，捕获它们是昂贵且具有挑战性的。在本文中，我们提出了一种基于学习的算法来重建一个密集采样的LF快速，准确地从一个稀疏采样的LF在一个向前通过。我们的方法使用计算效率高的卷积，以粗到细的方式深入表征高维空间角度线索。具体地，我们的端到端模型首先通过利用空间-角度交替卷积探索稀疏采样的LF输入的粗糙特性来合成一组中间新颖子孔径图像（SAI）然后，合成的中间新的SAI有效地细化，通过进一步恢复精细的关系，从所有SAI通过指导残差学习和步幅-2 4-D卷积。广泛的真实世界和合成LF图像的实验结果表明，我们的模型可以提供超过3 dB的优势，平均比国家的最先进的方法，同时计算速度快了30倍的重建质量此外，更准确的深度可以推断出从重建的密集采样的LF通过我们的方法。关键词：光场，深度学习，卷积神经网络，超分辨率，视图合成1介绍与传统的2-D图像（其在像素位置处整合来自所有方向的光线的强度）相比，LF图像分别记录来自不同方向的光线强度，从而提供关于3-D场景几何形状的附加信息。这样的信息与角分辨率成比例，即由LF图像捕获的光线的方向的数量在角域中具有高分辨率的密集采样LF包含用于精确深度推断[1，2，3，4]、捕获后重聚焦[5]和3D显示[6，7]的足够信息。同等贡献2H. W. F. Yeung，J.Hou，J.Chen，Y.Y. Chung和X.陈LF图像[8，9]可以使用相机阵列[10]和消费者手持LF相机（如Lytro [11]和Raytrix [12]）在单次拍摄中获取。前者，由于大量的传感器，可以捕获LF具有更高的空间分辨率，同时是昂贵的和笨重的。通过将角域复用到空间域，后者能够用单个传感器捕获LF图像，并且因此更便宜和便携。然而，由于有限的传感器分辨率，在空间和角度分辨率之间存在折衷。因此，这些相机不能在空间域和角度域两者中密集地采样从稀疏采样的LF输入重建密集采样的LF是一个持续的问题。基于深度学习的LF重建模型[13，14]的最新发展已经实现了远远优于传统方法的性能[1，2，3，4]。最值得注意的是Kalantari et al. [13]提出了具有视差估计的顺序卷积神经网络（CNN），并且Wu等人[14]提出使用模糊-去模糊方案来解决角度域和空间域之间的信息不对称问题，并且使用单个CNN来将模糊的核平面图像（EPI）从低分辨率映射到高分辨率。然而，这两种方法都需要繁重的预处理或后处理步骤以及长的运行时间，使得它们不切实际地应用于消费者LF成像系统中。在本文中，我们提出了一种新的基于学习的模型，用于从非常稀疏采样的LF快速重建密集采样的LF。我们的模型，端到端CNN，由两个阶段组成，即，视图合成和细化，其通过计算上有效的卷积来实现，以粗略到精细的方式深入地表征具体地，视图合成网络被设计为基于输入稀疏采样的LF合成一组中间新颖子孔径图像（SAI），并且视图细化网络被部署用于进一步利用合成的新颖SAI之间的固有LF结构我们的模型不需要视差扭曲，也不需要任何计算密集的预处理和后处理步骤。此外，所有新的SAI的重建在一个前向通路中执行，在此期间，充分探索它们之间的固有LF结构信息因此，我们的模型完全保留了重建的密集采样LF的固有结构，从而导致更好的EPI质量，这可以有助于更准确的深度估计。实验结果表明，我们的模型提供了超过3 dB的平均重建质量的改善，而需要不到20秒的CPU上，achieev-超过30倍的速度，与国家的最先进的方法在合成一个密集采样的LF从稀疏采样的LF。实验还表明，所提出的模型可以表现出良好的大基线LF输入，并提供了实质性的质量改善超过3 dB的外推。我们的算法不仅增加了用于深度推断和捕获后重聚焦的样本数量，还可以使LF能够以更高的空间分辨率从手持LF相机捕获，并且可能应用于LF图像的压缩。2相关工作LF重建的早期工作是基于扭曲给定SAI的思想涉及由估计的视差图引导的新颖的SAIWanner和Goldluecke[1]为-快速光场重建3将SAI合成问题模拟为具有总变差先验的能量最小化问题，其中视差图通过在2-D EPI切片上计算的结构张量的全局优化获得。他们的方法将视差估计视为与SAI合成分离的步骤，这使得重建的LF严重依赖于估计的视差图的质量尽管后续研究[2，3，4]已经显示出显著更好的视差估计，但是当输入SAI稀疏时，仍然存在重影和Kalantari等人。[13]通过用端到端联合训练的两个顺序CNN合成新型SAI来减轻Wanner和Goldluecke[1]的缺点。第一CNN基于从给定输入SAI预先计算的一组深度特征来执行视差估计。然后使用所估计的视差来将给定的SAI变形为新的SAI，以供第二CNN执行颜色估计。这种方法是准确的，但由于计算密集的深度特征提取的速度慢此外，每个新的SAI在单独的前向传递处被估计，因此新的SAI之间的固有LF结构被忽略。此外，重建质量很大程度上取决于中间视差扭曲步骤，并且因此合成的SAI易于遮挡。最近，通过采用深度CNN模型，单图像超分辨率（SISR）的进步成为可能[15，16，17，18]。在此之后，Yoon等人[19，20]开发了一种CNN模型，该模型在空间域和角度域中联合超分辨LF该模型在通道维度处连接来自CNN的空间超分辨SAI的子集，其非常类似于[15]中提出的模型。然后将级联的SAI传递到第二个CNN中以进行角度超分辨率。他们的方法被设计为针对尺度2角度超分辨率的特异性，并且不能灵活地适应于在非常稀疏采样的LF输入上执行。最近，吴等。[14]开发了一种CNN模型，继承了[15]的基本架构，并增加了[16]中的残差学习组件。利用SISR的思想，他们的模型侧重于恢复双三次上采样EPI的高频细节，同时提出了一种模糊去模糊方案来对抗稀疏角采样引起的信息不对称问题。他们的模型适用于不同的设备。由于每个EPI是4-D LF的空间域和角度域中的2-D切片，因此基于EPI的模型只能利用来自稀疏采样的LF的相同水平或垂直角度坐标的SAI来恢复其间的新颖SAI，从而严重限制了模型的可访问信息。对于不落在与输入SAI相同的水平或垂直角坐标内的新颖SAI，基于先前估计的SAI来重构它们。结果，这些SAI由于输入误差而被偏置。此外，由于模糊核大小和双三次插值的限制，该方法不能应用于仅具有2×2SAI或视差大于5像素的稀疏采样LF。3所提出的方法3.14-D光场和问题表述4-D LF可以使用双平面参数化结构来表示，如图2所示1，其中光线行进并与角平面（s，t）和空间平面（s，t）相交。4H. W. F. Yeung，J.Hou，J.Chen，Y.Y. Chung和X.陈^^S不y不转换y相机传感器微图像S位于红色虚线上的典型像素的坐标被表示为（ *，y，s*，t），其中*和s*固定。像素被重新-在（y，t）坐标中组织以获得EPI摄像头传感器输出（角平面）（空间平面）（小透镜图像）第（s，t）个EPI（一）（b）第（1）款（c）第（1）款（d）其他事项图1.一、 LF用单个传感器设备捕获。LF的角度信息经由微透镜阵列对光线的分离来捕获所得到的LF可以通过空间坐标和角坐标来参数化，即最高审计机关的立场。plane（x，y）[21]. 设I ∈ RW×H×M×N×3表示一个具有M × N个空间维数W× H × 3的SAI的LF，I（：，：，s，t，：）∈ RW×H×3表示第（s，t）个SAI（1 ≤ s ≤ M，1 ≤ t ≤ N）.′ ′密集采样LF重构的目的是构造LFI′∈RW×H×M×N×3包括大量SAI的LFI，其中M′>M且N′>N。由于密集采样的LFI'还包含输入SAI的集合，表示为K，因此要估计的SAI被简化为（M′×N′-M×N）个新SAI的集合，表示为N。LF的内在结构的有效建模，即定义为来自表示相同场景点的不同SAI的像素的关系的照片一致性对于合成高质量LF SAI是至关重要的。然而，现实世界的场景通常包含诸如遮挡、镜面反射和非朗伯照明的因素，使得准确地表征这种结构具有挑战性在本文中，我们提出了一种基于CNN的方法，用于高质量重构密集采样的LF的空间-角度线索的有效表征。3.2网络体系结构概述如示于图在图2中，我们提出了一种新颖的CNN模型，以提供输入SAI的亮度分量（表示为K Y）与新颖SAI的亮度分量（表示为N Y）之间的直接端到端映射。我们提出的网络包括两个阶段：视图合成和视图精化。视图合成网络，表示为），首先基于所有输入SAI来合成中间新颖SAI的整个集合然后将合成的然后将该中间LF馈送到细化网络中，表示为fR（. ），用于恢复精细细节。最后，以逐像素的方式将估计的精细细节添加到中间合成的SAI中，以给出新SAINY的最终预测。我们的模型的输入和输出之间的关系表示为：N^Y=fS（KY）+fR（fS（KY），KY）.（一）快速光场重建5^ ^您的位置：空间-角度交替卷积（xL）空间到Angular角度到角度重塑卷积空间重塑独立新型SAIs的合成四维特征空间提取卷积稀疏LF（Y）合成新型SAI（Y）Stride-2Stride-2独立罚款4-D卷积4-D卷积细节估计中间密集LF（Y）预计罚款详细信息端到端光场重构网络成品估计中间新型SAI（Y）精细细节（Y）新型SAI（Y）成品新型SAIs（YCbCr稀疏稀疏稀疏低频（RGB）LF（CbCr）LF总和渠道重塑孔卡特孔卡特视图合成网络视图改进网络重塑Concat重构密集LF角度双线性上采样图二. 从具有2×2 SAI的稀疏采样LF重建具有8 × 8 SAI的密集采样LF的工作流程。我们提出的模型侧重于重建亮度分量(Y)的新SAI，而角度双线性插值恢复的其他两个色度分量（Cb和Cr）。注意，视图合成网络中的整形操作被包括用于理解数据流，并且在实际实现中不需要注意，全色新颖SAIN是通过将NY与其他两个色度分量的角双线性插值组合而获得的，即，Cb和Cr。与在每个前向通道合成特定的新颖SAI[13]以及在每个前向通道合成新颖SAI的行或列的EPI[14]的先前方法相反，我们的方法能够在一个通道联合产生所有新颖SAI以保留它们之间的固有LF结构。我们的网络是全四维卷积的，并使用参数为0.2的LeakyRelu进行激活。表1提供了网络架构的摘要3.3查看合成网络视图合成网络通过揭示由输入稀疏采样LF的有限数量的SAI携带的粗略空间-角度线索来估计中间新颖SAI的集合。该步骤从给定的LF中获取所有输入SAI以用于估计新的SAI，并且因此它可以充分利用关于SAI之间的结构关系的可用信息。为了实现这一点，有必要对输入LF的所有空间维度和角度维度两者执行卷积。4-D卷积是此任务的直接选择。然而，对于这个特定的问题，4-D卷积所需的计算成本使得在合理的时间量内训练这样的模型是不可能的。伪滤波器或可分离滤波器（其通过用较低维度的滤波器近似高维滤波器来降低模型复杂度）已被应用于解决不同的计算机视觉问题。6H. W. F. Yeung，J.Hou，J.Chen，Y.Y. Chung和X.陈表1. 用于在亮度分量上从具有2 × 2 SAI的稀疏采样LF重构具有8 × 8 SAI的密集采样LF的模型规范。滤波器、输入和输出数据张量的前两个维度对应于空间维度，而第三和第四维度对应于空间维度。第四维度对应于角度维度。输出张量的第五维度表示中间卷积层中的特征图的数量，同时表示最终层处的新颖SAI的数量。步幅和填充以（空间/角度）的形式给出。所有卷积层都包含偏差。注意，中间LF重构步骤利用整形和级联操作来执行，以使得能够将损失从视图细化网络反向传播到视图合成网络。过滤器尺寸/操作输入大小输出大小步幅垫稀疏采样LF输入--(64、64、2、 2、 1）--查看合成网络特征提取（3， 3， 3，1， 64）(64、64、2、 2、 1）(64、64、2、 2、 64）1/11/1交替过滤（×L）空间Sl，l ∈ {1，…L}角A1，1 ∈ {1，…L}（3、 3、 1、1、 64、 64）（1、 1、 3、3、 64、 64）(64、64、2、 2、 64）(64、64、2、 2、 64）(64、64、2、 2、 64）(64、64、2、 2、 64）1/11/11/00/1新型SAIs的合成（3、 3、 2、2、 64、 60）(64、64、2、 2、 64）(64、64、1、 1、 60）1/11/0中间LF重建重塑Concat(64、64、2、 2、 1）(64、64、1、 1、 60）(64、64、8、 8、 1）--查看细化网络角度尺寸还原1角度尺寸减少2（3、 3、2、 2、 1、16）（3、 3、 2、16、 64）(64、64、8、 8、 1）(64、64、4、 4、 16）(64、64、4、 4、 16）(64、64、2、 2、 64）1/21/21/01/0精细细节恢复（3、 3、 2、2、 64、 60）(64、64、2、 2、 64）(64、64、1、 1、 60）1/11/0新型SAI重建按元素之和(64、64、1、 1、 60）(64、64、1、 1、 60）(64、64、1、 1、 60）--例如图像结构提取[22]、3-D渲染[23]和视频帧内插[24]。这最近在[25]中被采用用于LF材料分类，其验证了伪4-D滤波器可以实现与4-D滤波器类似的性能。为了防止潜在的过拟合和长的训练时间，从使用完整的4-D滤波器，同时表征4-D信息的LF，我们采用伪4-D滤波器，它近似于一个单一的4-D滤波步骤与两个2-D滤波器，执行卷积的空间和角度维度的LF在一个交替的方式。这样的设计仅需要计算4-D卷积的2/n2，同时仍然利用来自输入SAI的所有可用信息。在合成网络中，空间-角度交替卷积仅用于中间特征提取。对于初始特征提取步骤和新的SAIs合成步骤，应用4-D卷积，因为计算复杂度较小。这样的设计获得了参数大小以及计算成本的显着减少。此外，低计算成本还受益于在M×N的粗角分辨率下执行特征提取，而不是在M′×N′的精细水平下执行[14]。3.4查看细化网络在视图合成阶段，独立地合成新的SAI，并且不考虑它们之间的因此，设计了视图细化网络以进一步利用来自合成的新颖SAI之间的关系快速光场重建7YYYYY中间LF，其预期对密集采样的LF的重构质量有积极贡献这可以被认为是在合成的SAI上施加LF结构的正则化子受残差学习在图像重建上的成功启发[16，17，18，14]，我们为我们的视图细化网络配备了专门为LF数据结构设计的指导残差学习典型的残差学习尝试学习变换R（·）以恢复输入数据I’的残差R（I’），即中间体LF，如Eq. （二）、然而，精化网络的输入由一组的SAIsK YI′，这是绝对正确的，即R（K Y）=0，以及一组合成的SAIs N ′=fS（K Y）I ′，这是错误的。因此，关于KY的残差学习是不必要的。引导的残差学习可以是公式作为N′上的一个典型的残差学习在来自附加输入的引导下，Y，如Eq. （三）、I^Y=I′+R（I′）（2）N^Y=N ′+R（N ′|（3）引导式剩余学习具有以下优点：i）作为地面实况SAI的集合的K Y提供场景的正确补充信息;对于KY不执行;和iii）通过将KY和N′以I′的形式放置，采样的中间LF，用于输入到第二级细化网络，它包含第一级，即，视图合成网络，以生成保留图中所示EPI中呈现的LF结构的SAI。第1段（d）分段。由于在视图合成过程之后角度维度从M×N显著增加到M′×N′为了减少计算到一个可管理的水平，步幅-2 4-D卷积用于有效的角度降维，而特征图的数量被设置为逐渐增加。注意，为了允许反向传播，中间4-D LF经由定制的整形-连接层从预合成的新SAI和输入SAI重建。所有新颖SAI的细化细节在最终4-D卷积层处被独立地估计，并且被添加到先前合成的中间新颖SAI以给出最终重构的新颖SAI。3.5培训详细信息训练目标是最小化所有重建的新SAIN，Y和它们的相关地面实况N，Y之间的L2距离：L2（ NY，N^Y）=Σ。N^Y（x，y，s，t）−NY（x，y，s，t）Σ2。x y s t我们在Kalantari等人提供的100个场景的训练集上为每个任务训练了一个模型。[13]1. 所有图像都是用Lytro Illum相机拍摄的，并且是1http://cseweb.ucsd.edu/~ viscomp/projects/LF/papers/SIGASIA168H. W. F. Yeung，J.Hou，J.Chen，Y.Y. Chung和X.陈(a)（b）（c）（d）（e）图3.第三章。不同任务的输入（红色方框）和输出（黄色方框）图示。从左至右：（a）3 × 3 − 7 × 7，（b）3 × 3 − 9 × 9，（c）2 × 2 − 8 × 8，（d）2 × 2 − 8 × 8外推-1，(e)2×2−8×8外推-2。解码为14×14SAI，空间分辨率为376×541。由于每边的三个SAI通常是黑色的，我们只采用中间的8 × 8 SAI进行训练和测试，如[13]所示。训练LF在空间上被裁剪为步长为1的64×64块，最大值约为15，000，000个训练样本。此外，我们采用随机梯度下降优化模型，并设置批量大小为1。模型输出的空间分辨率保持不变，为64×64，填充零。我们在MATLAB中使用MatConvNet工具箱[26]实现了该模型，并使用GTX1080 Ti GPU对其进行了MSRA方法下的随机滤波器权重[27]被用来初始化我们的模型，而偏差被初始化为0。在整个训练过程中，动量参数设定为0.9。根据模型深度，应用1e-6到2e-5之间的学习率而没有权重衰减，并且epoch数量设置在8000到12000之间，每个迭代1000次。训练时间随着交替卷积的数量线性增加，范围从具有的模型的大约1天1次交替卷积和16次交替卷积的模型为10天4实验结果我们的模型与两种基于CNN的方法进行了比较，这两种方法是专门为密集采样的LF重建设计的，即 Kalantari等人[13]和Wu et al. [14]第10段。在三个不同的任务上进行了比较，如图3所示：3 × 3 − 7 × 7，3 × 3 − 9 × 9和2 × 2 −8 × 8。任务M × N − M ′× N ′代表从具有M ×N个SAI的稀疏采样的LF重构具有M ′×N′个SAI的密集采样的LF。此外，我们通过任务2 × 2 − 8 × 8研究了稀疏采样LF输入中涉及的SAI的位置对重建质量的影响。定量和定性结果将在以下小节中显示重建质量是衡量与PSNR和SSIM，平均在所有合成的新的SAI。由于空间有限，我们仅报告每个数据集中所有数据条目的平均结果。选择重构的密集采样LF的第（5，5）SAI用于显示。训练和测试代码都是公开的2.2https://github.com/angularsr/LightFieldAngularSR快速光场重建9表2. 在3 × 3 - 7 × 7任务下，对所提出的模型和最先进的方法的重建质量进行了定量比较。算法30个场景反光-29闭塞-16神经元20×平均Wu el al. [14个]41.02/0.9875 46.10/0.9929 38.86/0.9852 29.34/0.9378 40.75/0.9861Kalantari等人[13个国家]43.73/0.9891 46.54/0.9953 37.97/0.9827 28.45/0.9274 43.18/0.9872我们的4L44.53/0.9900 47.85/0.9960 39.53/0.9873 30.69/0.9518 44.06/0.9889表3. 所提出的模型，Kalantari等人和Wu等人的重建质量的定量比较超过了来自HCI数据集的Buddha和Mona。算法佛Mona平均Wu el al. [14]/SC41.67/0.9975 42.39/0.9973 42.03/0.9974Wu el al. [14]/SRCNN 41.50/0.9971 42.64/0.9976 42.07/0.9974Wu el al. [14个]43.20/0.9980 44.37/0.9982 43.79/0.9981Kalantari等人[13个国家]42.73/0.9844 42.42/0.9858 42.58/0.9851我们的8L43.77/0.9872 45.67/0.9920 44.72/0.98964.13× 3− 7× 7光场重建对于任务3×3−7×7，我们与Kalantari等人[13]和Wu等人[14]进行了比较。我们将空间-角度交替卷积层的数量设置为4。对30个场景数据集[13]、来自斯坦福Lytro光场档案[28]的反射-29和遮挡-16 LF以及来自斯坦福光场显微镜数据集[29]的神经元20 ×进行了比较。在PSNR和SSIM中测量的重建质量在表2中示出。对于每个LF，结果是所有40个新颖SAI的亮度分量的平均值。我们提出的模型在所有数据集上的表现都优于两种比较方法：与Kalantari等人[13]和Wu等人[14]相比，分别具有0.88 dB和3.31 dB的重建优势。Neu-rons20×数据集的2.3 dB优势表明，所提出的LF重建模型适用于不同的LF捕获设备。4.2大视差光场的3× 3− 9× 9为了证明我们的模型可以在具有较大差异的LF上工作，我们对所提出的模型进行了修改，用于任务3×3−9×9，并使用来自HCI数据集的LF进行训练[30]，这些数据集是用Blender软件创建的[31]，与Lytro Illum捕获相比具有更大的差异。LFBudda和Mona用于测试，其余用于训练。对于这个任务，我们将空间-角度交替卷积层的数量设置为8。由于训练图像的数量有限，应用数据增强以获得更多的数据训练样本。与[14]的比较结果报告于表3中。仅使用7个训练LF，我们提出的方法提供了优异的重建质量的亮度分量，平均在所有72个新的SAI。10H. W. F. Yeung，J.Hou，J.Chen，Y.Y. Chung和X.陈表4.所提出的模型和Kalantari的重建质量的定量比较在222个真实世界的LFI上，在任务2×2−8×8下。算法30个场景EPFL反射闭塞平均Kalantari等人[13个国家]我们的16L38.21/0.973639.22/0.977338.70/0.957439.57/0.963735.84/0.941636.47/0.947231.81/0.894532.68/0.906136.90/0.945237.76/0.95214.32× 2− 8× 8光场重建我们与Kalantari等人的方法进行了比较。[13]使用与我们相同的训练数据集进行了重新训练。Wu等人的方法。[14]无法进行比较，因为他们的方法需要每个角度维度上的3个视图，以便为双三次插值步骤提供足够的信息。我们的测试数据集包含来自[13]1的30个测试场景和来自EPFL数据集[32]3的118个LF，具有多样化的真实世界场景。为了进一步评估算法的鲁棒性，我们还包括来自Stanford LytroLightfield Archive[28]的折射和反射表面以及遮挡类别，它们分别包含31和43个LF。请注意，从测试中删除了来自遮挡类别的8个LF和来自折射和反射表面类别的1个LF，该测试集包含222个LF，足以提供模型性能的客观评价。重建质量是用RGB通道上的平均PSNR和SSIM以及所有60个新SAI来测量的。如表4所示，我们提出的在合成网络中具有16个交替卷积的模型获得了37.76 dB的平均值，比Kalantari等人的高0.86 dB。[13]第10段。图4进一步直观地表明，与现有技术相比，我们的算法能够获得更好的重建质量。如误差图所示，Kalantari等人在前景对象的边界附近产生伪影。在大多数情况下，薄边缘不能被正确地重建，在遮挡物和背景之间留下模糊和此外，由于我们的方法充分探索了重建过程中所有SAI之间的关系，因此LF结构被很好地保留，从而导致更好的EPI质量，这可以有助于更准确的深度估计。4.42× 2− 8× 8外推光场重建图图5（a）和（b）示出了Kalantari et al. [13]和任务2×2-8×8下的所提出的方法，其中可以观察到，与输入SAI附近的新SAI相比，中心SAI的重建质量具有明显更差的质量。中心视图离任何输入SAI最远，因此它对正确推断细节提出了最大的挑战。基于该分析，我们研究了将内插和外推相结合用于LF重建的可能性，这可以使得从所有新的SAI到输入SAI的平均距离更短。3https://jpeg.org/plenodb/lf/epfl/快速光场重建11自行车黑色栅栏几何雕塑矛栅栏见图4。我们提出的方法与Kalantari等人的视觉比较。[13]在任务2 × 2 − 8 × 8的第（5，5）个合成新SAI上。为了更好的比较，所选区域已放大建议使用数字放大，以获得更多视觉细节。我们训练了两个模型，它们具有与我们的8L完全相同的网络架构，然而，具有不同的输入视图位置配置，如3（d）和（e）所示，我们将其命名为OursExtra。1、我们的额外2所示的序列。注意，对于第一模型，外推1行和1列SAI，而对于第二模型，外推2行和2列SAI。如表5所示，当我们的模型组合内插和外推时，对于222个LF数据集上的所有新型SAI，可以实现平均2.5dB的改善。图5（c）和（d）还显示了Ours Extra的每个新SAI的平均质量。1、我们的额外2所示的序列。重建质量的显著增益表明所提出的算法应用于LF压缩的潜力[33，34]。Kalantari等人我们的16L地面实况12H. W. F. Yeung，J.Hou，J.Chen，Y.Y. Chung和X.陈表5. Ours，Ours Extra重建质量的定量比较。1，我们的Ex-tra。2和Kalantari等人，超过222个真实世界的LF。对于所提出的模型，空间-角度交替卷积的数量被设置为8。算法30个场景EPFL反射闭塞平均Kalantari等人[13个国家]38.21/0.9736 38.70/0.9574 35.84/0.9416 31.81/0.8945 36.90/0.9452我们38.88/0.9750 39.29/0.9611 36.52/0.9466 32.58/0.9019 37.55/0.9495我们的额外。140.79/0.9820 41.25/0.9705 40.16/0.9667 35.54/0.9275 39.93/0.9632我们的额外。240.93/0.9827 41.46/0.9717 40.02/0.9651 35.79/0.9246 40.09/0.9631(a)（b）（c）（d）图五、每个子图显示了在不同模型的任务2×2 −8×8下，在不同SAI位置测量的平均重建质量（PSNR）。白色块指示输入SAI。从左至右：（a）Kalantari等人[13]，（b）Ours，（c）Ours Extra。1和（d）我们的额外费用。二、4.5深度估计为了验证从我们提出的模型生成的密集采样LF不仅为每个SAI产生高PSNR，而且很好地保留了SAI之间的3-D几何结构，我们进一步将深度估计算法[3]应用于从具有2×2SAI的稀疏采样LF生成的具有8×8SAI的重建的密集采样LF。图6在每行中示出了基于稀疏采样的LF、来自Kalantari等人的密集采样的LF的深度图。，来自我们的模型的密集采样的LF和地面实况密集采样的LF。可以观察到来自Ours Extra的深度图。 1是更准确的比Kalantari等人。.4.6运行时和重建质量与模型深度我们提出的具有不同数量的交替卷积的模型的运行时间和性能权衡如图所示7.第一次会议。我们可以观察到，通过我们的模型的重建质量随着交替卷积的数量增加而迅速增加。此外，外推法的采用导致重建的显著改进，运行时间约为11秒，与Kalantari等人[13]相比，在Intel i7- 6700 K CPU@4.00GHz上没有GPU加速，加速超过30倍此外，合成网络中的可扩展结构使得能够在重建质量和速度之间进行权衡。对于任务2×2−8×8，我们的16个交替卷积的模型大约需要20秒。如果优先考虑速度，则与Kalantari等人的重建质量相似。，我们的模型与1交替卷积可以提供超过130倍的速度，只需3.15秒来处理LF。快速光场重建13黑色围栏喷泉和长凳自行车黄蜂LFI的中心视图从稀疏采样LF由Kalantari等人重建的LF生成的深度。用我们的方法从地面实况SAI见图6。视觉比较的深度估计结果从稀疏采样的LF，重建密集采样的LF从我们提出的方法和Kalantari等人。[13]和地面真实密集采样LF。5结论和未来工作我们提出了一种新的基于学习的密集采样LF重构框架。为了准确有效地表征LF数据内的高维空间-角度线索，我们设计了一种端到端训练的CNN，其广泛地采用空间-角度交替卷积进行快速特征变换，并采用步幅-2 4-D卷积进行快速角度降维。此外，我们的网络通过首先重建在粗略角度维度处合成的一组中间新颖SAI，然后应用引导残差学习来在更精细的水平上细化中间视图，以粗到细的方式合成新颖对真实世界和合成LF场景的广泛评估表明，我们提出的模型能够提供平均超过3 dB的重建质量，14H. W. F. Yeung，J.Hou，J.Chen，Y.Y. Chung和X.陈1L等人吴Ri等人NTAKala2L4L44.043.540.039.5RA243.042.542.041.541.040.540.031010210110039.038.538.037.537.036.53101024L101100较慢的执行时间（秒）快(a)任务3×3−7×7较慢的执行时间（秒）快(b)任务2×2−8×8见图7。不同模型深度下运行时间和重建质量之间的权衡。以秒为单位的执行时间计算为在Intel i7- 6700 K CPU@4.00GHz上执行的50次测试的平均值，而不使用GPU加速。最先进的方法，同时速度提高30倍以上。特别是，我们的模型可以很好地处理复杂的场景与严重的遮挡。此外，我们的模型能够在具有较大视差的LF下表现良好，并且可以通过我们的方法从重建的密集采样LF推断出更准确的深度考虑到所提出的CNN模型在处理LF数据中的效率和有效性，我们相信这样的设计在LF压缩以及广泛的LF图像处理任务上具有巨大的潜力，包括但不限于LF空间超分辨率、时间超分辨率和深度估计。鸣谢。这项工作部分由城大新教师开办课程津贴（拨款编号7200537/CS）及香港研资局展翅计划基金（拨款编号9048123）（城大21211518）资助。峰值信噪比（dB）峰值信噪比（dB）ExtExtRA116L8L2LKal安踏Ri等人1L快速光场重建15引用1. Wanner，S.，Goldluecke，B.：用于视差估计和超分辨率的变分光场分析IEEETransactions on Pattern Analysis and Machine Intelligence36（3）（2014）606-6192. Jeon，H.G.，帕克，J.，Choe，G.，帕克，J.，Bok，Y.，Tai Y.W. So Kweon，I.：来自小透镜光场相机的精确深度图估计IEEE计算机视觉和模式识别会议论文集（2015）15473. Wang T.C.埃夫罗斯，匿名戒酒会Ramamoorthi，R.：使用光场相机的遮挡感知深度估计。在：IEEE计算机视觉国际会议论文集。（2015）34874. 陈杰，Hou，J.，Ni，Y.，Chau，L.P.：在部分遮挡区域上使用超像素正则化的精确光场深度估计IEEE Transactions on Image Processing27（10）（2018年10月）48895. Fiss，J.，Curless，B.，Szeliski，R.：使用深度自适应溅射对全光图像进行重聚焦。IEEE International Conference on Computational Photography （英语： IEEEInternational Conference on Computational Photography）（2014）16. Levoy，M.，Hanrahan，P.：光场渲染。第23届计算机图形与交互技术年会论文集，ACM（1996）317. Jones，A.，麦克道尔岛Yamada，H.，Bolas，M.，Debevec，P.：交互式360度光场显示器的渲染。ACM Transactions on Graphics26（3）（2007）408. 伊尔克岛Restrepo，J.，Mignard-Debise，L.：光场成像原理：简要回顾25年的研究。IEEE Signal Processing Magazine33（5）（2016）599. 吴，G.，Masia，B.，Jarabo，A.，张玉，Wang，L.，美国，Dai，Q.，Chai，T.，Liu，Y.：光场图像处理：概述。 IEEE Journal of Selected Topics in Signal Processing11 （ 7 ）（2017）92610. Wilburn，B.Joshi，N.，Vaish，V.，Talvala，E.V.，Antunez，E.，Barth，A.，Adams，A.，Horowitz，M.，Levoy，M.：使用大型相机阵列的高性能成像ACMTransactions on Graphics24（3）（2005）76511. Lytro Illum https://www.lytro.com/12. 雷特里克斯https://www.raytrix.de/13. Kalantari，N.K.，Wang T.C.Ramamoorthi，R.：基于学习的光场相机视图合成ACMTransactions on Graphics35（6）（2016）19314. 吴，G.，赵，M.，Wang，L.，美国，Dai，Q.，Chai，T.，Liu，Y.：使用深度的光场重建epi上的卷积网络IEEE计算机视觉和模式识别会议论文集电话：（2017）6319-6327传真：（2017）631915. 董，C.，Loy，C.C.，他，K.，唐X：学习用于图像超分辨率的深度卷积网络。在：欧洲计算机视觉会议论文集。（2014）184-19916. 金，J.，Kwon Lee，J.，Mu Lee，K.：使用非常深的卷积网络实现精确的图像超分辨率IEEE计算机视觉和模式识别会议论文集。（2016）164617. Lai W.S. Huang，J.B.，Ahuja，N.，Yang，M.H.：深拉普拉斯金字塔网络实现快速和精确的超分辨率。IEEE计算机视觉和模式识别会议论文集粤ICP备05018888号-118. Tai，Y.，杨杰，刘X：通过深度递归残差网络实现图像超分辨率。IEEE计算机视觉和模式识别会议论文集。（2017）2790-279819. Yoon，Y. Jeon，H.G.，Yoo，D.，Lee J.Y. So Kweon，I.：学习用于光场图像超分辨率的深度卷积网络。在：IEEE计算机视觉研讨会国际会议论文集。（2015）2416H. W. F. Yeung，J.Hou，J.Chen，Y.Y. Chung和X.陈20. Yoon，Y. Jeon，H.G.，Yoo，D.，Lee J.Y. Kw

下载后可阅读完整内容，剩余1页未读，立即下载