基于伪4DCNN的端到端光场视图合成方法的研究与应用

93 浏览量更新于2023-10-13 收藏 1.81MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于伪4DCNN王云龙1、2【0000−0002−3535−308X】、刘飞2【0000−0003−4940−093X】、王子雷1【0000−0003−1822−3731】、侯光启2【0000−0002−7333−3872】、孙哲安2【0000−0003−4029−9935】、谭铁牛1、2【0000−0002−1808−2169】1中国科学技术大学2模式识别国家重点实验室智能感知与计算研究中心中科院自动化研究所{yunlong.wang，fei.liu}@ cripac.ia.ac.cn，zlwang@ustc.edu.cn，{gqhou，znsun，tnt} @ nlpr.ia.ac.cn抽象。有限的角分辨率已经成为基于微透镜的全光相机朝向实际视觉应用的主要瓶颈。现有的视图合成方法主要将任务分为两个步骤，即深度估计和视图扭曲，这通常是低效的并且在深度模糊性上产生伪影。本文提出了一个端到端的深度学习框架，通过探索伪4DCNN来解决这些问题。具体地，组装在堆叠的EPI上操作的2D跨步卷积和与角度转换连接的细节恢复3D CNN以构建伪4DCNN。其主要优点是从稀疏的输入视图集合中有效地合成密集的4D光场。学习框架被很好地表述为一个完全可训练的问题，并且所有的权重都可以用标准的反向传播递归更新。所提出的框架进行了比较，与国家的最先进的方法在真正的和合成的光场数据库，实现了显着改善的图像质量（+2dB更高）和计算效率（超过10倍更快）。此外，所提出的框架在现实世界中的应用，如生物特征识别和深度估计表现出良好的性能。关键词：视图合成，光场，端到端，伪4DCNN1介绍作为一种革命性的成像技术，光场（LF）成像[1，12，15，24]已经引起了学术界和工业界的广泛关注，特别是随着商业全光相机的出现[17]以及最近在虚拟现实（VR）和增强现实（AR）领域的投入[9]。通过在主透镜和图像传感器之间插入像微透镜阵列的附加光学组件，全光相机能够捕获来自真实世界场景的光线的强度和方向信息，这使得能够实现诸如重新聚焦和3D显示的应用。然而，内在的权衡2Yunlong Wang等由于传感器分辨率有限，角度分辨率和空间分辨率之间的差异是不可避免的，这限制了LF成像在许多实际视觉应用中的应用。这个问题的一个可能的解决方案是视图合成，其从输入视图的稀疏集合合成新颖的视图。受传统视图合成方法和最近成功的数据驱动方法的启发，Kalantari et al.[10]将视图合成的目标分解成由卷积神经网络（CNN）建模的视差估计器和颜色预测器。由于从第一CNN隐式地推断出视差，因此它获得了比需要显式深度3 信息作为视图扭曲的先验的其他现有技术（SOTA）方法[23，22，13]更好的结果。然而，该框架在重建具有挑战性的LF场景（诸如被遮挡区域、非朗伯表面等）时是相当有限的。实际上，深度相关视图合成方法不可避免地依赖于深度信息的准确性，这往往会产生伪影，其中通常发生不准确的深度估计。此外，它们主要生成单个新颖视图，使得合成所有中间视图是相当低效的。最近，吴等。[25]首先将视图合成模型作为2D对极平面图像（EPI）上基于学习的角度细节恢复。他们提出了一种“模糊恢复”的新工作方式，其中包括在该空间的几何结构中进行处理。它在各种场景上都取得了比Kalantari等人[10]更好的效果，即使在遮挡区域、非朗伯表面和透明区域中。但是，它们的框架仍然存在一些缺点。首先，完整的LF数据因为EPI只是4D LF的2D切片。其次，在合成所有中间视图之前，在EP I上多次执行“blur-re stor i on-d e blur”操作是相当耗时的。实际上，4D LF数据在射线空间具有高度相关性，记录了丰富的场景信息。在光场成像中，视图合成的关键与二维阵列或三维体不同，目前CNN在处理高维数据时遇到了很大的困难。因此，几乎不存在以这种方式解决视图合成问题的方法。在本文中，我们提出了一个端到端的学习框架，有效地合成密集的4D LF从稀疏的输入视图。具体地，使用2D步幅卷积的可学习插值被应用于堆叠的EPI以初始上采样从LF数据提取的3D体积然后，采用3DCNN来恢复行或列模式中的体积的高频细节引入角度变换作为节点元件，将行网络的接收输出转换为列网络的给出输入。此外，提出了一种先验敏感损失函数，根据接收到的先验知识的水平来衡量合成视图的错误。学习框架被很好地制定为一个完全可训练的问题，所有的权重都可以用标准的反向传播递归更新。各种具有挑战性的场景的实验结果，包括深度变化，复杂的光线条件，严重的闭塞，非朗伯表面和3深度和视差在整个论文中可互换使用，因为它们在结构光领域中密切相关。使用伪4DCNN进行3结果表明，该框架具有更高的数值质量和更好的视觉效果，明显优于其他SOTA方法通过直接在4D LF数据上操作，所提出的框架还大大加快了视图合成的过程，比其他SOTA方法快一个数量级。1.1深度相关视图合成通常，深度相关视图合成方法在两步过程中合成场景的新视图[5，3]，即估计输入视图的视差并基于视差扭曲到新视图，然后以特定方式（例如加权求和）组合扭曲图像以获得最终的新视图。Wanner和Goldluecke [23]提出了优化框架来合成具有显式几何信息的大小新颖视图，其仅对于具有地面真实差异的合成场景表现良好，但对于真实世界场景产生显著的伪影。基于阶段的方法由Zhang et al.[29]从微基线立体声对重建LF。然而，迭代地细化视差基于贴片的合成方法由Zhang et al. [28]将视差图分解成不同的层，并且需要用户交互以实现各种LF编辑目标。注意，即使是最先进的LF深度估计方法也没有被专门设计为适合于像素扭曲。因此，以显式深度作为先验的视图合成方法通常无法重建真实世界场景的合理结果。为了减轻对于视图扭曲的显式深度信息的需要，另一策略旨在合成新颖视图以及隐式地估计场景的几何形状。 Kalantari等人[10]提出了第一个用于视图合成的深度学习系统。受上述方法的启发，他们将视图合成分解为由CNN建模的视差估计器和颜色预测器。通过最小化合成视图和地面实况之间的误差来同时训练两个网络。因此，用于视图扭曲的视差由第一CNN隐式地产生，这更适合于视图合成应用。然而，这种方法是相当有限的重建具有挑战性的LF场景，由于扭曲的图像的信息不足 Srinivasan等人[19]建立在类似于Kalantari等人的流水线上。[10]，并从单个2D RGB图像合成4D RGBD LF。总的来说，深度相关视图合成强烈地依赖于深度信息。对于包含显著深度变化、复杂照明条件、遮挡、非朗伯表面等的具有挑战性的场景（其中通常发生不准确的深度估计），这些方法往往失败，因为扭曲图像不能提供足够的信息来合成高质量视图。1.2与深度无关的视图合成用于视图合成的替代方法是在没有场景的任何几何信息的情况下对角度维度进行上采样。一些与深度无关4Yunlong Wang等方法被设计为处理以特定模式采样的输入LF。例如，Levin和Durand[11]利用维度间隙先验从一组以圆形模式采样的图像中合成新视图。Shi等人。 [18]对由一个框和两个对角线形成的少量1D视点轨迹进行采样，以恢复4D LF。在这种特定模式下捕获输入视图是相当困难的，因此这些方法离实际应用还很远。近年来，许多基于学习的LF角SR方法被提出Yoon等人[27]提出了一种称为LFCNN的深度学习框架，其中采用两个相邻视图来生成中间视图。在后续的工作[26]中，对网络结构进行了一些修改，这些方法都不能充分利用角域，因为只有一对夫妇的子孔径图像周围的新的看法被送入网络。而且它只能产生以2X上采样因子获得新颖的视图。Wu等人[25]在2D E P I上作为基于学习的角度细节恢复的模型视图合成。“蓝光存储”模式包括三个步骤：首先，将输入EPI与预定义的模糊核进行卷积;其次，应用CNN来恢复由欠采样损坏的EPI的角度细节;最后，进行非盲去卷积以恢复被EPI模糊抑制的空间细节。它在各种场景上取得了有希望的结果，但仍然存在一些缺点：在合成所有中间视图之前，“blur-estor”的操作循环多次。总之，视图合成的关键在于充分利用输入视图。为了降低收集数据的难度，输入视图在网格上规则地间隔开此外，使用当前的CNN框架处理高维数据是相当困难的在本文中，提出了一种称为伪4DCNN的端到端框架，以有效地从稀疏输入视图合成2方法2.1问题公式化在本文中，4D LF数据表示为从LF原始图像解码的L（x，y，s，t），如图1所示。每个光线通过与两个平行平面的相互作用来说明，从主透镜平面上的角坐标（s，t）行进到微透镜阵列平面上的空间坐标（x，y）给定在H×W的空间分辨率下的网格上的n×n个稀疏输入视图，用于LF成像的视图合成的目标是在（H，W，N，N）的分辨率下恢复更密集采样的LF，其中N=f×（n-1）+1，并且f是角度维度中的上采样因子。如图1所示，EPI是通过固定一个角度维度和一个空间维度的4D LF的2D切片 Wu et al. [25]基于2D EPI的恢复，增强一个角度维度s或t。三维体积从使用伪4DCNN进行5∗t*0t4D LF如Vt*（x，y，s）可以通过固定一个角维度（t=t）来提取，其由堆叠的2D EPI组成。为了直接处理4D LF，我们在堆叠的EPI和与角度转换连接的顺序3D CNN上组装2D跨步卷积以构建伪4DCNN。所提出的框架是很好的制定是完全可微的，这使得学习过程更容易处理。在下一节中，将详细描述所提出的框架Fig. 1. 4D光场L（x，y，s，t）。水平EPI是通过设置y=y*和t=t* 的2D（x，s）切片L（x，y*，s，t*），以及通过设置x=x*和s=s*的垂直EPI（y，t）。∗通过类比，可以通过设置t=t来提取3D体积Vt（x，y，s）。2.2拟议框架概述给定输入稀疏视图L0（x，y，s，t），分辨率为（H，W，n，n），如图2所示，我们固定一个角度维度t = t*，t*∈ {1，2，...，} n}来提取具有（H，W，n）的分辨率的3D体积为*V（x，y，s）=L（x，y，s，）（1）将Vt*（x，y，s）插值为Vt*（x，y，s）↑，达到给定上采样因子的所需分辨率（H，W，N）。Vt*（x，y，s）↑的高频细节由如下公式表示：Fr（·），LF公式表示为∗Linter（x，y，s，t）=Fr（Vt*（x，y，s）↑）（2）接下来，我们执行角度转换以从角度维度转换到尺寸s的尺寸测试。通过固定s=s*，s*从Linter（x，y，s*，t）作为∈{1，2，…，N}，Vs*（x，y，t）被提取Vs*（x，y，t）=Linter（x，y，s*，t）（3）其分辨率为（H，W，n），也可以插值为Vs*（x，y，t）↑，其分辨率与Vt*（x，y，s）↑相同。然后采用列网络来恢复Vs*（x，y，t）↑的数据，modelingg为Fc（·）。最终，具有（H，W，N，N）的分辨率的输出Lut（x，y，s，t）形成为Lout（x，y，s*，t）=Fc（Vs*（x，y，t）↑）（4）6Yunlong Wang等∗t*trs sc图二.所提出的框架伪4DCNN的概述。以从3 × 3稀疏视图重建7×7 LF数据为例（n= 3，N= 7，t*= 3，s*= 2）。3D体积上的可学习插值体积Vt*（x，y，s）和Vs*（x，y，t）由两个空间维度和一个角度维度组成，如图1所示。以Vt*（x，y，s）为例，它们可以看作是分辨率为（H，W）的n个子孔径图像，也是由分辨率为（H，n）的W个堆叠的EPI组成 Long等人[14]指出可以使用分数步幅卷积来执行上采样。通过反转卷积的前向和后向传递，可以通过具有反向传播的端到端训练来学习用于上采样的插值内核我们不是在单个EPI上进行固定插值，而是使用反卷积层在3D体积中的堆叠EPI上引入可学习插值，如其中Vt*（x，y，s）是3D体积Vt*（x，y，s）内的2D EPI切片，通过固定y= y*，f是所需的上采样因子，Kr是可学习的内核。采用另一个去卷积层来上采样Vs*（x，y，t）为**V（x，y，t）↑=deconv（V*（x，y，t），f，K）（6）由于解卷积层是可微的，可学习的插值en-能够在端到端战略中对拟议框架进行培训。使用3D CNN的细节恢复3D卷积神经网络[20，16]主要用于提取视频分析帧之间的时空特征。相反，我们采用3D CNN和残差学习[6]来恢复从4D LF提取的3D体积的高频细节。为了提高效率，所述两个可替代的驱动器kFr（·）和dFc（·）具有相同的结构，这是轻量且简单的。如图3所示，两个网络都由两个隐藏层组成，后面是预测残差（V）和输入体积V的总和，即F（V）=V+（V）。第一个3D卷积使用伪4DCNN进行7图3.第三章。用于恢复3D体积细节的网络结构层1和层2之后是整流线性单元（ReLU）。最终的细节恢复体积是预测残差和输入的总和。层包括64个通道，内核为5× 5× 3，其中每个内核在V内部的3个相邻视图上的5×5空间区域上操作。因此，该过滤层中的过滤器W1的大小为64×N×5×5×3，而bi的大小为64. 类似地，第二3D卷积层包括具有1 × 1 × 3内核的32个通道，其中每个内核在1 × 1空间区域上操作（即，单个像素）。滤波器W2的尺寸在该序列中为32×64×1×1×3，b1的尺寸为b2为32。用于残差预测的网络的输出层使用9 × 9 × 3滤波器，因此该层中的滤波器的大小Wo为N ×32 × 9 × 9 × 3，偏置bo的大小为N。注意，第一层和第二层由整流线性单元（ReLU）激活，即， σ（x）= max（0，x），而输出层后面没有任何激活层。残差预测被公式化为（V）=Wo*σ（W2*σ（W1*V+b1）+b2）+bo（7）其中*表示3D卷积运算。为了避免边界效应，我们在每次卷积操作之前适当地填充输入和特征图，以保持输入和输出的大小相同。所提出的框架被设计为直接重建期望的4D LF。不是最小化[10]中的一对合成图像和地面实况图像之间的L2距离，或者[25]中的一对细节恢复和地面实况EPI之间的L2距离，先验敏感损失函数具体公式如下：1ΣN∗ ∗ ∗∗2E=2N2s*=1，t*=1ws*t*Lgt（s，t）−Lout（s，t）（八）其中，损失E是在重构的L_out和地面实况L_gt之间的整个均方误差（MSE）上的加权平均。如图2所示，在流水线的后期阶段中生成的新颖视图从稀疏输入视图接收较少的例如，在从输入视图中生成新的工作流或kFr（ ·）之后，8Yunlong Wang等∗∗一个或多个选择视图中的一部分是在从较早的合成视图传播的实时先验信息上的、在计算网络kfc（·）之后的大小化的视图。因此，我们设计了一个事先敏感的计划，更加关注的错误，后来合成的意见，通过使用更大的权重。根据视图生成的顺序和接收到的先验知识的水平，所有的合成视图被分成四组，它们的MSE对地面真值的总和与相应的权重。在（s*，t*）处的合成视图的加权系数ws*t*被特别地设置为∗λ1s∈[1：f：N]，t*∈[1：f：N]<$λ2s<$∈[1：f：N]，t<$∈/[1：f：N]ws*t*=λs*∈/[1：f：N]，t*∈[1：f：N]（九）3λ4s* ∈/[1：f：N]，t*∈/[1：f：N]根据经验，λ1、λ2、λ3、λ4相对地被设置为0.1、1、1和2由于所提出的系统包括与角度转换连接的2D跨步卷积和细节恢复3D CNN，因此用标准反向传播来训练网络是不平凡的我们详细分析了所提出的框架是完全可微的，所有的权重可以递归地更新与标准的反向传播。首先，我们使用链式法则计算损失E相对于中间LFLinter（x，y，s，t）的偏导数为ELinter（x，y，s，t）E=Lout（x，y，s，t）·输出（x，y，s，t）Linter（x，y，s，t）（十）根据等式8，等式10右侧的第一项是可导出的。第二项可以推导为Lout（x，y，s，t）ΣN=Lout （x，y，s*，t）·Vs*（x，y，t）↑（十一）Linter（x，y，s，t）s*=1Vs*（x，y，t）↑Vs*（x，y，t）Lout（x，y，s，t）对Linter（x，y，s，t）的偏导数是Lout（x，y，s，t）对Vs*（x，y，t）的N个偏导数之和等式11的右手侧的第一项显然是可微的，因为它是具有如等式4所示的输入的列网络的输出的部分导数。此外，第二项可以被导出为Vs*（x，y，t）↑Vs*（x，y，t）ΣH=x=1Vs*（x，y，t）↑Vs*（x*，y，t）（十二）右侧的项将其偏导数归因于使用如等式6所示的可学习插值对EPI进行在这一点上，我们已经证明了方程10左侧的项是可微的。角度转换对Linter（x，y，s，t）进行操作，以从接收行网络Fr（Vt*（x，y，s）↑）的输出转换为给出列网络Fr（V t *（x，y，s）↑）的输入。使用伪4DCNN进行9∗∗∗网络Vs*（x，y，t），因此在这个分量中没有参数接下来，我们计算Linter（x，y，s，t）相对于输入稀疏LFL0（x，y，s，t）的偏导数，如下：Linter（x，y，s，t）Σn=Linter （x，y，s，t*）·Vt（x，y，s）↑（十三）L0（x，y，s，t）t=1Vt*（x，y，s）↑Vt*（x，y，s）类似地，可以推导出等式13的右手侧上的第一项是可微的，因为该项的分子和分母可以直接用于输出和输出如下等式的输出。2. 第二项可以进一步导出为Vt*（x，y，s）↑Vt*（x，y，s）ΣW=y*=1Vt*（x，y，s）↑Vt（十四）等式14的右手侧的项也是可微的，因为通过如等式5所示的可学习内插，将Vt（x，y，s）上采样为Vt（x，y，s）↑总的来说，损失E相对于输入L0（x，y，s，t）的偏导数被导出为EL0（x，y，s，t）E=Linter（x，y，s，t）·WML_inter（x，y，s，t）L0（x，y，s，t）（十五）考虑等式10和13，可以得出结论，所提出的框架是完全可微的。由于空间限制，这里不呈现2.3培训详细信息为了训练所提出的框架，我们在室内和室外环境下通过Lytro Illum和实验室开发的LF相机拍摄了300多个具有各种光照条件，纹理属性和深度变化的LF样本。LF原始图像通过Light Field Toolbox v0.4 [4]解码Lytro Illum拍摄的低频图像空间分辨率为625 ×434，角分辨率为9× 9，而实验室研制的低频相机的空间分辨率为729× 452，角分辨率为11×11具体地，提取每个视图的相同位置中的小块以制定训练LF数据。空间斑块大小为48× 48，步长为20。如果角度上采样因子为3X，则我们移除边界视图并将原始LF数据裁剪为7× 7视图作为地面实况，然后下采样为3× 3视图作为输入。对于2X角度上采样，原始LF数据仅被下采样到5X5视图。我们级联训练以处理4X角度上采样。总共收集了超过105个训练样本。类似于其他SR方法，我们仅处理YCrcb颜色空间中的亮度Y通道。由于所提出的框架包括与角度转换连接的两个细节恢复3D CNN，因此首先以行或列模式操作容易出现错误。10Yunlong Wang等影响最终输出的准确性为了减轻这种影响，我们通过添加具有排列的角度维度的每个LF样本的副本来加倍端到端训练的优化通过小批量动量随机梯度下降（SGD）方法进行，其中批量大小为64，动量为0.9，权重衰减为0.001。可学习插值的内核被完全像双线性上采样那样初始化。3D CNN的滤波器学习率最初设置为10- 4，然后每10个epoch降低0.1倍，直到验证损失收敛。所提出的框架使用Theano包[2]实现，并在具有Intel 3.6 GHz CPU和TiTanX GPU的工作站上进行。训练需要在8小时内收敛。3实验结果及应用为了验证所提出的框架的效率和有效性，我们比较了两个最近的国家的最先进的方法，即。Kalantari等人的深度依赖方法。[10]和Wu等人的深度独立方法。[25]第20段。在真实场景、人工合成场景和生物特征数据集上进行了实验，以评估该算法的鲁棒性峰值信噪比（PSNR），灰度结构相似性（SSIM）和每个合成视图的耗时被用来评估算法的数值。3.1真实世界场景至于在真实世界场景上的实验，我们遵循[25]中的协议，从[10]中Lytro Illum捕获的30个场景的3× 3稀疏视图重建7×7 LF。比较方法[10，25]的性能是通过实现各自作者发布的源代码获得的，并且参数被仔细调整以最大化性能。为了进行公平的比较，所有方法都运行在GPU模式下，并在同一工作站上进行图4描绘了30个场景的平均PSNR和经过时间的定量比较[10]。很容易发现，所提出的框架的性能明显优于其他方法：（1）大大加快了视图合成的过程（0。28秒），（2）大大提高了重建的4D LF的图像质量（43. 28dB）。数值结果表明，所提出的框架获得了巨大的优势，在效率和有效性。此外，我们使用Pseu- do 4DCNN的变体在30个场景上进行消融实验如表1所示，如果Fc等于 Fr，则结果平均降低0.38dB此外，结果平均降低0.94 dB，而没有先前的敏感损失。可以证明，伪4DCNN的每个组件都有助于提高性能。对于定性比较，我们选择了两个具有挑战性的户外场景（岩石，花）包含复杂的深度变化和闭塞，如图5所示使用伪4DCNN进行11见图4。对真实世界场景的定量比较（30个场景[10]）。横轴表示场景编号。从1到30。(a)平均PSNR统计。所提出的框架平均每个LF场景达到43.28 dB，比Kalantari等人高5.85 dB。 [10]（37.43 dB），比Wu等人高2.45 dB。[25]（40.83dB）。(b)经过的时间统计。所提出的框架平均每个合成视图花费0.28秒，以625× 434的空间分辨率从3× 3视图（角度上采样因子3×）重建7×7 LF，比Kalantari等人快近30倍。[10]（8.59秒），比Wu等人快12倍。[25]（3.38秒）。因此，该框架大大提高了精度，加快了LF成像的视图合成的过程[10]中的深度相关方法对小区域中的深度变化不敏感，导致对象边界周围的大误差和深度不连续性。[ 25]中的“blur-re stor e - d e blur”结构无法对远处的小物体进行可识别的存储如最后一列所示，我们的结果更接近真实情况。放大并在屏幕上查看这些数字，以便更好地进行比较。在补充中查看更多比较。表1.对30个场景与伪4DCNN变体进行定量比较。峰值信噪比（dB）SSIM伪4DCNN全43.280.9916相同的子网（Fr=Fc）42.900.9907无先验敏感损失42.340.9901无2D可学习插值40.150.9885无3D细节恢复CNN39.010.98763.2合成场景合成实验结果如表2所示，包括来自Honauer等人的LF数据集的两个具有挑战性的场景Kitchen和Museum。[7]的文件。的12Yunlong Wang等图五. 30个场景的定性比较[10]。地面实况视图，在Y通道中的错误映射，和特写镜头的图像补丁。(a)地面真理。(b)Kalantari等人 [10]（c）Wu等人 [25]（d）Ours.空间分辨率为512× 512，角分辨率为9× 9。提取中心7× 7视图作为地面实况，并将3×博物馆中的透明玻璃和厨房中的高光非常难以进行视图合成。[10]中的视差估计器网络无法估计非朗伯表面的合理视差，特别是在边界处在边界和几何结构处产生显著的伪影的透明表面不能保存（图6）。[25]中的方法比[10]重建更好的照片级真实感细节所提出的框架实现了最佳的性能，这是非常强大的镜面反射属性。见图6。合成场景的定性比较。（厨房和博物馆）（一）地面真相。Kalantari等人[10]（c）Wu et al. [25]（d）我们的。使用伪4DCNN进行13表2.合成场景（厨房和博物馆）的定量比较厨房博物馆PSNR SSIM PSNR SSIMKalantari等人[10个国家]32.13 0.9156 30.45 0.9097Wu等人[ 25日]35.57 0.9360 34.98 0.9344我们38.12 0.9621 37.92 0.95593.3生物识别LF数据对于生物识别的潜在应用，我们捕获了一个中型LF数据集，其中包含200多个人脸场景（Face）和100个虹膜场景（Iris）。在自然光照下使用LytroIllum捕捉面部。每个场景包含3个人站在0。2米、1米、3m，并且每个子孔径图像上的面部大致为200× 200、100× 100、60× 60像素。虹膜是捕捉下近红外照明与我们的实验室开发的LF相机。我们的LF相机是基于微透镜的，配备了240 um/f4微透镜和135 mm/f5.6主镜头。通过将捕获距离设置为0。8m时，每个子孔径图像上的虹膜约为90个像素。我们从这些生物特征LF数据的5× 5稀疏视图重建9× 9光场人脸视点合成的瓶颈是在景深（DOF）以外的人脸上产生严重的散焦模糊。在图7中，眼睛周围的大误差由[10]发生，眼睑区域由[25]过度平滑虽然LF相机在扩展自由度方面具有优势，这对于虹膜识别是有益的此外，虹膜的深度范围变化相对较小，而纹理非常丰富。因此，[10]在虹膜上没有足够的纹理细节的情况下产生过度平滑的结果，[25]恢复了虹膜的更好纹理，但无法保留面部光泽区域的细节。相比之下，所提出的框架在效率和有效性方面都获得了优异的性能（表3）。见图7。生物特征LF数据（面部和虹膜）的定性比较。(a)地面真理。 Kalantari等人[10]（c）Wu et al. [25]（d）我们的。14Yunlong Wang等表3.生物识别LF数据（面部和虹膜）的定量比较脸虹膜PSNR SSIM时间（秒）PSNR SSIM时间（秒）Kalantari等人[10个国家]29.50 0.8660724.4825.17 0.8235904.02Wu等人[ 25日]40.04 0.9624262.3834.98 0.9344339.71我们42.36 0.986923.4940.14 0.985130.423.4深度增强我们评估的准确性和鲁棒性的深度增强所提出的框架。表4显示了各种场景以及具有挑战性的部分的定量比较观察到，具有我们的重构LF的深度图与具有地面实况LF的深度图大致相同。建议的框架将有效地有助于LF成像的深度增强。表4.使用Wang等人的算法的4D LF基准[8]上的深度估计的MSE统计。[ 21]第20段。场景Wu等人[ 25日]GT LF 我们双陆棋整体0.14710.1307 0.1181前景增肥0.19470.1680 0.1601金字塔整体0.02140.0191 0.0193金字塔0.01170.0116 0.0111盒整体0.05120.0497 0.0507优良环境0.03120.0287 0.0303迪诺整体0.01860.0159 0.0159不连续0.01740.0161 0.01634结论在本文中，提出了一个端到端的学习框架，直接合成的密集4D LF的稀疏输入视图的大小新的意见为了直接处理高维LF数据，我们组装了在堆叠的EPI上操作的2D跨步卷积和与角度转换连接的两个细节恢复3D CNN，以构建伪4DCNN。所提出的框架被很好地制定为完全可微的，可以用标准的反向传播进行训练。所提出的框架可以在不同的LF序列上实现不同的SOTA应用。同时，大大加快了本工作得到国家自然科学基金（批准号：61427811、61573360）和国家重点研究发展计划（批准号： 2016YFB1001000 号 2017YF-B0801900）。使用伪4DCNN进行15引用1. 阿德尔森E.H. Bergen，J.R.：全光函数和早期的Visin元素。 In：C〇mputtati onatinat pp. 3-20 03TheDog（1991）2. Al-Rfou河Alain，G.，Almahairi，A.，Angermueller角Bahdanau，D.，巴拉斯N.，Bastien，F.，Bayer，J.，别里科夫，A.，Belopolsky，A.等：Theano：一个用于快速计算数学表达式的Python框架。02 The Dog（2016）3. Chaurasia，G.，Duchene，S.，Sorkine-Hornung，O.，Drettakis，G.：深度合成SIS和局部扭曲以用于基于图像合理导航。ACM Transactions onGraphics（TOG）32（3），30（2013）4. Dansereau，D.G.，皮萨罗岛Williams，S.B.：用于基于微透镜的全光相机的解码、校准和校正。 In ： Proceedings of the IEEE conferenceoncomputervisionandpatternrecognition. pp. 10275. Mr. J. De Decker，B.，Magnor，M.，Bekaert，P.，De Aguiar，E.，艾哈迈德，N.，Theobalt，C. Sellent，A.：浮动纹理。在：计算机图形论坛。第27卷，第 409-418 02TheDog（2008）6. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：IEEE计算机视觉和模式识别会议论文集。pp. 7707. Honauer，K.，Johannsen，O.，Kondermann，D.，Goldluecke，B.：4d光场深度估计的数据集和评估方法。在：亚洲会议上CommputerrVision. pp.19比34 02TheDog（2016）8. Honauer，K.，Johannsen，O.，Kondermann，D.，Goldluecke，B.：4d光场深度估计的数据集和评估方法。在：亚洲会议上 CommputerVision（ACCV）. pp. 199. Huang，F.C.，Chen，K.，Wetzstein，G.：光场立体镜：通过具有聚焦提示的因子化近眼光场显示器的沉浸式计算机图形。ACM Transactions onGraphics（TOG）34（4），60（2015）10. Kalantari，N.K.，Wang T.C. Ramamoorthi，R.：基于学习的光场相机视图合成。ACM Transactions on Graphics（TOG）35（6），193（2016）11. Levin，A.，Durand，F.：使用维度间隙光场先验的线性视图合成。在：Computer Vision and Pattern Recognition（CVPR），2010IEEE Conference.org中。pp. 1831 - 1838年。IEEE（201 0）12. Levoy，M.，Hanrahan，P.：光场渲染。In：Proceedings of the 23rd AnnualConFerénceonComputerGraphicsandInteRactiveTechniquues. pp. 第三十一13. 刘芳，Hou，G.，太阳，Z.，Tan，T.：高质量的深度图估计的对象表面从轻的t-fildimages。《新的竞争》252，314. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。在：IEEE计算机视觉和图像处理会议论文集中。pp. 343115. Ng，R.，莱沃，M.我知道了，M.你好GH 〇r 〇witz，M.， Hanrahan，P. ：使用手持式全光相机的现场摄影。计算机科学技术报告CSTR2（11），1- 11（2005）16. Qi，C.R.，Su，H.，Nießner，M. Dai，A.，Yan，M.，Guibas，L.J.：用于三维数据对象分类的体积和多视图 cnn 。 In ： Proceedings of the IEEEConferenceonComuterVis isinandPater nRecognitin. pp. 564817. 三维光场相机技术。http://www.raytrix.de/18. Shi，L.，美国，Hassanieh，H.，戴维斯，A.，Katabi，D.，Durand，F. ：利用连续傅立叶域中的稀疏性重建光场 ACM Transactions onGraphics（TOG）34（1），12（2014）16Yunlong Wang等19. Srinivasan，P.P.，王，T.，Sreelal，A.，Ramamoorthi河Ng，R.：学习从单个图像合成4d rgbd光场。国际计算机会议（ICCV）226220. Tran，D.，Bourdev，L.费格斯河托雷萨尼湖Paluri，M.：用三维卷积网络学习时空特征。In：ProceedingsoftheIEEEinter-nationalconferenceoncommputervision. pp. 448921. Wang T.C. Efros，A.，Ramamoorthi，R.：使用光场相机的遮挡感知深度估计。IEEE International Conference on Computer Vision（ICCV）pp. 348722. Wang T.C.埃夫罗斯，匿名戒酒会Ramamoorthi，R.：使用光场相机的具有遮挡建模的深度估计 IEEE Transactions on pattern analysis andmachineintellige nce（TPAMI）38（11），217023. Wanner，S.，Goldluecke，B.：用于视差估计和超分辨率的变分光场分析。IEEE transactions on pattern analysis and machineintelligence36（3），60624. 吴，G.，Masia，B.，Jarabo，A.，张玉，Wang，L.，美国，Dai，Q.，Chai，T.，Liu，Y.：光场图像处理：概述。IEEE Journal of Selected Topicsin SIGNALPR OCESP. 92625. 吴，G.，赵，M.，Wang，L.，美国，Dai，Q.，Chai，T.，Liu，Y.：基于深度卷积网络的光场重建。在： IEEE 计算机视觉与图像处理会议（CVPR）中。pp. 163826. Yoon，Y. Jeon，H.G.，Yoo，D.，Lee J.Y. Kweon，I.S.：基于卷积神经网络的光场图像超分辨率。IEEE Signal Processing Letters24（6），84827. Yoon，Y. Jeon，H.G.，Yoo，D.，Lee J.Y. So Kweon，I.：学习用于光场图像超分辨率的深度卷积网络。 In ： Proceedings of the IEEEInternatalConferenceonComuterVisionWorkshops. pp. 2428. Zhang ， F.L. ，王杰， Shechtman ， E. ， Zhou ， Z.Y. ， Shi ， J.X. ， HuS.M. ： Plenopatch ：基于贴片的全光图像操作。IEEE transactions onvisualization andcomputergra phics23（5），156129. 张志，Liu，Y.，Dai，Q.：来自微基线图像对的光场。在：IEEE计算机视觉和模式识别会议的进展。pp. 3800

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于伪4DCNN的端到端光场视图合成方法的研究与应用

光场图像视图合成

图像合成技术

有什么语音合成方法可以提高语音合成质量

基于注意力机制的端到端方法

端到端加密通信在国内外的研究现状

基于深度学习的图像去噪方法研究综述 baiduxueshu

基于Transformer的端到端目标检测模型

端到端的识别方法是什么意思

5g端到端切片sla行业需求研究

语音识别端到端方法的优点

国内深度学习领域研究进展与热点分析——基于citespace与vosviewer的综合应用

神经网络语音合成研究进展

基于单目视觉的深度估计方法

写一篇关于端到端深度学习图像匹配的综述

基于脑电信号疲劳检测的研究现状500字

基于Transformer的车牌识别系统的研究背景

那所谓的PointRCNN的二阶段方法和端到端的方法是相反的吗

基于深度学习的图像拼接

基于axi4的可编程soc设计 pdf

最新资源