没有合适的资源?快使用搜索试试~ 我知道了~
学习融合像素和几何特征的光场重建方法的研究与应用
2555基于学习融合像素和几何特征的光场Jinglei Shi石晓然Jiang江晨ChristineGuillemot INRIA Rennes - Bretagne法国{firstname.lastname}@ inria.fr摘要在本文中,我们提出了一个基于学习的框架,从输入视图的子集的光场视图合成该方法基于一个轻量级的光流估计网络来获得深度图,分别在像素域和特征域使用两个对于逐像素重建,由依赖于像素的插值滤波器显式地处理遮挡由于视差不一致,基于像素的重建可能导致高度纹理化区域以及对象轮廓的模糊相反,基于特征的重建在高频上表现良好,使得在两个域中的重建互补。最后执行端到端学习,包括融合模块,其合并像素和基于特征的表示。实验结果表明,我们的方法在合成和真实世界的数据集上都达到了最先进的性能,而且,它甚至能够通过外推高质量的视图来扩展光场1. 介绍由于商业相机的出现和众多应用,光场成像最近吸引了大量的注意力,从计算摄影到增强和虚拟现实应用中的逼真渲染,以及光场显微镜。采集设备已经基于相机阵列[1]、移动机架[2]或全光相机中使用的微透镜阵列来设计。单手持2D摄像机(如蜂窝电话)与姿态估计技术[3]配对可以使得能够捕获具有高空间分辨率但有限角分辨率(或大基线)的光场。提高光场角分辨率的问题可以从不同的角度来解决,即:作为一个问题的光场重建的子集,平等贡献(a) 基于像素的重建(b)基于像素的重建(c)融合视图(d)参考视图图1.在我们的框架的不同阶段的输出(在像素域和频域)的可视化。使用信号先验的视图(例如,连续4D傅立叶域中的稀疏性[4]),角度超分辨率[5,6]或视图合成。WhileImage Based Rendering (IBR) techniques have beenpredominant over the past years in the field of viewsynthesis (see e.g. [7,8]),由于基于学习的方法的出现,该领域已经发生了Kalantari等人[9]是第一批提出基于学习的视图合成解决方案的人之一,通过顺序连接分别专用于深度估计和颜色融合的两个卷积神经网络(CNN)。然而,由于深度估计的不精确性,该方法倾向于合成具有模糊、撕裂和重影效果的视图。此外,它在稀疏光场(具有大基线)的遮挡区域中失败受多平面图像(MPI)表示[10]的启发,Mildenhall等人。[3]构建一个框架,从不规则采样的视图中呈现新的视图。 他们应用3D CNN从平面扫描体积(PSV)中学习每个输入视图的MPI表示。MPI然后被扭曲和合并以合成目标视图。该方法在深度不确定的情况下产生模糊的结果,并且PSV的使用在计算上是昂贵的。2556Wu等[11]相反,通过融合一组由CNN评分的剪切对极平面图像(EPI)来重建光场。当目标视图远离源视图时,会出现边界伪影。在本文中,我们提出了一种新的基于学习的框架,工作合成光场视图从一个稀疏的输入视图。我们设计了一个端到端的学习框架,结合了两种重建策略,一种是在像素域,另一种是在特征空间。首先使用CNN来估计来自输入视图的视差。使用估计的视差,我们将输入的彩色视图及其特征投影到目标视图位置。使用VGG19分类网络的下层提取特征[12]。对于逐像素重建,由依赖于像素的插值滤波器显式地处理遮挡,并且使用卷积层基于扭曲视图来预测目标视图对于基于特征的重构,基于来自输入视图的变形特征连续地重构目标视点处的多尺度特征,并且从最细尺度的特征图推断重构视图最后,学习软掩模以合并逐像素重建和基于特征的重建的结果。整个框架以端到端的方式进行训练图1显示了网络不同阶段的重建结果。实验结果与合成和现实世界的光场,与大范围的差距之间的输入视图,表明我们提出的框架显着优于国家的最先进的方法。尽管中间视差输出在输入视图中可能不准确且不一致,但我们的方法在精细纹理和对象边界上提供了出色的重建质量。此外,我们表明,我们的网络也可以实现光场视图外推没有额外的训练竞争力的表现。2. 相关工作视图合成一直是一个非常活跃的研究领域多年。这些方法已经从显式使用几何结构的技术(例如基于深度图像的渲染(DIBR)技术[13,14])发展到基于平面扫描体积(PSV)并且不需要显式深度信息的解决方案[10]。端到端学习方法也被认为是以无监督的方式使用深度学习,特别是针对视图合成任务[9]。最近,已经提出了用于学习多平面图像(MPI)表示的深度神经网络,首先用于立体视图[10]。MPI可以通过利用阿尔法混合图[10,15]的可见性或透明度的在[3]中,该方法已扩展到非结构化光场,从而得到最先进的视图合成结果。平行地,光场重建方法执行-利用信号先验,例如4D傅立叶域中的稀疏先验[4,16]、剪切波变换域中的稀疏性[6]、对极平面图像(EPI)上的平滑性[5]也已经被提出用于视图合成。在本节中,我们将重点介绍最近的方法,以及与所提出的方法关系最密切的方法,即。基于学习的解决方案以及那些使用PSV和MPI的概念,在实验部分用作基准。2.1. 基于深度图像的绘制w/wo学习传统的基于图像的渲染技术分两步进行他们首先估计几何形状(深度),然后将源视图扭曲到目标位置。这是一个例子[14]。然而,结果的质量在很大程度上取决于深度图的准确性,并且估计准确的深度图仍然是一个具有挑战性的问题,特别是在存在透明度或光泽的情况下。[17]中提出了分层表示,将场景的反射部分分解为透射层和反射层,以应对上述困难。然后使用一些不透明的混合来混合用它们自己的几何体渲染的这个想法已经被进一步的解释为PSV的概念,PSV是通过使用不同的深度级别将给定的图像扭曲成目标视点而构造的。PSV可以被看作是在深度方向上对场景进行采样,导致深度平面,现在通常用作视图合成算法的输入。这是[8]中的情况,其中源图像按照采样深度与基于共识的权重混合,并且为每个像素和深度平面计算可见性得分。Kalantari等人[9]将传统的DIBR方法调整为端到端的学习框架。作者提出了一种基于两个CNN的架构,第一个从输入视图估计每个目标视点的深度,而第二个预测颜色。由于端到端学习,第二个CNN可以纠正深度不准确导致的扭曲错误。他们通过最小化合成视图和地面实况视图之间的误差来训练网络。同样,Srinivasanet al. [18]建议从一个单一视图合成光场,使用2阶段学习过程,首先估计几何形状,然后估计遮挡光线。然而,上述两种方法仅限于具有小基线的光场。2.2. 使用学习的EPI插值进行视图合成虽然上述方法应用于光场视图,但也存在对EPI进行操作的方法,特别是用于角度内插或超分辨率的方法[4,5,6,11,16,19,20]。专注于基于学习的解决方案,吴等人。[19]将光场重建建模为EPI中基于学习的细节恢复。他们首先对已去除空间高频的输入EPI应用双三次角插值,并使用CNN恢复2557TLBL内插EPI的角域中的细节。然后通过非盲去模糊操作恢复空间细节。这种Wang等人[20]相反,在EPI体积上应用3D卷积(沿着光场的行或列堆叠的EPI)以恢复高频细节,这允许更好地使用光场数据内的相关性。Wu等[11]训练CNN以评估剪切的EPI,并输出参考分数,然后用于融合剪切的EPI。然而,依赖于EPI结构的方法只有在基线很小的情况下才能很好地工作。2.3. 使用学习的表示进行视图合成使用从扭曲的输入视图构建的PSV, Flynn等人。[15]训练两个并行CNN,一个用于预测每个深度平面中的颜色,第二个用于预测像素属于特定深度平面的概率。新的视图是通过两个CNN的输出的逐元素乘法,然后通过在深度平面上求和来合成的。Zhou等[10]训练深度网络以从窄基线立体图像对预测MPI表示。Mildenhall等人[3]扩展这个概念到来自非结构化光场的较大基线视图插值由于MPI包含场景的3D信息,因此它也可以用于视图外推。这种基于MPI的解决方案在视图合成方面提供了最先进的结果,特别是在大基线和非结构化光场的困难情况下。MPI表示与[21]中的LDI表示相似,其中作者还提出了基于视差值的可微插值技术。Choi等人[22]提出了一种使用学习的深度概率体积以及图像细化网络的具有大基线的视图外插方法Meng等人[23]开发了一种学习框架,该框架基于具有用于光场空间-角度超分辨率的4维卷积残差网络的两阶段恢复。Yeung等人[24]遵循基于视图合成网络和视图细化网络的两步方法,视图合成网络首先生成整个新颖视图集,视图细化网络检索空间纹理细节。然而,与[9]相同,所提出的方法包括学习用于视图合成的深度信息,其与[9]的显著不同之处在于,首先利用除了扭曲视图之外的扭曲特征的信息,其次是用于视差估计和扭曲的方法,其将[9]中的方法限制为具有小基线的光场与从EPI中提取结构用于视图插值的方法不同,所提出的方法利用使用VGG 19-Net [12]从视图中提取的特征。我们表明,翘曲的功能带来了互补的信息,翘曲的意见,以更好地处理精细的纹理和闭塞的地区。3. 方法3.1. 概述用四维函数L(x,y,u,v)表示光场,其中(x,y)∈<$1;X)× <$1;Y)和(u,v)∈<$1;U)×<$1;V)分别是空间坐标和角坐标。角位置i =(ui,v i)处的子孔径图像L(x,y,ui,vi)被称为Li。我们的目标是从一组输入视图I ={L1,1,.,LiN}。 在本工作中,集合I包含稀疏采样的2 × 2视图。为了方便起见,这些视图也由Lt1(左上)表示,Ltr(右上)、Lbl(左下)和Lbr(右下)。图2显示了我们基于学习的框架。首先,轻量级视差估计器模块(蓝色)为每个输入视图估计一个视差图。两个并行的重建方案,然后应用。目标视图由PixRNet ( Pixel-wise Reconstruction Network ) 或PixRNet(基于像素的重建网络)合成。对于逐像素方案,给定视差估计,首先通过应用前向扭曲将输入视图投影到目标位置。PixRNet将投影视图及其遮挡蒙版作为输入来合成新视图。PixRNet在低纹理区域提供精确的像素值然而,由于针对不同输入视图估计的视差值之间的不一致性,投影视图的像素空间中的简单融合可能导致高度纹理化区域以及对象轮廓上的模糊因此,ARSNet被设计为补偿这一缺点。在ARSNet中,重建是基于为新视点推断的低级特征。从VGG 19-Net[12]的较低层中提取,输入视图的特征以不同的分辨率尺度被扭曲到目标位置,以生成相应的目标视图特征,解码器从中重建彩色视图。最后,学习的软组合掩码合并PixRNet和PixRNet的输出。3.2. 视差估计通常,视差是指立体对的左视图和右视图中的两个对应点之间的距离。假设光场视图被很好地矫正并且规则地间隔开,则方便的是使用因此,给定输入集合I={Ltl,Ltr,Lbl,Lbr},可以在每个输入视点处计算两个视差图。让我们以左上角的视图Ltl为例,可以在水平对(Ltl,Ltr)之间或在垂直对(Ltl,Lbl)之间计算视差,如d1=DNet(Ltl,Ltr),(1)d2=R−1<$DNet ( R ( L) , R(L))。(二)2558不不不不不不不不pKK图2.我们的端到端框架概述给定角视图{Ltl,Ltr,Lbl,Lbr}作为输入,深度估计器(蓝色)预测深度{dtl,dtr,dbl,dbr}。 PixRNet(orange)基于封装的视图{Ltl,Ltr,Lbl,Lbr}重建目标视图L Pix。对了,VRNet(紫色)基于从VGG网络底层提取的扭曲多尺度输入特征推断目标视图的特征。 然后重建了视觉效果。最后,在融合模块(绿色)中,LPix和LFeat使用软遮罩M进行融合,从fPix和fFeat学习,表示PixRNet和PixRNet的最后一层的输入特征图。DNet是一个卷积神经网络,它估计两个立体视图之间的视差。在这项工作中,我们采用了一个预先训练的PWC-Net模型,然后通过同一条路径上的光场图像对对其进行微调。符号R(·)和R−1(·)是逆时针和顺时针旋转90μ m,这使得能够以与水平对相同的方式处理垂直对一个更好的地图可以通过应用一个简单的像素来获得viewpointt,在具有非整数坐标p=(xp=,yp=)的位置处,具有视差值di(p):p=p+(t-i)di(p)。(四)在整数坐标q=(xq,yq)处的pix el值Lt(q)从附近的值Li(p)插值为ΣnpLi(p)W(p,q)d1和d2的智能融合。 使用d1或d2,Ltr,Lbl和Lbr被投影到左上位置(位置Lt(q)=n(p,q).(五)的Ltl)。通过对三个扭曲视图的三个RGB颜色通道求和来计算对应的扭曲误差e1(使用d1的扭曲)或e2(使用d2最后,对于每个像素p,视差值被选择为:k′= arg min e(p),d(p)= d ′(p).(三)K这部分的工作受到了Jiang等人的启发。[25],它使用FlowNet2 [26]作为角视图的视差估计模块。相反,我们使用轻量级PWC-Net架构,这使得包括其他模块在内的端到端学习成为可能3.3. 逐像素重建权重W(p,q)的计算对于端到端学习性能至关重要应解决三个问题:1/-权重计算应是可重构的; 2/-如在传统插值中一样,两个像素之间的距离应该反映在权重中; 3/-应处理闭塞。所以我们提出W(p,q)=wD(p,q)wd(p),其中wD是坐标距离度量wD(p,q)=l(xp,xq)l(yp,yq),(7)哪里逐像素重建模块(PixRNet)遵循传统的DIBR方法来生成新的视图。具体地,基于所估计的视差图,输入l( x1,x2)=.(1−|x1−x2|),如果|x1−x2|<1个;0,否则,(八)将视图扭曲到目标位置,然后融合以生成最终视图。类似的设计可以在[9]中找到。并且,术语处理闭塞定义为w(p)= exp(−λd<$(p))。(九)除了[9]首先推断视差图di的事实之外,2559我在目标位置,然后采用后向投影,而我们的方案采用前向投影,我们方案的主要优点是使用了处理遮挡的依赖于几何尺寸的插值。带遮挡处理的插值 让我们将像素p =(xp,yp)从输入视点i投影到目标视差图di在0和1之间被归一化以成为视差图。通过采用指数函数,w_d给予前景像素更多的重要性(小的归一化距离)。奇偶校验值)而不是背景值(大的归一化视差值)。视差归一化还避免了大视差值处的权重饱和。2560不不不tt不t tit tt解除咬合处理。我们以四个为例,包装视图{Ltl,Ltr,Lbl,Lbr}和相应的请注意,在最近的工作中,已经利用了特征的使用来进行光场重建。但在大多数t t t t t t去除遮挡掩模{mtl,mtr,mbl,mbr}。检测在这些工程中[3,10],重建由t t t t t t的反遮挡掩模是直接的,翘曲,其识别在其邻域中没有投影像素的空间位置,即,当量(7)对所有p都等于零。然后,由4个卷积层的小型网络处理未遮挡区域上的修复,以获得重建的vie wLPi x。损失函数被计算为重建视图与地面实况之间的绝对差的平均值(MAD):L1=MA D(L<$Pi x,Lt)。(十)3.4. 基于特征的重建使特征在重构视图和参考视图的那些上计算。在这里,我们提出一种自下而上的方法。我们首先通过扭曲变形的源视图VGG特征来计算目标视图特征。然后从所生成的目标视图特征推断目标视图。这是出于直觉,即针对对象识别优化的VGG特征可以是良好的纹理生成模型。3.5. 端到端融合学习最终执行端到端学习,包括一个融合模块来测量LPix和LFeat,进行最终重建,t t由于差异估计之间的不一致,不同的输入视图、像素空间中投影视图的简单融合可能导致高度纹理化区域以及对象轮廓的模糊。因此,我们提出了基于特征的重建模块(pixRNet)作为PixRNet的补充模块。对于每个输入视图Li,我们提取低级特征:<$Li∈I,{f1,f2,f3}=<$Ext(Li),(11)结构L在高曝光和无曝光区域都表现不佳基于最后一个图层对于PixRNet和PixRNet,融合模块学习值在0和1之间的软掩模M(由S形激活强制),这使逐像素重建误差最小化:L=MAD(Lt,Lt),(15)与我我我with FeatExt(·) being the operator that extracts featuresfrom the layers relu1 2,relu2 2 and relu3 4 of a pre-trainedVGG 19-Net,并且fs是比例为s的特征体积(Lt=MLPix+(1−M)LFea t。(十六)4. 培训详情is+1sfi中特征图的分辨率是fi中特征图的分辨率的一半)。然后,这些特征被扭曲到目标位置,类似于第3.3节中针对像素所述的方式:{f∈i,s,mi,s}=Warp(fs,t).(十二)扭曲的特征被输入到卷积层,以在每个尺度s下推断目标视图的特征体积:.当s=3时,我们称之为C_n v({f_i,s,m_i,s,m_i});我们在补充材料中提供了PixRNet、PixRNet和融合模块层的结构细节PWC-Net的结构用作差异估计模块,可以在[27]中找到。训练时间表。对于这样一个包含多个模块的网络,从头开始进行端到端学习是很容易的。为了确保每个模块都能收敛好的,并且正确地学习了最终视图推断,我们遵循特定的训练时间表。我们首先用光场视图的立体对微调预训练的PWC-Net,fs=t t(十三)tCon v({fi,s,mi,s,i},↑fs+1),如果s=1,2.在尺度s=1和2处,在先前尺度s+1处的推断特征被上采样2并且也被馈送到网络中。上采样运算符↑由deco n volutionlaye r. 最后,我们的目标是侦察-基于最精细尺度的特征构建。通过计算在颜色空间和特征空间监督重构Σ3使其适应视差估计。 然后,PixRNet和使用Eq.的损失函数分别训练了RNet。(10)和Eq.(14)分别。在这个阶段,PWC-Net的权重是固定的,原因有两个。一是加速模型收敛。第二个原因是,为了减小完整模型的大小,我们限制两种重建方案使用相同的视差。最后,进行了包括PWC-Net、PixRNet、PICRNet和融合模块的端到端训练注意,在该最后阶段,因为我们的目的是最小化逐像素重构误差(等式10)。(15)、培训不再L2=MAD(L<$Feat,Lt)+γiMAD(f<$s,fs),(14)tt ts=1其中等式中的第二项。(14)表示推断的特征与地面实况目标视图的特征之间的差异。2561由特征级重建误差监督。我们的训练数据包括94个合成光场场景[28,29]和100个由Lytro Il-lum相机捕获的真实世界场景[9]。该模型首先在合成光场上进行训练为2562不不不训练和微调,我们工作在大小为160×160的光场补丁上,批量大小为5。该模型以0.00001的固定学习率进 行 训 练 , 超 参 数 设 置 为 λ=10 , γ1=1/64 ,γ2=1/32,γ3=1/4。 培训需要大约5天的GPU特斯拉V100与32 GB的内存。我们的工作是用tensorflow包实现的。5. 实验结果5.1. 合成数据我们使用来自几个合成数据集的测试光场来评估我们的框架[28,29,30]。我们的方法与四种最先进的光场视图合成方法进行了比较,这些方法很好地代表了该领域的最新趋势:深度学习框架中的传统DIBR(DeepBW [9]),通过具有学习(LLFF [3])或不具有学习(Soft3D [8])的多层场景表示的合成,以及基于学习的EPI结构的视图插值(EPI [11])。除LLFF之外的所有参考方法都采用2×2角视图来生成中间视图。LLFF的发布模型需要至少5个输入视图。因此,对于COM-为了方便起见,LLFF用2 ×2视图和第五个视图(与视图Ltl水平紧邻)进行测试。作为学习型的表现方法可能会受到训练数据的高度影响,为了公平比较,所有预训练模型都使用我们模型训练的相同数据集我们还将LLFF所需的估计相机姿态替换为地面真实姿态,以确保错误仅仅是由于重建管道造成的。表1比较了中心视图在PSNR方面的重建质量我们的模型的普通版本被命名为FPFR。FPFR* 指的是注意,出于比较的目的,PixRNet和PixRNet可以用视差估计模块单独训练,以自身成为两个完全独立的视图合成模型我们-静物画里的桌布和餐具柜里的墙纸)。此外图图4(a)示出了FPFR在不同视点上一致地生成高质量视图,而当目标视图远离输入视图时,其他方法的重建质量降低。注意,单模方案PurePix和PureFeat也获得了表1中的竞 争 结 果 。 与 DeepBW [9] 相 同 , PurePix 平 均 比DeepBW好3.7dB,特别是对于稀疏场景。我们认为这主要是由于PixRNet设计中的遮挡和解除遮挡处理。5.2. 真实世界数据对于真实世界的实验,我们使用与[9]中相同的训练集和测试集。为了进行公平的比较,所有基于学习的模型都使用相同的数据集进行微调。表2显示我们的方法实现了最高的PSNR。注意,对于场景叶获得4.5dB的增益。至于合成数据,类似的观察结果可以在图中得到。3对于真实世界场景:我们获得了更精确的轮廓和保存良好的纹理。5.3. 消融研究像素与特征为了证明像素方式和基于特征的重建执行的 不 同任 务 , 在 图中 。 5 我 们 展示 了 从 PixRNet 和PixRNet中的最后一层获取的特征图的示例,从中重建了颜色视图。我们观察到,在PixRNet特征图中,高度增强的纹理和清晰的线条结构,而PixRNet特征图可以提供诸如亮度、颜色和对比度等信息。基于神经网络的重建与感知损失通过特征空间优化视图重建质量的常见做法是应用所谓的感知损失[32]当执行端到端学习时。为了验证我们将像素级重建与基于特征的重建相结合的概念,我们将FPFR与PurePix端到端学习的单模式方案进行了比较,感知损失。在实验中,我们观察到FPFR约为0.7dB。在图6中,我们首先分析了网络不同阶段的收敛行为(例如,PixRNetLPix的输出,PixRNetLFeat的输出)。t t注意这两个模型也是以端到端的方式训练的。测试光场根据其视差范围(从密集到稀疏)排列。平均而言,我们的方法(FPFR和FPFR*)显著优于其他方法:相对于最佳参考方法,观察到接近2dB的增益。我们的方法表现得特别好,高度纹理的场景,如。静物。重建误差图如图所示。3.第三章。可以观察到,我们的方法在物体轮廓和纹理区域中的薄结构(例如,的红色,最终输出为蓝色)。核聚变推动了每种模式在其域中执行:图像LPix在颜色和低频上更准确,而LFeat包含比参考图像更高的纹理级别(这说明了LFeat在培训)。因此,最终图像Lt(蓝色曲线ve)获得更好的质量都在低和高频率(见图)。1)。在图6中,我们还将FPFR与单模方案PurePix(绿色)和PureFeat(黄色)进行了比较。FPFR具有明显的优势2563LFS视差范围DeepBW[9]Soft3D[8]LFF [3]EPI[11]PurePixPureFeatFPFRFPFR*mona†[-5,5](10)38.9040.9241.2037.5439.9040.3542.4742.86蝴蝶†[-6(14)40.6842.7541.3539.6141.6439.3342.6942.96佛陀[-10(16)41.0841.8640.6640.0541.2440.9942.7843.06棉纤维[-9,9](18)47.2448.9547.0747.9748.1846.4548.5848.76盒子[-7、13](20)33.6432.1434.9731.6533.4433.9033.8634.46迪诺拉[-10、10](20)38.4141.6941.2638.4440.6339.3842.6642.98餐具柜[-10、12](22)30.9130.2332.3327.3029.4330.7931.8532.18玩具积木[-1、22](23)28.9036.5837.9831.4636.5536.0138.8439.35电子设备[-10、17](27)34.0936.2436.7631.5535.5334.8737.6338.03静物画[-16,16](32)26.2934.7332.7332.0233.9632.7736.3937.05狮子座[-5、29](34)28.0535.1835.2233.9135.1034.9935.4735.59两个花瓶[-5、39](44)25.6532.4935.8229.0933.4634.7835.5635.99雕塑艺术[-26、34](60)22.3129.1529.6826.2228.5629.5130.0930.30熊的尾巴[-38、53](91)18.3628.0033.2223.4029.0032.6431.8733.84平均-32.4936.4936.4333.5936.1936.2037.9238.39表1.合成测试光场上重建的中心视图的定量结果(PSNR)。相应的数据集由符号表示:[28][29]光场视图DeepBW [9] Soft3D [8] LLFF [3] EPI [11] FPFR图3.不同方法的重建误差图的视觉比较补充材料中提供了更多结果LFSDeepBW[9]Soft3D[8]LFF [3]EPI[11]FPFR*汽车31.5327.6829.0628.1732.25花133.1330.2930.0030.4434.49花231.9530.5228.9029.2634.19岩石34.3232.6732.6032.4636.75叶27.9727.3427.7426.4832.53海马32.0330.4128.5026.6234.97平均31.8229.8229.4728.9033.91表2.真实世界数据(8×8视图)上重建视图(5,5)的定量结果(PSNR)[9]。单刻度与多尺度将基于特征的重建的单尺度结构(s= 1)与其多尺度对应结构(s = 1,2,3)进行比较。在实验中,观察到约0.5dB的增益,有利于多尺度架构。5.4. 外推外推具有合理不遮挡的光场可能是比内插更困难的任务,因为在输入视图中已知的目标视图的信息更少。图4(c),我们评估我们框架的内在能力2564(a) 内插视点的PSNR(b)视图索引(c)外插视点图4.每个新视点的8个合成场景([28,30])的平均PSNR(a)插值。(c)外推。(b)查看内插和外推指数。4个输入视图(红色斜线)用于FPFR,DeepBW[9],EPI[11]或FDL[31],而5个输入视图(灰色)用于LLFF[3]。图5.从PixRNet和PixRNet的最后一个潜在层获取的特征映射图6.不同端到端方案(FPFR、PurePix和PureFeat)的学习曲线 对于FPFR,还示出了中间输出(LPix和LFea t)的曲线。[3] LFF。作为输入,我们的方法和FDL采用4个角视图(图中的红斜线)。4(b))窄基线的3×3视图子集。由于LLFF需要至少5个视图,因此中心视图也包括在输入视图中(图中为灰色)。第四条(b)款)。输出为9×9的扩展光场视图(4×基线)。可以看出,我们的方法-通过大幅度执行参考方法宽延长基线,更重要的是我们的收益。请注意,LLFF和我们的模型都是针对插值任务进行训练的,在这里,我们评估了无需任何进一步训练即可外推的固有能力。5.5. 限制依赖于视差估计,我们的方法可以受到非朗伯表面的错误。此外,即使我们的方法被证明是有效的结构光场,对于非结构化的,未来的工作将需要通过耦合的方法与适当的姿态估计方法。6. 结论我们提出了一种新的基于学习的光场视图合成模型。为了在低频和高频中获得高质量的重建,执行端到端学习,包括逐像素重建模块和基于特征的重建模块。实验表明,所提出的模型实现了最先进的性能,无论是合成和现实世界的光场。7. 确认这项工作由欧盟H2020研究和创新计划资助,资助协议编号为694122。t t(ERC先进的赠款CLIM)。我们还想展示感谢Ben Mildenhall为我们提供LLFF工作外推对两个参考方法FDL[31]代码和博士。肖兆林,鼓励讨论。2565引用[1] Bennett Wilburn 、 Neel Joshi 、 Vaibhav Vaish 、 Eino-Ville Talvala 、Emilio Antunez、Adam Barth 、AndrewAdams、Mark Horowitz和Marc Levoy。使用大型相机阵列的高性能成像ACM Trans. on Graphics,24(3):765- 776,Jul. 2005. 1[2] Marc Levoy和Pat Hanrahan。 光场渲染-ing.在proc23周年Conf. Comput. Graph. 互动.Techn.(CCGIT),第31-42页,1996年。1[3] 作 者 : Ben Mildenhall , Srinivasan , Rodrigo Ortiz-Cayon,Nima Khademi Kalantari,Ravi Ramamoorthi,Ren Ng,and Abhishek Kar.局部光场融合:实用的视图合成与规定的采样指南。 ACM Trans. 图形,2019年。一二三五六七八[4] Lixin Shi , Haitham Hassanieh , Abe Davis , DinaKatabi,and Fredo Durand.利用连续傅立叶域中的稀疏性重建光场。ACM Trans. on Graphics,34(1):12,2014. 一、二[5] 斯文·万纳和巴斯蒂安·戈德卢克。用于视差估计和超分辨率 的变 分光 IEEE传输 模式 分析马 赫内 特尔 ,36(3):606-619,Aug. 2013. 一、二[6] Suren Vagharshakyan , Robert Bregovic , and AtanasGotchev.利用剪切波变换重建光场。IEEE传输模式分析马赫内特尔,40(1):133- 147,2018. 一、二[7] Zhoutong Zhang,Yebin Liu,and Qionghai Dai.来自微基线图像对的光场。 在IEEE会议 计算机视觉和模式识别(CVPR),第3800-3809页,2015年。1[8] Eric Penner和Li Zhang。用于视图合成的软3D重建。ACM Trans. on Graphics,36(6):235:1-235:11,2017. 一、二、六、七[9] Nima Khademi Kalantari , Ting-Chun Wang , and RaviRa-mamoorthi.基于学习的光场相机视图合成。ACMTrans. on Graphics,35(6):193:1-193:10,2016.一二三四五六七八[10] Tinghui Zhou , Richard Tucker , John Flynn , GrahamFyffe,and Noah Snavely.立体放大:学习使用多平面图像的视图ACM Trans. on Graphics,37(4):65:1-65:12,2018. 一、二、三、五[11] 吴高昌,刘业斌,戴琼海,柴天佑。光场重建之剪切外延结构学习。IEEE传输图像处理。,28(7):3261-3273,2019. 二三六七八[12] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。二、三[13] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。在Siggraph,第43- 54页,1996中。2[14] Gaurav Chaurasia 、 Sylvain Duchene 、 Olga Sorkine-Hornung和George Drettakis。深度合成和局部用 于 基 于 图 像 的 合 理 导 航 的 扭 曲 。 ACM Trans. onGraphics,32(3):1-12,2013. 2[15] John Flynn,Ivan Neulander,James Philbin,and NoahSnavely.学习从世界的图像中预测新的观点。在IEEE计算机视觉和模式识别(CVPR)会议上,第5515-5524页,2016年。二、三[16] Anat Levin和Fredo Durand使用维度间隙光场先验的线性 视 图 合 成 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第1831- 1838页,2010年。2[17] Sudipta N Sinha , Johannes Kopf , Michael Goesele ,Daniel Scharstein,and Richard Szeliski.基于图像的渲染具有反射的场景。ACM Trans. on Graphics,31(4):100-1,2012. 2[18] Srinivasan Pratul , P. , Tongzhou Wang , AshwinSreelal,Ravi Ramamoorthi,and Ren Ng.学习从单个图像合成4D RGBD光场 在IEEE国际Conf. 计算机视觉(ICCV),第2262-2270页,2017年。2[19] Gaochang Wu , Mandan Zhao , Liangyong Wang ,Qionghai Dai,Tianyou Chai,and Yebin Liu.在EPI上使用深度卷积网络进行光场在IEEE计算机视觉和模式识别(CVPR)上,第1638-1646页2[20] 王云龙、刘飞、王子雷、侯光启、孙振安、谭铁牛。使用伪4DCNN进行光场成像的端到端视图合成。以Eur.计算机视觉会议(ECCV),第333-348页,2018年。二、三[21] Shubham Tulsiani,Richard Tucker和Noah Snavely。通过视图合成的层结构3D场景推断。以Eur.计算机视觉会议(ECCV),第302-317页,2018年。3[22] 放大图片创作者:J. Kim和Jan Kautz。极限视角合成。在IEEE国际会议上计算机视觉(ICCV),第7781-7790页,2019年。3[23] Nan Meng , Hayden Kwok-Hay So , Xing Sun , andEdmund Lam.用于光场重建的高维稠密残差卷积神经网络。IEEE传输模式分析马赫内特尔,2019年。3[24] Henry Wing Fung Yeung,Junhui Hou,Jie Chen,YukYing Chung,and Xiaoming Chen.快速光场反射,具有空间-角度线索的深度粗到细建模。 以Eur. Conf. 计算机视觉(ECCV),第137- 152页,2018年。3[25] 姜晓然,施静蕾,克里斯汀·吉列莫。一个基于学习的深度估计框架,用于4D密集和稀疏采样的光场。在IEEE 国 际 会 议 上 关 于 声 学 , 语 音 和 信 号 处 理(ICASSP),第2257- 2261页,2019年。4[26] Eddy Ilg , Nikolaus Mayer , Tonmoy Saikia , MargretKeuper,Alexey Dosovitskiy,and Thomas Brox.Flownet2.0:深度网络光流估计的演变。在IEEE会议 计算机视觉和模式识别(CVPR),第1647 - 1655页,2017年。42566[27] 孙德清
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功