动态插值：宽基线极端稀疏光场的可学习模型与几何插值的比较

154 浏览量更新于2023-09-25 收藏 1.8MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2450宽基线极端稀疏光场的学习动态插值郭满堂*景进*慧刘俊辉侯香港城市大学计算机科学系香港特别行政区{mantanguo2-c，jingjin25-c，hliu99-c} @ my.cityu.edu.hk，jh. cityu.edu.hk摘要索引通信MLP插值权重本文研究了从宽基线稀疏采样数据重建稠密光场（LF）的问题，提出了一种可学习的模型，即动态插值模型，以代替常用的几何插值模型。插值插值邻域对应点尝试翘曲操作。具体地，利用输入视图之间的估计的几何关系，我们首先构造一个输入视图合成视图距离输入视图合成视图距离轻量级神经网络动态学习用于从输入视图内插相邻像素的权重，以独立地合成新视图的每个像素。与在几何扭曲操作中采用的固定和内容无关的权重相比然后，我们恢复的空间相关性的独立合成的像素之间的每个新的视图通过参考输入视图使用基于几何的空间细化模块。我们还通过视差导向的LF结构损失来约束新视图之间的角度相关性。在宽基线LF数据集上的实验结果表明，重建的LF实现了更高的PSNR/SSIM，并且比现有技术方法更好地保留了LF视差结构。源代码可在https://github.com/MantangGuo/DI4SLF上公开获得。1. 介绍密集采样光场（LF）图像不仅记录了然而，密集采样的LF对采集提出了很大的挑战。例如，摄像机阵列[33]或计算机控制的台架[29]要么体积庞大，要么不可靠。这项工作得到香港研资局的资助，资助额为城大21211518及11218121。通讯作者：侯俊辉*同等贡献(a) 常用整经输入视图合成视图输入视图合成视图...嵌入...嵌入(b) 动态插值图1.比较常用的翘曲操作和所提出的动态插值。与固定和内容无关的权重在翘曲操作中采用（以双线性插值权重为例），我们建议，姿势动态学习几何感知和内容自适应插值权重从精心构造的嵌入。在捕获静态场景方面，低成本的LF相机[17，21]是被动的或有限的，而高成本的商业LF相机[17，21]由于有限的传感器分辨率[8，9]而遭受空间分辨率和角分辨率之间的权衡。尽管已经提出了许多计算方法来从稀疏采样的LF重建密集采样的LF，但是输入视图之间的宽基线仍然是一个很大的挑战。更具体地，非基于深度的方法[23，37，35，31，36，4，5]研究LF数据的隐式信号分布以学习从稀疏到密集LF的映射。这些方法不可避免地遭受混叠问题，并且当LF极度欠采样时导致伪影相比之下，基于深度的方法[32，12，34，11，10]通过利用显式几何信息表现得更好。这些方法遵循基于扭曲的视图合成的一般管道。2451SIS，并且主要集中于改进视差估计和后处理细化。然而，重建质量仍然是有限的。在本文中，我们解决了具有挑战性的问题，LF重建从极其稀疏和宽基线的输入，根据洞察，常用的翘曲操作面临的自然限制。具体地，扭曲操作通过使用来自输入视图的像素的相邻像素执行插值来合成新视图的像素。所采用的内插权重通过使用一小组邻居拟合简单且平滑的曲线来确定，这不可避免地影响重建质量，因为没有考虑内容信息。为此，我们提出了一个可学习的模块，即动态插值，以取代常用的扭曲操作。如图1，动态内插使用轻量级神经网络来动态地预测几何感知和内容自适应内插权重以用于新颖视图合成。由于新视图的像素是独立合成的，因此我们通过参考使用基于几何的细化模块的输入视图的像素来恢复它们之间的空间相关性。我们还通过视差导向的LF结构损失来约束新颖视图之间的角度相关性。大量的实验结果表明，所提出的模型的显着优越性LF数据集与宽基线的翘曲为基础的方法，以及其他国家的最先进的。综上所述，本文的主要贡献如下：• 我们深入分析了处理宽基线输入LF重建挑战的几何扭曲操作，并指出本质限制在于插值权重的弱点• 本文从一个新的角度对LF重建进行了重新表述，提出了动态插值方法，克服了几何扭曲操作的局限性。2. 相关工作现有的LF重建方法可以大致分为两类：非学习型方法和学习型方法。非基于学习的方法通常采用各种先验假设来正则化LF数据，即，基于高斯的先验[16，15，19]，稀疏先验[18，23，28]和低秩[13]。这些方法要么需要许多稀疏采样，要么具有高计算复杂度。显式估计场景深度信息，然后利用它将输入的子孔径图像（SAI）变形为新的图像是LF重建的另一种方法。Wanner和Gold-luecke [32]通过计算在输入视图处估计视差图对极平面图像（EPIs）的结构张量进行计算，然后使用估计的视差图将输入的SAIs变形到新的视点。这种方法使得重建质量在很大程度上依赖于深度估计的精度。Zhang等人 [39]提出了一种视差辅助的基于相位的方法，其可以迭代地细化视差图以最小化扭曲的新SAI与输入SAI之间的相位差然而，合成的SAI的角位置被限制到输入视图的附近，其不能重建具有大基线的LF最近，已经提出了许多基于深度学习的方法来从稀疏采样重构密集LF。Yoon等人。 [37]通过使用三个单独的网络，从空间上采样的水平、垂直和周围SAI对重建了新型SAI。这种方法只能从相邻的SAI中回归新的SAI，并且不能处理具有大差异的稀疏LF。 Wu等人。 [35]使用2-D图像超分辨率网络来恢复沿插值EPI的角维度的高频细节。类似地，Wang等人。 [31]通过使用3-D卷积神经网络（CNN）恢复EPI堆栈的高频细节。这些方法处理4-D稀疏LF的2-D或3-D切片，其不能完全地解释LF中隐含的空间-角度相关性 Ye-ung等人[36]提出了计算高效的空间-角度可分离卷积，用于在单个前向通过中从稀疏LF重构密集LF。基于扭曲的非学习LF重构方法的流水线也被几种基于深度学习的方法采用。Kalantari等人 [12]使用两个顺序网络分别估计新视图处的视差图，并分别从扭曲图像预测新SAI的颜色。Wu等人 [34]从剪切的EPI体积中提取深度信息，然后使用它来重建高角度分辨率的EPI。这些方法或者忽略合成大小的SAI之间的角度关系，或者在重建期间未充分使用输入SAI的空间信息。Srinivasan等人 [25]根据预测4-D射线深度的单个2-D图像重建LF。该方法只适用于差异较小的数据集，并且受到其泛化能力的限制Jin等人 [10]明确地从输入SAI学习了新视点处的视差图。他们通过将扭曲的输入SAI与置信图融合来单独合成粗糙的新颖SAI。然后，他们使用细化网络通过探索来自粗LF的互补信息 Zhou等人[40]通过使用CNN来表示场景的内容，在参考视图处预测多平面图像。然后，可以从具有单应性和α合成的多平面图像表示合成新视图。2452C内容嵌入空间码角度码几何编码内插小说观动态权重学习嵌入构造函数嵌入嵌入构造函数权重Σ其中T是合成的η个SAI的集合，并且f表示×个~L L--T{··· }S{··· }P×个×个PP--信心基于混合交融小说观雅化小说观级联内积图2.MLPCNN插值邻域合成像素所提出的用于从极稀疏（取M= 2为0）进行LF重建的动态插值模型的流程图。一个例子）和宽基线输入。我们提出的模型由三个部分组成：动态权重学习、基于置信度的混合和基于几何的空间细化。3. 问题分析用L（u，x，y）∈RU×H×W表示一个包含-It（xt）=xs∈Px′tw（xs−x′t;w）Is（xs），（3）每个空间分辨率Hff的U个子孔径图像（SAI），其沿着1-D直线采样。角位置u处的SAI表示为Iu。给定具有M个SAI的极其稀疏的LF，表示为=Is1，，IsM，其中MU，我们的目标是合成未采样的SAI的大小，由表示，其中N=U，M，使得由表示的密集采样的LF 可以重建为接近越好.这个问题可以隐式地表述为：L~=S[T~=f（S），（1）要学习的映射函数并不是说为了简化，在本文的其余部分中，我们还将输入SAI和目标SAI分别表示为Is和It3-D LF图像的SAI是从不同视点对同一场景的观察。在朗伯和非遮挡的假设下，相同场景点的投影将在不同SAI处具有相同强度。该关系可以描述为：It （ xt ） =Is （ x′t ），（2）其中x=（x，y）是空间坐标，并且x′是哪里x′t是x′t的邻居的集合，w是具有定义Is的像素的插值权重的参数w的函数。上述过程被常用的整经操作所采用。然而，我们从两个方面提供了一个见解，即该程序具有天然的局限性：(1) 它需要估计d来定位x′t。然而，估计未采样SAI与输入的差异SAI是一个挑战。更详细地说，如x′t是围绕x′t的一小组像素，例如，对于线性（或双线性）插值[25]，重建结果是2（或2 2(2) 权函数w（·;w）是通过使用小集合拟合简单光滑的曲线v e来定义的x′t，其忽略内容信息。因此，即使具有d的准确估计，也难以产生高质量的结果，特别是在具有纹理边缘、遮挡边界和非朗伯对象的区域上。基于这些观察，我们提出了一个新模型，t t tt即动态插值，合成T~从S，在Is处的It（xt）的对应像素的位置。给定由d表示的It（xt）的视差值，可以容易地将x ′ t计算为x′t=（x′t，yt′）=（xt+d（s t），yt）。基于该关系，It的像素可以通过col.在I上选择它们对应的像素。然而，由于x′t的值总是分数的，因此需要插值以通过相邻像素的加权和来计算对应像素的强度。插值过程可以公式化为：其通过学习几何感知和内容自适应内插权重来克服常用扭曲操作4. 该方法概况.如图2、所提出的模型，即动态插值，主要由三个部分组成，即，动态权重学习，自信-C几何-基于精化2453··--PP{|联系我们--xtx sxtx s^^~~不不 S基于混合和基于几何的空间细化。具体地，我们首先通过在其相邻像素上应用插值来独立地合成~It的从S。与通常使用的整经操作相比，其中CAT（）是级联运算，并且用于Is（Xs）以合成由WXt，Xs表示的It（Xt）的插值权重被预测为：Wx，xS =fw（Ex，x），（8）凯莉学到了。我们还估计置信度图以混合从不同输入SAI插值的像素，这进一步处理遮挡问题。然后，我们通过参考Is的空间相关性来恢复独立合成的像素之间的空间相关性。在本文中，我们设置M=2。值得注意的是我们的框架可以直接扩展到具有较大M的4-DLF。接下来，我们将介绍所提出的方法的技术细节。其中fw（）是可学习的MLP。为了减少计算成本，插值在Is中的It（Xt）的邻域上执行，而不是Is的整个范围。假设I t的视差范围是[dmax，dmax]，则It（xt）在Is中的邻域被定义为：xt=x=（x，y）xtdmax（s t）xxt+dmax（st），y=yt。我们预测，通过基于学习的权重在 xt上应用插值来计算It（xt）的sity，并且预测结果表示为4.1. 动态权重学习本模块旨在学习插值权重Is→t（xt），即，~Is→t（xt）=xsΣ∈PxtWxt，xs Is（xs）.（九）从Is独立地合成新SAI的每个像素，由It（xt）表示。通过多层感知器（MLP）预测每个像素Is（xs）的插值权重，并且将以下信息嵌入在MLP中：(1) It和Is之间的对应关系，这有助于隐式地定位对应的像素的It（xt）在Is中。对应嵌入包括由三个部件组成，即，一个几何代码Egeo一个spa注：与常用的翘曲操作相比，我们的动态插值具有以下优点：(1) 代替依赖于新颖SAI的视差估计准确度，我们利用在输入SAI之间直接估计的视差图，这可靠得多此外，几何信息通过学习可能的像素中的每个像素的权重来隐式地并入。交调码spaangxtxs最大的邻居，这可能会改善toler-geoxtx sEXt，Xs和角度码EXt，Xs。具体地，是Is（xs）的视差值，即，视差估计误差的大小。(2) 而不是使用一小组geoxtx s =Ds（xs），（4）像素进行插值，我们使用MLP学习权重其中Ds是Is的视差图，其是使用预先训练的光流模型从SEspa和并且在相对大的字段上提供内容信息以使权重适应于各种复杂的angxtx s 描述空间和角度之间的距离相邻相关性It（xt）和Is（xs），即4.2. 基于置信度的混合spaxtx s =xs−xt，Eang=s − t。（五）这些信息可以直接确定Is（xs）是否对应于估计的几何关系下的It（xt），并且因此，极大地帮助MLP定位Is中的信息像素并向它们分配较大的权重。(2)Is（xs）周围的内容信息，这有助于理解复杂的场景，例如纹理边缘、遮挡边界和非朗伯对象。为了构造由Ectt表示的内容嵌入，我们虽然权重学习模块具有通过嵌入内容信息来处理遮挡边界的问题的能力，但是仍然难以通过仅在输入SAI中的一个上进行插值来合成其对应关系在I例如，从一个视点被遮挡的对象可能从另一个视点可见。因此，我们将不同输入SAI合成的图像在指导下进行第一次向后翘曲另一个SAIxtxsS到I基于D，的置信度图，其指示非遮挡像素值较高。并且所得到的图像由Is’→ s表示。然后，我们em-使用子CNNfc（·）来学习内容信息，即，预测每个像素位置xt的置信度值CTTxtx s =fc.xs，xt，Is，^Is′→s，DsΣ.（六）在合成的SAI中，我们首先通过以下方式聚合I中的Xt的每个邻居的几何·期望fc能够检测Is的纹理边缘并理解遮挡和非朗伯关系通过比较Is和Is′→s，借助于Ds。最后，几何和内容嵌入，表示为链接，然后应用另一个MLP，由fb（）表示，在聚集的特征上，即，C~s→t（xt）=fb（C A T{Ext，xs|xs∈Pxt}），（10~EEEEE在我们的模型中使用的插值权重是动态的。2454xtx s）由E xtxs ，被构造为：其中Cs-t是Is-t的置信图。基于学习的置信度图，SAI从不同的合成-Extx s =CAT。E地理spaxtxsangxtxsCTTxtxsΣ，（7）将输入SAI组合以产生中间体、E、E、E2455不~~不~~EL LΣ不~~~~（13）I=f（I），t r联系我们·--×个不令H~tt表示以xo=（xo，yo）为中心的~ I b的贴片。应用填充以保持空间大小不变。基于x，我们可以收集H~t的对应补丁不不不1不不1s→t不1¨˜¨埃Coxo相位，从LF图像随机裁剪的32×32块-n over_SAI的结果，由~Ib 表示，即，不在LF的EPIs中。考虑到遮挡和非朗伯的存在，我们改为最小化距离~Ib=Σ哪里C~s→t⊙~Is→t，（11）在预测的EPIs和地面之间的梯度s∈{s1，···，sM}⊙是逐元素乘法运算符。4.3. 基于几何的空间细化由于~Ib中的像素是独立合成的，因此空间像素的合成是独立的。不真相请注意，EPI线的方向位于在LF的地面实况差异的引导这在训练数据集中很容易得到。这种面向视差的LF结构损耗可以公式化为迪不考虑它们之间的相关性。为了进一步-为了提高Ib的质量，我们提出了一个细化模块来恢复其空间相关性，通过推断，从其中ℓ =dE−是沿着方向de的梯度算子使用子CNN放置SAI。考虑到宽基线在Ib和Is之间，直接应用网络将难以从I b和I s中感知相应的信息。通过每个像素的地面实况视差d进行精细化，以及是和的EPIs 分别表示我们的框架是端到端的训练使用最终的ob-Is. 因此，我们采用基于几何的空间细化-射函数定义为：=哪里t∈{t1，···，tN}r+λ元素，其首先在补丁级别明确地定位Is中的对应关系，然后从Is学习空间相关性以细化~Ib。Xo不不不不损失λ彡0是针对视差定向为了在Is中定位其相似的补丁，我们首先估计dispar-通过对D_s进行围边，得到D~t，以及然后计算Htt的块级视差平均而言，5.1.培训详情和数据集不◦内容嵌入网络f（·）和spa（·）两者在其包含的所有像素上计算视差，导致d~h。然后，相应的补丁的中心位置r（·）是2-DCNN，由以下各项组成4个残差块[6]，具有大小为3×3的内核。零-在Is处的Htt，由xs=（xs，ys）表示，可以被估计为：xs = xt + dh（s-t）。（十二）我们建议读者参考补充材料的de-有尾网络架构。在训练o o~合成了SXOT我们在PyTorch中使用了unfold函数在Is处，其由Hss表示。中的像素之间的空间相关性以有效地定位每个合成像素的邻域。xox oH~tt，我们输入H~tt的级联及其相应的Xo{|∈批量根据经验设定为1。学习响应所有输入SAI中的补丁，即，Hssss1，，sM，到子CNN中以预测残差图用于精炼。然后，我们合并细化的补丁以产生新SAI的最终预测，即，Bt其中fr（）表示基于几何的空间细化模块。4.4.面向差异的损失新颖SAI的最终和中间预测用于重建的损失函数定义为：r=~I−I¨+¨~Ib−I¨+Σ¨~I−I¨。s∈{s1，···，sM}（十四）速率最初设定为1e−4，8000年后降至1e−5时代我们使用Adam [14]，其中β1= 0。9和β2= 0。999作为优化器。我们使用来自Inria Sparse LF数据集的29张LF图像训练了我们的框架[22]。每个LF图像包含9个SAI，其中相邻SAI之间的视差范围为[20，20]。我们在与输入相同的行处取第3和第7SAI，其具有高达80像素的宽基线，以训练框架。测试数据集由来自Inria稀疏LF数据集[22]的7张LF图像和来自MPI LF存档[1]的14张注意，MPI [1]是高角分辨率LF数据集，其中每个LF图像包含分布在扫描线上的101个SAI。因此，我们可以通过对具有不同基线的SAI进行采样来构建具有不同基线的测试LF。此外，由于每个新的SAI都是单独重建的最后，我们提出了一个面向视差的LF结构损失来限制它们之间的角度相关性。在Eq. (2)可以通过最小化沿直线方向的梯度5.2. 与最先进方法的我们将所提出的方法与三种最先进的基于深度学习的LF重建方法进行了比较，包括Kalantari等人 [12]，Wu等人 [34]和Jin等人 [10]。所有的方法都在同一个数据集上重新训练不E5.实验结果XoOOO间隔（详见第5.2节）。2456×个表1. Inria稀疏LF数据集上不同方法的定量比较（PSNR/SSIM）[22]。光场视差范围基线Kalantari等人[12个]吴等人[34个]金等人[10个国家]我们（PWCNet）我们（筏）电子器件【-19.6，32.8】28.49/0.87124.66/0.69128.51/0.86632.77/0.93633.04/0.94135.43/0.960飞行家具【-34.0，62.4】28.39/0.83828.83/0.78427.38/0.78331.69/0.89630.06/0.88133.93/0.935咖啡豆花瓶[10.8，58.4]27.17/0.88621.54/0.57923.04/0.83628.08/0.92729.63/0.93629.55/0.943恐龙【-57.6，72.8】23.00/0.77322.21/0.73123.07/0.78826.61/0.89724.94/0.86127.50/0.904花【-40.4，66.0】23.05/0.75721.96/0.66723.52/0.76724.36/0.84225.24/0.86024.86/0.849公鸡钟【-34.4，21.2】31.43/0.90422.71/0.71029.05/0.88727.69/0.92935.90/0.94638.16/0.966微笑的人群【-40.4，64.8】18.87/0.72217.01/0.59619.52/0.72921.01/0.82220.90/0.82422.87/0.877平均25.77/0.82122.70/0.68025.05/0.80227.46/0.89328.53/0.89330.33/0.9194238343026222019 - 04 - 26 16：00：00视差范围（一）10.950.90.850.80.750.72019 - 04 - 26 16：00：00视差范围（b）第（1）款• 我们的（RAFT）实现了显着更高的PSNR和SSIM比基线。虽然输入SAI之间的视差图也被提供给基线，但是其性能仍然受到在常用的扭曲操作中采用的固定和内容无关的权重的限制，这证明了在我们的方法中学习的动态权重的优点;• 我们的（PWCNet）比我们的（RAFT）差，但仍然比所有比较方法好得多。虽然具有不同水平的视差的估计视差图可以被表示为具有不同水平的视差的估计视差图。图3. 定量比较（PSNR/SSIM）不同在MPI LF数据集上的输入SAI之间的不同视差范围（像素）下的方法[1]。所有子图共享第一个子图中所示的相同图例。具有官方发布的代码和建议的配置。请注意，Jin等人[10]使用的2-D角卷积层退化为1-D卷积层以适应3-DLF。为了验证所提出的动态内插的优势相比，常用的扭曲操作，我们开发了一个基线模型，通过替换动态权重学习模块与基于差异的扭曲操作，同时离开基于置信度的混合和基于几何的细化不变。注意，为了确保公平的比较，用于扭曲的新颖视图的视差图是从与我们的相同的输入来估计的，即，来自预先训练的光流模型的输入视图的视差图此外，为了证明输入差异估计精度对我们模型性能的影响，我们采用了两种不同的光流方法，即RAFT[27]和PWCNet [26]，并使用它们分别训练两个模型，分别表示为Ours（RAFT）和Ours（PWC-Net）。Inria Sparse LF数据集的定量比较。我们以逐行的方式重建了Inria数据集[22]中的5个LF图像，并计算了重建的LF和Y通道中的地面真实值之间的PSNR和SSIM值表1列出了结果，其中可以观察到：质量，我们的方法可以自适应地聚集内容特征以提供用于学习动态权重的增益，这可以证明学习动态权重比常用的学习动态权重的优点。此外，我们期望我们的框架将进一步完善，提出更强大和先进的光流估计在未来;• 我们的方法实现了比Wu等人更高的性能 [34]。原因可能是Wu等人 [34]从重建2- D EPI的角度重建了LF，忽略了对两个空间维度之间的相关性建模，这限制了相反，我们的方法采用基于几何的细化模块来细化新SAI的像素之间的相关性，并进一步提高重建质量;以及• Kalantari等人 [12]和Jin等人 [10]都实现了比我们的方法更差的性能。此外到它们不能很好地从具有有限的CNN感受野的非常稀疏的LF估计视差，它们也不能处理由扭曲操作带来的严重伪像相比之下，我们的方法可以有效地减轻扭曲的错误，在重建非常稀疏的LF，通过动态学习内容自适应的权重为每个像素的新的SAI。此外，基于几何的细化模块可以进一步细化新的SAI以提高质量。MPI LF数据集的定量比较。此外，我们还评估了不同方法在不同视差范围下的MPI数据集上基线Kalantari等人Wu 等人Jin 等人我们峰值信噪比/dBSSIM2457×个GroundTruthBaselineKalantari et al.Wu等人Jin等人我们的（RAFT）图4.在Inria稀疏LF数据集上对来自不同方法的重建LF进行视觉比较[22]。每个LF的输入SAI之间的视差范围在左侧示出。GroundTruthBaselineKalantari et al.Wu等人Jin等人我们的（RAFT）图5.MPI LF数据集上不同方法重建的LF的视觉比较[1]。对于每个重构的LF，输入SAI之间的视差范围达到80个表2. Inria Sparse LF数据集上不同方法的运行时间（以秒为单位）和模型参数大小（M）的比较[22]。如图5所示，可以观察到我们的方法可以在遮挡边界处产生尖锐的边缘，而其他方法产生严重的失真或严重的模糊效果Kalantari等人[12个]吴等人[34个]金等人[10个国家]我们在这些地区。此外，我们的方法可以产生更好的高频细节的纹理区域比其他方法。时间0.65 6.32 27.77 0.69 2.78#参数0.95 2.550.242.22 0.69[1]的文件。每个场景包含一个高角度密集采样LF图像组成的101SAIs分布在一个扫描线上的空间分辨率为720 - 960。相邻SAI之间的视差约为1个像素。我们可以沿着角度维度以不同的间隔对SAI进行采样，以构建具有不同视差范围的LF。具体地，我们在两个输入SAI之间分别设置从8到80个像素的10个视差范围。对于每个视差范围，我们在两个输入SAI之间均匀地采样3个SAI作为地面实况。PSNR/SSIM如图所示。3表明，尽管所有方法的重建质量随着视差范围的增加而降低，但我们的方法在所有视差范围下始终实现比其他方法更好的重建质量，证明了我们的方法对不同视差范围的鲁棒性。定性比较。我们通过不同的方法直观地比较了宽基线低频重建的挑战之一是公平地重建大量的遮挡区域，而在窄基线中没有那么多。从图1B中所示的重建SAI和放大区域四个ods，这表明我们的方法仍然可以实现高质量的LF重建，即使在这样大的输入视差范围。更多目视检查结果请参见补充材料LF视差结构的比较此外，由于视差结构是LF数据的最重要的值之一，因此我们设法比较通过不同方法重建的LF的视差结构。一方面，比较图1和图2中的EPI。图4和图5表明，我们的方法可以比其他方法保留更清晰的线性结构，甚至对于对应于大视差区域的线，验证了我们的方法在极稀疏LF上保留视差结构的强大能力另一方面，预期从高质量LF估计的深度/视差图应接近从地面实况估计的深度/视差图。因此，我们比较了通过相同的基于LF的深度估计方法[2]从不同方法的重构LF估计的深度图。如图6，我们的方法可以在遮挡边界处产生更清晰的边缘，并在具有均匀深度的区域处保持平滑，这些区域最接近地面实况。这样的观察也证明了我们的方法在保留LF视差结构上的优势。位移范围= 80位移范围= 80[10. 八，五十八。四、[-19。六，三十二。第八节]基线2458×个GroundTruthBaselineKalantari et al.Wu等人Jin等人我们的（RAFT）图6.在Inria Sparse LF数据集上从不同方法估计的深度图的视觉比较[22]。每个LF的输入SAI之间的视差范围在左侧示出。效率比较。我们比较了不同方法的效率和模型大小。所有方法都在具有Intel CPU E5- 2699@2.20GHz、128 GB RAM和Tesla V100的Linux服务器上实现。如表2所示，我们可以看到Ours比Kalantari等人[12]和Wu等人[34]快得多，但比Baseline和Jin等人慢。[10]第10段。此外，我们的模型大小小于基线、Kalantari等人[12]和Jin等人 [10]，但大于Wu等人 [34]。综合考虑重建精度、效率和模型大小，我们认为我们的方法是最好的5.3. 消融研究我们进行了全面的消融研究，以验证我们框架中涉及的三个关键组件的有效性，即，内容嵌入、基于几何的细化模块和面向视差的损失项。具体而言，将每个组件依次添加到基础模型中，直到包含所有三个组件以形成完整模型。如表3和图3所示。7，可以看出，当将内容嵌入添加到基础模型时，性能有显著的提高，这验证了去表3.消融研究。“ ” denotes that the corresponding com- ponent isnot included, while “内容几何-差距-基于嵌入的细化定向损失PSNR SSIM√×√√√××个×个×个√√×29.05 0.90129.83 0.91530.140.92030.330.919他们的信心图的指导。图7.三个关键模块的有效性检测输入视图的纹理边缘，并理解输入视图之间的遮挡和非朗伯关系。图1中所示的视觉比较。7（实施例1-3）也验证了该优点。此外，基于几何的细化模块还可以带来约0. 3dB in-基于内容嵌入模型的PSNR提高左输入右输入左结果正确结果左自信10.80.60.40.2010.80.60.40.20正确的信心10.80.60.40.2010.80.60.40.20混纺地面实况丁图4中的实施例4-5图7还示出了一些精细结构，例如精细物体和纹理，在没有该模块的情况下明显断裂。它验证了有效性，我们细化像素相关性在新的SAI通过正确的指导下，从输入SAI。通过比较表3中最后两行中的结果和图3中实施例6-7中的EPI7，我们可以看出，在训练过程中通过地面真实差异来监督我们还提供了图1中基于置信度的混合之前和之后的中间视觉结果。图8示出了基于置信度的混合，其中可以观察到，基于置信度的混合通过利用图8下的左结果和右结果的优点来处理遮挡区域。图8.基于信任的混合的有效性6. 结论我们已经提出了一种基于学习的方法，用于从极其稀疏的LF重构密集采样的LF。更准确地说，我们专注于解决宽基线输入的挑战性问题，并提出了一种新的动态插值模型。通过学习几何感知和内容自适应的插值权重，通过一个轻量级的神经网络，我们的方法克服了常用的翘曲操作的限制，并有效地重建LF具有更高的质量，与国家的最先进的方法相比。实施例1实施例2实施例3实施例4实施例5实施例6实施例7内容嵌入基于几何的细化[10. 八，五十八。四、[-19。六，三十二。第八节]W/O模块与模块地面实况实施例2实施例12459引用[1] Vamsi Kiran Adhikarla，Marek Vinkler，Denis Sumin，RafałMantiuk，Karol Myszkowski，Hans-Peter Seidel，and Piotr Didyk.针对密集光场的质量度量。在IEEE计算机视觉和模式识别会议中，第58-67页[2] Jie Chen，Junhui Hou，Yun Ni，and Lap-Pui Chau.部分遮挡区域超像素正则化的精确光场深度估计。IEEETransactions on Image Processing，27（10）：4889[3] 郭春乐，景瑾，侯君慧，陈杰。经由遮挡感知网络的精确光场深度估计。在IEEE多媒体和博览会国际会议（ICME），第1-6页[4] Mantang Guo ， Junhui Hou ，Jing Jin ， Jie Chen ， andLap-Pui Chau.编码孔径上用于压缩光场重构的深度空间-角度正则化。在欧洲计算机视觉会议（ECCV）中，第278-294页。Springer，2020年。[5] 郭满堂、侯俊辉、金晶、陈杰、周立培.用于光场成像、去噪和超分辨率的深度空间-角度正则化。IEEETransactionsonPatternAnalysisandMachineIntelligence，2021。[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页[7] Fu-Chung Huang，Kevin Chen，and Gordon Wetzstein.光场立体镜：通过具有焦点提示的经因子化的近眼光场显示器的沉浸式计算机图形 ACM Transactions onGraphics，34（4）：60，2015。[8] Jing Jin，Junhui Hou，Jie Chen，and Sam Kwong.通过深度组合几何嵌入和结构一致性正则化的光场空间超分辨率。在IEEE计算机视觉和模式识别会议中，第2260-2269页[9] Jing Jin ， Junhui Hou ， Jie Chen ， Sam Kwong ， andJingyi Yu.通过混合透镜的注意引导融合实现光场超分辨率。在ACM多媒体国际会议（ACM MM），第193-201页[10] Jing Jin，Junhui Hou，Jie Chen，Huanqiang Zeng，SamKwong，and Jingyi Yu.深度从粗到细的密集光场重建，具有灵活的采样和几何感知融合。IEEE Transactions onPattern Analysis and Machine Intelligence，2020。[11] Jing Jin，Junhui Hou，Hui Yuan，and Sam Kwong.通过几何感知网络学习光场角超分辨率在AAAI人工智能会议（AAAI），第34卷，第11141-11148页[12] Nima Khademi Kalantari ， Ting-Chun Wang ， and RaviRa-mamoorthi.基于学习的光场相机视图合成。ACMTransactions on Graphics，35（6）：1[13] Mahdad Hosseini Kamal 、 Barmak Heshmat 、 RameshRaskar、Pierre Vandergheynst和Gordon Wetzstein。张量低秩稀疏光场摄影。计算机视觉和图像理解，145：172[14] Diederik P Kingma和Jimmy Lei Ba。Adam：一种随机梯度下降法国际学习表征会议（ICLR），第1-15页，2015年[15] Anat Levin和Fredo Durand使用维度间隙光场先验的线性视图合成在IEEE计算机协会计算机视觉和模式识别会议，第1831-1838页中IEEE，2010。[16] AnatL e vin，WilliamTFreeman和Fre'doDurand。通过光场投影的贝叶斯分析了解相机权衡在欧洲计算机视觉会议中，第88-101页Springer，2008.[17] Lytro http://lytro.com，2016年。[18] Kshitij Marwah，Gordon Wetzstein，Yosuke Bando，andRamesh Raskar.使用过完备字典和优化投影的压缩光场摄影。ACM Transactions on Graphics，32（4）：1[19] Kaushik Mitra和Ashok Veeraraghavan。光场去噪、光场超分辨率和基于立体相机的使用gmm光场片先验的重聚焦。在IEEE Computer Society Conference on ComputerVision and Pattern Recognition Workshops（CVPRW），第22-28页中。IEEE，2012。[20] Ren Ng等.数字光场摄影。斯坦福大学，2006年。[21] RayTrix 3D 光场相机技术。网址： http ：//raytrix.de/[22] 施静蕾，蒋晓然，克里斯汀·吉列莫。用于从密集和稀疏光场视图的灵活子集学习深度的框架 IEEETransactions on Image Processing，28（12）：5867[23] Lixin Shi ， Haitham Hassanieh ， Abe Davis ， DinaKatabi，and Fredo Durand.利用连续傅立叶域中的稀疏性重建光场ACM Transactions on Graphics，34（1）：1[24] Changha Shin、Hae-Gon Jeon、Youngjin Yoon、In SoKweon和Seon Joo Kim。Epinet：使用对极几何结构的全卷积神经在 IEEE 计算机视觉和模式识别会议（CVPR）中，第4748-4757页[25] Pratul P Srinivasan，Tongzhou Wang，Ashwin Sreelal，Ravi Ramamoorthi，and Ren Ng.学习从单个图像合成4drgbd光场。在IEEE国际计算机视觉会议（ICCV），第2243-2251页，2017年。[26] 孙德清、杨晓东、刘明宇和Jan Kautz。Pwc-net：使用金字塔、扭曲和成本体积的光流的Cnns。在IEEE计算机视觉和模式识

下载后可阅读完整内容，剩余1页未读，立即下载