稀疏IBRNet：基于深度完成的稀疏场景几何重建方法

193 浏览量更新于2023-10-25 收藏 2.58MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7813基于深度完成Yuqi Sun，Shili Zhou，Ri Cheng，Weimin Tan，Bo Yan*，Lang Fu复旦大学计算机学院，上海市智能信息处理重点实验室，上海市智能视觉计算协同创新中心{yqsun20，slzhou19，rcheng20，wmtan，byan*}@fudan.edu.cnful21@m.fudan.edu.cn，www.example.com摘要现有的基于图像的绘制方法通常采用大量的视图来重建稠密场景的几何结构。然而，实际上可用视图的数量是有限的。当仅提供少数视图时，这些方法的性能显著下降，因为场景几何也变得稀疏。因此，在本文中，我们提出了稀疏IBRNet（SIBRNet）执行强大的IBR稀疏场景几何深度完成。SIBR-（一）（c）第（1）款（b）第（1）款Net 有两个阶段，几何恢复（ GR ）阶段和轻混合（LB）阶段。具体地，GR阶段将稀疏深度图和RGB作为输入，通过利用两个模态之间的相关性来预测密集深度图。由于完整深度图的不准确性可能会导致扭曲过程中的投影偏差，LB阶段首先使用偏差校正模块（ BIAS-Corrected Module ，缩写为 BDE ）来校正偏差，然后对来自不同视图的修改后的特征进行聚合以呈现新视图.大量的实验结果表明，该方法在稀疏场景几何信息下的性能优于现有的IBR方法，在几何信息密集的场景中也能产生更好或11. 介绍基于图像的绘制技术（IBR）是新视点合成的经典方法之一，其目的是从真实视点合成新视点。它已被广泛用于增强各种应用中的可视化，例如虚拟导航[15]，视频稳定[24]，AR\ VR [37，38]。在IBR中，利用场景几何将源视图中的像素变形到目标视图中，并利用混合方法将它们聚合，从而生成新的视图。几何信息的准确性和完整性以及融合策略的有效性决定了输出的质量。1 本工作得到国家自然科学基金（批准号： U2001209 ，61902076）和上海市自然科学基金（21ZR 1406600）。* 通讯作者：薄燕.图1. 战略比较。（a）模拟密集视图SAM-在坦克模型上，而红色摄像机代表稀疏视图采样。(b)显示了最近的IBR方法的策略。它们采用密集视图来生成密集深度图，以获得更好的扭曲结果（在深度图下方），然后合成新视图。（c）显示我们的SIBRNet的范例在给定稀疏视图的情况下，稀疏深度图由MVS生成，然后发送到几何恢复阶段以完成。完整深度图具有与密集深度图相当的扭曲结果。然后应用光混合阶段来渲染最终结果。红框表示两个阶段的效果。最近的IBR方法[1，31，32]要求密集的几何-试图保证足够的正确投影。如图1所示。(b)他们使用大量的视图通过多视图立体算法（MVS）重建密集的代理几何[16，34，51]。这个过程非常耗时，只能离线进行。此外，密集视图在实践中不容易获得。当输入视图稀疏时，由MVS产生的场景几何也变得稀疏，导致这些方法的性能迅速下降。为了减少对密集视图的依赖，我们提出了SIBRNet对稀疏场景几何进行鲁棒的IBR。它包括两个阶段，几何形状恢复（GR）阶段和轻混合（LB）阶段。受最近的几何恢复工作（如点云上采样[21，54]和深度完成[25，46，56]）的启发，GR阶段将基于学习的深度完成网络引入IBR，以从稀疏深度图预测完整的深度图。如图所示MVS几何恢复混灯MVS...7814FVS SVS Ours GT稀疏深度图图2.与Tanks和Temples数据集上最近的IBR方法进行了视觉比较。FVS [31]和SVS [32]将在输入稀疏深度图缺失的区域中产生模糊，而我们的方法仍然可以合成逼真的结果。在图1中(c)在给定稀疏深度图的情况下，GR阶段可以确保与密集深度图相当的扭曲结果。LB阶段用于聚合不同的源视图并合成新视图。通过这种方式，我们的方法可以合成更好的结果比最近的IBR方法稀疏场景几何。此外，虽然我们的方法侧重于稀疏的几何输入，它也可以达到更好的或可比的结果时，输入几何是密集的。具体地，GR阶段将稀疏深度图和相关联的RGB图像作为输入以预测完整的深度图。为了充分利用深度和颜色之间的相关性，我们设计了两个子网络来提取不同的信息。通过融合来自两个子网络的结果来生成最终的完整深度图LB阶段利用完整的深度图通过3D变形将源视图特征图变形为目标视图。由于不准确的深度值会产生投影偏差，我们设计了一个偏差校正模块来校正这些扭曲的特征。然后，应用Bi-ConvLSTM聚合来自不同视点的信息最后，一个新的视图是通过混合所有候选图像与softmax。我们还提出了一个新的数据集称为环绕评估IBR方法在环绕设置。此外，为了在稀疏场景几何学上训练和评估我们的方法，我们预处理两个公共数据集，Tanks 和 Temples ， Free View Synthesis 和我们的Surround数据集，以生成不同稀疏度水平的深度图在三个数据集上的定量和定性实验表明，该方法对不同的深度稀疏性具有鲁棒性它可以生成更逼真的结果，特别是在稀疏场景几何体上，如图2所示。该方法在深度缺失区具有明显的优势。我们的代码和数据集将在这里发布。综上所述，本文有以下贡献：• 为了减少现有方法对密集输入视图的依赖，我们提出了一个两阶段模型SIBRNet，通过引入基于学习的深度完成网络，首次对稀疏场景几何进行鲁棒的IBR。该算法对不同稀疏度下的场景几何结构具有较好的鲁棒性。• 不准确的完整深度值将在变形过程期间导致因此，我们设计了一个偏置校正模块（ bias-corrected module），使用可变形卷积来校正这些偏差。• 一个新的数据集称为环绕提出评估。它包含每个场景的360度全景，对于在环绕设置中评估IBR方法非常有用。2. 相关工作传统的基于图像的渲染方法。 IBR在计算机视觉和图形学领域有着悠久的历史。早期的经典作品[8，14，20，22，26，42]专注于光场和视图插值，这需要规则分布的相机阵列和小基线视图。对于宽基线情况，大多数方法[2，3，9，15，19]以不同的方式重建密集的3D代理几何结构以保证良好的结果。一些方法[3，9]通过深度合成算法或光流来补偿较差的3D几何形状然而，我们的方法以深度学习的方式进行。基于倾斜的图像渲染方法。近年来，深度学习方法在IBR中取得了很好的效果. Flynn等人[13]首先将卷积神经网络（CNN）应用于视图插值中的平面扫描体积内。一些方法[30，43，58]使用隐式几何和图像生成方法来合成新颖的视图。这些方法仅针对单个目标或窄基线图像。近年来，在新的视图合成方法中，场景表示被广泛用于显式或隐式地理解场景几何。显式方法使用离散表示来描述场景几何形状，例如多平面图像（MPI）[12，28，41，57]，分层深度图像（LDI）[39，41，45]，点云[49]。它们通常需要大量的内存和计算成本。隐式方法将深度网络视为场景几何的隐式函数，以实现连续表示。NeRF [29]及其变体[17，27，55]通过应用5D辐射场来估计几何形状和外观，实现了令人印象深刻的结果7815我i=1--我GR阶段C，C，我的天++全球净局域网LB阶段NN我的朋友，N N我的天W我的朋友，SI11我的朋友，11重新封锁偏置校正模块Bi-ConvLSTM+ AddW WarpS Softmax图3.SIBRNet的管道。 GR阶段通过融合来自两个分支的结果来为每个视图Ii生成完整的深度图dc，全球网和地方网。 LB阶段首先提取特征图{fi}N从N个源视图，然后将它们扭曲到目标视图w N c N{fi}i=1，其中每视图完整深度图{di}i=1。由于不准确的深度值会导致投影偏差，因此会修改所有要素mw N tfii=1，并在Bi-ConvLSTM中混合以合成候选视图Ii和置信图Ct表示每个视图。最后，我们使用softmax融合每个视图来渲染最终结果It。ance. 一些最新的作品[44，47，53]将NeRF扩展到看不见的数据和稀疏输入。然而，它们只适用于合成对象或真实场景的小滑动视图，而我们的方法专注于更复杂和开放的场景。遵循传统方式，一些最近的IBR方法通过MVS算法[16，51]重建3D代理几何结构，然后在深度网络中混合像素Riegler和Koltun [31，32]使用数百张图像通过COLMAP [34]生成密集的深度图。他们的方法可以产生高质量的图像，但需要密集的视图来重建密集的代理几何。另一方面，Choiet al. [6] DeepMVS [16]和Shi等人估计源视图的深度概率。[36]将MVS模块直接引入网络进行端到端训练。尽管他们的方法允许稀疏视图，但由于复杂性，他们需要相比之下，我们的方法可以通过引入深度完成网络在稀疏场景几何上实现逼真的结果。它减少了所需视图的数量，同时允许HR图像。深度完井。深度补偿任务的主要目的是补偿低成本LiDAR和商业RGB-D相机捕获的差深度。根据是否有RGB作为输入，深度完成方法可以分为两类，仅深度方法[5，10，23]和图像引导方法[11，25，46，56]。由于RGB可以提供关于语义和边缘信息的强先验，因此图像引导方法通常具有更好的结果。受这些工作的启发，我们的方法将深度完成应用于从稀疏视图重建的稀疏深度图。完整的深度图可以产生与密集深度图可比较的变形结果。3. 方法在本节中，我们将介绍我们的方法SIBRNet。我们从数据集预处理步骤开始，在3.1节中准备不同稀疏度级别的深度图。然后在第3.2节和第3.3节中，详细描述了最后，损失函数和实现细节在第3.4节和第3.5节中给出。三点五SIBRNet的完整管道如图3所示。3.1. 预处理为了在稀疏场景几何上训练和评估我们的方法，我们使用COLMAP生成不同稀疏级别的深度图。我们先跟随里格勒和科尔顿[31]通过在COLMAP中实现的从运动恢复结构（SfM）和MVS方法从所有源视图估计相机姿态和密集深度图。由于当输入图像的数量减少时，生成的深度图变得稀疏，因此我们使用输入数量K来划分深度稀疏水平。设置K后，我们在源图像中均匀采样，并将它们发送到COLMAP中，为每个视图生成具体来说，我们将K设为4和8。从所有源视图获得的密集深度图被认为是地面实况，其中K= all。7816我我我不我我我i=1我我我我S不我我i=1我我我我我我联系我们我们在图4中展示了不同深度图的可视化。(a)当K=4，8和所有。3.2. 几何恢复阶段图像引导深度补全的早期工作[46，56RGB可以提供图像结构和语义，而深度可以提供边缘等细节。受此启发，我们设计了两个子网络来分别提取不同的信息。全局网络获取RGB图像Ii，K = 4 K = 8（一）其稀疏深度图Ds和有效深度掩码Mi作为输入完整深度图翘曲图像Ig为了生成完整的深度图D1和置信度图Cg. 为了提取颜色信息，它遵循U-Net [33]结构，具有多个跳过连接。此外，我们从全局网络中提取了一个深层次的特征来指导局部网络。我们将全局网络表示为：Cg，dg，fglobal=GlobalNet（Ii，ds，mi）（1）GT深度图GT（b）第（1）款我我我局部网络仅需要稀疏深度图ds和有效深度掩码mi。它使用了一个剩余的添加设计，以保留尽可能多的原点深度，这是在图3 来自全球网络的指导用于确保大的接收场。局部网络还生成完整的深度图dg和置信度图图4.深度图和图像失真的插图。（a）示出了当K = 4、8和全部时在不同稀疏度水平下的深度图(b)显示由不准确的完整深度引起的图像失真。完整深度图中的红框显示了一个不准确的区域。它会在3D扭曲过程中引起投影偏差，导致扭曲图像的黄色框中出现失真。Cg：我Cl，dl=LocalNet（ds，mi，fglobal）（2）深度图从GR阶段获得，以执行3D变形。3D变形通过将2D像素坐标投影到3D中的相同位置来实现2D像素坐标的变换我我我通过添加以下项来生成最终的完整深度图d。Gl空间取深度D、相机固有K和外部K[R|t]（R和t是指旋转和平移矩阵），di和di的权重，通过softmax从Cg和Cl。该过程可以描述为：dc= w g<$d g+ w l<$d l。其中，wg，wl=softmax（Cg，Cl）。两个插图输入时，3D扭曲按照以下等式进行：K−1Ds（ps）ps=Rr K−1Dt（pt）pt+tr，其中R r= R s R T，t r= t s− R r t t。（四）图3“GR阶段”中的置信度图Ci和Ci显示即全球网和本地网侧重于不同领域的深度完成。全局网更关注场景结构，如马的躯干区域，而局部网关注高频细节，如马的四肢。3.3. 光混合阶段2D图像中的每个像素可以被视为从观察场景我们的LB阶段将N个源视图{Ii}N作为输入，以混合来自p是2D像素的齐次坐标，并且s，t表示源视图和目标视图。对于每个源视图Ii，我们使用完整的深度图dc通过前向扭曲将其特征fi直接通过这个过程，我们得到了扭曲的特征fw。我们可视化变形前后的特征图，如图3“LB阶段”所示可以清楚地看到，fiN和fwN与源视图和目标视图对齐。偏差校正模块。理想情况下，扭曲的特征{fw}N与目标视图中的像素严格对齐。不同的观点，并综合一个新的观点。三个操作-变形、偏差校正和混合按顺序执行。跃迁我们首先使用一个特征提取器，然而，预测深度值的不准确性将导致变形特征中的投影偏差。这是至关重要的，以消除这些偏见，因为未对准的功能可能会导致内容失真，如图4所示。（b）. 以来块来提取特征图{f i}N 对于每个源视图。背景中的树在完整的深度中缺失然后，我们采取每视图功能和完整的地图，它在扭曲的图像中弯曲不正确。解决7817我我我我我t t Ni=1我L我我我我不我我不不我我我我我我我我我我我i=11N|·|∇--Σ我我我针对这一问题，我们采用了偏置校正模块（BIAS-Corrected Module，简称QCM）。作为最终结果，dc使用RGB图像Ii来保持清晰输入稀疏深度图DS在有效区域中具有精确值，我们利用它来获得精确的稀疏区域FEA。边缘.Ls（di）=1|Di|·exp（-|阿吉尔岛|）（10）通过3D扭曲来获得真实fsw和对应的偏置电势掩模Msw在此之后，我们从下式计算偏移量源特征fi和偏差中的变形特征fw其中表示绝对值，表示微分算子。GR阶段的总损失为：iglc c具有多个卷积层的潜在区域i=Conv（fi，fw，Msw）（5）LGR=Ld（di）+Ld（di）+Ld（di）+Ls（di）（11）LB阶段的损失。LB阶段使用N个源视图我我{I}合成一个新的观点I. 图像侦察-然后将偏移和扭曲特征f wN输入到可变形卷积[7，59]中以生成修正特征fdw。结构损失包括L1损失和感知损失[4]。它们分别用于像素级和特征级监控。给定预测图像It和地面实况fdw=DConv（fw，pi），（6）图像Ig，损失为：i i t最后，我们聚集稀疏精确的扭曲特征fsw和具有稀疏翘曲的修正特征fdwLLB=<$It−Ig<$1+<$λl<$Φl（It）−Φl（Ig）<$1（12）L掩码M_sw以创建最终修改的扭曲特征f_mw：i iΦl表示预训练的中间层的输出，f mw=M sw<$f sw+（1−M sw）<$f dw。（ 7）共混。在 [31]之后，我们尝试使用递归神经网络（RNN）在N源视图。然而，一个简单的单向RNN不适合IBR，因为在源输入视图中没有严格的顺序。因此，我们应用双向ConvLSTM（Bi-ConvLSTM）[35，50]进行混合。经验上，它是更强大的任意输入订单。双-ConvLSTM将N个修改的扭曲特征{fmw}N作为VGG-19网络[40]。如[31]中那样设置权重λl3.5.实现细节SIBRNet中的GR阶段和LB阶段是分开训练的。我们首先训练GR阶段。 GR阶段的全局网络是一个具有四个阶段的U-Net结构，每个阶段有两个卷积层，然后是平均池化。局部网络具有两个下采样层，由四个残差块和两个转置卷积组成，上采样。我们用60个epoch和batch输入以聚合来自不同源视图的信息，然后为每个视图生成候选图像It和置信图Ct大小设置为10。之后，我们修复GR阶段并训练LB阶段。特征提取器由16个残差块组成，特征提取模块采用金字塔级联结构{I，C}= Bi-ConvLSTM（fmw，.，柴油机（8）可变形（PCD）模块[48]。我们训练LB阶段与40batch size为1的epoch输入源的数量然后我们计算权重{wi}N出于信心视图N被设置为5。在这两个阶段，我们使用Adamax opti-映射{t N}i=1mizer，并设置学习率为1 e-4，补丁大小为256×256。Ci i=1至softmax。最后的结果是，通过用加权加法融合所有候选图像来引入I t=我也是。3.4.损失函数我们用不同的深度和颜色损失训练GR阶段和LB阶段GR阶段的损失GR阶段的全局网和局部网将产生两个不同的深度图dg和dl。然后，通过将它们融合在一起来生成最终的完整深度图dc我们对上面的三个深度图使用相同的深度L2损失d由于不同场景中的深度范围变化很大，我们通过将地面实况深度dt除以来归一化L2损失，描述为：di−dt我我们在NVIDIA RTX 3090上训练所有网络4. 实验和分析4.1. 实验设置公共数据集。两个公共数据集，Tanks和Temples [18]和Free View Synthesis [31]，用于训练或评估。我们按照第节第3.1条我们遵循Riegler和Koltun的方法，在坦克和寺庙上训练我们的方法。有21个场景。选取17个场景作为训练数据集，选取4个场景作为测试数据集。自由视图合成数据集是一个测试数据集。它包含6个场景，每个场景提供一个源图像序列和一个目标图像序列。为了简单起见，我们只使用目标图像序列进行评估。i=1NL7818d（di）=t我（九）环绕数据集。IBR最近的应用集中在循环场景，如篮球和足球站，此外，受最近单目深度估计工作的启发[52]，我们将边缘感知深度平滑损失添加到因此，他们希望实现平滑的圆形视图移动。因此，我们提出了一个名为Surround的新数据集D7819×方法输入K火车游乐场M60卡车↑PSNR↑SSIM ↓LPIPS↑ PSNR↑SSIM ↓LPIPS↑ PSNR↑SSIM ↓LPIPS↑ PSNR↑SSIM↓LPIPSFVS [31]18.960.66880.300121.540.67110.275819.250.71320.291720.180.70130.2416SVS [32]我们5417.3422.540.66380.75490.37690.137419.7025.000.66830.76810.35300.128717.2223.920.69170.81620.39830.121019.9022.990.72790.77990.28580.1194FVS [31]21.250.74330.189924.880.78750.127023.610.82590.141922.380.77000.1355SVS [32]我们5820.2823.440.78500.79050.22280.116125.3126.500.87820.82340.10940.092222.8626.080.85440.87040.17340.084623.6423.750.84790.80920.14370.0992EVS [6]5-20.530.67950.158523.870.75580.101822.680.78840.116819.970.64190.1891SVNVS [36]6-20.430.65120.212522.430.69680.145122.360.78170.134621.420.71420.1439我们5422.540.75490.137425.000.76810.128723.920.81620.121022.990.77990.1194表1.对Tanks和Temples数据集进行定量比较。我们以粗体显示最佳结果。FVS SVS EVS SVNVS我们的GT图5. K=4时Tanks和Temples数据集的定性比较。FVS [31]和SVS [32]在稀疏场景几何体上表现不佳。EVS [6]丢失图像内容，SVNVS [36]导致明显的颜色变化。我们的方法实现了最佳的现实效果。方法输入K总↑PSNR↑SSIM↓LPIPSFVS [31]26.460.84540.0924SVS [32]我们5426.5229.190.87980.88800.12730.0645FVS [31]26.910.85100.0857SVS [32]我们5827.5529.230.89800.88910.10970.0636EVS [6]5-27.310.86000.0686SVNVS [36]6-24.940.81750.1151我们5429.190.88800.0645表2.自由视图合成的定量比较。用于评估环绕声环境中的IBR方法。通过手持摄像机拍摄一个圆圈内的场景，我们可以围绕场景拍摄360度视频然后，我们统一采样这个视频提取源视图。环绕包含6个场景，篮球，会议室，公园，Philoso-pher，足球和雕像.Meetingroom是室内场景，而其他场景是室外场景，每个场景有 150到300个图像。我们使用COLMAP来估计相机姿态、深度图和3D点云。我们在补充材料中详细描述了该数据集。查看选择。在训练和测试中，我们选择一个图像作为目标，并选择N个附近的图像作为源视图。4.2. 与最新技术水平的我们将我们的方法与四种最新的（SOTA）IBR方法进行了比较，FVS [31]，SVS [32]，EVS [6]”[36]《明史》卷36。FVS [31]和SVS [32]使用数百个视图来估计密集的深度图。当深度图变得稀疏时，它们的方法会导致深度缺失的区域变得模糊。EVS [6]和SVNVS [36]可以用于稀疏输入视图。然而，由于复杂性，它们需要巨大的计算和存储器成本，并且不适合于HR图像。我们降低输入图像的分辨率约为250 -500进行评估。为了公平比较，我们在相同的预处理的Tanks和Temples数据集中重新训练FVS [31]和SVS [32]对于EVS [6]和SVNVS [36]，我们使用提供的预训练模型。表1和图5显示了Tanks和Temples数据集的定量和定性比较，其中我们的方法在稀疏场景几何上取得了显着的优势。我们在Tanks和Temples数据集上进行了更仔细的实验。我们不使用K，而是直接计算一个有效的深度比来表示深度稀疏水平。有效深度比是像素7820FVS SVSEVsSVNVS我们的GT图6. 当K = 4时，自由视图合成和环绕数据集上的定性结果。第一行显示自由视图合成数据集上的结果，而其他行显示环绕数据集上的结果。FVS [31]、SVS [32]会产生模糊。EVS [6]和SVNVS [36]产生伪影和颜色变化。我们的方法产生的结果接近地面实况。方法输入K 篮球会议室公园哲学家足球雕像↑PSNR ↓LPIPS↑ PSNR ↓LPIPS↑ PSNR ↓LPIPS↑ PSNR ↓LPIPS↑ PSNR ↓LPIPS↑ PSNR ↓LPIPSFVS [31]26.190.077425.970.065027.290.086126.840.127424.610.156826.920.1152SVS [32]我们5426.7628.460.06870.058824.5727.630.17510.050026.5928.270.13370.068826.0028.790.18730.094623.2326.110.25490.112926.3729.230.16250.0770FVS [31]26.470.072626.320.061127.680.077627.120.123825.060.133827.440.1000SVS [32]我们5827.3228.370.06120.060025.7827.660.13560.050227.7528.320.09170.068226.5928.680.17490.095124.8626.150.19220.111427.7029.260.12520.0763EVS [6]5-25.640.068424.490.117527.570.083727.430.091224.410.115227.870.0722SVNVS [36]6-24.270.089024.550.106624.090.133424.370.113323.590.142524.780.1058我们5428.460.058827.630.050028.270.068828.790.094626.110.112929.230.0770表3.Surround数据集上的定量比较。我们的结果在所有6个场景中表现最好方法输入K 坦克和寺庙自由视图合成环绕↑PSNR↓LPIPS↑ PSNR↓ LPIPS↑PSNR↓LPIPSFVS [31]27.16 0.0862SVS [32]我们5所有26.25 0.068829.07 0.078029.33 0.0619 28.18 0.0768表4. 当K =全部时的定量比较。当深度图是密集的，我们的方法也有更好的或可比的结果。将有效深度值与总像素数进行比较。我们使用更多的采样策略和不同的K来生成不同的有效深度比，结果如图7所示。当有效深度比变小时，FVS [31]和SVS[32]的性能迅速下降，而我们的方法保持了高性能，只有轻微的下降。表2显示了自由视图合成数据集的比较。为了简单起见，我们只显示了总体结果，6个场景的详细结果在说明材料中提供。我们还在表3中提出的Surround数据集上评估了这些方法。定性比较见图6。FVS [31]和SVS [32]丢失图像内容和细节，而EVS [6]和SVNVS[36]将导致伪影和颜色变化。相比之下，我们的方法可以合成更真实的结果。虽然我们的方法专注于稀疏场景几何，但它也可以在密集场景几何上实现比FVS [31]和SVS [32]更好或相当的结果我们展示了com-图7. 在不同深度稀疏水平下对Tanks和Temples数据集的PSNR比较。当输入深度图变得稀疏时，FVS [31]和SVS [32]的性能迅速下降，而我们的方法能够将PSNR保持在高水平。在表4中对三个数据集的结果进行了比较。当输入深度图是密集的K= all时，我们的方法在自由视图合成和环绕数据集中表现最好，并且在坦克和寺庙中表现略差于SVS [32]7821↑ ↑↓↑ ↑ ↓ ↑ ↑↓↑ ↑↓SIBRNet w/o SIBRNet w/oGR stage SIBRNet w/o Bi-ConvLSTM SIBRNet火车峰值信噪比SSIMLPIPS20.80 0.7427 0.155321.31 0.7330 0.188821.74 0.7380 0.154522.54 0.7549 0.1374游乐场M60PSNR SSIM LPIPS PSNR SSIMLPIPS 23.81 0.7608 0.138522.18 0.8066 0.132524.02 0.7511 0.170624.48 0.7555 0.142625.00 0.7681 0.1287 23.92 0.8162卡车PSNR SSIMLPIPS 21.420.7709 0.133022.27 0.7627 0.152722.60 0.7678 0.133022.99 0.7799 0.1194表5. 消融研究的定量结果。通过禁用SIBRNet的每个组件，我们显示了其对最终结果的影响。GR和SNR分别对LPIPS和PSNR有较大影响。我们的完整模型实现了最佳性能。不带GR级，不带BiconvLSTM SIBRNet GT图8. 消融研究的定性结果。SIBRNet w/o GR stage将丢失图像内容，导致模糊结果，而SIBRNet w/o RGB将导致失真。不带Bi-ConvLSTM的SIBRNet也会丢失一些细节。完整的SIBRNet可以合成最真实的小说视图。几何/光度误差火车操场M60卡车稀疏深度27.01/0.056732.24/0.057431.05/0.072831.85/0.0531GR阶段，不带本地网络14.05/0.039410.96/0.031910.66/0.038011.09/0.0337GR载物台，不带全球网13.34/0.039111.97/0.031911.51/0.039610.88/0.0341GR级12.83/0.03899.21/0.031610.54/0.03838.29/0.0332表6. GR阶段的消融研究。与稀疏深度相比，GR阶段大大减少了几何和光度误差。而单独的全球和本地网络将降低性能。4.3. 消融研究我们在K为4的Tanks和Temples数据集上进行消融研究。定量和定性结果见表5和图8。删除任何组件都将导致性能显著下降。GR期。GR阶段从稀疏深度图生成密集深度图，以确保更多的扭曲像素。在GR阶段，全局网用于学习语义，而局部网关注细节。我们删除了它们中的每一个，并在表6中显示了几何和光度误差的变化。几何误差是等式9中描述的归一化L2损失，而光度误差是由完整深度扭曲的图像与地面实况深度之间的L1损失。在表5中，当我们重新移动GR阶段时，LPIPS增加了很多。原因是被稀疏深度图扭曲的图像具有大量不可见像素，这将导致模糊结果，如图8这对LPIPS的影响比对PSNR的影响更严重。和Bi-ConvLSTM。该模块可以校正GR阶段预测的深度值不准确所引起的投影偏差。如果不进行调整，扭曲特征中的偏差将产生内容失真，例如图8这些未对齐的像素保留了一些语义信息，因此LPIPS不会改变很多，但它们会导致PSNR大幅下降，如表5所示。Bi-ConvLSTM用于聚合来自不同视图的信息，可以保留图像细节。通过删除Bi-ConvLSTM，最终结果将丢失清晰的边缘，如图85. 限制GR阶段在我们的SIBRNet中起着重要的作用，它从稀疏的深度图生成一个完整的深度图，以保证LB阶段中更多的可见像素完整深度图的准确性我们的GR阶段可以恢复全局场景结构的密集深度信息，但可能会丢失一些细节，例如树木或柱子等薄物体这些物体非常小，很难从背景中区分出来这将是我们未来的工作，提出一个改进的深度完成网络这个问题。6. 结论在本文中，我们提出了一个两阶段的模型命名为SIBRNet执行IBR稀疏场景几何通过引入一个基于学习的深度完成网络的第一次。它是鲁棒的场景几何在不同的-输入稀疏水平，并生成比最近的IBR方法更好或可比较的由于完整深度图的不准确性会导致投影偏差，从而导致图像失真，因此我们设计了偏差校正模块（Bias-Corrected Module，简称BDE）来消除这些偏差，以确保获得逼真的结果。我们还提出了一个新的数据集环绕，这是有用的，以评估IBR方法在环绕设置。7822引用[1] Peter，Julien Philip，True Price，Jan-Michael Frahm，George Drettakis，and Gabriel Brostow.自由视点图像渲染的深度混合。 ACM Transactions on Graphics（TOG），37（6）：1-15，2018。1[2] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化发光图绘制。在Proceedings of the 28th annual conference on Computergraphics and interactive techniques ， pages 425- 432 ，2001中。2[3] Gaurav Chaurasia 、 Sylvain Duchene 、 Olga Sorkine-Hornung和George Drettakis。深度合成和局部扭曲的合理图像为基础的导航。ACM Transactions on Graphics（TOG），32（3）：1-12，2013。2[4] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成在IEEE计算机视觉国际会议论文集，第1511-1520页5[5] Nathaniel Chodosh，Chaoyang Wang，and Simon Lucey.用于激光雷达深度补偿的深度卷积压缩感知亚洲计算机视觉会议，第499-513页。Springer，2018. 3[6] Inchang Choi，Orazio Gallo，Alejandro Troccoli，Min HKim，and Jan Kautz.极限视角合成。在IEEE/CVF计算机视觉国际会议论文集，第7781-7790页三六七[7] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页，2017年。5[8] Abe Davis Marc Levoy和Fredo Durand非结构化光场。在Computer Graphics Forum ，第 31 卷，第 305-314 页中Wiley Online Library，2012. 2[9] Martin Eisemann 、 Bert De Decker 、 Marcus Magnor 、Philippe Bekaert、Edilson De Aguiar、Naveed Ahmed、Christian Theobalt和Anita Sellent。浮动纹理。在计算机图形论坛，第 27 卷，第 409-418 页。 Wiley OnlineLibrary，2008. 2[10] Abdelrahman Eldesokey ，Michael Felsberg ，and FahadShah- baz Khan.通过cnn传播置信度用于稀疏数据回归。arXiv预印本arXiv：1805.11913，2018。3[11] Abdelrahman Eldesokey ，Michael Felsberg ，and FahadShah- baz Khan.通过cnns的置信度传播用于引导稀疏深度回归。 IEEE transactions on pattern analysis andmachine intelligence，42（10）：2423-2436，2019。3[12] 约翰·弗林，迈克尔·布罗克斯顿，保罗·德贝维克，马修·杜瓦尔，格雷厄姆·费弗，瑞安·奥弗贝克，诺亚·斯内弗利和理查德·塔克。Deepview：查看合成与学习梯度下降。在IEEE/CVF计算机视觉和模式识别会议论文集，第2367- 2376页，2019年。2[13] John Flynn，Ivan Neulander，James Philbin，and NoahSnavely. Deepstereo：学习从世界图像中预测新视图在IEEE计算机视觉和模式识别会议论文集，第5515-5524页，2016年。2[14] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。在Proceedings of the 23rdannual conference on Computer graph

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

稀疏IBRNet：基于深度完成的稀疏场景几何重建方法

一种基于分析稀疏表示的图像重建算法

一种基于结构稀疏的图像修复算法

基于稀疏表示的图像超分辨率重建快速算法

基于深度学习的超分辨率重建有哪些

基于压缩感知的地震数据重建方法

三维重建的常用深度模型有哪些

详细介绍一下点云重建算法

推荐10个以上比较好的SLAM深度学习模型？

计算机视觉中三维稀疏重建的流程

fpga基于超分辨率的图像处理算法中的图像重建详细介绍

基于matlab的稀疏表示

基于迭代最小化的稀疏贝叶斯重构方法sbrimmatlab\

基于OpenSfM的单目三维重建实现详细步骤

稀疏矩阵的应用：设计算法并编程实现用三元组顺序表解决稀疏矩阵的转置问题，用2种方法实现并分析比较2种算法的时间和空间复杂性

视觉几何三维重建-openmvs源码解析

基于深度学习人脸识别方法算法有哪些

基于稀疏表示的图像增强方法

如何改进协同过滤中数据稀疏的缺陷

基于RGBD的slam框架有哪些

最新资源