没有合适的资源?快使用搜索试试~ 我知道了~
深度融合在三维场景重建中的应用
1VolumeFusion:三维场景重建中的深度融合崔在成KAISTSunhoon ImDGISTFrancois RameauKAISTMinjun KangKAIST仁权KAIST摘要为了从一组校准视图重建3D场景,传统的多视图立体技术依赖于两个不同的阶段:局部深度图计算和全局深度图融合。最近的研究集中在深度神经结构,通过使用传统的深度融合方法或直接3D重建网络(a) 多视图图像(b) 多视点立体深度估计(c) 3D场景重建通过回归截断符号距离函数(TSDF)。在本文中,我们主张使用深度神经网络复制传统的两阶段框架,以提高结果的可解释性和准确性。如上所述,我们的网络分为两个步骤:1)利用深度MVS技术对局部深度图的局部计算,以及2)深度图和图像的特征融合以构建单个TSDF体积。 为了提高从非常不同的视点(例如,大基线和旋转),我们引入了一个旋转不变的3D卷积核,称为PosedConv。通过在ScanNet数据集上进行的一系列实验,强调了所提出的架构的有效性,其中我们的方法与传统和深度学习技术进行了比较。1. 介绍多视图立体(MVS)是在过去几十年中已经被广泛研究的基础研究主题[18]。MVS的主要目标是重建来自从不同视点获取的一组图像的3D场景。该问题通常被框定为通过优化不同图像中的像素组之间的光度或几何一致性的对应搜索问题。常规的基于非学习的MVS框架[15,2,13]通常使用以下来实现重建:各种3D表示[12]:深度图[15,2],点云[13],体素[29,19]和网格[11]。最近将深度神经网络用于MVS [39,20,22,32,43,4,16]已被证明有效地解决了传统技术的限制,如重复图案,低纹理区域和反射。通常,基于深度的MVS图1. 容积融合。给定(a)多视图图像及其相机参数,我们的网络旨在进行3D场景重建。(b) 首先,我们估计局部多视图深度图。(b)其次,我们在来自(d)我们的PosedConv的姿态不变特征的指导下引入可微分深度融合。方法[43,4,16]集中在参考图像和其周围视图之间的逐像素对应关系的估计上虽然这种策略可以优雅地集成到深度学习框架中,但它们只能在框架重叠的地方局部工作。对于整个场景的完全3D重建,这些方法[43,4,16]需要执行深度图融合[31,14]以合并局部重建作为后处理。最近,Murezet al. [32]建议场景的截断符号距离函数(TSDF)体积的直接回归比使用中间3D表示更有效,即深度图他们的技术的总体概念包括在所有提取的图像特征到一个全球场景体积的反投影,从该网络直接回归TSDF体积。这种端到端的方法[32]具有直接且可扩展到大量图像的优点。然而,这项开创性的工作[32]难以塑造复杂场景的全局结构,例如房间的角落或长长的走廊。为了解决这个问题,我们建议用两个不同的阶段来密切模仿传统的3D重建流水线:局部重建和全局融合。然而,与以前的研究[43,10,32]和并发论文[38,1]不同,我们以端到端的方式整合了这两个阶段。首先,我们的网络计算局部几何,即,来自相邻帧的密集深度图。然后,16086(d)PosedConv1阶段本地MVS第二阶段体积融合(深度融合)16087我MZ我∈∈{F F F}V{I I I}详尽地估计深度图的集合、深度我们通过在单个体积表示中合并局部深度图以及图像特征来开始深度融合过程,这使得我们的端到端框架能够在单个前向计算中学习全局一致的体积表示,而不需要手动设计的融合算法[37,14]。为了进一步增强我们的深度融合机制的鲁棒性,我们提出了姿势卷积层(Posed-Conv)。相比传统的3D卷积层,是唯一不变的平移,我们提出了一个更通用的卷积层,是不变的平移和旋转。简而言之,我们的姿势卷积层有助于提取姿势不变的特征表示,而不管输入图像的方向如何。因此,即使在宽基线或视图之间的大旋转下,我们的方法也展示了全局一致的形状重建。我们的贡献概述如下:• 提出了一种基于局部MVS和全局深度融合的三维场景重建网络。• 一个新的旋转和平移不变卷积层,称为PosedConv。2. 相关作品2.1. 多视点立体多视图立体(MVS)包括给定一组非结构化图像以及它们各自的内在和外在参数的场景的逐像素3D重建。在[12]中,场景表示被用作分类的轴,以将MVS分类为四个子研究领域:深度图[15,2],点云[13,28],vox- els [29,19]和网格[11]。特别地,深度图估计方法[15,2,21,17]已经被广泛地研究,因为这些策略容易扩展到多视图图像的数量。这些方法通常依赖于小基线假设以确保与参考框架的大重叠因此,通过平面扫描算法[7,42,21,17]实现光度匹配,其中为参考帧中的每个像素估计最可能的深度然后,需要深度图融合算法[19,14]来从一组深度构建全局3D模型。随着深度神经网络的兴起,基于学习的MVS方法取得了可喜的成果。受立体匹配网络[26,3]的启发,MVS研究[43,4,16,22,20,39]已经开发了用于非结构化多视图匹配的 成 本 量 依 赖 于 基 本 框 架 , 例 如 DPSNet [22] 或MVSNet [43],后续研究提出了基于点的深度细化[4],级联深度细化[16]和时间融合网络[20,10]。后2.2. 深度图融合Curless和Levoy [8]在其开创性工作中提出了一种体积深度图融合方法,该方法能够通过累积加权符号距离函数处理噪声深度图。后续研究,例如KinectFusion[23]或体素散列[35,25],集中于通过深度图融合的体积表示的问题最近,在深度学习网络的帮助下,已经提出了基于学习的体积方法[24,36,40]。例如,SurfaceNet [24]和RayNet [36]从多视图图像及其已知相机姿势推断深度图。这些方法接近我们的策略,但它们的网络仅通过与深度图融合不直接相关最近,RoutedFusion [40]和Neural Fusion [41]引入了使用RGB-D传感器的新的基于学习的深度图融合。然而,这些论文[40,41]集中于使用来自多视图图像的噪声和不确定深度图的深度融合算法据我们所知,我们的方法是第一个基于学习的深度图融合多视图图像的三维重建。3. 体融合网络在这项工作中,我们提出了一种新的策略,有效地重建3D场景从任意一组图像中的相机的参数为摄像机为了实现这种重建,我们设计了一种新的体积融合网络,包括两个阶段:首先,通过我们的深度网络处理集合中的每个图像(第二节)。第3.1节)。基于相邻帧之间的逐像素光度匹配,该网络针对每个帧回归深度图~和重叠掩模~。第二,使用所得到的每帧深度图和重叠掩模,我们将深度融合过程公式化为体积融合(Sec. 3.2)。我们通过我们的PosedConv(Sec.3.3)。总体架构如图所示。二、3.1. 多视点立体在本节中,我们描述了我们的方法的第一阶段:本地MVS网络使用三个相邻帧n-1、n、n+1。 在先前的研究[22,27]之后,我们使用邻近图像特征图n-1,n,…n+1推断深度参考相机视图中的映射(n)。与之前的研究[43,4,16]相比,这些研究仅专注于准确的深度估计,我们的网络还推断出重叠掩模。计算重叠掩模M~n-1fusion [14,8]开始重建全局3D场景。1我们在补充材料中想象一个重叠的遮罩。16088:库内核:旋转内核:3D转换层:特征提取层MnLMDM∈Z∈u,vVMP~·ZMn=Σn=nn=1n2×D×H×WV·一组要素体一组姿态不变的=1(世界参考)场景体积=1设定的转换一套蒙面(concat)深度测量���መ=1图像特征集多视点立体3D容积融合(3D自动编码一组图像=1ℱ���统一场景体积TSDF体积��� TSDF=1在第n个局部多视点图像特征{���−1,,���+1}nth initial���出来第n次成本累计第n深度第n个掩码体积���() n成本量map(���)深度map���()������(摄像机参照)n次重叠体积e������n我问()������图2. 整体架构。 我们的体积融合网络包括两个阶段:多视图立体和体积深度融合。 给定一组N个图像{In}N1,我们提取图像特征{Fn}N1。这些图像特征被用于(1)推断被掩蔽的深度图Zn,其中多视点立体阶段,以及(2)提取姿态不变特征体积{VR}N在PosedConv. 然后,我们构造一个统一的场景从{VR}N1和{Z?n}N1求体积V U。最后,在体积融合阶段,我们得到了一个TSDF体积V~TSDF,这是一个完整的三维场景n n=n=重建结果。以量化参考相机视图中的三个相邻帧之间的每像素重叠的概率重叠掩模的目的是滤除我们不能从几何学上推断出的不确定深度值,即,而没有相邻帧之间的对应关系。具体地说,我们通过计算初始成本体积VnI来计算匹配成本 通过堆叠的沙漏其中M是重叠损失,并且u,v是像素(u,v)处的真实重叠掩模。请注意,重叠掩模是深度图融合阶段的基本元素(参见第23.2)。除了重叠掩模之外,局部深度图z~n也从成本聚集体积计算Z~。在pixel(u,v)处的深度估计z~u,v计算如下:网络[33,34,3]。然后, 我们得到一个成本积-给定卷2VZ~∈R1×D×H×W和重叠卷-ume VnM~∈R. 这些卷用于Σzmin×DD深度图~RH×W的推断和重叠掩模~RH×W。关于重叠掩模的估计,我们将其估计公式化为二进制分类问题(即,重叠/非重叠)。 第一,过度--d=1其中z_min是定义深度估计的最小范围的超参数,σ()表示softmax操作,d是像素处的向量的第d个平面值。M~1×D× H×W(u,v)的值。我们设置了报警类型-搭接概率Pn∈R重叠n参数体积通过softmax运算获得n M ~。然后,可以通过沿着概率的深度轴的最大池化操作来直接估计重叠掩模M~ n。D = 48且zmin = 0。5米,在我们的实验中。我们根据估计的深度图Z~和真实深度图Z计算深度损失Lz,如下:音量.具体地,在像素位置(u,v)处的重叠概率~u,v可以被估计如下:LZ=Σ ΣM u,v×平滑L1(zu,v-z~u,v)、(4)M~u,v=最大池d∈Du v(PM〜[d,v,u]), (1)哪里[d,v,u]是体素[d,v,u]处的重叠体积的概率。为了学习重叠掩模,采用地面实况和估计掩模之间的每像素L1-Loss:其中z~u,v是预测的深度图的值在像素(u,v)处,并且smooth L1()是平滑L1损失函数。注意我们用地面遮挡了深度图真值掩模,以仅在相邻视图之间存在对应关系的像素上施加损失。LM=(u,v)∈M~M~u,v−Mu,v3.2. 体积深度融合在上一节中,我们描述了2我们用四个轴表示一个3D维体积,其通道为四个轴:通道(C)、深度(D)、高度(H)和宽度(W)。Dnz~u,v=·σ(au,v)、(3)16089我们的方法专门回归每视图深度映射Z~n 以及重叠掩模M~n 为了获得16090n=1=FVn=1ZV ∈n=1n=1{Z}{Z}Z(c) 核的可学习权在原始3DConv中(d) 旋转核在PosedConv(我们的)图3. 3DConv和PosedConv层的示意图。与(a)立体校正图像[30]相比,(b)多视图图像[9]描述了不同视点中的相同对象(红色框)。因此,(c)原始3DConv可以在成本体积[3,44]中使用,以计算立体校正图像之间的匹配成本。(d)我们的PosedConv具有旋转不变和平移不变的属性,可以从不同姿态的图像中正确提取特征,以便在世界参考坐标(即统一场景体积VU)。:填充1的体素:填充0.5的体素:填充0的推广掩码深度图{Z?n}N以及该,) averag eCam2- 特征体积F,其通过将图像特征反投影到世界参考坐标系中而从图像特征n该策略允许网络通过计算由掩蔽的深度图引导的图像特征的匹配成本来重新描绘3D场景的表面。融合每个视图遮罩图4. 使用两个深度图的体积融合的顶视图图示。masked depthmapn.为了整合这些局部估计nN,我们设计了一种体积融合,将一组掩蔽的深度图nN嵌入到统一的场景体积UR(C+1)×Vx×Vy×Vz中。 该阶段旨在通过融合局部几何信息来回归全局场景的TSDF,{Zn}N.深度图,我们迭代地计算每个视图的掩码深度图和图像特征。首先,我们按照[32]声明一个3D体积,并将所有体素初始化为0。然后,我们反向投影掩蔽的深度图并计算它们的体素位置[i,j,k]。由反投影深度图占据的每个体素的值递增1。我们对所有视图重复此过程,然后对体积求平均值,如图所4.第一章该策略允许使用所有先前计算的深度来计算3D统一场景体积VU中的嵌入体素传统的融合过程[37,14]试图通过使用像素值的光度一致性检查来实现这种重建,所述像素值使用推断的深度图[14,31]进行反投影。然而,这些方法具有以下缺点:1)最终重建的质量取决于初始深度图的精度,以及2)在诸如改变照明条件和均匀纹理化区域的挑战性条件下违反亮度一致性假设。或者,最近开发了基于学习的方法,例如RoutedFusion [40]。该方法产生高质量的3D重建,但也需要来自RGB-D传感器的可靠深度图。然而,它几乎不适合于经由多视图图像获得的深度图,多视图图像往往明显更具噪声。为了克服这些问题,我们的深度融合策略是通过体融合来塑造目标场景的全局结构的初始指导。为了进一步增强每个嵌入图像特征的几何属性,我们引入了用于准确重建目标场景的姿势卷积层(PosedConv)的概念。3.3. 假定卷积层著名的立体匹配方法[26,3,6,5]采用一系列3D卷积层(3DConv)来找到左右图像特征之间的密集对应。由于这一策略被证明是有效的,它成为最常用的技术,以建立一个成本卷。因此,它也被广泛应用于未校正的多视图立体管道[20,22,10]。但是,它-(a)KITTI立体数据集中的立体校正图像[21](b)ScanNet数据集中的多视图图像[4]平移不变财产旋转不变财产R1→2R1→3(CAM1CAM1Cam216091VVV∈∈x,y,znLLΣ·×个×个VVVLx,y,zx,y,z1n3TSDFnnnnnv′∈Z3|[-w′,-w′,-w′],..., [+ w′,+w′,+w′]nn=1nn=1nn=1VLV|·|{Z}{V}V这种表示不适合于多视点立体。为了理解这个问题,我们需要分析两种配置:校准的立体对和未校准的多视图立体。对于校准的立体图像,从相同的取向(对准的光轴)获取两个视图中的对应的块;因此,平移不变卷积运算适合于找到一致的匹配(参见图11)。3-(a))。然而,MVS场景更加复杂,因为可以从各种方向获取图像。3.4. 体积3D重建通过堆叠的沙漏3DConv层[33,34,3]聚合统一场景体积U以计算整个场景的TSDF。在聚合过程之后,我们获得TSDF卷~TSDFRVx×Vy×Vz,如图所示在图2中。所估计的TSDF体积〜TSDF涉及距表面的截断有符号距离的值,并且其以监督方式训练如下:因此,3DConv不适用,因为它不是旋转不变的(见图2)。3-(b))。这种现象导致当像素LTSDF=Σ. V~TSDF−VTSDF。、(6)不同的观点差异太大。为了应对这种限制,我们使用如图1B所示的已知旋 转 矩 阵 来 设 计 旋 转 相 关 的3D 卷 积 核 , 称 为PosedConv。3 .第三章。首先,我们说明了我们所提出的卷积层的变量(称为储层核WRCout×Cin×w×w×w)与朴素3DConv的变量相似。参数C_out和C_in分别表示输出和输入通道的数量,并且奇数w表示3D空间窗口的大小假设储层核与统一场景体U对准,我们使用旋转矩阵R1-n计算要与每个对应的相机视点对准的旋转核Wr。旋转内核提取更一致的功能比天真的3DConv,因为所提出的内核是更强大的,即使在旋转变化保持相同的感受野。因此,通过将旋转的核W_R与特征体积V_F进行卷积来计算姿态不变的特征体积V_R哪里TSDF是地面实况TSDF体积,并且1是绝对距离测量值(即L1-损失),并且(x,y,z)是TSDF体积内的体素位置最后,我们的网络以端到端的方式进行训练,有以下三种不同的损失:Ltot=αLZ+βLM+γLTSDF(7)其中α、β和γ是1。0,0。5和2。0,分别。深度损失Z和重叠损失M引导网络执行用于显式深度估计的局部多视图立体匹配。 TSDF损失旨在通过我们的体积融合将显式几何深度图和每视图图像特征变换为隐式表示。4. 实验如:nVR=(VF *WR)(v)=ΣVF(v+v′)·WR(v′)v′∈Ωn4.1.实施细节和数据集根据Murezet al. [32],我们在ScanNet数据集上对我们的方法进行评估[9]。扫描网(五)数据集由800个室内场景组成。每个场景包含一个RGB图像序列,对应的地面实况=VnF(v+v′)·W(DR·v′),v′∈Ω其中v=[i,j,k]是世界参考中的体素坐标.Σ深度图和摄像机参数。其中,700个场景用于训练,而其余100个场景构成我们的测试集。为了获得地面实况TSDF体积VTSDF,我们遵循原始方案pro-TSDF。在以前的研究中[32]。是从储层核的中心到核中的每个体素v的有符号距离的集合,其中w′=(w-1)/2。点运算符指示点积,并且DR表示通过我们的离散核旋转4的修改的旋转矩阵。然后,我们通过对姿态不变特征体积{VR}N的集合求平均来计算统一场景体积VU的部分。我们精心设计的PosedConv在我们的网络的第一阶段中,我们使用每帧三个本地 图像的输入尺寸是480(H)640(W),并且估计深度的分辨率是120(H)160(W)。重叠遮罩的大小与深度图。在PosedConv提取出姿态不变的场景体VR之后,我们整合了每视图的信息改变摄像机方向,在建立统一的场景体U和鲁棒的3D场景重建中起着重要的作用3我们将第一个摄像机坐标设置为世界坐标。4DR的详细信息见补充材料。(N 和RN)到统一场景体积U中。最后,我们的网络的第二阶段通过TSDF损失TSDF以监督的方式进行训练。 统一的场景体积U和TSDF体积TSDF 覆 盖 0 。 04m/ 体 素 。 统 一 场 景 体 VU∈R ( C+1 )×Vx×Vy×Vz的分辨率为160(Vx)×64(Vy)×160(Vz)(x,y,z)tial,且Ω=16092×× ×LLRMSEL1L方法2D深度评价3D几何评价AbsRel AbsDiff SqRel RMSEL1Acc Comp F评分COLMAP [37].137.264.138.502.599.069.135.558MVDepthNet [39].098.191.061.293.518.040.240.329GPMVS [20].130.239.339.472.475.031.879.304[22]第二十二话.087.158.035.232.421.045.284.344Murez等人[32个].061.120.042.248.162.065.130.499VolumeFusion(我们的).049.084.021.164.141.038.125.508表1. ScanNet数据集上的定量结果[9]。 我们提供了两个指标:深度评估和3D几何评估。416(Vx)128(Vy)416(Vz)。我们将初始学习率设置为0。0001,并且在50个时期之后将学习率降低我们使用8个NVIDIA RTX 3090 GPU训练我们的网络100个epoch,大约需要两天时间。4.2. 与最先进方法的为了验证所提出的方法的有效性,我们在3D空间和2.5D深度图域中将重建性能与各种传统的基于几何和基于深度学习的方法[37,20,22,39,32]进行了比较。具体而言,我们使用深度图质量的四个常用定量度量(AbsRel、AbsDiff、SqRel和RMSE)5和三个常用标准(L1、准确性(Acc)、完整性(Comp)和F分数)5方法评价AbsRel RMSE1F评分3D转换器058.231.166.460PosedConv.049.164.141.508表2.PosedConv.的消融研究 我们比较原始卷积层(3D Conv)和我们的PosedConv。保留评估设定深度Conv融合单级[32].248.162无深度✓.236.159两阶段(我们的)✓ ✓.164.141表3. 深度融合的消融研究。请注意,3意味着保留深度融合过程,如图2所示。二、3D重建质量。定量结果为报告见表1。根据Murez等人描述的评估管道,使用ScanNet [9]测试集的100个场景进行评估。[32 ]第32段。正如我们的实验结果表明,所提出的方法优于所有竞争对手的深度图的所有评价指标的大幅度。我们推测,显着的性能差距的结果,从我们的深度图融合方法,有效地匹配多个图像,即使在一个大的视点差异,并增加了观测的匹配数量。在表1中的3D重建的评价中,我们的方法优于其他方法,特别是在1和比较上。这表明我们的方法对于塑造场景的全局结构是杰出的。 对于Acc met-因此,我们的方法展示了GPMVS [20]之后的第二好结果,这表明时间融合[20]是提高多视图深度图的质量的潜在方法。然而,对于整个场景(1,Comp)的3D重建,我们的方法大大优于时间融合方法[20]。最好的F分数是通过COLMAP [37]获得的。如DPSNet [22]中所述,COLMAP [37]具有准确重建提取独特特征的边缘或角落的能力另外,我们在图1B中示出了深度融合结果6、三维场景重建5我们在补充材料方法评价AbsRelRMSEL1F评分我方不含M.060.238.162.475我们的w/M.049.164.141.508表4. 重叠掩模M的烧蚀研究。在图5中。与最新的竞争技术[32]相比,我们的方法更好地保留了场景的全局结构,特别是对于复杂房间– 有走廊。此外,考虑到深度估计的质量,我们的方法通过体积融合后显示出改进的深度精度。我们将性能改进归因于我们的两阶段方法,该方法利用姿态不变特征,该姿态不变特征利用世界参考坐标中的鲁棒匹配来重新描绘场景的表面,即,统一的场景体积VU)。4.3. 消融研究在本节中,我们建议通过广泛的消融研究来评估每个建议组件(PosedConv、深度图融合和重叠掩模)的贡献所得结果示于表2、3和4中。在表2中,我们通过与图2中的原点3D Conv进行比较 来 验 证 PosedConv 。 3- ( a ) ) 。 该 结 果 突 出 了PosedConv 的 相 关 性 , 因 为 它 一 致 地 改 善 了 深 度(AbsRel和RMSE)和重建(LI和F分数)准确性。我们把这些结果归功于方法16093VV(a)3D重构导致网格表示(b)来自重构场景的深度图图5. ScanNet数据集中的定性重建结果[9]。(a)来自最近工作的3D场景重建结果(Murezet al.[32]我们的(b)深度由两个选定的摄影机视点产生。总体而言,我们的方法显示出更好的结果,特别是对于目标场景的全局结构。从我们的PosedConv中提取的旋转不变和平移不变特征,这有助于在深度图融合阶段重新描绘3D表面(图2)。2)的情况。在表3中,我们进行了关于我们的方法的两阶段策略的消融研究。单阶段代表Murez等人提出的直接TSDF回归。[32],而两阶段意味着我们的卷融合网络配备了PosedConv和深度图融合。为了验证深度融合的必要性(即,深度图嵌入),我们还包括一个附加的方法(w/o深度嵌入),其统一场景体积U仅包含姿态不变特征体积R。结果表明,我们的两阶段方法优于单阶段策略[32]。此外,当我们嵌入掩蔽深度图时Murez等人[23日]我们图像Murez等人[23日]我们地面实况Murez等人[23日]我们图像Murez等人[23日]我们地面实况Murez等人[23日]我们图像Murez等人[23日]我们地面实况Murez等人[23日]我们图像Murez等人[23日]我们地面实况凸轮视图凸轮视图凸轮视图凸轮视图视讯view视讯view视讯view视讯view16094MM图像DPSNet [14]融合前()融合后(Ours)Ground-truth图6. 我们的深度图融合和最近的基于深度的MVS方法的定性结果[22]。与我们的来自局部多视图立体(融合之前Z~)和来自最终估计(融合之后)的深度估计相比,它表明我们的深度融合方案被训练以重新描绘3D表面,使得融合之后的深度图的质量优于融合之前的深度图Z~。?,与先前工作[32]的性能差距增加。由于我们的体融合网络与Posed-Conv和可微的深度图融合方案,我们获得了最好的三维重建结果。最后,我们验证表4中的重叠掩码。该掩模用于过滤掉局部多视图图像之间的非重叠区域处的深度值。它示出了应用重叠掩模一致地改善深度图和3D重建的质量基于这些结果,我们确认,在不同的相机运动下使用重叠的掩模是有效的深度图融合。5. 结论在这项工作中,我们提出了一个端到端的体积融合网络的三维场景重建使用一组图像与已知的相机姿势。我们战略的特殊性在于其两阶段结构,模仿传统技术:局部多视图立体和体积深度融合。对于局部深度图估计,我们设计了一种新颖的多视图立体方法,该方法还估计重叠掩模。该附加输出使得能够滤除在相邻视图之间不具有像素对应性的深度测量,这进而使得在相邻视图之间不具有像素对应性。证明了场景的整体重建。在我们的深度融合中,我们传播掩蔽的深度图以及图像特征,以通过计算匹配成本来重新描绘3D表面。为了提高具有不同取向的图像之间的匹配的鲁棒性-在世界上统一的场景体积),我们引入了提取姿态不变特征的姿态卷积层。最后,我们的网络推断出一个TSDF卷,它描述了目标场景的全局结构。尽管我们的3D重建的一致性和准确性为了解决这个问题,未来的工作体积自由融合通过本地多视图信息应进行探索。在这种情况下,我们的方法代表了一个坚实的基础,为未来的研究,在多视图立体和深度图融合的三维场景重建的发展。确认这项工作得到了NAVER LABS Corporation的支持[SSIM:语义和可扩展室内映射]16095引用[1] AljazˇBozˇicˇ , PabloPalafox , JustusThies , AngelaDai ,and Matthias Nießner.转化灌注:基于变换器的单目rgb场景重建。arXiv预印本arXiv:2107.02191,2021。一个[2] NeillDFCampbell,Geor geVogiatzis,CarlosHerna'ndez,and Roberto Cipolla.使用多个假设来改进多视图立体的深 度 图 。 欧 洲 计 算 机 视 觉 会 议 , 第 766-779 页 。Springer,2008. 一、二[3] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集,第5410- 5418页,2018年。二三四五[4] 陈睿,韩松芳,许静,苏浩。基于点的多视点立体网络。在IEEE国际计算机视觉会议论文集,第1538一、二[5] Jaesung Choe 、 Kyungdon Joo 、 Tooba Imtiaz 和 In SoKweon。体积传播网络:用于远程深度估计的立体激光雷 达 融 合 。 IEEE Robotics and Automation Letters , 6(3):4672-4679,2021。四个[6] Jaesung Choe,Kyungdon Joo,Francois Rameau和In SoKweon 。 立 体 对 象 匹 配 网 络 。 arXiv 预 印 本 arXiv :2103.12498,2021。四个[7] 罗伯特·T·柯林斯一种真正的多图像匹配的空间扫描方法 。 在 Proceedings CVPR IEEE Computer SocietyConference on Computer Vision and Pattern Recognition,第358-363页中。IEEE,1996年。二个[8] Brian Curless和Marc Levoy。从距离图像建立复杂模型第23届计算机图形和交互技术年会论文集,1996年。二个[9] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet:室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集,第5828-5839页,2017年。四、五、六、七[10] ArdaDu¨zc¨ ek er , Silv anoGalliani , ChristophVogel ,PabloSpeciale,MihaiDusmanu,andMarcPollefeys.Deep- videomvs:具有经常性时空融合的视频上的多视图立体。在IEEE会议Comput. 目视模式识别,2021年。一、二、四[11] Car l osHern a'ndezEstebanandFrancisSchmitt. 三维物体建模中的轮廓计算机视觉与图像理解,96(3):367-392,2004。一、二[12] 我是Furuk和CarlosHerna'ndez。多视图立体声:教程。Foundations and Trends® in Computer Graphics andVision,9(1-2):1-148,2015。一、二[13] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。IEEE Transactions on pattern analysis and machineintelligence,32(8):1362-1376,2009. 一、二[14] 加利亚尼,拉辛格,辛德勒。表面法向扩散的大规模平行 多 视 点 立 体 视 觉 。 在 Proceedings of the IEEEInternational Conference on Computer Vision,第873-881页,2015中。一、二、四[15] DavidGallup,Jan-MichaelFrahm,PhilipposMordohai,Qingxiong Yang,and Marc Pollefeys.具有多个扫描方向的实时平面扫描立体声。在2007年IEEE计算机视觉和模式识别会议上,第1-8页。IEEE,2007年。一、二[16] Xiaodong Gu,Zhiwen Fan,Siyu Zhu,Zuozhuo Dai,Feitong Tan,and Ping Tan.级联成本体积高分辨率多视图立体和立体匹配。在IEEE Conf.目视模式识别,2020年。一、二[17] Hyowon Ha , Sunghoon Im , Jaesik Park , Hae-GonJeon,and In So Kweon.高品质的深度从未校准的小动作剪辑。在IEEE计算机视觉和模式识别集,第5413二个[18] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社,2003年。一个[19] Car l osHern a'ndez,Geo r geVogiatzis,andRobertoCipolla.多视图立体的概率可见性。2007年IEEE计算机视觉和模式识别会议,第1-8页。IEEE,2007年。一、二[20] Yuxin Hou,Juho Kannala,and Arno Solin.基于时间非参数融合的多视点立体视觉。在IEEE计算机视觉国际会议论文集,第2651-2660页,2019年。一、二、四、六[21] Sunghoon Im、Hyowon Ha、Gyeongmin Choe、Hae-GonJeon、Kyungdon Joo和In So Kweon。从滚动快门相机的小运动剪辑精确的三维重建。IEEE Transactions onpattern analysis and machine intelligence,41(4):775-787,2018。二个[22] Sunghoon Im,Hae-Gon Jeon,Stephen Lin,and In SoKweon.端到端深平面扫立体声。国际学习表征会议(ICLR),2019年。一二四六八[23] Shahram Izadi 、 Richard A Newcombe 、 David Kim 、Otmar Hilliges 、 David Molyneaux 、 Steve Hodges 、Pushmeet Kohli 、 Jamie Shotton 、 Andrew J Davison 和Andrew Fitzgibbon。运动融合:实时动态3D表面重建和交互。ACM SIGGRAPH 2011 Talks,2011年。二个[24] Mengqi Ji,Juergen Gall,Haitian Zheng,Yebin Liu,and Lu Fang. Surfacenet : An end-to-end 3d neuralnetwork for multi-view stereopsis.在IEEE计算机视觉国际会议论文集,第2307-2315页,2017年。二个[25] OlafK¨hler , VictorPrisacariu , JulienValentin , andDavidMurray.用于深度图像的有效整合的分层体素块散列。IEEE Robotics and Automation Letters,1(1):192-197,2015。二个[26] Alex Kendall,Hayk Martirosyan,Saumitro Dasgupta,and Peter Henry.深度立体回归的几何和上下文的端到端学习。在2017年IEEE计算机视觉国际会议(ICCV),第66-75页。IEEE,2017年。二、四[27] 乌代·库苏帕蒂、程硕、陈睿、苏浩。正常辅助立体声深度估计。 在IEEE会议Comput. 目视模式识别,2020年。二个[28] Maxime Lhuillier和Long Quan从未校准图像重建表面的准稠密方法。IEEE16096TransactionsonPatternAnalysisandMachineIntelligence,27(3):418-433,2005。二个[29] 威廉·E·洛伦森和哈维·E·克莱恩。移动立方体:一种高分辨率三维表面构造算法。ACM siggraph计算机图形学,21(4):163-169,1987。一、二[30] Moritz Menze和Andreas Geiger。自动驾驶车辆的目标场景流IEEE计算机视觉和模式识别会议论文集,第3061-3070页,2015年。四个[31] 皮埃尔·穆伦、帕斯卡·莫纳斯、罗穆阿尔德·佩罗特和雷诺·马莱。Openmvg:打开多视图几何体。在模式识别中可再现研究的国际研讨会上,第60-74页。施普林格,2016年。1、4[32] Zak Murez、Tarrence van As、James Bartolozzi、AyanSinha、Vijay Badrinarayanan和Andrew Rabinovich。图集:端到端的三维场景重建从构成的图像。以Eur.确认补偿目视,2020年。一、四、五、六、七、八[33] Alejandro Newell,Zhiao Huang,and Jia Deng.关联嵌入:用于联合检测和分组的端到端学习。神经信息处理系统进展,第2277 - 2287页,2017年。三、五[34] Alejandro Newell,Kaiyu Yang,and Jia Deng.用于人体姿态估计的堆叠沙漏网络在European Conference onComputer Vision,第483施普林格,2016年。三、五[35] M
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功