没有合适的资源?快使用搜索试试~ 我知道了~
3057360MVSNet:用于室内场景重建的360帧图像邱静雅1吴玉婷2沈一超3庄永玉11国立台湾大学2国立台北大学3东京大学摘要随着深度学习技术的发展,最近的多视图立体方法已经取得了令人满意的尽管取得了一定的进展,但由于常规图像的视场有限,重建大型室内环境仍然需要采集大量具有足够分辨率的图像。有效的视觉重叠,这是相当劳动密集型的。360◦图像覆盖比常规IM大得多的视场年龄和将促进捕获过程。在本文中,我们介绍了360MVSNet,这是第一个用于360◦图像的多视图立体的深度学习网络。我们的方法结合了不确定性估计与球面扫描模块用于从多个视点捕获的360个全景通过以由粗到细的方式对体积进行回归,可以得到地图。此外,我们还构建了EQMVS,这是一个大规模的合成数据集,由超过50K对的RGB和深度图组成。实验结果表明,该方法能够重建出大规模的室内场景,其完整性明显优于传统方法和基于学习的方法,同时节省了数据采集过程中的时间和精力.1. 介绍多视点立体(MVS)是一个经典的计算机视觉问题,其目的是估计给定的多视点图像和校准相机的场景的稠密表示。经过几十年的研究,传统方法通过将手工制作的相似性度量与工程正则化相结合,在具有丰富纹理和朗伯材料的表面上取得了良好的效果[34,15,14]。最近学习-的方法[44,19,29,45,20,41]通过放松表面外观的限制,进一步提高虽然这些作品在3D重建中产生了有希望的结果,但它们中的大多数使用正常的视场(FoV)。图1:使用我们的方法,COLMAP [34]和MVSNet [44]重建结果的比较。(a)摄像机分布的可视化。在这个场景中,COLMAP和MVSNet使用了300个透视摄像机,of-View(红点),我们的方法使用25个360像素的图像(blue点)。 (b)(c)和(d)是重建结果我们的方法,COLMAP和MVSNet,分别。我们在每个方法的结果下面显示完整性/整体质量的分数我们的方法提高了重建的完整性,同时节省了12倍的努力。图像作为输入,因此需要具有足够重叠的密集分布的捕获。对于大型室内场景,收集输入图像变得非常劳动密集。人们必须拍摄数百张照片才能覆盖单个房间的空间和角度信息。如图1所示,即使有300张输入图像 , 传 统 方 法 COLMAP[34] 和 基 于 学 习 的 方 法MVSNet[44]重建的结果都没有达到令人满意的完整性。与此同时,消费级360全景相机的快速提升,也让360全景图像成为自动驾驶系统、虚拟现实、机器人等领域的热门数据源。360°全景图像可以在单次拍摄中提供比普通FoV图像更广泛的场景覆盖范围,因此需要-3058在匹配具有足够重叠的图像对上使用更少的拍摄和更少的努力不幸的是,据我们所知,现有的基于学习的MVS方法都没有使用360 °C。图像作为输入。虽然可以将360度的图像到多个透视图图像,然后应用经典的MVS方法,它是次优的,因为它忽略了360°图像内的在本文中,我们提出了第一个多视图立体深度网络,用于使用360°图像重建3D场景结构。与其他基于深度图的MVS方法类似,ODS[38,3,15,34,44],我们的网络每次将一个参考然后将所有估计的深度图合并在一起以产生最终的点云。 我们方法的核心是球形扫描-计算模块,其用于利用从多个视点捕获的360幅图像构建成本卷 的深度图然后通过对成本体积进行回归来估计参考图像为了更好地保留场景细节,我们通过结合不确定性估计以从粗到细的方式预测深度图。图1(b)显示,只有一小部分输入图像,我们的方法在完整性和整体质量方面明显优于以前的方法(图1(c,d))我们的第二个贡献是提供了EQMVS,一个包含360张MVS图像的大规模合成MVS数据集。通过利用最近的室内环境的大规模3D扫描数据集[2,5],我们在等矩形投影中生成了超过50K的RGB图像,其中包含配对的地面真实深度图使用路径跟踪引擎[10]。 我们相信这个数据集可以帮助未来使用360 ◦图像进行MVS研究。我们证明了该模型的有效性合成和真实世界的数据。实验结果表明,该方法在综合测试数据集上的完备性方面明显优于传统方法和基于学习的方法更重要的是,我们的方法只需要一小部分的输入图像比以前的方法,从而节省了大量的工作在数据采集。我们还证明,我们的模型在合成数据集上训练可以很好地推广到现实世界的场景,而无需任何微调。2. 相关作品传统的多视角立体。传统的多视角立体方法使用手工制作的相似性度量和工程正则化来分析图像块上的照片一致性。它们可以根据场景的输出表示进行粗略分类,包括体素、点云和深度图。 基于体素的方法[11,26,35]将空间划分为体素并确定体素是否在表面上。基于点云的方法[27,14]直接重建具有空间一致性假设的场景的稀疏点云,然后逐渐地使结果致密化。具有深度图表示的方法[22,25,3,15,38]估计给定几个源图像的每个视图的深度图基于深度图的方法由于其处理大规模场景数据和重建细粒度表面细节的灵活性和可扩展性而流行[13]。Kang和Szeliski[21]提出了一种多视图立体方法,360张图片作为输入。然而,这种方法并没有利用深度学习的优势。深度学习多视角立体。传统的方法通常无法匹配无纹理区域和有光泽的表面的图像对,导致不完整的重建。最近,深度神经网络通过建立可学习的图像特征来提高这些情况的性能。Ji等人[20]提出了MVS中第一个基于学习的方法,使用体素颜色立方体作为场景表示,并学习预测体素是否属于表面的概率Learnt StereoMachine[23]使用可微的非投影操作来形成成本体积,并通过3D CNN正则化以生成结果体素网格。MVSNet[44]采用深度图表示,并提出了一个端到端的深度网络来处理大规模场景重建。他们首先提取可学习的特征,并应用平面扫描过程来形成单个成本量。然后,通过应用3D CNN来正则化成本体积来估计每视图深度图。最后,将所有深度图融合在一起以推断场景的3D几何形状。后来的方法[16,43,7,6]采用从粗到精的架构来解决成本体积正则化中的大内存消耗问题,并产生更高分辨率的深度图。不像这些方法,以正常的FoV图像作为输入,我们引入了360位的图像到MVS,显着提高重建质量,而需要更少的输入图像。全方向深度估计与立体匹配。已经提出了几个工作来解决鱼眼或360◦图像的立体问题。以前的工作集中在鱼眼图像的立体匹配算法[28,17][18]第18话:支持视频。最近,提出了基于深度学习的方法来估计单个360度全景图像的深度[40,42,47,39,41]。即使来自360毫米图像对的估计深度这些作品往往使用固定的摄影机,设置[40,41]或有限数量的输入图像[47,39]。与这些方法相比,我们提出了一种球面扫描算法,该算法可以对从多个不同视点拍摄的360幅全景图像进行场景几何重建,并且对摄像机设置没有任何假设。已经提出了几种球面卷积方法来解决全向图像中的失真问题[36,37,8,12],而它们专注于对象检测而不是深度估计。30592×i=0时i=0时{1}|···442----特征提取深度假设生成球形扫掠成本量概率体积深度估计GT深度图softmax均匀采样3DCNN损失4×4 ×1256×128 256×128阶段1softmax不确定度估计3DCNN损失2×2 ×2512×256512×256阶段2深度假设softmax不确定度估计3DCNN损失1024× 512××31024× 512阶段3图2:我们提出的360MVSNet的网络架构。以360幅等矩形图像为输入,我们的360MVSNet通过将源视图的特征扭曲到虚拟球体上来构建多尺度成本体积使用360度球面扫描模块对参考视图进行扫描然后,它使用3D CNN来规范成本量,回归到估计的深度图。在最后两个阶段中,我们使用从先前概率体积估计的不确定性来创建空间变化的深度假设。3. 方法我们的目标是从一组360◦图像重建3D场景结构。类似于以前的方法[44],我们的方法运行图像并预测它们的深度图一次一个 每一次,我们的方法都会选择一个引用上采样特征并与来自跳过连接的特征连接。然后应用转置卷积来逐渐恢复图像信息。对于第i个源图像Ii,特征提取器以三个不同的尺度提取其特征图Fi=(F1,F2,F3)。我我我图像,并使用N个附近的源图像来估计其深度图。在估计所有深度图之后,将它们合并在一起以产生最终场景点云。图2描述了我们的网络架构,用于预测具有一组源图像的参考图像的深度图为了生成高分辨率的深度图,我们的模型以从粗到细的方式工作。它由不同尺度的三个阶段组成,从最粗的阶段开始。在每个阶段,我们的方法首先提取所有输入的特征360张图像(第3.1节)。然后,使用所提出的360◦球面扫描算法(第3.2节)将 源 特 征 映 射 扭 曲 到 以 参 考视 图 为 中 心 的 多 个 虚 拟 球 体 上 , 并构建成本体积(第3.3节)。最后,成本体积回归到预测的深度图中(第3.4节)。3.1. 特征提取我们的第一步是提取N+1个输入图像I iN的 特 征图 F i N ,其中I0是参考图像,其余I ii=1,N是源图像。为了以不同的分辨率捕获信息,我们采用了具有跳过连接的U-Net结构[33]来形成多尺度特征提取器。具体来说,编码器包括一组卷积层,每个卷积层后面都有一个批量归一化和一个ReLU激活层。卷积与步幅2用于逐步下采样的特征图的空间维度。解码器层三种特征图的分辨率分别为W×H、W×W和W H,其中(W,H)是输入360mm图像的宽度和高度。3.2. 360球面扫掠我们提出了一种新的360球面扫描模块,考虑了360球面图像的几何信息。我们的模块受到平面扫描[9,44,19]和鱼眼球面扫描算法[18,17,42,41]的启发。它将等矩形图像的特征映射扭曲到具有不同半径的参考视图的虚拟球体上以形成成本体积。模块是完全可微的。因此,我们可以将其无缝地整合到我们的培训过程中。我们的方法和以前的球形扫描算法之间的主要区别首先,我们的网络使用360帧图像作为输入。其次,以前的方法旨在从单个视点估计全向深度图,而我们坚持大多数MVS的惯例方法和重建场景的几何与图像从几个不同的观点。因此,在估计参考视图的深度图时,我们的360°球面扫描算法需要导出两个视点之间的关系,然后基于两个360°球面图像构建3060√×ΣΣp1谭(X/Z),否则Θ= sin−1(Y/R)(3)22HKKKΣΣ3.2.1初步:球坐标球面坐标和摄影机坐标之间的映射。图3(a)定义了本文中使用的球形相机模型 在360度全景摄像机的3D摄像机坐标系中-点P(X,Y,Z)可以由法线表示。球坐标(R,Θ,Φ),其中R,Θ和Φ是到原点的距离,仰角和方位角,GLE,分别。我们可以通过计算将点从3D相机坐标系变换到归一化球面坐标:R=X2+Y2+Z2(1)如果X>0Z0,则π−tan−1(X/Z)&- -其中,Φ和Θ可以通过以下等式利用图像分辨率来计算5和Eq。6. 注意,我们在球坐标中估计的深度值是点和球体原点之间的距离(即,R),而不是在传统的针孔相机。3.2.2特征映射变形为了构建成本体积,我们的360球形扫描将源图像的特征映射扭曲到一系列基于深度假设以参考视图为中心的具有不同半径的虚拟球体上(图3(b))。我们使用外部参数来连接参考视图和源视图的局部相机坐标亲-Φ=πtan−1(X/Z),如果X0Z0&−1(二)用于从参考视图投影点的投影Mi到第i个源视图可以通过连接具体地,Θ∈(−π,+π)和Φ∈(−π,+π)。 我们矩阵Pi,用于将点从世界坐标变换为源第i视图的局部相机坐标:也可以将标准化球面坐标映射到3D摄像机坐标:P=(R sin Φ cos Θ,R sin Θ,R cos Φ cosΘ)(四)Mi=PiP0−1,(9)其中P是第i个的满秩4×4相机矩阵图像和球坐标之间的映射。我们使用一个等矩形的图像与经纬度亲-我由Pi构造的视图=Riti0T1其中Ri和Ti是360度全景摄像机拍摄的场景信息从具有分辨率W H的等角图像中的像素(x,y)到其对应的球坐标中的单位向量可以写为:(x +0。第五章)Φ=W×2π−π(5)第i个视图的旋转矩阵和平移向量分别我们现在可以使用以下逆扭曲过程将第i个源特征扭曲到第k个虚拟球体上,其中半径r k以参考视图为中心:对于变形特征图中的每个像素p(x,y),我们首先将其变换为球面坐标,并投影到(y +0。5)πΘ=×π−(六)具有深度假设的参考视图。的3D然后将点转换为3D和图像坐标之间的映射。相机坐标中的3D点P(X,Y,Z)到等矩形图像坐标中的2D像素p(x,y)的投影f(P)可以通过引入仰角和方位角来获得第i个源相机使用等式9. 最后,将三维点投影到第i个源视图的特征图上,得到源位置pi(xi,yi),然后利用双线性插值对特征图进行重采样。变形特征图的源位置的计算可以写为:pΦ·W/2π − 0。51 =f(P)=Θ·H/π − 0。5分钟,(7)我k=f(Mi(f1−1(p,r k))。(十)1其中仰角和方位角可以通过等式(1)计算:2和Eq。3.第三章。给定2D像素p(x,y)的深度值d,我们还可以用f(P)的逆函数将p从图像坐标反向投影到其对应的3D坐标P(X,Y,Z):P=f−1(dsinΦcosΘ,dsinΘ,dcosΦcosΘ,1)π,(八)1矩阵P0−1,用于从本地摄像机参考视图的坐标到世界坐标,2Σ3061值得注意的是,我们的工作和OmniMVS[41]处理不同的场景。OmniMVS的目标是从“单个视点”估计全向深度图。他们利用从四个钻机上收集的信息鱼眼摄像头来预测360度的深度图。相反,遵循大多数MVS方法的惯例,我们的目标是通过使用从“多个不同视点”捕获的多个360度全景图像来重建整个场景的几何形状因此,在估计参考视图的深度图时,我们的360°球面扫描算法需要导出两个视点之间的关系,然后3062Σ根据以前的工作[24,44],我们认为深度估计是一个多类回归问题,我们的损失SSXHHW(一)W(b)第(1)款图3:(a)我们工作中球坐标系的图示。(b)360°球面扫描算法的图示我们将源视图的特征映射变形为一组以参考视图为中心的同心虚拟球体,以构建成本卷。基 于 这 两 个 360度 全 景 图 构 建 成 本 量 。 OnmiMVS 和SweepNet [40]提出的方法并非如此。3.3. 多尺度成本量在使用360球形扫描将源视图的特征图变形到参考视图的虚拟球体之后,我们聚合变形的特征图以构建具有基于方差的成本度量的成本量。受最近的多尺度MVS工作[7,16,43]的启发,以从粗到细的方式构建成本体积,用于存储深度假设的自适应信息。如图在图2中,三个阶段使用预定义数量的深度假设来构建成本量:D1,D2,和D3. 在第一阶段(粗粒阶段),我们在预定义的深度假设内均匀地采样D1个深度假设depth interval[dmin,dmax],因为此时我们没有关于场景深度的任何信息。在第二和第三阶段中,对于变形特征图中的每个像素,我们根据前一阶段正则化的深度概率体积的不确定性(在第3.4节中讨论)设置其深度假设的球体半径范围假设深度值具有高斯分布,我们可以通过计算阶段s中像素x处的标准偏差σ来估计深度概率体积的每像素不确定度:第j个假设球和第j个深度假设,Ds表示假设球的数量通过利用在前一阶段中估计的深度值的分布,我们基于以下思想逐步缩小进入阶段的假设范围:置信区间对于深度图中的像素x,我们在阶段s中设置假设范围Rs(x)Rs(x)=[ds−1(x)−λσs−1(x),ds−1(x)+λσs−1(x)].将λ的值设置为1。5.本文中的所有结果。我们观察到,结果对λ,因为模型将通过训练学习调整不确定性区间。利用空间变化的不确定性估计,我们可以有效地缩小深度区间,减少深度样本的数量。3.4. 深度回归和损失函数我们应用3D CNN来正则化成本卷并生成概率卷[24,44]。具体来说,正则化网络是一个3D U网,由以下组成:一系列下采样和上采样层,考虑不同分辨率的特征。在卷积层之后,沿着深度方向对概率体积应用softmax操作。最后,我们的网络输出估计的深度值作为从所有深度假设计算的期望值:”。DsSSSj=1d最大值d=d最小值Sd×P(d),其中dmin和dmax表示最小值。σ(x)=,.P j·(dj(x)-d^(x))2,(11)最大和最大深度样本。其中,P j、dj(x)和d^s(x)表示概率v第j个深度假设球的预测深度函数使用l1范数来度量++ ,+=(M(X+))你知道吗= (M(X ))���电子邮件 01 - 02- 01-02 -02-0你好,你好,+)X−1你好,你好为(,)(+)球体球体MC∅������C源视图参考视图HW你好,你好P=R���������������,R,R���������������������������������������������������������������������������������R,,�������系������∅ZYX你好=100000000000000000000000公司简介−+−������地面实况深度和估计深度。因为3063S1s=1GT }3将三个阶段的成本量分别正则化,总损失为三个阶段l1L( D , DGT ) =<$λs· (<$$>DGT ( p )−Ds(p)<$),表1:EQMVS测试集的准确度、完整性和总体质量的重复工作定性结果我们比较了传统方法(COLMAP[34]和开放式MVS[4])和学习方法(MVSNet[44]在(1)混合MVS [46]和(2)DTU [1])。s=1其中D={Ds}Np∈P有效,DGT={DsNs=1(十二),Pvalid是在地面实况深度中的有效像素的集合,并且λs是第s阶段的权重。4. 合成数据集:EQMVS为了使用监督学习来训练我们的360MVSNet,具有等距矩形投影的多视图立体数据集是必不可少的。然而,现有的多视图立体数据集(如DTU[1])仅包含具有透视图像的以对象为中心的场景。为了解决这个问题,我们生成了一个大规模的合成数据集EQMVS的室内场景图像的等距矩形格式。4.1. 数据采集与之前的工作类似[47],我们利用来自两个大规模真实世界室内场景数据集的纹理网格:Stanford2D3D[2]和Matterport3D [5]。我们使用基于物理的路径跟踪器渲染器(Cycles渲染器来自Blender软件[10])来渲染360个图像。我们将原始3D数据集中的每个室内场景拆分为多个根据所提供的语义标签来拼接较小的场景。因此,我们数据集中的每个场景都是一个房间或区域。对于每个场景,我们通过在场景内的多个位置放置具有等距矩形投影的全景相机来渲染一组RGB图像和地面实况深度图。为了解决原始3D场景网格中的漏洞,我们还生成了相应的掩码来标记无效像素,并在训练和测试过程中排除它们。为了在单个场景中生成更密集的视点,我们从3D数据集的原始数据中插入相机位置,以创建足够数量的数据。我们的EQMVS数据集包括1014个场景,总共由53114个RGB图像、深度图和蒙版组成的三元组表示。我们还包括渲染图像的相机位置与以前的透视多视图立体数据集相比,我们引入了一个更具挑战性的场景数据,具有大量的各种室内环境,而不是一个单一的对象,通过控制相机轨迹捕获。我们的数据集可以用作新的基准,利用360帧全景图像进行室内场景重建。5. 实验和结果5.1. 实现细节训练我们的网络是使用Py- Torch[32]框架实现的,并在单个NVIDIA上进行训练。Quadro RTX 8000 GPU。在MVSNet[44]之后,输入图像的数量被设置为N=3,具有1个参考图像和2个源图像。我们采用三尺度成本量,每个阶段的深度假设数量分别为160、32和8。我们将EQMVS中的场景分为包含825个场景的训练集和包含其余189个场景的测试集。后期处理。类似于先前的基于深度图的MVS方法[34,44,4],我们的方法需要用于将预测的深度图转换为点云的后处理步骤。因为没有现有的深度融合方法,我们应用简单的过滤规则,以消除孤立点时,合并深度图。我们...在预测的深度图之间选择光度和几何尺寸:为了光度一致性,我们过滤掉概率低于0的像素。3 .第三章。为了几何一致性,我们相互投影视图之间的像素,以确保深度值是一致的。更多实施细节请参考补充资料5.2. 性能努力程度定量评价。我们遵循DTU数据集[1]提出的标准评估指标来计算重建点云的准确性和完整性。精度度量测量从估计点云到地面实况点云的距离。完整性度量度量测量从地面实况点云到估计点云的距离。我们还评估了MVSNet[44]引入的总体评分,该评分取准确性和完整性的平均值。我们在EQMVS测试集上将我们的方法与传统的基于几何的方法[34,4]和基于学习的方法MVSNet[44]进行我 们 不 与 后 来 建 立 在 MVS 上 的 方 法 进 行 比 较 -Net[16,43,7,6],因为他们专注于减少消耗。我们不将我们的方法与Om-niMVS[41]和SweepNet[42]进行比较,因为目标是方法Acc. ↓对比度↓整体↓COLMAP[34]0.1040 0.1173 0.1107沪ICP备05000000 号-1MVSNet[44](1)0.3205 0.0926 0.2065MVSNet[44](2)0.4644 0.1376 0.3010我国的3064COLMAPopenMVS图4:EQMVS示例测试场景的重复工作量定性比较。我们使用25个360位数字图像重建场景(a)-(d)和49个图像重建场景(e)。对于COLMAP、openMVS和MVSNet,我们使用cubemap投影将每个360mm我们在每个图像下报告准确性/完整性/总体得分。精度零点零二五0.020.015个单位0.01零点零五分0 25 100 200 300 400 500(#image)完整性0.8 0.70.60.50.40.30.20.1025 100 200 300 400 500(#image)COLMAP openMVS我们的MVSNet整体0.4 0.350.30.250.20.150.10.050 25 100 200 300 400 500(#image)图5:我们的方法(红色菱形)在完整性和整体得分方面优于传统方法(COLMAP[34]和openMVS[4]),以及基于深度学习的方法[44]使用较少数量的输入图像(25vs. 100-500 )。为了获得类似的完整性评分,之前的方法(openMVS[4])需要20×输入图像。不同.在这个实验中,我们使用在所有方法的相同位置捕获的输入图像,这意味着需要类似的努力来收集输入数据。因为我们的方法是第一个基于学习的方法,使用360个图像,如在-为了进行公平的比较,由于以前的方法都是针对正常的FoV图像设计的,因此,对于以前的方法,输入的测试图像从等矩形投影变形为立方体映射投影,3065×COLMAPopenMVSMVSNet360MVSNet(我们的)图6:真实世界场景的定性比较。我们比较了我们的方法和其他方法在现实世界的场景中产生的结果我们的方法只需要11个等距矩形360像素图像来重建场景,而其他方法需要66个图像。与其他方法相比,我们的方法重建的场景更完整。年龄我们选择了立方体贴图投影,因为它是计算机图形学中最常用的表示方法,用于用透视图像表示球形数据。如表1所示,我们的方法在完整性和总体得分方面优于所有其他方法。我们在图4中给出了定性结果。由于篇幅所限,我们只能从一个角度展示重建结果。补充材料提供完整的3D点云。与其他方法相比,我们的方法由于其宽的FoV和连续的视觉重叠区域一张360度全景照片中的信息。相比之下,其他方法难以重建整个环境,通常只能恢复场景的一小部分区域。对摄像头数量的评估。图5中的实验表明,以前的方法需要大约500张图像才能达到与我们的方法相似的完整性和整体质量分数,我们的方法只使用25张图像。这表明用户必须花费大约20个努力来收集先前方法的数据。我们的方法在准确性得分方面不那么令人印象深刻。原因是我们在合并深度时只应用简单的过滤规则地图由于缺乏深度融合算法的360度图像. 因此,我们无法剔除像其他方法一样的鲁棒方法。我们把它作为未来的工作。然而,值得注意的是,以前的方法无法重建只有25个图像的场景。真实世界360度全景图像的定性结果。为了证明我们提出的算法的泛化能力,模型,我们用来自[30]的等距矩形格式的真实世界图像测试我们的模型。图像的相机位置由OpenMVG恢复[31]。图6显示了与场景中其他方法的比较。我们的方法可以重建大部分的场景,只用11360幅图像,而其他方法使用66幅图像,但只能重建场景的一小部分。虽然我们的模型是在合成图像上训练的,没有任何精细的调整到现实世界的数据,它显示了高鲁棒性的现实世界的场景。6. 结论和未来工作在本文中,我们提出了360MVSNet,这是一种基于深度学习的多视图立体方法,可以从360张图像中重建室内场景的提出了一种新型的360度球面扫路模块,并利用该模块构建多尺度成本卷。高分辨率深度图可以通过对成本量进行回归来获得。然后,我们将所有视图的深度图合并在一起,以重建最终的场景点云。我们还提出了一个大规模的合成数据集,EQMVS训练360MVSNet。我们证明了我们的方法在所有比较的方法中取得了最好的重建结果。有一些局限性值得进一步研究。首先,我们的方法需要估计相机参数的输入360张照片的图像,而结构,用于360度全景图像的运动恢复(SfM)方法与正常FoV图像一样鲁棒。类似地,不存在用于360像素图像的现有深度图融合算法。我们想探索SfM和深度融合算法的360毫米图像。另一个问题是缺乏具有用于多视图立体的360度全景 在未来,我们很乐意使用多个360度全景图像捕捉更多真实场景。致谢。 这项工作部分得到了科学技术部(MOST),赠款110-2634-F-002-051。它也 得 到 了 部 分 资 助 的 JSPS KAKENHI 赠 款 编 号JP21F20075。3066引用[1] Henrik Aanæs,Rasmus Ramsbøl Jensen,GeorgeVogiatzis,Engin Tola,and Anders Bjorholm Dahl.多 视 点 立 体 视 觉 的 大 规 模 数 据 InternationalJournal of Computer Vision,第1[2] Iro Armeni,Sasha Sax,Amir R Zamir,and SilvioSavarese.用于室内场景理解的联合2d-3d语义数据。arXiv预印本arXiv:1702.01105,2017。[3] Neill DF Campbell 、 George Vogiatzis 、 CarlosHern a'ndez和RobertoCipolla。使用多个假设来改进多视图立体的深度图在Proc. European Conferenceon Computer Vision(ECCV)中,第766-779页。Springer,2008.[4] 丹·瑟内亚OpenMVS:多视图立体重建库。2020年。[5] Angel Chang,Angela Dai,Thomas Funkhouser,Ma- ciej Halber , Matthias Niessner , ManolisSavva , Shuran Song , Andy Zeng , and YindaZhang.Matterport3D:室内环境中rgb-d数据的学习。国际3D视觉会议(3DV),2017年。[6] 陈睿,韩松芳,许静,苏浩。基于点的多视点立体网络。在Proc. IEEE/CVF计算机视觉国际会议(ICCV),第1538-1547页[7] Shuo Cheng , Zexiang Xu, Shilin Zhu ,ZhuwenLi,Li Erran Li,Ravi Ramamoorthi,and Hao Su.使用具有不确定性感知的自适应薄体积表示的深度 立 体 。 在 Proc. IEEE/CVF Conference onComputerVisionandPatternRecognition(CVPR),第2524-2534页[8] TacoSCohen , MarioGeiger , JonasK ?hler ,andMax Welling.球形cnns。arXiv预印本arXiv:1801.10130,2018。[9] 室温柯林斯一种真正的多图像匹配的空间扫描方法。在Proc. IEEE/CVF计算机视觉和模式识别会议(CVPR),第358-363页[10] Blender在线社区。Blender-3D建模和渲染软件包。Blender基金会,2018年。[11] Jeremy S De Bonet和Paul Viola。Poxels:Prob-10体素化体积重建。在Proc. IEEE/CVF InternationalConference on Computer Vision(ICCV),第418-425页[12] Carlos Esteves , Christine Allen Blanchette ,Ameesh Makadia和Kostas Daniilidis。用球形cnn进行三维物体分类和检索。arXiv预印本arXiv:1711.06721,2017。[13] 我是Furuk和CarlosHerna'ndez。多视角立体声:一个教程。发现趋势。Comput. Graph.目视,9(1[14] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。IEEE Transactions on Pattern Analysisand Machine Intelligence,32(8):1362[15] 加利亚尼,拉辛格,辛德勒。表面法向扩散的大规模平行多视点立体视觉。在proc IEEE/CVF国际计算机视觉会议(ICCV),第873-881页,2015年。[16] Xiaodong Gu,Zhiwen Fan,Siyu Zhu,ZuozhuoDai,Feitong Tan,and Ping Tan.高分辨率多视图立体和立体匹配的级联成本卷。2019年。[17] 克里斯蒂安·哈恩 ,莱昂内尔·亨,金熙·李,阿尔·埃克斯·西佐夫和马克·波勒费斯。利用平面扫描立体技术对鱼眼图像进行实时直接密集匹配。2014年第二届3D视觉国际会议,第1卷,第57-64页。IEEE,2014。[18] 林成勋、何安河、弗朗索瓦·拉莫、全海坤、崔京民和仁素权。全方位的深度从小运动与球形全景相机。在Proc. European Conference on ComputerVision(ECCV)中,第156-172页。施普林格,2016年。[19] Sunghoon Im,Hae-Gon Jeon,Stephen Lin,andIn So Kweon. Dpsnet:端到端深度平面扫描立体声。arXiv预印本arXiv:1905.00538,2019。[20] Mengqi Ji,Juergen Gall,Haitian Zheng ,YebinLiu,and Lu Fang. SurfaceNet:用于多视图立体视觉的端到端3D神经网络。在proc IEEE/CVF计算机视觉国际会议(ICCV),第2307-2315页,2017年。[21] Sing Bing Kang和R.塞利斯基利用全向多基线立体的三维场景数据再加工。在proc IEEE/CVF计算机视觉和模式识别会议(CVPR),第364-370页,1996年。[22] 康炳星,理查德·塞利斯基,柴金祥。处理密集多视图立体中的遮挡。在proc IEEE/CVF计算机视觉与模式识别会议(CVPR)。IEEE,2001年。[23] AbhishekKa r,ChristianHaene,andJitendraMalik. 学习多视角立体机。在proc 神经信息处理系统国际会议. 2017年。[24] Alex Kendall 、 Hayk Martirosyan 、 SaumitroDasgupta、Peter Henry、Ryan Kennedy、AbrahamBachrach和Adam Bry。深度立体回归的几何和上下文的端到端学习,2017年。[25] Vladimir Kolmogorov和Ramin Zabih基于图割的多摄像机场景重建。在proc3067欧洲计算机视觉会议(ECCV),第82-96页。Springer,2002年。[26] Kiriakos N Kutulakos和Steven M Seitz。空间雕刻造 型 理 论 。 International Journal of ComputerVision,38(3):199[27] Maxime Lhuillier和Long Quan一种由未标定图像重建曲面的IEEE模式分析与机器智能学报,27(3):418[28] 李 世 刚 双 目 球 面 立 体 。 IEEE Transactions onIntelligent Transportation Systems,9(4):589[29] Keyang Luo , Tao Guan , Lili Ju , HaipengHuang,and Yawei Luo. P-mvsnet:学习多视图立体的逐块匹配置信度聚合在Proc. IEEE/CVF国际计算机视觉会议,第10452-10461页[30] 皮埃尔·穆伦图像数据集,2019年。[31] PierreMoulon , PascalMonasse , RomualdPerrot,and Renaud Marlet. OpenMVG:打开多视图几何体。在模式识别中的可重复研究国际研讨会上,第60- 6974.施普林格,2016年。[32] Adam Paszke , Sam Gross , Francisco Massa ,Adam Lerer,James Bradbury,Gregory Chanan,Trevor Killeen,Zeming Lin,Natalia Gimelshein,Luca Antiga,Alban Desmaison,Andreas Kopf,Edward Yang,Zachary DeVito,Martin Raison,Alykhan Te- jani , Sasank Chilamkurthy , BenoitSteiner , Lu Fang , Junjie Bai , and SoumithChintala.PyTorch:一个非常有风格的高性能深度学习库。神经信息处理系统进展32,第8024-8035页。Curran Associates,Inc. 2019年。[33] Olaf Ronneberger , Philipp Fischer , and ThomasBrox.U-网:用于生物医学图像分割的卷积网络。在MICCAI,第234-241页中。施普林格,2015年。[34] JohannesLutzSchoénberger , EnliangZheng ,MarcPollefeys,and Jan-Michael Frahm.用于非结构化多视图立体的逐像素视图欧洲计算机视觉会议(ECCV),2016年。[35] Steven M Seitz和Charles R Dyer。通过体素着色重建真实感场景。International Journal of ComputerVision,35(2):151[36] Yu-Chuan Su和Kristen Grauman。从360图像中学习快速特征的球面卷积。神经信息处理系统的进展,30:529[37] Yu-Chuan Su和Kristen Grauman。用于紧凑球形卷积的核变换器网络在
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功