自监督多视点立体视觉中不确定性的挖掘

24 浏览量更新于2023-10-13 收藏 864KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6078自监督多视点立体视觉中不确定性的挖掘徐宏斌1，2，周志鹏4，王亚丽1，康文雄2，5，孙柏贵4，李浩4，俞乔1，3*1深圳市计算机视觉与模式识别重点实验室，中国科学院深圳先进技术研究院2华南理工大学、3上海AI实验室、4阿里巴巴集团、5琶洲实验室hongbinxu1013@gmail.com：siat.ac.cn摘要自监督多视点立体视觉（MVS）与图像重建的预文本任务最近取得了重大进展。然而，以前的方法是建立在直觉，缺乏全面的解释的有效性，自我监督MVS的借口任务。为此，我们建议估计自我监督MVS中的认知不确定性，考虑模型忽略的内容。具体来说，这种缺陷可以分为两类：前台监督不明确和后台监督无效。为了解决这些问题，我们提出了一种新的不确定性减少多视图立体（U-MVS）框架的自监督学习。为了减轻前景中的模糊监督，我们涉及额外的correspondence之前的流深度一致性损失。光流的密集2D对应被用于规则化MVS中的3D立体对应。为了处理背景中的无效监督，我们使用蒙特卡罗丢弃来获得不确定性图，并进一步过滤无效区域上的不可靠监督信号。在DTU和Tank Temples基准测试上的广泛实验表明，我们的U-MVS框架1在无监督MVS方法中实现了最佳性能，与有监督的对手相比具有竞争力的性能。1. 介绍多视图立体（MVS）[30]是一个基本的计算机视觉问题，其目的是从不同视图上的多个图像中恢复3D信息。站在传统方法[11，29]巨人的肩膀上，最近基于学习的方法[37，38]将MVS管道扩展到深度神经网络，在几个基准测试中实现了最先进的性能[1，20]。然而，完全监督学习范式遭受*通讯作者。1代码：https://github.com/ToughStoneX/U-MVS(a) 全监督培训参考图像源图像...损失单应预测深度图重建图像参考图像翘曲预测深度图地面实况损失(b) 自我监督训练深度图某些完全监督不确定性深度图某些自我监督不确定性(c) 监管的不确定性图1. 通过可视化监督中的不确定性，说明基于学习的MVS中完全监督和自我监督培训的有效性。需要冗长和昂贵的过程来收集地面实况深度注释的不可忽略的问题。因此，它导致社区考虑基于学习的方法的竞争替代方案，其需要较少的标签。一个突出且吸引人的趋势是构建自监督MVS任务[12，19，7，15]，其进一步将原始深度估计问题转换为RGB图像重建问题。然而，先前的方法仅仅建立在直观的动机上，缺乏关于哪些图像区域这样的自监督信号可以有效地用于多视图深度估计的全面解释。对于完全监督的MVS（图1（a）），如果给出地面实况深度图，则存在监督的区域是明确的。然而，对于图1中所示的自监督MVS。1（b），图像重建的借口任务实际上提供了基于颜色相似性的模糊监督，这对图像的确切存在是不可知的。6079无监督监督无监督监督无监督监督无监督监督（a）前台监督不明确造成的不确定性（b）后台监督无效造成的不确定性图2.全监督和自监督MVS中认知不确定性的可视化深度估计中的监督。因此，为了提供监督有效性的直接证明，我们利用蒙特卡罗Dropout [18]来可视化认知不确定性以获得全面的洞察力（图18）。（c）第1段。在贝叶斯建模[8]中，认知不确定性内在地反映了监督忽略的内容。我们能从不确定性中知道什么？图2、直接比较了完全监督和自监督MVS的不确定性，明确了哪些因素可能导致自监督失败。研究发现，自我监督训练中的不确定区域比完全监督训练中的不确定区域多重新审视自我监督作为图像重建任务的前提，问题可以分为两组：（1）前景中的模糊监督（图2（a））。在前景物体颜色变化、遮挡等意外因素的影响下，图像重建的托辞任务与光度一致性不一致(2)后台监督无效（图2（b））。无纹理背景不能为深度估计任务提供有效的线索，这在全监督训练中被忽略。然而，图像重构的前提任务考虑了包括无纹理背景的整个图像，涉及无效监督和过度平滑的自监督结果。如何应对这些不确定性？为了解决这些问题，我们提出了一种新的不确定性减少多视图立体框架U-MVS的自我监督学习。它主要由以下两种不同的设计组成(1)针对前景中的模糊监督问题，本文提出了一种新的多视图流深度一致性损失算法，并通过增加对应关系的先验信息来增强自监督的可靠性。直觉是，光流的密集2D对应可以用于在自监督MVS中正则化3D立体对应。提出了一种可微分的Depth2Flow模块，用于将深度图转换为视图间的虚拟光流，RGB2Flow模块从相应的视图中无监督地预测光流。然后虚拟流并且实际流量被强制一致。（2）针对背景中的无效监督，提出了过滤无效区域上的不可靠监督信号，并提出了一种具有不确定性感知的自训练一致性丢失算法。在完全无监督的环境中，我们首先用一个自我监督的预训练模型对数据集进行注释然后利用不确定性映射过滤后的伪标签对模型进行监督。在输入多视点图像上附加随机数据增强，以加强对具有有效监督的区域上的干扰的鲁棒性。总的来说，我们的贡献是：（1）提出了一种新的自监督框架，解决了可视化分析中发现的监督信号和自监督信号之间存在不确定性的问题。(2)我们提出了一种新的自我监督信号的基础上的跨视图的光流和任意视图之间的深度图的一致性。 (3)我们提出了一个不确定性意识的自我训练一致性损失的自我监督MVS。(4)在DTU和Tanks Temples上的实验结果表明，该方法可以在具有相同主干的监督对端上获得具有竞争力的性能。2. 相关工作监督多视图立体：随着深度学习的蓬勃发展，卷积神经网络（CNN）现在已经取代了多视图立体中的经典技术。MVSNet[37]是一个深刻的尝试，它使用端到端神经网络构建了一个标准的MVS管道。他们利用3DCNN从CNN的特征中正则化成本体积，并基于soft-argmin操作从输出体积中获得深度图。许多努力进一步作出，以减轻成本卷的巨大的内存成本。 R-MVSNet[38]用递归卷积GRU单元替换3D卷积。许多并行工作通过将单个成本体积回归分成多个阶段，以粗到细的方式构建，例如 Fast-MVSNet[39] ， UCS-Net[6]， CVP-MVSNet[36]和CascadeMVS。[14]第14话成功的不确定深度图像不确定深度图像不确定深度图像不确定深度图像不确定某些6080阶段1：自我监督预训练共享权重冷冻光度一致性（第3.2.1）参考视图源视图特征提取单应性变形代价体积编码器MC-Dropout解码器深度图虚拟流++交叉视图深度流一致性（第3.2.2）参考源视图对RGB2FlowDepth2Flow损失阶段2：伪标签后训练共享权重激活样本不确定度估计（第3.3.1）T次...随机变换特征提取单应性变形成本量编码器共享权重MC-脱落冻结解码器伪标签不确定参考视图源视图不确定性感知的自我训练一致性（第二节）3.3.2）特征提取单应性变形成本量编码器MC-Dropout解码器深度图丢失前向流后向流图3.我们提出的自监督MVS框架U-MVS的说明无监督/自监督多视图立体：新兴的自我监督领域[12]为惊人的性能提供了一个有竞争力的替代方案，并且不需要地面实况数据。在Unsup MVS[19]中，预测的深度图和输入图像被用于通过单应性扭曲在另一视图上重建图像，因此强制执行光度一致性以最小化原始图像和重建图像之间的差异。MVS2[7]同时预测每个视图的深度图M3VSNet[15]强制表面法线和深度图之间的一致性以正则化MVS流水线。JDACS[34]重新审视了自监督的颜色恒定性假设，并提出了一个统一的框架来增强自监督信号对多视图图像中自然颜色干扰的鲁棒性不确定性：视觉任务的深度学习模型中的不确定性[8]可以分为任意不确定性和认知不确定性。随机不确定性捕获训练数据中固有的噪声，而认知不确定性提供对模型中的不确定性的解释，这可以用足够的数据来补救。[18]研究在贝叶斯深度学习模型中建模认知和任意不确定性对视觉任务的好处在这项工作中，我们的目标是拒绝不可靠的像素估计的认知不确定性。类似的想法也出现在[27]中。在MVS中应用置信度估计来过滤不可靠的预测，例如[21，22]。UCS-Net[6]以粗略到精细的方式逐步重建高分辨率深度图每个阶段的深度假设适应于先前每像素深度预测的不确定性。3. 方法在本节中，我们介绍所提出的自监督MVS框架U-MVS。如图3所示，U-MVS的架构由两个阶段组成：自-监督预训练阶段和伪标签后训练阶段。主干模型（Sec.3.1）首先在自我监督的预训练阶段进行训练（第3.1节）。3.2），然后在伪标签后训练阶段中进行训练（Sec. 3.3）。3.1. 骨干任意的MVS网络可以被用作我们的自监督MVS框架的骨干。默认情况下，使用代表性MVSNet[37]。该网络从N个输入多视图图像中提取特征，并通过可区分的单应性变形将源视图中的特征映射重新投影使用特征图的方差来构造成本体积，并且利用3D U-网与标准3D U-Net不同，我们在编码器和解码器之间的瓶颈层上应用Monte-Carlo Dropout [18]，如图所示。3.第三章。默认情况下，预测深度图时冻结蒙特卡罗丢弃。它仅在估计不确定性图和伪标签时被激活。3.2. 自我监督预训练自我监督预训练阶段包含自我监督损失的两个组成部分：光度一致性损失和交叉视图深度流一致性损失。在摄影一致性损失中，源视图上的图像被用于经由由预测的深度图确定的单应性扭曲关系来重建参考视图上的图像。作为对前景中模糊监督的解决方案，我们增加了一个额外的深度流一致性分支，以在自我监督损失之前赋予额外的对应关系3.2.1光度一致性光度一致性的核心见解[2]旨在最小化真实图像和同步图像之间的差异。6081−≤≤我我≤≤11^^虚光流：F（p）=p−p，其中F（p）rep-1ji i1ji我^^JJ=Σ（I1−I）Mj 2+（I 1−I）Mj2等式 4、隐式的对应关系在从其他角度看图像表示第一视图是参考视图，并且第j（2j V）视图是V1个源视图之一。对于一对多视点图像（I1，Ij），其被附加有内在和外在相机参数（[K1，T1]，[Kj ，Tj]）。MVSNet主干的输出是参考视图上的深度图D1。我们可以根据源vi e w j中的位置p j来计算源vi e w j中pi x el p i的对应点位置。深度光流相对运动参考视图。i摄像机移动对象移动Dj（pj）pj=Kj Tj（K1T1）−1D1（pi）pi（1）图4. Depth2Flow模块的直观性。的相对运动运动摄像机可以看作是运动物体我我由光流表示其中i（1iHW）表示图像中的像素的索引。由于Dj（pj）是齐次坐标中的尺度项，因此pj可以进一步由以下等式描述pj=Norm[Dj（pj）pj]（2）对象朝向具有固定位置的虚拟相机的运动，如图所示。4.第一章通过这种方式，可以通过任意视图之间的密集2D光流来表示对应，并且应该与3D我我我其中Norm（[x，y，z]T）=[x/z，y/z，1]T。然后，可以经由可微分双线性采样[16]来计算从源vi e w j到参考视图的合成图像Ij。由方程式1，我们可以获得指示Ij的有效对应像素的二进制掩码M j。合成图像Ij. 在自监督MVS系统中，所有源视图被扭曲到参考视图中以计算光度一致性损失：VLPC1 1（三）在实际的MVS系统中通过单应性扭曲确定对应根据上述定义J我重新发送对应点pi之间的光流在参考文献vi e w中和在酸ve wj中的p j。考虑到在单应性扭曲函数（Eq. 1和等式2）：F^1j（pi）=Norm[KjTj（K1T1）−1D1（ pi） pi]−pi（4）j=2Mj深度图可以被显式地转换为2D对应图。其中I表示图像I的x和y方向上的梯度，表示逐点乘积。3.2.2横视流深一致性如第1、基本的自监督MVS的一个问题是前台的模糊监督。为了处理这个问题，我们提出了一种新的流深度一致性损失，以规范的自我监督损失。流量-深度稠度损失由两个模块组成：RGB 2Flow和Depth 2Flow，如图所示。3.第三章。在Depth2Flow模块中，预测的深度图被变换为参考视图和任意源视图之间的虚拟光流整个Depth2Flow模块是可区分的，可以插入到训练框架中。在RGB2Flow模块中，我们使用无监督方法[23]来从相应的参考源视图对预测光流。从RGB2Flow模块获得的前向流和反向流需要与从Depth2Flow模块计算的虚拟流Depth2Flow模块：在标准MVS系统中，当收集多视图图像时，相机以固定位置围绕目标对象移动。相机朝向物体的相对运动也可以被视为参考视图和任意源视图之间的光流的响应j.该操作是完全可区分的，其可以被插入到训练框架中，即图1中的Depth2Flow模块。3.第三章。RGB 2Flow模块：我们利用自监督方法[23]从头开始在数据集上训练PWC-Net[31]。在来自目标MVS数据集的提供的多视图对中枚举所有双视图对。在MVS数据集上进行无监督预训练后，PWC-Net用于预测RGB 2Flow模块中的光流。如图3、将参考视图和任意源视图组合的所有双视图对馈送到RGB2Flow模块。输出包括两个视图中的每个视图之间的前向流和后向流。前向流Flj对从参考视图到源视图j的投影进行建模。相反，后向流Fj1表示从源视图j到参考视图的光流损失函数：预测的深度图Dl可以通过Depth2Flow模块转换为虚拟交叉视图光流Flj。RGB2Flow模块的输出是前向流Flj和后向流Flj，其应与虚拟流Flj一致。对于未被遮挡的像素，前向流F1j应该是后向流F1j的逆。为了避免在遮挡像素中学习不正确的变形，我们通过遮挡来掩盖遮挡部分对象图像平面图像平面相机60822--ΣΣO^不不不t=1^^^^FCV1不1时t不不不1J1J +13.4. 总体培训程序∼1由前向-后向一致性检查不确定性推断的掩码O1，通过下式计算加权掩码：【26】：01j={|F1j+Fj1|（5）1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000logΣ2）Mj. 然后是自我监督损失（等式7）进一步修改如下：其中，将阈值λ设定为0.5。然后，可以计算流量-深度一致性损失：L′ssp =L′pc +λLfc（9）HWL=mini=1（F1j（pi）−F^1j（pi））·O1j（pi）HWi=11J（pi）（六）在我们的框架中，6层CNN直接预测来自输入图像的pixel方式的任意不确定性Σ2。在每个像素处，我们使用最小误差，而不是对所有源视图上的Flj和Flj之间的差进行最小误差首先在[13]中引入，以在自监督单目深度估计中拒绝遮挡像素由于无监督RGB2Flow模块可能生成光流的噪声预测，因此我们利用最小误差来拒绝视图之间的不可靠光流。当量9在自我监督的预训练阶段。随机蒙特卡罗丢弃[18]在对不同模型权重进行采样时发挥作用：Wtq θ（W，t），其中q θ（W，t）是每个样本的随机脱落分布。表示在第t次采样中，在模型权重为Wt的情况下，预测的深度图为D1，t。对于我们的深度回归损失，认知不确定性由采样深度图的预测方差3.2.3整体亏损U=1ΣD2t=1-（1ΣDt=1）2+1Σσ2t=1（十）光度一致性损失Lpc和流量-深度一致性损失Lfc：其中（D 1时t，σt）T是采样输出，其中，dom Monte-Carlo Dropout平均预测值D1=Lssp=Lpc+λLfc（7）1ΣT不T个采样输出的D1，t其中λ是平衡Lfc，这是伪标号默认设置为0.1。流深度一致性损失的目的是涉及额外的对应正则化，以增强对现实世界的干扰的自我监督损失的鲁棒性。3.3. 伪标签后训练针对上述问题，提出了一种在二次开发中解决后台无效监控问题的方法. 1，在伪标签后训练阶段中忽略无效区域，如无通过Monte-Carlo Dropout [18]在自我监督的预训练阶段从预训练模型中估计不确定性图。然后，在计算不确定性感知自训练损失时，采用归一化不确定性掩模对不确定区域进行过滤。3.3.2不确定性感知自我训练一致性为了减轻后台的无效监督，我们使用生成的伪标签和不确定性映射上一节中构造了一个不确定性感知的自训练一致性损失。可以在对预测的不确定性U1进行归一化之后计算二进制不确定性掩模U1：U1={exp（−U 1）> ξ}（11）其中ξ=0。3是用于计算二进制掩码U1的阈值，其仅保留自我监督中的某些区域。然后，可以计算不确定性感知的自我训练一致性损失：3.3.1不确定度估计卢克=（D1，τ−D1）U12联系我们（十二）在实践中，预测的不确定性传达了对模型输出的怀疑。如第3.1，蒙特卡罗丢弃[18]被应用于骨干的3D U-Net中的瓶颈层。按照[18]建议的修改策略，原始光度一致性损失修改如下：Σ（I1−I（j）M′2+（∆I1−∆I（j）M′21j=2Mj′22≤j≤V然后，使用修正的损失L′ssp对模型进行预训练，在自监督预训练阶段，总体损失为1时tt=1L′PC=对数Σ26083其中D1、τ表示随机变换的多视图图像的输出。所有图像（I1，Ij）通过数据增强操作（τ1，τ j）随机地变换。在该框架中，我们使用标准的数据增强操作[34]，这些操作不会移动像素，例如颜色抖动，伽马校正，随机裁剪等。需要增强输入的输出与由U1滤波的有效区域上的伪标签D一致。（八）其中，Δ2是数据噪声的预测方差，也称为任意不确定性。因为Σ2是pixel如图3、我们提出的自监督框架U-MVS由两个阶段组成：自监督6084表1. DTU评估基准的定量结果。“Geo."/“你好。”/“Unsup.”分别是Geometric/Supervised/Unsupervised方法的缩写。预训练和伪标记后训练。在自监督预训练阶段的第一阶段中，总体损失Lssp包括光度一致性损失Lpc和流量-深度一致性损失Lfc。如[18]所建议的，在Lssp中涉及不确定性以构造用于训练的修改的损失L′ssp。在伪标签后训练阶段的第二阶段中，通过Monte-Carlo Dropout[18]从前一阶段中的预训练模型估计伪标签和不确定性图。在不确定性感知的自训练损失Luc中，使用由不确定性图过滤的伪标签来监督模型。在后训练阶段中涉及标准随机数据增强操作。4. 实验数据集：DTU[1]是由机械臂收集的大规模室内MVS数据集。对于总共124个场景中的每一个场景，在7个受控光线条件下在49个不同视图上捕获高分辨率图像。Tanks Temples[20]是一个室外MVS数据集，其中包含具有挑战性的真实场景。在MVSNet [37]的正式拆分之后，我们在DTU训练集上训练模型，并在DTU评估集上进行测试。为了验证所提出的方法的泛化性能，我们测试了它的中间和先进的坦克寺庙划分没有任何微调。错误度量：在DTU基准测试中，准确度被测量为结果到结构光的距离Ground Truth Supervised Unsupervised（英语：Ground Truth SupervisedUnsupervised）图5. 在DTU评估基准上的3D重建结果的定性比较。从左至右：地面真相，SOTA监督方法的结果，以及我们的无监督方法。CascadeMVSNet[14]用作骨架。完整性被测量为从地面实况参考到重建结果的距离，封装了捕获了多少表面;总体是准确性和完整性的平均值，用作复合误差度量。在坦克圣殿基准测试中，每个场景的F分数都是按照官方评估过程计算的实施详情：我们U-MVS的支柱框架继承自 MVSNet [37] 和 CascadeMVSNet [14] 的consice开放实现。在准备阶段，我们利用自监督方法[23]从DTU数据集上从头开始训练光流估计网络PWC-Net[31]。通过将参考视图与MVS- Net [37]提供的每个源视图相结合，选择用于光流估计的两视图对。然后，我们利用自监督预训练 PWC-Net 来估计 RGB2Flow模块中的来自上述两个视图对的光流。更多实施细节在补充材料中提供4.1. DTU基准测试结果与SOTA的比较：为了评估我们提出的方法的性能，DTU基准[1]的评估集的定量结果如表1所示。在该表中，比较了最先进的（SOTA）监督和非监督方法。从图中，我们可以发现我们提出的方法比以前的无监督方法表现得更好。在DTU基准测试中的总体误差度量扫描24扫描118扫描77扫描75方法Acc.Comp.整体福鲁[10]0.6130.9410.777Geo.卡拉OK[32]营地[3]0.3420.8351.1900.5540.7660.694吉普马[11]0.2830.8730.578Surfacenet[17]0.4501.0400.745MVSNet[37]0.3960.5270.462CIDER[35]0.4170.4370.427P-MVSNet[24]0.4060.4340.420辅助核算R-MVSNet[38]0.3830.4520.417点MVSNet[5]0.3420.4110.376快速MVSNet[39]0.3360.4030.370CascadeMVSNet[14]0.3250.3850.355UCS-Net[6]0.3300.3720.351CVP-MVSNet[36]0.2960.4060.351[33]第三十三话0.4270.2770.352[19]第十九话0.8811.0730.977MVS2[7]0.7600.5150.637M3 VSNet[15]0.6360.5310.583UnSup[25]第二十五话JDACS[34]0.5940.5710.7790.5150.6870.543我们的+MVSNet0.4700.4300.450我们的+CascadeMVSNet0.3540.35350.35376085×LPCLfc卢克Acc.Comp.整体C0.55270.53450.5436CC0.50630.45760.4820CCC0.46950.43080.4501表2.消融研究的不同组成部分，我们提出的自我监督框架使用MVSNet作为骨干。图像深度不确定性不带流量引导深度不确定性w流量指南表3. 消融研究我们提出的自我监督框架的不同组成部分，使用CasMVSNet作为骨干。改进方法的平均值约为0.351 - 0.355。然而，在不使用任何地面真实标签的情况下，我们的无监督模型以CascadeMVSNet 为骨干，可以在总体指标上达到0.3537图5示出了DTU评估集的若干场景上的3D重建结果的定性比较。使用相同的CascadeMVSNet作为骨干，我们的自我监督框架可以实现与监督训练相当的性能。监督与自监督：为了提供具有相同主干的公平比较，我们将我们提出的自监督 MVS 框架与 MVSNet 和CascadeMVSNet上的监督训练方法进行比较。监督基线的性能取自以前的论文（ MVSNet [37] ，CascadeMVSNet [14]）。从表1中的斜体来看，它表明我们的自监督框架在同等设置下的表现略好于其监督框架。消融研究：为了评估所提出的框架中不同自监督组件的效果，我们分别用自监督损失的不同组合来训练模型。以MVSNet作为骨架，定量结果示于表2中。以CascadeMVSNet 作为骨架，消融结果示于表 3中。Lpc、Lfc、Luc表示基本的光度测定稠度损失（等式1）。3）、流动深度一致性损失（Eq. 8），不确定性意识的自我训练一致性损失（方程式8）。12）分别。从表中，我们可以发现这些自监督组件可以有效地提高所有指标的性能。不确定性可视化：以了解所提出的自我监督组件是否可以处理前面提到的问题的前景和背景中的不确定性。1中，我们提供了图中的蒙特卡罗Dropout估计的不确定性6. 对于第一个问题，分别在具有或不具有我们提出的流深度一致性损失Lfc的情况下训练的模型的不确定性图在图1中呈现。第6（a）段。在流深一致性损失的密集二维对应的指导下，发现自监督中的某些区域变得更它是恶魔-(a) 流深一致性损失影响的不确定性可视化图像深度不确定性深度不确定性无不确定性指南w不确定性指南(b) 不确定性知觉自我训练损失效应的不确定性可视化图6. 在我们提出的流动深度一致性损失Lfc（等式1）的影响下的不确定性的可视化结果。4）和不确定性感知的自我训练损失Luc（等式4）。第12段）。说明通过流深一致性的额外对应先验，可以有效地监控反射和低纹理等干扰。对于第二个问题，分别在具有或不具有自训练损失L uc中的不确定性指导的情况下训练的模型的不确定性图在图1中示出。第6（b）段。从图中我们可以发现，如果在没有不确定性指导的情况下训练模型，则混入的不确定性监督可能会被误认为是正确的伪标签，从而进一步误导自我监督。在不确定性的指导下，误导效应得到缓解，如图所示。第6（b）段。实验结果表明，所提出的不确定性感知自训练损失能够增强监督信号，消除不确定监督信号对自监督MVS的负面影响4.2. 泛化为了评估所提出的方法的泛化能力，我们将我们提出的方法与最先进的监督和非监督方法在Tanks和Temples基准上的性能进行了比较。为了进行公平的比较，我们使用仅在DTU数据集上训练的模型，而没有任何微调来测试Tanks Temples数据集。为了评估，输入图像被设置为1920 - 1056，并且视图的数量为7。我们使用CascadeMVS- Net作为主干，在训练阶段不使用任何地面实况在表4中给出了关于罐和寺庙基准的中间分区的性能的定量比较。文中给出了实验结果LPCLfc卢克Acc.Comp.整体C0.44420.36410.4041CC0.37450.38330.3789CCC0.35400.35350.35376086表4.在没有任何微调的情况下，罐和寺庙基准的中间分区的定量结果我们给出f分数坦克和寺庙基准官方排行榜上所有提交的结果方法辅助核算是说礼堂舞厅法庭博物馆宫寺COLMAP[29]-27.2416.0225.2334.7041.5118.0527.94R-MVSNet[38]C24.9112.5529.0925.0638.6819.1424.96CIDER[35]C23.1212.7724.9425.0133.6419.1823.15CascadeMVSNet[14]31.1219.8138.4629.1043.8727.3628.11C我们的+CascadeMVSNet×30.9722.7935.3928.9036.7028.7733.25表5.在没有任何微调的情况下，对坦克和寺庙基准的高级分区的定量结果。我们给出f分数坦克和寺庙基准官方排行榜上所有提交的结果黑豹家族M60列车图7. 重建的3D模型在中间分区的坦克和寺庙基准的可视化。实验结果表明，与无监督方法相比，我们提出的方法具有最高的得分。此外，中间基准的平均F分数为57.15 ，也优于之前的监督对手，包括CascadeMVSNet。在更复杂的Tanks和Temples基准的高级分区上，比较结果在表5中提供。在不使用任何地面实况注释的情况下，我们提出的方法仍然可以呈现与SOTA监督方法相当的性能。图1中提供了罐和寺庙基准点的中间分区上的重建3D模型的可视化结果。7.第一次会议。我们提出的方法在坦克和寺庙基准测试的两个分区上都达到了无监督MVS方法中的最佳性能，直到二零二一年三月十七日5. 结论在本文中，我们提出了一种新的用于自监督学习的不确定性减少多视图立体框架（U-MVS），旨在通过不确定性分析来处理两个发现的问题：1）前台监督不明确; 2）后台监督无效。对于第一个问题，我们提出了流深度一致性损失，以赋予光流的密集2D对应，从而在自监督MVS中正则化3D立体对应。对于第二个问题，我们使用蒙特卡罗Dropout来估计不确定性图，并从监督中过滤不确定部分。实验结果表明，我们提出的U-MVS框架的有效性6. 确认本工作得到了国家自然科学基金项目（61876176，61976095）、中国科学院科技服务网络计划（KFJ-STS-QYZX-092）、广东省自然科学基金项目（No.2020 B1515120085），上海市科学技术委员会（批准号：20 DZ 1100800和21 DZ 1100100）。本研究由阿里巴巴集团通过阿里巴巴创新研究计划（AIR）支持.方法辅助核算是说家庭弗朗西斯马灯塔M60黑豹操场火车[28]第28话-38.0049.9128.1920.7543.3544.5144.7636.5835.95OpenMVG[28] + OpenMVS[4]-41.7158.8632.5926.2543.1244.7346.8545.9735.27COLMAP[29]-42.1450.4122.2525.6356.4344.8346.9748.5342.04MVSNet[37]C43.4855.9928.5525.0750.7953.9650.8647.9034.69CIDER[35]C46.7656.7932.3929.8954.6753.4653.5150.4842.85R-MVSNet[38]C48.4069.9646.6532.5942.9551.8848.8052.0042.38CVP-MVSNet[36]C54.0376.5047.7436.3455.1257.2854.2857.4347.54CascadeMVSNet[14]C56.4276.3658.4546.2055.5356.1154.0258.1746.56MVS2[7]××××37.2147.7421.5519.5044.5444.8646.3243.3829.72M3 VSNet[15]37.6747.7424.3818.7444.4243.4544.9547.3930.31JDACS[34]45.4866.6238.2536.1146.1246.6645.2547.6937.16我们的+CascadeMVSNet57.1576.4960.0449.2055.5255.3351.2256.7752.636087引用[1] Henrik Aanæs，Rasmus Ramsbøl Jensen，GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据 InternationalJournal of Computer Vision，第1[2] ConnellyBarnes ， EliShechtman ， AdamFinkelstein，and Dan B Goldman. Patchmatch：Arandomized correspondence algorithm for structureimage editing.ACM事务处理图表，28（3）：24，2009.[3] Neill DF Campbell、George Vogiatzis、Carlos Herna'ndez和RobertoCipolla。使用多个假设来改进多视图立体的深度图。欧洲计算机视觉会议，第766-779页。Springer，2008.[4] 丹·瑟内亚OpenMVS：多视图立体重建库。2020年。[5] 陈睿，韩松芳，许静，苏浩。基于点的多视点立体网络。在IEEE计算机视觉国际会议论文集，第1538-1547页[6] Shuo Cheng ， Zexiang Xu， Shilin Zhu ，ZhuwenLi，Li Erran Li，Ravi Ramamoorthi，and Hao Su.使用具有不确定性意识的自适应薄体积表示的深度立体声。在IEEE/CVF计算机视觉和模式识别会议论文集，第2524-2534页[7] Yuchao Dai，Zhidong Zhu，Zhibo Rao，and Bo Li.Mvs2：具有多视图对称性的深度无监督多视图立体。在2019年国际3D视觉会议（3DV）中，第1-8页。IEEE，2019。[8] Armen Der Kiureghian和Ove Ditlevsen。偶然的还是认识的？有关系吗？结构安全，31（2）：105[9] Simon Fuhrmann，Fabian Langguth，and MichaelGoesele.多视图重建环境。GCH，第11-18页。Citeseer，2014.[10] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE Transactions on Pattern Analysisand Machine Intelligence，32（8）：1362[11] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。在IEEE计算机视觉国际会议论文集，第873[12] Cle'mentGodard，OisinMacAodha，andGabrielJBrostow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页[13] Cle'mentGodard，OisinMacAodha，MichaelFirman，and Gabriel J Brostow.深入研究自我监督的单目深度估计。在IEEE/CVF计算机视觉国际会议集，第3828-3838页[14] Xiaodong Gu，Zhiwen Fan，Siyu Zhu，ZuozhuoDai，Feitong Tan，and Ping Tan.高分辨率多视图立体和立体匹配的级联成本卷。在IEEE/CVF计算机视觉和模式识别会议论文集，第2495[15] 黄百川、黄灿、何怡佳、刘静斌、小刘。M？vsnet：无监督多度量多视图立体网络。arXiv预印本arXiv：2005.00363，2020。[16] MaxJaderberg ， KarenSimonyan ， AndrewZisserman ， andkoraykavukcuoglu. 空间Transformer网络。In C.Cortes，N.Lawrence，D.李，M。杉山，以及R. Garnett，编辑，神经信息处理系统进展，第28卷。Curran Associates，Inc. 2015年。[17] Mengqi Ji，Juergen Gall，Haitian Zheng ，YebinLiu，and Lu Fang. Surfacenet：一个用于多视图立体视觉的端到端3D神经网络。在IEEE计算机视觉国际会议论文集，第2307-2315页[18] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性在重症盖永V.Luxburg，S. Bengio，H. 瓦拉赫R. Fergus，S. Vishwanathan和R. Garnett，编者，《神经信息处理系统进展》，第30卷。CurranAssociates，Inc. 2017年。[19] Tejas Khot 、 Shubham Agrawal 、 Shubham Tul-siani 、 Christoph Mertz 、 Simon Lucey 和 MartialHebert。通过鲁棒的光度一致性学习无监督的多视图立体视觉。arXiv预印本arXiv：1905.02706，2019。[20] Arno Knapitsch，Jaesik Park，Qian-Yi

下载后可阅读完整内容，剩余1页未读，立即下载