多视点立体深度估计的统一表示方法

163 浏览量更新于2023-10-25 收藏 2.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8645重新思考多视点立体的深度估计：一种统一的表示彭瑞1王荣杰2王振宇1赖亚文1王荣刚1，2 1北京大学电子与计算机工程学院2程鹏实验室ruipeng@stu.pku.edu.cnrgwang@pkusz.edu.cnhttps://github.com/prstrive/UniMVSNet摘要在现有的基于学习的多视图立体方法中，深度估计被解决为回归或虽然这两种表示法最近已经证明了它们的优良性能，但它们仍然存在明显的缺点，由于间接学习成本量，回归方法倾向于过拟合，并且由于其离散预测，分类方法不能直接推断精确的深度。在本文中，我们提出了一种新的表示，称为统一，统一回归和分类的优点它既可以像分类方法那样直接约束代价体积，又可以像回归方法那样实现亚像素深度预测为了充分发挥统一性的潜力，我们设计了一个新的损失函数统一聚焦损失，它更统一、更合理地应对样本不平衡的挑战。结合这两个无负担的模块，我们提出了一个由粗到细的框架，我们称之为UniMVSNet。在DTU和Tanks and Temples基准测试中排名第一的结果验证了我们的模型不仅性能最好，而且具有最好的泛化能力。1. 介绍多视点立体（Multi-view stereo，MVS）是从照片中提取几何信息的一个重要分支，它以多幅图像的立体对应关系为主要线索来重建稠密的三维表示。虽然传统的方法[2，7，25，26]在几十年的研究之后已经取得了优异的性能，但越来越多的基于学习的方法[4，5，9，34-具体地，它们从3D成本体积推断每个视图的深度，该3D成本体积根据一组预定义的深度假设从扭曲特征构造。与传统方法中手工制作的相似性度量相比，3D成本体积可以捕获更多的区分特征，以实现更鲁棒的匹配。在不损失完整性的情况下，现有的基于学习的方法可以被划分分为两类：回归和分类。回归是基于学习的MVS方法的最原始和最直接这更具体地说，该模型期望以较小的成本为深度假设回归更大的权重。从理论上讲，它可以通过离散深度假设的加权求和来实现深度的亚像素估计。然而，模型需要在对加权深度而不是对权重组合执行的间接约束下学习复杂的权重组合，这是不平凡的并且倾向于过拟合。你可以想象，对于一组深度假设，有许多权重组合可以加权和求和到相同的深度，这种模糊性也隐含地增加了模型收敛的难度。R-MVSNet [36]中提出了分类，以推断最佳深度假设。与回归中的权重估计不同，分类方法[10，33，36]从3D成本体积预测每个深度假设的概率，并将具有最大概率的深度假设作为最终估计。显然，这些方法不能像回归方法那样直接从模型中推断出精确的深度。然而，分类方法通过在正则化概率体积上执行交叉熵损失来直接约束成本体积此外，估计的概率分布可以直接反映置信度，这是很难从权重组合直观地得出。在本文中，我们寻求统一的优势，回归和分类，即我们希望该模型可以准确地预测深度，同时保持鲁棒性。事实上，接近地面真实的深度假设具有更多的潜在知识，而其他剩余假设的深度假设由于多模态的错误归纳而受到限制甚至有害[42]。基于此，我们提出了对所有深度假设的权重估计是多余的，模型只需要对最优深度假设进行回归，即代表性深度区间（指上一个区域到下一个区域）8646间隔：2∼10GT：8.380.350.3001000.88 + 1 − 0.800.85006零点三五8.428.380× 2 = 8.40估计GT估计One-hot GT估计Unity GT40.1020.01重量L =8.42 −��概率L=（，）团结L= L（，）深度假设回归分类统一图1. 在某个像素处与不同表示进行比较。紫色曲线分别表示通过回归、分类和统一得到的每个深度假设的不同权重、概率和统一性。虽然回归表示需要每个假设的确切权重来回归深度，但分类表示只关心哪个假设具有最大概率，而统一只需要知道与最大统一的接近度CE表示交叉熵，UFL表示统一焦点损失（Sec.3.3）。较大深度假设）包含地面实况深度。为了实现这一点，我们提出了一个统一的深度表示，称为统一。如图与回归不同，损失直接在正则化概率体上进行;与分类不同，该方法估计由至多一个非零连续目标（0 -1）组成的Unity（我们称之为Unity），同时表示最佳深度假设的位置及其与地面实况深度的偏移。我们采用接近度（定义为地面实况和最佳深度假设之间的偏移的补充）来表征统一标签中的非零目标，这比纯粹使用偏移更有效详细的比较在Supp。Mat.此外，我们注意到，这种统一的表示面临着不可否认的样本不平衡的类别和硬度。虽然焦点损失（FL）[19] 是检测领域中提出的常见解决方案，适用于transmitted离散标签，但[17，40]中提出了更一般的形式（GFL）来处理连续标签。尽管GFL已经证明了它的性能，但我们认为，由于忽略了地面真实值的大小，它在区分难样本和易样本方面具有明显的局限性为此，我们提出了一个更合理和统一的形式，称为统一的焦点损失（UFL），经过深入的分析，以更好地应对这些挑战。因此，传统语言学可以看作是超语言学的一种特殊情况，而广义语言学则是超语言学的不完善表达。为了证明我们提出的模块的优越性，我们提出了一个由粗到细的框架，称为 UniMVSNet （或UnifiedMVSNet），以其深度表示和焦点损失的统一而命名，它用统一取代了最近作品的传统表示[5，9，34]，并采用UFL进行优化。大量的实验表明，我们的模型超越了所有以前的MVS方法，并在DTU [1]和Tanks and Temples [14]基准测试中达到了最先进的性能。2. 相关作品传统的MVS方法。以输出场景表示为分类轴，经典的MVS方法主要有四类：体积[15，27]，基于点云[7，16]，基于网格[6]和基于深度图[3，8，24，25，31]。其中，基于深度图的方法是最灵活的一种。它不是在3D域中操作，而是将3D几何重建的复杂问题退化为2D域中的深度图估计。此外，作为中间表示，可以将所有个体图像的估计深度图合并为一致的点云[22]或体积反射[23]，并且网格甚至可以被进一步重建。基于学习的MVS方法。虽然传统的MVS管道主要依赖于手工制作的相似性度量，但最近的工作应用了深度学习来实现MVS的卓越性能。SurfaceNet [11]和LSM[12]是第一个提出的基于体积学习的MVS管道，用于从3D空间回归表面体素。然而，它们限于存储器，这是体积表示的共同缺点。最近，MVSNet [35]首先实现了基于3D成本量的端到端存储器低敏感流水线。该管道主要包括四个步骤：通过二维CNN进行图像特征提取，通过单应性变形进行基于方差的代价聚合，通过三维CNN进行代价正则化，以及深度回归。为了进一步挖掘该管道的潜在容量，已经提出了MVSNet的一些变体，例如，[5，9，34，36]提出通过RNN或粗到细的方式减少内存需求，[20，38]提出自适应地重新加权成本聚合中不同像素的贡献。同时，现有的方法都是基于分类和回归这两个互补的方法之一来推断深度。在本文中，我们提出了一种新的统一表示，以整合他们的优点。864721W−ⓈW∈D∈i=1i=1i=1Σ我i=1x为ohi=1关于我们d=dx，y其中V<$表示平均特征值。此外，提出了自适应聚合以重新加权不同像素的连续性，其可以被建模为：NC=N−1i=2i（Vi -V1）（3）图2. 我们统一的象征。第（m1）阶假设是红点的最优假设.3. 方法本节将详细介绍本文的主要贡献。我们首先回顾了第二节中基于学习的MVS方法的常见管道。3.1，然后介绍在第3.1节中提出的统一深度表示。3.2和第二节中的统一焦点丢失3.3最后，描述了其中是由辅助网络生成的可学习权重，表示逐元素乘法。对每个深度假设下参考视图与所有源视图的匹配代价进行了编码将其转化为代价体积，然后通过基于softmax的正则化网络对代价体积进行进一步细化，生成概率体积P RM×H'×W'。具体来说，The在回归方法中，概率体积被视为深度假设的权重，并且像素（x，y）处的深度被计算为加权假设的和，如下：x为ohΣM大多数基于端到端学习的MVS方法继承自MVSNet [35]，其构建了一个优秀且有效的管道来推断参考图像I 1的深度DRH“×W”。如果有多个IM-从N个不同视点拍摄的场景的年龄{Ii∈RC×H×W}N，所有图像的图像特征{ Fi∈并且该模型受到D和地面实况深度之间的L1损失的约束。在分类方法中，P是指深度假设的概率，深度被估计为概率最大的假设：Dx，y=argmax P（d）x，y（5）d∈{d}MRC'×H'×W'}N首先通过2D网络提取ii=1分享重量。如上所述，基于学习的方法基于3D成本体积和M层的深度假设 DiRH'×W'M 进行采样从整个已知的深度范围来实现这一点，其中d1表示最小深度，dM表示最大深度。根据这一假设，模型通过交叉熵损失进行训练，P和地面实况一热概率体积。在传统的一阶段方法中，与原始输入图像相比，深度图要么在特征提取[35]期间缩小，要么在输入[38]之前缩小，以节省内存，而在粗到精的方法[5，9，34]中，它是一个多阶段方法{Vi∈RM×C'×H'×W'}N可以在3D空间中构建缩放结果{D}L生成增量分辨率通过将源图像的2D图像特征扭曲到参考相机平截头体来经由可微分单应性。第i个视图的特征图与深度d处的参考特征图之间的单应性表示为：通过重复上述流水线L次。多尺度由类似FPN [18]的特征提取网络实现，深度范围递减的深度假设基于前一阶段生成的深度图Hi（d）=dKiTiT−11K−11（一）3.2. 统一深度表示其中K和T指的是摄像机内函数和外函数。为了处理任意数量的输入视图，多视图需要将多个要素体积{Vi}N 聚合为一个如前所述，回归方法由于其间接学习成本体积和深度与权重组合之间的对应关系的模糊性而倾向于过拟合对于分类方法，虽然可以约束成本量C∈RM×i=1C'×H'×W“的。聚合策略-成本量直接，它不能预测准确的深度，回归方法由于其离散预测。在本页中-egy由两个主要群体组成：统计和自适应。基于方差的映射是一种典型的统计聚合：N我们发现它们可以相互补充，并通过统一的深度表示成功地统一了它们，如图所示二、我们将深度估计改写为C=1（VNii=1假设m-1假设m假设1相机1��−1间隔偏移接近度1我们的UniMVSNet的尾部网络架构在SEC。三点四分。3.1.基于学习的MVS研究Dx，y=dP（d）x，y（4）8648-第二卷（2）多标签分类任务，其中模型需要分类哪个假设是最佳假设，并回归8649i=1关于我们i=1∈我i=1^Of f setoff=（1−U）×r;i=1i=1我D−d--{\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscy66\2cHFFFFFF\3cH808080}0.30.20.199Sample1Sample2样品3样品4相对误差：样品4>样品2>样品3>样品1199 3 2 0.5绝对误差：样品1 =样品2>样品3>样品40.3 0.3 0.2 0.199图3.不同样品的硬度测量。四个典型样本，具有不同的地面真值q和不同的估计u。算法一：Unity Generation输入：地面实况深度Dgt∈RH'×W';深度i=1算法二：Unity回归输入：估计单位{U^i∈RH'×W'}Mi=1;深度假设{di∈ RH'×W'}M.假设{di∈ RH'×W'}M.输出：地面实况Unity UiRH'×W'M.深度间隔r= 0。1，对于i=1到Mdo对于（x，y）=（1，1）到（H′，W′）do3如果i M，则4r=dx，y−dx，y;输出：回归深度DRH'×W'.深度间隔r= 0。1对于（x，y）=（1，1）到（H′，W′）do2最优假设指标o=arg maxi∈{1，···，M}3最优假设d=dx，y;U^x，y;5端i+1iO4如果O M，则x为ohx为ohx为ohx为oh5r=dx，y-dx，y;6如果di≤Dgt且di+r >Dgt，则o+1o7Ux，y=1−x，y x，ygtiR6其他7//最后一个假设8其他x为oh8r=dx，y−dx，y;i=0;10端部O9端部o−111端部12端部13返回{Ui}M。x为ohO11深度Dx，y=d+off;12端部13 返回D.接近它。换句话说，我们首先采用分类来缩小最终回归的深度范围，但它们在我们的实现中同时执行。因此，我们的统一表示中的模型能够像回归方法那样估计准确的深度，并且它还像分类方法那样直接优化成本量。下面，我们将介绍如何从地面实况深度生成地面实况单位（单位生成），以及如何从估计的单位回归深度（单位回归）。Unity生成：如图1，地面实况单位UiM是在最优深度假设处达到峰值的单热标签的更一般形式，其深度间隔包含地面实况深度。最多一个非零目标是一个连续的数字，代表最佳假设与地面实况深度的接近程度在算法1中示出了单位生成的细节，其比分类方法中的单热标签生成多一步邻近度计算统一回归：与通过softmax算子预测概率量的传统方法不同，统一表示通过sigmoid算子估计它Here,we disassemble the estimated probability volume P intothe estimated unity Ui M along the M dimension.为了回归深度，我们首先选择在每个像素处具有最大单位的最佳假设，然后计算到地面真实深度的偏移，最后融合估计的详细过程如算法2所示。3.3. 统一焦点损失一般情况下，MVS模型的深度假设会进行相当密集的采样，以确保深度估计的准确性，这会导致数百个假设中只有一个正样本（最多一个非零目标），从而造成明显的样本不平衡。同时，模型需要更多地关注硬样本以防止过拟合。相关焦点损失（FL）[19]已被提出来解决这两个问题，自动0.3;108650∈Q+−联系我们- --- --∈Q+∞∈| −|BQ+Q+图4. 图为UniMVSNet。这是一个典型的由粗到细的框架。粉红色背景的部分是从现有方法继承的为方便起见，深度假设用红色曲线表示。通过估计的单位u[0，1]来自动区分硬样本，并通过可调参数α和γ来重新平衡样本。这里，为了方便起见，我们讨论某个像素。FL的典型定义是：.−α（1 −u）γlog（u），q=1图中的样品。3具有相同的绝对误差，由于第一个样本的地面真值较大，该误差对第一个样本的影响明显较小。为了解决这种模糊性，我们通过相对误差进一步改进了GFL中的缩放因子，并提出了统一焦点损失（UFL）的朴素版本，如下所示：FL（u，q）=−（1−α）uγlog（1−u），else（6）UFL（u，q）=.α（|q−u|）γBCE（u，q），q>0Q+（八）其中q0，1 是离散目标因此，tra-ECOFL不适合我们持续的情况。到在我们的代表案例中，我们借鉴了FL的主要思想。首先，二元交叉熵log（u）或log（1u）需要扩展到其完整形式BCE（u，q）=qlog（u）（1q）log（1 u）。相应地，比例因子也应适当调整。通过这两个步骤获得的广义FL形式（GFL）为：.α|q−u|γBCE（u，q）， q>0（1−α）（u）γBCE（u，q），else其中q+（0，1]是正目标。从Eq可以看出。（8）当正目标为常数1时，FL是UFL的特殊情况。此外，我们注意到，|是[0，+），这可能导致像图中最后一个样本的特殊情况。|3.第三章。3.由于其巨大的比例因子，即使少量的这样的样本也将压倒损失和计算的梯度在本文中，我们解决了这个问题。GFL（u，q）=（1−α）uγBCE（u，q），else（7）通过引入专用函数来控制缩放因子的范围，与此同时，为了保住其中q[0，1]是连续目标。这个高级版本目前被一些现有的不同名称的方法所采用，[17]或[40]中的VFL。但在本文中，我们指出，这种实现是不每-在缩放困难和容易的样本时是有效的，因为它们忽略了积极的学习信号，我们采用非对称缩放策略。完整的UFL可以建模为：.2016年10月20日，中国（|q−u|））γBCE（u，q），q>0地面实况的重要性如图3.在GFL绝对误差q u测量下，前两个样本将被认为是最难考虑的。然而，绝对误差不能区分具有不同目标的样本即使前两个α−（Sb−（u））γBCE（u，q），else其中专用函数Sb（x）被设计为以b为基的S型函数（1/W公司简介3D CNN公司简介��Unity世代UnityGT回归深度W公司简介3D CNNUnity世代单位回归GT深度W3D CNN公司简介��公司简介Unity世代单位回归GT深度多尺度特征单应性特征体积代价体积正则化概率体积提议的统一公司简介��………………UFL（u，q）=（九）8651（1+b-x））.8652i=1Σ×{\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscy66\2cHFFFFFF\3cH808080}×输入CasMVSNet深度CasMVSNet点深度GT我们的深度我们的点图5.DTU上扫描13的深度估计和点重建。我们的模型产生更准确和完整的结果。3.4. UniMVSNet将我们的Unification和UFL应用于现有的基于学习的MVS方法是很简单的。为了说明所提出的模块的有效性和灵活性，我们构建了UniMVSNet，其框架如图所示。4、基于由粗到精的策略。该管道遵守第2.2节中审查的程序。3.1，除了深度表示和优化。继承CasMVSNet [9]，我们采用FPN类网络来提取多尺度特征，并以递减的间隔和递减的数量均匀采样深度假设。为了更好地处理非朗伯区域中的不可靠匹配，我们采用了一种自适应聚合方法，其参数增加可以忽略不计，如[38]，以聚合由可重构单应性扭曲的特征体积。同时，我们还应用多尺度3D CNN来正则化成本体积，并且在每个阶段生成的概率体积P在这里被视为估计的单位UiM，其可以进一步回归到准确的深度，如算法2所示。从图中可以看出。 4.UniMVSNet通过UFL直接优化成本量，有效避免了回归方法中间接学习策略的过拟合。训练损失。如图4、将UFL应用于各个阶段，并将其与不同的权重进行融合。总损失可以定义为：L损失=λiUFLi（10）i=1表1. DTU评估集的定量结果。每个类别中的最佳结果以粗体显示。我们的模型在完整性和整体指标方面排名第一。数据集。我们在DTU [1]和Tanks and Temples [14]基准上评估我们的模型，并在BlendedMVS [37]上进行微调(a)DTU是一个室内MVS数据集，在7种不同的照明条件下，使用固定的摄像机轨迹从49或64个视图扫描了124个不同的场景。我们采用与[35]中定义的相同的培训、验证和评估划分。(b)坦克和寺庙是在一个更复杂的现实环境中收集的，它分为中级和高级两套。中级组包含8个大规模变化的场景，高级组包含6个场景。（c）BlendedMVS是一个大规模的合成数据集，由113个室内和室外场景组成，分为106个训练场景和7个验证场景。实施. 按照通常的做法，我们首先在DTU训练集上训练我们的模型，并在DTU评估集上进行评估，然后在Blend- edMVS上微调我们的模型，然后在坦克和寺庙上验证我们的方法的泛化输入视图选择和数据预处理策略与[35]相同。同时，我们利用更好的DTU地面实况作为[30]。在本文中，UniMVSNet分3个阶段实现，分别为1/4，1/2和1的原始输入图像分辨率。我们遵循相同的配置（例如，在DTU的训练和评估中，每个阶段的模型的深度间隔）如[9]所示。在DTU上训练时，输入图像的数量设置为N=5，图像分辨率调整为640512 为了强调积极信号的贡献，nals，我们设置α+=1，并将S+的范围缩放到[1，3），其中UFLi是-5处所有有效像素的UFL的平均值阶段i和λi表示第i个UFL的权重阶段S5到[0，1）。UFL中的其他可调参数是一致的。按阶段计算，例如，α−设置为0.75、0.5和0.25，4. 实验本节通过综合实验证明了UniMVSNet的最新性能，并通过消融研究验证了申报的Unification和UFL的有效性。我们首先介绍数据集和实现，然后分析我们的结果。从粗级到最精细级，γ被设置为2、1和0。我们使用Adam优化器[13]优化我们的模型16个时期，初始学习率设置为0.001，并在10，12和14个时期后衰减0.5。在DTU的评估过程中，我们还将输入图像大小调整为1152 864，并将输入图像的数量设置为5. 我们报告标准指标（准确性，完整性，方法ACC.（毫米）Comp.（毫米）总体（mm）福鲁[7]0.6130.9410.777吉普马[8]0.2830.8730.578COLMAP [24，25]0.4000.6640.532SurfaceNet [11]0.4501.0400.745MVSNet [35]0.3960.5270.462P-MVSNet [20]0.4060.4340.420R-MVSNet [36]0.3830.4520.417POINT-MVSNet [4]0.3420.4110.376AA-RMVSNet [30]0.3760.3390.357CasMVSNet [9]0.3250.3850.355CVP-MVSNet [34]0.2960.4060.351UCS-Net [5]0.3380.3490.344UniMVSNet（我们的）0.3520.2780.3158653×R-MVSNet CasMVSNet UniMVSNet（Ours）GT图6.DTU上扫描15的定性结果。顶行显示了通过不同方法生成的点云和地面实况，底行显示了与红色矩形对应的更详细的局部区域。中级高级表2. 坦克和寺庙基准的F分数的定量结果。每个类别中的最佳结果以粗体显示。“平均值”是指所有场景的平均F分数（越高越好）。我们的模型优于所有以前的MVS方法，在中级和高级集上都有显着的优势。和总体）由官方评估协议提出[1]。在坦克和寺庙基准测试之前，我们在BlendedMVS上对模型进行了10次微调。我们以7张图像作为输入，原始大小为768 576。对于坦克和寺庙的基准测试，粗略阶段的深度假设数量从48改为64，相应的深度间隔设置为[35]间隔的3倍。我们将输入图像的数量设置为11，并报告F-score度量4.1. DTU结果类似于以前的方法[9，35，36]，我们为深度图滤波引入光度和几何约束概率阈值和一致视图的数量分别设置为0.3和3，与[36]相同。通过与[9，35，36]相同的深度图融合方法我们比较我们的方法，传统的和最近的基于学习的MVS方法。DTU评价集的定量结果总结见表1。1，这表明我们的方法在精度上有了很大的进步。虽然Gipuma [8]在准确性度量方面排名第一，但我们的方法在其他两个度量方面明显优于所有方法。深度图估计和反射和低纹理样本的点重建如图所示。5，这表明我们的模型更鲁棒在挑战区域。图6显示了与其他方法相比的一些定性结果。我们可以看到，我们的模型可以生成更完整的点云，具有更精细的细节。4.2. 坦克和寺庙的结果作为一般的实践，我们验证了我们的方法的泛化能力的坦克和寺庙基准使用的模型在BlendedMVS上微调我们采用了类似于DTU的深度图过滤策略，除了几何约束。在这里，我们遵循[33]中提出的动态几何一致性检查策略。通过这种动态方法，那些具有较少的一致性视图但较小的重投影误差的像素和那些具有较大的误差但更一致的视图的像素也将存活。中期和高级集的相应定量结果见表1。二、我们的方法实现了所有现有的MVS方法中最先进的性能，并在大多数场景中获得第一名。值得注意的是，我们的模型比以前的最佳模型性能好，2.68点和3.24点的中间和高级组。这些明显的优势表明，我们的模型不仅具有最好的性能，而且具有最强的泛化能力和鲁棒性。定性点云结果在图中可视化。7 .第一次会议。方法是说Fam.Fra.霍尔侧副M60锅普拉Tra是说奥德巴尔酷Mus.伙计透射电镜POINT-MVSNet [4]48.2761.7941.1534.2050.7951.9750.8552.3843.06-------[29]第二十九话53.1566.9952.6443.2454.8752.8749.5454.2150.8132.3123.6937.7330.0441.8028.3132.29UCS-Net [5]54.8376.0953.1643.0354.0055.6051.4957.3847.89-------CVP-MVSNet [34]54.0376.5047.7436.3455.1257.2854.2857.4347.54-------P-MVSNet [20]55.6270.0444.6440.2265.2055.0855.1760.3754.29-------CasMVSNet [9]56.8476.3758.4546.2655.8156.1154.0658.1849.5131.1219.8138.4629.1043.8727.3628.11ACMP [32]58.4170.3054.0654.1161.6554.1657.6058.1257.2537.4430.1234.6844.5850.6427.2037.43D2HC-RMVSNet59.2074.6956.0449.4260.0859.8159.6160.0453.92-------VisMVSNet [41]60.0377.4060.2347.0763.4462.2157.2860.5452.0733.7820.7938.7732.4544.2028.7337.70AA-RMVSNet [30]61.5177.7759.5351.5364.0264.0559.4760.8555.5033.5320.9640.1532.0546.0129.2832.71EPP-MVSNet [21]61.6877.8660.5452.9662.3361.6960.3462.4455.3035.7221.2839.7435.3449.2130.0038.75UniMVSNet（我们的）64.3681.2066.4353.1163.4666.0964.8462.2357.5338.9628.3344.3639.7452.8933.8034.638654弗朗西斯博物馆图7. 坦克和寺庙的一些场景的定性结果。方法表示损失函数聚集FGT输入ACC.（毫米）Comp.（毫米）总的来说。（毫米）RegCLA UniL1CE公元前GFLUFL自适应方差基线（Reg）CCC30.3690.3170.343基线（Reg）CCC50.3680.3120.340基线（分级）CCC50.4250.2850.355基线（Uni）CCC50.3720.2820.327基线（Uni）+GFLCCC50.3610.2890.325基线（Uni）+UFLCCC50.3530.2870.320基线（Uni）+ UFL + AACCC50.3550.2790.317基线（Uni）+ UFL + AA + FGTCCCC50.3520.2780.315表3. DTU评价集上的消融结果。“AA”和“FGT”分别指自适应聚合和更精细的地面实况。“Baseline 我们将所有模型的置信度阈值和一致性视图设置为0.3和34.3. 消融研究如前所述，我们采用了一些额外的策略（例如，自适应聚合和更精细的地面实况）已被最近的方法[30，38]采用来训练我们的模型，以便与它们进行公平的比较然而，这对于仅从MVSNet继承的那些方法可能不公平在本节中，我们将通过广泛的消融研究证明，即使消除这些策略，我们的方法仍然具有显著的改进。我们使用我们的基线CasMVSNet [9]，其原始表示是回归，作为骨干和改变各种组件，例如，深度表示、优化、聚合和地面实况。为了公平比较，我们对所有模型采用5个输入视图。统一的好处。如Tab.所示。3、即使单纯用我们的统一代替传统的深度表示，也可以取得同时，当精细阶段的假设范围不覆盖地面实况深度时，统一更稳健在这种情况下，由算法1生成的统一表示的目标单位为全零，这无论如何都是正确的监督信号，并且传统表示将生成不正确的监督信号以污染模型训练。同时，我们的统一也可以在对象边界上生成尖锐的深度，如[28]。UFL的好处将焦点损失应用于我们的表示可以有效地克服样本不平衡问题。从Tab可以看出3，GFL对准确性有巨大的好处，尽管有轻微的完整性损失在GFL的基础上进一步提高了UFL的准确性和完整性更多关于UFL的消融结果Mat.回归微调和更少的数据。选项卡. 4显示我们的表4. 其他消融结果。与其他策略相比，统一策略表现更好，更简洁。同时，即使只有50%的训练数据，我们仍然取得了优异的性能。5. 结论在本文中，我们提出了一个统一的深度表示和一个统一的焦点损失，以促进多视点立体的有效性。我们的Unification可以从直接学习成本中恢复更精细的3D场景，UFL能够捕获更多细粒度的指标来重新平衡样本，并更合理地处理连续标签。更有价值的是，这两个模块不会带来任何内存或计算成本。每个即插即用模块都可以轻松集成到现有的MVS框架中，并实现显著的性能改进，我们已经通过UniMVSNet展示了这一点。在未来，我们计划探索我们的模块集成到立体匹配或单目领域，并寻找更简洁的损失函数。鸣谢。感谢国家自然科学基金 62072013 和 U21B2012，深圳市研究项目JCYJ 20180503182128089和201806080921419290，深圳市优秀科技创新人才培养项目RCJC 20200714114435057，深圳市基础研究项目（GXWD20201231165807007-20200806163656003）。此外，我们感谢匿名评论者的宝贵意见。方法信心一致视图ACC.（毫米）Comp.（毫米）总体（mm）基线（Cla）+回归微调0.3 30.3710.2950.333基线（Uni）+UFL（50%数据）0.3 30.3640.2840.3248655引用[1] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据IJCV，120（2）：153-168，2016年。二六七[2] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing.ACM TOG，28（3）：24，2009. 1[3] NeillDFCampbell，Geor geVogiatzis，CarlosHerna'ndez，and Roberto Cipolla.使用多个假设来改进多视图立体的见ECCV，第766Springer，2008. 2[4] 陈睿，韩松芳，许静，苏浩。基于点的多视点立体网络。在ICCV，第1538- 1547页一、六、七[5] Shuo Cheng，Zexiang Xu，Shilin Zhu，Zhuwen Li，LiErran Li，Ravi Ramamoorthi，and Hao Su.使用具有不确定性意识的自适应薄体积表示的深度立体声在CVPR中，第2524-2534页，2020年。一二三六七[6] Pascal Fua和Yvan G Leclerc.以对象为中心的曲面重建：结合多图像立体和阴影。IJCV，16（1）：35-56，1995. 2[7] 古川康孝和让·庞塞。准确、密集、坚固的多视图立体视觉。IEEE TPAMI，32（8）：1362 一、二、六[8] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。在ICCV，第873-881页，2015中。二六七[9] Xiaodong Gu，Zhiwen Fan，Siyu Zhu，Zuozhuo Dai，Feitong Tan，and Ping Tan.级联成本体积高分辨率多视图立体和立体匹配。在CVPR，第2495-2504页，2020年。一二三六七八[10] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. Deepmvs：学习多视图立体视觉。在CVPR中，第2821-2830页，2018年。1[11] Mengqi Ji，Juergen Gall，Haitian Zheng，Yebin Liu，and Lu Fang. Surfacenet ： An end-to-end 3d neuralnetwork for multi-view stereopsis.在ICCV，第2307-2315页，2017年。二、六[12] Abhish e kKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。在NeurIPS，第365-376页2[13] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。6[14] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准ACM TOG，36（4）：1-13，2017. 二、六[15] Kiriakos N Kutulakos和Steven M Seitz。空间雕刻造型理论IJCV，38（3）：199-218，2000. 2[16] Maxime Lhuillier和Long Quan从未校准图像重建表面的准稠密方法。IEEE TPAMI，27（3）：418-433，2005年。2[17] Xiang Li ， Wenhai Wang ， Lijun Wu ， Shuo Chen ，Xiaolin Hu，Jun Li，Jinhui Tang，and Jian Yang.广义焦点丢失：学习用于密集对象检测的合格和分布式边界框。在NeurIPS，2020年。二、五8656[18] 林宗义、彼得·多尔、罗斯·格希克、何嘉明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR中，第2117-2125页3[19] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在ICCV，第2980-2988页二、四[20] Keyang Luo，Tao Guan，Lili Ju，Haipeng Huang，andYawei Luo.P-mvsnet：学习多视图立体的逐块匹配置信度聚合。在ICCV，第10452- 10461页一、二、六、七[21] Xinjun Ma，Yue Gong，Qirui Wang，Jingwei Huang，Lei Chen，and Fan Yu. Epp-mvsnet：基于对极线组装的多视点立体深度预测。在ICCV中，第5732-5740页，2021年。7[22] 保罗·梅里尔，阿米尔·阿克巴扎德，王亮，菲利普·莫多海，简·迈克尔·弗拉姆，芮昂·杨，达维德·尼斯特和马克·波莱费斯。基于可见性的深度图实时融合。ICCV，第1-8页，2007年。2[23] RichardANewcombe 、 ShahramIzadi 、 OtmarHilliges 、 David Molyneaux 、 David Kim 、 Andrew JDavison 、 Pushmeet Kohi 、 Jamie Shotton 、 SteveHodges和Andrew Fitzgibbon。运动融合：实时密集

下载后可阅读完整内容，剩余1页未读，立即下载