基于非参数深度分布的多视点立体深度推断模型

145 浏览量更新于2023-10-25 收藏 1.94MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8626基于非参数深度分布模型的多视点立体深度Jiayu Yang1，2岁，Jose M.阿尔瓦雷斯2，刘苗苗11澳大利亚国立大学，2NVIDIA{jiayu.yang，miaomiao.liu}@ anu.edu.au，josea@nvidia.com参考文献图像参考基线的图像误差[18]我们的误差图1.边界区域级联MVS方法的性能分析。与单峰基线模型和最先进的基于patchmatch的方法PatchmatchNet[18]相比，我们基于非参数深度分布建模的方法可以在深度突变的边界区域上实现更准确的深度估计结果。摘要最近的基于成本体积金字塔的深度神经网络已经解锁了有效地利用高分辨率图像用于从多视图立体进行深度推断的潜力。通常，这些方法假设每个像素的深度遵循单峰分布。边界像素通常遵循多模态分布，因为它们表示不同的深度;因此，该假设导致成本体积金字塔的较粗级别处的错误深度预测，并且不能在细化级别中进行校正，从而导致错误的深度预测。相比之下，我们建议通过非参数深度分布建模来构建成本体积，以处理具有单峰和多峰分布的像素。我们的方法输出多个深度假设在较粗的水平，以避免在早期阶段的错误。当我们在后续级别中围绕这些多个假设执行局部搜索时，我们的方法不保持刚性的深度空间排序，因此，我们引入稀疏成本聚合网络来导出每个体积内的信息我们在两个基准数据集上广泛评估了我们的方法：DTU和Tanks Temples。我们的实验结果表明代码可以在 https ： //github 上找到。 com/NVlabs/NP-CVP-MVSNet1. 介绍多视点立体（MVS）的目的是从一组由相机从多个视点捕获的图像中推断出场景的3D结构（由深度图表示）它是计算机视觉社区的一个基本问题，并且已经被广泛研究了几十年[13]。最近，使用成本体积金字塔[3，5，22]的基于学习的方法已成为利用高分辨率图像的首选技术，与其他基于学习的方法相比，该技术可带来卓越的性能[23，24]。这些方法通常围绕在较粗糙级别构建的成本体积上的初始深度估计执行然后，假设每个像素遵循单峰分布，他们将每个像素的深度估计为预定义范围内的几个深度样本的近似连续深度分布的期望[3，5，22]。虽然这些方法已经取得了有希望的结果，但它们往往会错过小物体和具有突然深度变化的边界区域，其中我们的模型比现有的方法性能更好并且在边界区域上实现优异的性能。该工作是在NVIDIA实习期间完成的参考文献深度[18]第十八话我们8627单峰分布假设不成立。如图1所示，具有单峰分布假设的多尺度深度估计框架在边界像素上表现不佳。这主要是因为，例如，多尺度方法在粗水平上做出早期决定，因为该水平中的深度基于单峰分布假设被表示为单个值如果估计的粗略深度远离实际深度，则误差将传播到细化级别并且不能经由局部深度搜索来校正，从而导致不正确的深度预测。在这项工作中，我们解决了这个问题，明确model-eling在不同的分辨率使用多模态分布的每个像素的深度特别是，与使用混合密度分布的方法[17]相比，我们使用非参数分布来学习沿着3D可见光线的每个深度假设的概率与参数化方法相比，我们的方法提供了额外的灵活性，特别是在粗到细的结构中。然后，我们在最高分辨率下使用其相应深度补丁内的深度分布来指导给定学习的分布，我们通过使用前K个概率分支深度假设来构建下一级的成本量。我们的方法实现了比现有方法更好的地面实况深度覆盖率;然而，由于逐像素深度分支处理，它失去了相对空间关系。为了在新的成本量结构中聚合信息，我们提出了一个稀疏成本聚合网络来保持相对空间关系。在多个基准数据集上的实验表明，该方法具有较好的性能，特别是在边界区域.在DTU数据集上，我们的方法优于当前最先进的基于多尺度补丁匹配的方法Patchmatch-Net [18]，在边界区域上产生高达32%的低误差本文的主要贡献如下.• 我们提出了一个非参数的深度概率分布建模，使我们能够处理单模态和多模态分布的像素• 我们通过基于建模的逐像素深度概率分布对深度样本进行分支来构建成本体积金字塔。• 我们应用一个稀疏的成本聚合网络来处理每个成本体积，以保持刚性的几何空间关系的成本体积，并避免空间歧义。• 我们的方法在边界区域上优于以前的方法，并成为DTU数据集上的最新技术。2. 相关作品基于深度学习的MVS方法采用深度CNN来推断每个视图的深度图，然后通过单独的多视图融合过程来构建3D模型。这些方法允许网络提取区分特征编码的全局和局部信息的场景，以获得强大的MVS特征匹配。特别地，Yaoet al.建议MVSNet [23]推断每个视图的深度图。[23]中的一个重要步骤是基于平面扫描过程构建成本体积，然后使用多尺度3D CNN进行正则化。虽然有效的深度推理精度，它的内存需求是三倍的图像分辨率。为了允许处理高分辨率图像，已经提出了几种方法来减少内存需求。递归方法[19，21，24]使用递归网络（如GRU [24]或LSTM [19，21]）以递归方式构建成本量然而，循环方法通常消耗更长的运行时来减少空间需求。另一条研究路线利用多尺度框架进行粗到细的深度估计[2，3，5，18，20，22]。多尺度方法以较低分辨率构建粗略成本体积以估计粗略深度图，随后以较高分辨率构建部分成本体积以进行深度细化。虽然多尺度方法在效率和精度方面都取得了令人满意的结果，但仍有两个主要问题没有得到解决：粗尺度上的早期决策和部分成本体积的空间模糊性。在本文中，我们解决了第一个问题，通过非参数深度分布建模与一个新的多尺度深度估计框架配对。我们解决第二个问题，一个新的稀疏成本体积配方和稀疏成本聚集网络，保持刚性的空间关系。多模态视差分布建模。多模态视差概率分布建模是近年来立体匹配领域的研究热点.在[17]中，Tosiet al.表明当实际视差遵循多模态分布时，每个像素的单峰概率分布假设导致不准确的视差估计。因此，他们建议将连续视差建模为参数双峰分布。他们提出的方法进一步提高了视差估计性能，特别是在高分辨率的边界像素。虽然所提出的方法可以处理多模态视差/深度建模，但是直接扩展到成本体积金字塔结构以避免导致粗略级别的错误深度估计并非微不足道。UASNet [9]建议通过不确定性引导的深度范围估计和深度采样来构建级联成本他们的目标是建立一个深度采样覆盖多模态深度分布的成本卷。特别地，它们在每个阶段输出4个视差图。在…8628微米i=1i=0时i=0时i→0，dm=1m=1}Mi=1我i=0时0trast，我们在早期阶段不输出深度估计-一组离散深度假设下的Ous分布Pl（dp）代替基于深度样本的建筑成本量，（离散样本）{dlLm=1。很有可能3. 方法设I0∈ RH×W×3为参考图像，其中H和W定义其维数，{Ii}N为其N个相邻源图像。假设{Ki，Ri，ti}N是相应的摄像机内参数、旋转矩阵和所有视图的平移向量我们的目标是从{Ii}N推断I0的深度图D∈RH×W。图2显示了我们的方法的总体管道，基于以从粗到细的方式构建与现有的作品不同，我们的方法的关键思想是建立级联的成本-体积的基础上的局部搜索周围的顶部K深度假设，我们通过建模像素的深度概率分布。下面，我们首先介绍接下来，我们将介绍基于这种非参数深度概率分布建模的深度推断框架。3.2.成本量金字塔我们使用特征金字塔来提取特征fl，l∈{0... L}，其中l=L是指最小分辨率和l= 0是指最精细的水平相关性，响应完整的决议。深度初始化的常规成本量。我们首先在L层建立成本量。假设{fL}N是指从参考视图提取的特征图，并且N个源视图。给定一预定义全球深度搜索范围我们的非参数深度概率分布模型-[dmin，dmax]，我们均匀采样{dmMLm=1 深度值eling;然后使用这些非参数分布和深度图推理过程构建成本体积金字塔。最后，我们提供损失函数的细节。对应于逆深度空间上的ML个前平行平面[20]。这里dmin和dmax分别表示搜索范围的下限和上限。注意采样深度d∈ {dmMLm=1 代表一个平面，3.1. 非参数深度分布模型现有方法假设像素p的深度d遵循单峰概率分布Pp（d）。在此假设下，估计深度d（p）通常定义为该分布的期望，近似为深度假设{dm}M与其与参考相机的图像平面平行我们使用为深度d定义的平面计算的差分单应性[23]来扭曲源视图的特征i到参考视图fL。我们计算匹配-将成本作为参考特征fL和变形源特征fL之间的GL.然后，我们估计每个深度沿射线的估计概率：d（p）=E[Pp（d）]i→0，d假设平面并将它们连接成成本量d∈{dm}MdPp（d）。CL∈RHL×WL×ML×GL. 这里W L和HL指单峰深度分布是有效的假设如果离散深度图具有足够高的分辨率并且可以很好地近似连续深度分布[17]。然而，较低分辨率的像素可以是具有不同深度值的一组3D点的投影，特别是对于具有深度不连续性的对象的边界上的3D结构，如图11所示3、是多模态分布的固有特性。如图4a所示，现有的基于级联成本体积的工作使用单峰分布来表示那些像素可能导致不正确的深度估计。估计深度（定义为分布的期望值）可能与任何深度模式相距太远;因此，在图像大小为L级。我们采用类似于[20]的视图聚合模块来估计可见性图并融合从不同源视图计算的匹配成本。给定此常规成本量CL，我们使用类似于[22]的常规3D-UNet进行成本聚合。该初始成本聚合网络的输出是表示为P L的概率体积 ∈RHL×WL×ML 它定义了非-每个像素的参数深度概率分布，rep-由每个深度样本的概率表示然后，我们探索具有前K个概率的逐像素深度样本，以构建下一级别的成本量。用于深度细化的稀疏成本体积。不失一般性，我们从现在开始忽略像素索引让经过细化步骤。也就是说，该算法使得L KQii=1 定义前K个估计概率的深度样本不准确的早期决策，其错误将是propa-在水平l处的能力，其中{Qi}K定义前K个索引，进入后续模块。相反，我们为每个像素引入非参数深度概率建模来处理具有任意分布的像素。具体地，给定在粗略水平l处的像素p，其深度dp遵循连续概率分布。我们近似这个连续-是对应的深度搜索间隔。执行在从级别1获得的K个可能的深度样本周围的局部搜索中，我们通过将级别1处的每个所选深度样本细分为两个样本来定义级别1-1的深度样本，参见图2。五、这一过程是为每一个}}}{d8629KKk=1kMM44m−，di=1M=d=dm−M+M+p mpM图像重投影特征提取稀疏3DUNet输出深度损失地面实况深度稀疏成本量稀疏概率体GT重投影特征提取稀疏3DUNet损失稀疏成本量稀疏概率体地面实况概率量 GT预期重投影特征提取稀疏3DUNet损失特征提取器稀疏成本量稀疏概率体地面实况概率量 GTTop-k假设细分密集3D Unet损失特征图初始假设成本量概率体积地面实况概率量图2.网络结构。我们首先从源图像和参考图像构建特征金字塔。然后，我们建立的成本体积金字塔的基础上逐像素的非参数深度概率分布的建模。具体地，基于来自前一级的前K个概率的深度样本来构建每一级的成本量。成本量是稀疏的，并通过稀疏卷积进行聚合。在全分辨率级别推断深度图D0全分辨率补丁深度观测诸如Cl−1 ={（p，c）}Kl−1，其中c 定义比赛-粗略比例上的一个像素深度分布ing cost，pk=（xk，yk，zk）定义3D坐标com。从深度样本中提取，Kl−1定义从深度样本转换的3D点给定摄像机投影矩阵，我们将pk投影到其他源视图，并且成本的计算类似于上一节中所述的L级像素的成本稀疏成本聚合网络。由于稀疏代价体积不能通过常规的密集3D卷积有效地聚合，我们构建了一个稀疏代价聚合网络，图3.粗像元的深度分布可以通过全分辨率深度图上对应块的深度观测值像素作为利用存储在Pk中的刚性空间关系的总成本。具体来说，我们网络的基本块由三层稀疏3D卷积组成，每个维度上都有因子分解的内核，一个稀疏批量归一化层和一个稀疏ReLU激活[15]。我们提供详细的l l−1dll l+1dl，（一）补充材料中的网络结构稀疏成本聚合网络的输出是概率-概率分布Pl−1（d），用作构建的输入其中m∈ {Q}Kp.水平l−1的深度样本为ii=1下一个细化级别的成本量，见图。第6（b）段。估计为Sl−1={d ll|m∈{Q i}K}，更新的深度搜索间隔Δd l-1= 0。五度湖由于级别之间的分辨率差异，Sl−1由对应于级别l的像素的级别l−1的补丁内的像素共享。给定像素级深度样本Sl-1，我们构建成本体积来模拟l-1级像素的深度概率分布。由于深度样本是以逐像素方式形成的，因此，不保留相邻3D点之间的有效空间位置。因此，我们利用稀疏成本量结构和聚合信息的基础上稀疏卷积。为此，我们定义了稀疏成本体积3.3. 全分辨率下的深度推断与现有的级联成本基于体积的方法不同，我们只在全分辨率水平0下执行深度推断。在这个层次上，我们近似每个像素的深度作为估计分布的期望，0Σd（p）= E（P0（d））=d0P0（d0）.（二）m=1Dp近似DDD8630DDDDDgt，pMgt，pGTMM电子秤细化尺度1第二类细化地面实况深度估计深度(a) 单峰（b）非参数图4.单峰和非参数深度搜索。(a)现有的方法假设单峰分布，这可能导致不正确的深度估计。(b)我们的非参数深度建模可以从多模态深度分布估计正确的深度。根据经验，我们观察到地面真实概率比例lTop-k细分ll ll ll12 3 4 5 6分布通常集中在几个假设上，导致零概率和非零概率的样本数量不平衡。我们解决这个问题的平衡损失，ΣΣMlL1=λl（dl）Ll（dl），（5）比例尺l−1pMpMm=1.dl−1dl−1dl−1dl−1dl−1dl−1l l 1−σl，如果Pl（dl）>012 3 4 5 6λp（dm）=σl，如果Pl（dl（六））= 0图5. 我们通过选择top-k假设生成新的假设，从粗层开始，沿射线均匀细分Ml Σgt，pML l3.4. 损失函数σl=m=1p∈φlφ（Pgt，p（dm）>0）Hl×Wl×Ml，（7）我们以监督的方式训练网络我们使用深度概率分布由高分辨率深度图观测值近似特别地，对于每个像素p，地面实况概率是其中，L1定义了级别L处的图像坐标域，σl表示概率大于零的假设的百分比。在最后一级，我们通过测量之间的距离的l1范数来监督深度估计。Pl用深度直方图来近似地面实况深度图和最终估计深度图。从相应的补丁Φp在全-分辨率，由观测值之和归一化，L0= Σp∈0||1.一、||1.（八）历史l（dl）Pl（dl）=Σpm，总损失是BCE损失的加权和，gt，pMm=MlHistl（dl）m =1pM.L粗鳞和最终水平上的L1Σ|dp′−dm|LHistl（dl）=1−dl，如果|dp′−dm|≤100μLpm0，如果|d ′− d l| > ∆d,L=wlLl（9）p′∈Φppm（三）l=0其中dp′是贴片中pix elp′的地面实况深度值Φp，d l是深度假设，而Δdl是间隔be-其中wl是水平l处的损失的权重。深度假设。最后，对于每个假设dl，对于像素p，我们可以4. 实验阿夫拉德ldl−1Dl 2−2个以上3−3+DlDlDlDlDl5 −5岁以上D8631M把损失作为es之间的二进制交叉熵-在本节中，我们展示了我们的性能估计概率Pl（dl）和地面真实概率一个全面的实验方法，在标准，Plgt，ppM（dl），标准基准。下面，我们首先描述数据集和基准测试，实现细节，然后，L1（dl）=BCE（P1（dl），P1（dl））。（四）分析我们的结果。pMpmgt，pM8632GTl=0假设变平成本量成本聚合（一）选假设地面实况深度K卷积核卷积滤波保留空间关系稀疏成本量稀疏成本汇总（b）第（1）款图6.稀疏成本量和稀疏成本聚合。颜色表示假设的相对深度（a）现有方法建立具有空间模糊性的扁平化成本量（2）构建稀疏成本体，并使用稀疏成本聚合来保持刚性空间关系。R0R1R2R3R4参考文献图像参考深度分割图7.我们将地面实况深度图分割成五个区域，对应于不同的深度平滑度，并评估每个区域的深度估计精度。4.1. 数据集DTU数据集[1]是一个大规模的MVS数据集，提供了在7种照明条件下从64个视图捕获的124个场景。为每个场景提供由结构光扫描仪捕获的3D点作为参考重建。数据集为每个视图提供彩色图像和相应的摄像机参数。BlendedMVS数据集[25]是一个大规模的合成MVS数据集。它包含超过17000个MVS训练样本，涵盖113个场景，包括建筑，雕塑和小物体。我们使用5个视图进行训练，并采用与[18]类似的我们使用亚当优化器0。0005的学习率和批量大小为2的Nvidia RTX Titan GPU。为了证明我们方法的泛化能力，我们在BlendedMVS [25]训练集上训练我们的模型，并在没有任何微调的情况下在Tanks和Temples数据集上进行测试。我们遵循[22- 24 ]使用的评估协议在DTU数据集上，我们报告了重建点云的准确性，完整性和整体得分。Accu- racy测量从估计点云到地面实况的距离（单位：毫米），而Completion测量从地面实况点云到估计点云的距离[1]。总体得分是准确性和完整性的平均值[23]。在坦克和寺庙中，我们报告每个场景的f分数和所有场景的平均值。我们还评估了深度估计的准确性，特别是对深度边界。为此，我们使用模拟带通滤波器的拉普拉斯金字塔将地面实况深度图分割成不同深度平滑度的非重叠区域，参见图7。我们首先建立一个深度坦克和寺庙[6]数据集提供了室内和地图金字塔{Dq}QQ+1的水平反复下降-gt q=0在真实闪电条件下的户外场景，大规模的变化。我们在这个公共基准数据集上评估了我们模型的泛化对地面实况深度图D0进行采样。然后，我们建立拉普拉斯金字塔的深度，采取的差异是-{Dq}Q中相邻水平之间，其中较低级别gt q=04.2. 执行我们使用pytorch[10]实现所提出的模型，并使用Torchsparse[16]库进行稀疏成本卷和稀疏成本聚合。训练我们在DTU数据集上训练我们的模型，使用尺寸为640×512的下采样和裁剪图像及其相应的深度图。此地图由由所提供的参考点云的筛选泊松表面重建生成的表面网格。我们使用与[23]中定义的相同的训练，验证和测试集。我们将级别数设置为（L+ 1）= 4，对深度进行上采样以匹配上一个的大小。拉普拉斯金字塔的每一层都包含以特定尺度呈现的深度结构，我们将其作为遮罩将深度图分割成不同的平滑度地区具体地，我们使用5个级别将深度图分割成五个区域{R0，R1，R2，R3，R4}，参见图7。区域R0对应于Lapla的最高水平金字塔，并且包含具有通常由深度边界或小物体引起的最突然的深度变化的像素较低的水平对应于具有中间和平滑深度的区域。我们将五个区域中每个区域的平均深度误差报告为以mil为单位的平均l1距离。假设数为{Ml}L={8，16，32，48}。估计深度和地面实况深度之间的距离。DXKK8633l=0参考文献图像地面实况[18]第十八话图8. DTU数据集。小物体和深度边界的定性结果示例。上面的每一行示出了地面实况和估计的深度图，下面的行示出了与地面实况深度图相比的估计误差。没有地面实况的区域标记为蓝色。我们的方法基于非参数深度分布建模是更准确的小对象和边界区域。方法R0R1R2R3R4[21]第二十一话7.202.332.595.1410.2[18]第十八话9.542.372.404.729.15单峰基线8.852.392.153.979.08我们6.481.941.813.858.61表1. DTU数据集。重建质量的定量结果;越低越好。我们的模型优于所有现有的方法的平均完整性和整体得分。评估我们将每个水平的假设数量设置为{Ml}L={8，16，32，96}以进行测试。在DTU数据集上，我们在大小为1600×1184的全分辨率图像上进行测试，并将视图数设置为N= 5，其中[4]用于fu-锡永在Tanks和Temples数据集上，我们使用大小为1920×1080的图像，N= 11个视图，由Colmap [11，12]生成的相机参数和[21]中的融合方法4.3. DTU数据集我们首先比较了我们提出的方法与现有方法在DTU数据集上的整体重建质量。如表中所总结。1，我们的方法在平均完整性和总体得分上都优于现有的方法.我们还使用五个边界上的平均深度误差来分析边界上的重建质量表2. DTU数据集。在不同深度平滑度区域上的性能。我们的方法可以实现最低的误差边界区域（R0）。Laplacian pyramid 的图片为了比较，我们考虑PatchmatchNet [18]和递归方法D2 HC-RMVSNet [21]。作为基线，我们考虑使用单峰分布的方法的变体。如表中所总结。2.在边界区域上，我们的方法优于其他方法图1和图8中的定性结果也表明，我们的方法在边界区域和产生更尖锐深度不连续的小物体上更准确。在效率方面，我们的模型需要6054 MB GPU内存和1.2秒来估计全分辨率深度图，这与现有的基于成本体积的方法相当。4.4. 坦克和寺庙的结果在这个实验中，我们评估了所提出的方法在Tanks和Temples数据集上的泛化能力[6]。定量结果总结见表1。图3和图9中示出了代表性的定性结果。在这些结果中，我们可以观察到，我们的方法在边界区域上产生了清晰而准确的深度估计，总体而言，与基准测试中的其他最新方法相比，我们在BlendedMVS数据集上训练的模型具有竞争力的性能方法查看Acc.Comp.整体[21]第二十一话70.3950.3780.386[26]第二十六话50.3690.3610.365PVA-MVSNet [26]70.3790.3360.357AA-RMVSNet [19]70.3760.3390.357CasMVSNet [5]50.3250.3850.355EPP-MVSNet [8]50.4130.2960.355[18]第十八话50.4270.2770.352[22]第二十二话50.2960.4060.351UCSNet [3]50.3380.3490.344BP-MVSNet [14]50.3330.3200.327PVSNet [20]110.3370.3150.326我们50.3560.2750.3158634图9. 坦克和寺庙数据集。点云结果示例。第二行显示第一行的详细信息最好在屏幕上观看方法是说家庭弗朗西斯马灯塔M60黑豹操场火车AA-RMVSNet [19]61.5177.7759.5351.5364.0264.0559.4760.8554.90EPP-MVSNet [8]61.6877.8660.5452.9662.3361.6960.3462.4455.30[26]第二十六话60.0377.4060.2347.0763.4462.2157.2860.5452.07我们59.6478.9364.0951.8259.4258.3955.7156.0752.71[21]第二十一话59.2074.6956.0449.4260.0859.8159.6160.0453.92BP-MVSNet [14]57.6077.3160.9047.8958.2656.0051.5458.4750.41PVSNet [20]56.8874.0055.1739.8561.3760.2256.8758.0249.51[18]第十八话53.1566.9952.6443.2454.8752.8749.5454.2150.81PatchMatch-RL [7]51.8160.3743.2636.4356.2757.3053.4359.8547.61表3. 坦克和寺庙数据集。与现有方法进行定量比较。我们的模型可以在Tanks和Temples数据集上实现具有竞争力的性能。方法深度分布成本聚合Acc.Comp.整体单峰非参数标准稀疏基线✓✓0.34980.33510.3425基线+非参数建模✓✓0.33870.37920.3590基线+稀疏成本汇总✓✓0.35380.30960.3317我们✓✓0.35630.27500.3156表4. DTU数据集。定量比较我们框架中每个模块的贡献。使用具有标准3D卷积的非参数深度分布建模可能由于空间模糊性而导致性能下降。我们提出的稀疏成本聚合可以提高性能的单峰为基础的方法。所提出的非参数深度分布建模需要稀疏成本聚合以实现最佳重建质量。4.5. 消融研究我们在DTU数据集上提供消融实验来评估所提出的模块的贡献。我们从使用标准单峰分布和标准3D卷积进行成本聚合的基线模型开始。结果见表1。4.第一章使用具有标准3D卷积的非参数深度分布建模可能由于空间模糊性而导致性能下降。我们提出的稀疏成本聚集可以提高基于单峰方法的性能。所提出的非参数深度分布建模需要稀疏成本聚合以实现最佳重建质量。局限性。我们的方法利用稀疏成本体积和稀疏卷积来产生更好的准确性。然而，稀疏卷积在计算上是昂贵的，因为它们没有完全优化。这增加了推理时间。我们计划在今后的工作中提高效率5. 结论提出了一种基于非参数深度概率分布的深度推断方法。我们的建模可以处理具有单峰和多峰深度分布的像素，例如边界上的像素。我们的方法不推断深度在粗糙的水平，这避免了在早期阶段和以下传播到细化水平的深度误差。实验结果表明，我们的方法可以实现优越的性能，特别是对边界上的像素。致谢本研究得到了澳大利亚研究基金会的资助（DE180100628，DP200102274）。8635引用[1] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据IJCV，2016年。6[2] 陈睿，韩松芳，许静，苏浩。基于点的多视点立体网络。在ICCV，2019年。2[3] Shuo Cheng，Zexiang Xu，Shilin Zhu，Zhuwen Li，LiErran Li，Ravi Ramamoorthi，and Hao Su.使用具有不确定性意识的自适应薄体积表示的深度立体声在CVPR，2020年。一、二、七[4] 加利亚尼，拉辛格，辛德勒。Gipuma：大规模并行多视图立体再现。PublikationenderDeuts c henGesells chaftfur ？rPho-togrammetrie ， FernerkundungundGeoinformation e. V，2016年。7[5] Xiaodong Gu，Zhiwen Fan，Siyu Zhu，Zuozhuo Dai，Feitong Tan，and Ping Tan.级联成本体积高分辨率多视图立体和立体匹配。在CVPR，2020年。一、二、七[6] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准ACM Transactions on Graphics（ToG），2017年。六、七[7] Jae Yong Lee，Joseph DeGol，Chuhang Zou，and DerekHoiem. Patchmatch-rl：具有像素深度、正常值和可见性的深mvs。在CVPR，2021年10月。8[8] Xinjun Ma，Yue Gong，Qirui Wang，Jingwei Huang，Lei Chen，and Fan Yu. Epp-mvsnet：基于对极线组装的多视点立体深度预测。在ICCV，第5732-5740页，2021年10月。七、八[9] Yamin Mao，Zhihua Liu，Weiming Li，Yuchao Dai，Qiang Wang ， Yun-Tae Kim ， and Hong-Seok Lee.Uasnet：用于深度立体匹配的不确定性自适应采样网络。在CVPR中，第6311-6319页，2021年。2[10] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch：命令式的高性能深度学习库。在H. Wallach ，H.Larochelle 、A.Be ygelzimer、F.d'Alche'-Buc，E. Fox和R. Garnett，编辑，NeurIPS，第8024Curran Associates，Inc. 2019. 6[11] JohannesLutzSchoünber ger和Jan-MichaelFrahm。结构从运动重新审视。在CVPR，2016年。7[12] JohannesLutzSchoünber ger，EnliangZheng，MarcPollefeys，and Jan-Michael Frahm.用于非结构化多视图立体的逐像素视图选择。在ECCV，2016年。7[13] Steven M Seitz，Brian Curless，James Diebel，DanielScharstein，and Richard Szeliski.多视点立体重建算法的比较与评价。CVPR，2006。1[14] ChristianSormann，PatrickK nöbelreiter，AndreasKuhn，MattiaRossi，ThomasPock，andFriedrichFraundorfer.Bp-mvsnet：多视图立体的置信传播层。在3DV中，第394-403页。IEEE，2020年。七、八8636[15] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构。在CVPR，第2818-2826页，2016年。4[16] Haotian* Tang，Zhijian* Liu ，Shengyu Zhao ，YujunLin，Ji Lin，Hanrui Wang，and Song Han.利用稀疏点-体素卷积搜索有效的3d结构在ECCV，2020年。6[17] Fabio Tosi，Yiyi Liao，Carolin Schmitt，and AndreasGeiger.Smd网络：立体混合密度网络。在CVPR中，第8942-8952页二、三[18] 王方金华，加利亚尼，沃格尔，帕布洛，波勒费斯。Patchmatchnet：学习多视图patchmatch立体声，2021年。一二六七八[19] Wei Zizhuang ， Qingtian Zhu ， Chen Min ， YisongChen，and Guoping Wang. AA-rmvsnet：自适应聚合递归多视图立体网络。在ICCV，第6187二零二一年十月。二七八[20] 徐青山和陶文兵Pvsnet：Pixelwise可见性感知多视图立体网络。Arxiv，2020年。二三七八[21] Jianfeng Yan ， Zizhuang Wei ， Hongwei Yi ， MingyuDing，Runze Zhang，Yisong Chen，Guoping Wang，and Yu-Wing Tai.具有动态一致性检查的稠密混合递归多视点立体网。在ECCV，2020年。二七八[22] Jiayu Yang，Wei Mao，Jose M Alvarez，and MiaomiaoLiu.基于成本体积金字塔的多视点立体深度推断。在CVPR，2020年。一二三六七[23] 姚姚，罗紫心，李世伟，天方，龙泉。Mvsnet：非结构化多视图立体的深度推断。在ECCV，2018。一、二、三、六[24] 姚姚、罗紫心、李世伟、沈天威、天方、龙泉。用于高分辨率多视图立体深度推断的递归mvsnet在CVPR，2019年。一、二、六[25] Yao Yao ，Zixin Luo ， Shiwei Li ，Jingyang Zhang，Yufan Ren ， Lei Zhou ， Tian Fang ， and Long Quan.Blendedmvs：用于广义多视图立体网络的大规模数据集。CVPR，2020年。6[26] Jingyang Zhang，Yao Yao，Shiwei Li，Zixin Luo，andTian Fang.可见度感知多视图立体网络。BMVC，2020年。七、八

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于非参数深度分布的多视点立体深度推断模型

最新资源