BlendedMVS：多视图立体网络的大规模数据集

19 浏览量更新于2023-10-25 1 收藏 2.07MB PDF 举报

大规模数据集

泛化能力

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1790BlendedMVS：一个用于广义多视立体网络的大规模数据集姚姚1罗子欣李世伟2张景阳任玉凡3雷洲1天方二号龙泉一号1香港科技大学{yyaoag，zluoag，jzhangbs，lzhouai，quan}@ cse.ust.hk2珠峰创新科技3浙江大学@ altizure.comrenyufan@zju.edu.cn摘要虽然深度学习最近在多视图立体（MVS）方面取得了巨大与其他计算机视觉任务相比，收集大规模MVS数据集是相当困难的，因为它需要昂贵的主动扫描仪和劳动密集型过程来获得地面真实3D结构。在本文中，我们引入了BlendedMVS，一种新的大规模数据集，为基于学习的MVS提供足够的训练基础事实。为了创建数据集，我们应用3D重建管道从精心选择的场景的图像中恢复高质量的纹理网格。然后，我们将这些网格模型渲染为彩色图像和深度图。为了在训练期间引入环境照明信息，渲染的彩色图像进一步与输入图像混合以生成训练输入。我们的数据集包含超过17，000张高分辨率图像，涵盖各种场景，包括城市，建筑，雕塑和小物体。大量的实验表明，BlendedMVS增强训练模型具有显着更好的泛化能力相比，其他MVS数据集。数据集和预训练模型可在https：//github.com/YoYo000/BlendedMVS网站。1. 介绍多视点立体（MVS）是从多视点图像和相应的摄像机参数中重建场景的密集表示。虽然经典方法已经成功解决了这个问题，但最近的研究[30，31，10]表明，基于学习的方法也能够产生与经典最新技术相当甚至更好的结果。从概念上讲，基于学习的方法在重建期间，隐式地考虑全局语义，例如镜面反射、反射和照明信息，这对于无纹理和非朗伯区域的重建是有益的据报道，在小对象DTU数据集[2]上，最近的基于学习的方法大大提高了最佳整体质量[30，31，4，13]。相比之下，Tanks and Temples [14]和ETH3D [23]基准测试的排行榜事实上，目前基于学习的方法都是在DTU数据集上训练的[2]，DTU数据集由固定相机轨迹捕获的因此，训练好的模型不能很好地推广到其他场景。此外，以前的MVS基准测试[24，26，2，14，23]主要关注点云评估，而不是网络训练。与其他计算机视觉任务（例如，分类和立体），用于MVS重建的训练数据相当有限，并且期望建立新的数据集以提供用于基于学习的MVS的足够的训练基础事实。在本文中，我们介绍了BlendedMVS，一个大规模的多视图立体训练的合成数据集。我们不使用昂贵的主动扫描仪来获得地面实况每个场景的纹理网格首先从图像中重建，然后渲染成彩色图像和深度图。为了在训练期间引入环境照明信息，我们进一步将渲染图像与输入的彩色图像混合以生成训练输入。结果图像从渲染的彩色图像中继承了详细的视觉线索，这使得它们始终与渲染的深度图对齐同时，混合图像仍然很大程度上保留了输入图像中的真实环境光照信息，这有助于训练模型更好地1791图1：渲染数据生成的管道。我们从输入图像重建纹理的三维模型，然后渲染模型到不同的视点，生成渲染图像和深度图。推广到现实世界的场景。我们的数据集包含113个精心挑选和重建的3D模型。这些纹理模型涵盖了各种不同的场景，包括城市，建筑，雕塑和小物体。每个场景包含20到1，000个输入图像，总共有17，000多个图像。我们在几个MVS数据集上训练最近的MVSNet [30]，R-MVSNet[31]和Point-MVSNet [4]。在不同验证集上的大量实验表明，与在其他MVS数据集上训练的模型相比，在BlendedMVS上训练的模型具有更好的泛化能力。我们的主要贡献可以概括为：• 我们提出了一种低成本的数据生成管道与一种新的融合方法，以自动生成基于学习的MVS的训练地面实况。• 我们建立了大规模BlendedMVS数据集。数据集中的所有模型都经过精心挑选，涵盖了各种各样的重建场景。• 我们报告了几个基准测试，BlendedMVS赋予训练模型与其他MVS数据集相比具有显着更好的2. 相关作品2.1. 基于学习的MVS基于学习的MVS重建方法最近显示出巨大的潜力。Learned multi-patch similarity [7] first applies deep neuralnetworks for MVS cost metrics learning. SurfaceNet [10]和DeepMVS [8]将图像取消投影到3D体素空间，并使用3D CNN来分类体素是否属于对象表面。LSM [11]和RayNet [18]将摄像机投影编码到网络中，并利用3DCNN或马尔可夫随机场预测表面标记。为了克服体积呈现的精度不足，MVSNet [30]应用可微单应性来在相机框架上构建成本体积该网络将3D CNN应用于成本体积正则化，并将透视深度图作为输出进行回归。后续的R-MVSNet [31]是为高分辨率MVS设计的，通过用递归正则化替换消耗内存的3D CNN，并显著降低峰值内存大小。最近，Point-MVSNet [4]提出了一种基于点的深度图细化网络，而MVS-CRF [29]引入了用于深度图细化的条件随机场。2.2. MVS数据集Middlebury MVS [24]是用于MVS评价的最早MVS数据集。它包含两个室内物体的低分辨率（640× 480）图像和校准的相机。后来，EPFL基准测试[26]捕获了建筑物立面的地面真实模型，并提供了高分辨率图像(6.2 MP）和地面实况点云进行MVS评估。为了评估不同照明条件下的算法，DTU数据集[2]使用固定的相机轨迹捕获了100多个室内对象的图像和点云。点云被进一步三角化成网格模型并渲染成不同的视点以生成地面实况深度图[30]。当前基于学习的MVS网络[30，31，4，13]通常将DTU数据集作为其训练数据。最近的坦克和寺庙基准[14]使用高速摄像机捕获室内和室外场景，然而，他们的训练集只包含7个具有地面实况点云的场景。ETH3D基准测试[23]包含一个低分辨率集和一个高分辨率集。但与坦克和寺庙类似，ETH3D只为网络训练提供少量的地面实况扫描。这些数据集中可用的训练数据相当渲染3D重建查看0视图1视图2输入图像纹理补片渲染深度贴图图像1792有限，需要更大规模的数据集来进一步开发基于学习的MVS的潜力。相比之下，所提出的数据集将提供超过17，000张具有真实深度图的图像，这些图像覆盖了各种各样的场景，可以大大提高训练模型的泛化2.3. 合成数据集生成用于训练的合成数据集是许多计算机视觉任务中的常见做法，因为可以以非常低的成本生成大量的地面实况由于计算机图形学的最新进展，渲染效果变得越来越逼真，使得合成数据集的使用更加合理。例如，合成渲染图像用于立体匹配[3，16，32]，光流[3，16，5]，对象检测[6，27]和语义分割[6，19，5，20，25]。类似于这些数据集，我们考虑将光照效果纳入到用于3D重建的合成数据集的渲染中。然而，由于很难在模型的不同部分生成正确的材料属性，我们采用与原始图像混合的方法来恢复照明效果。3. 数据集生成所提出的数据生成流水线如图所示1.一、我们首先应用一个完整的3D重建管道从输入图像中生成3D纹理网格（第二节）。第3.1节）。接下来，将网格渲染到每个相机视点以获得渲染图像和对应的深度图。最终的3.2）。3.1. 纹理网格生成构建合成MVS数据集的第一步是生成足够高质量的纹理网格模型。给定输入图像，我们使用Altizure在线平台[1]进行纹理网格重建。软件将执行完整的3D重建管道，并返回纹理网格和相机姿势作为最终输出。利用纹理网格模型和所有输入图像的相机位置，然后将网格模型渲染到每个相机视点以生成渲染图像和渲染深度图。一个例子如图所示。1.一、渲染的深度图将在训练期间用作地面实况深度图。3.2. 混合图像生成直观的渲染图像和深度图可以直接用于网络训练。然而，一个潜在的问题是，渲染图像不包含视图相关的照明。实际上，多视图立体网络的期望训练样本应满足：混合图像图2：数据生成管道的混合过程。高通滤波器用于从渲染图像中提取图像视觉线索，而低通滤波器用于从输入中提取环境照明。• 图像和深度图应一致对齐。训练样本应提供从输入图像到地面实况深度图的可靠映射。• 图像应反映与视图相关的照明。逼真的环境光照可以增强模型若要将照明引入渲染图像，一种解决方案是在渲染过程中手动指定网格材质并设置照明然而，这是非常劳动密集型的，这使得构建大规模数据集变得相当困难。另一方面，原始输入图像已经包含了自然光照信息。如果我们可以直接从输入图像中提取这些信息，则具体来说，我们注意到环境照明大多是图像中的低频信号，而用于建立多视图密集对应的视觉线索（例如，丰富的纹理）大多是图像中的高频在观察之后，我们提出使用高通滤波器H从渲染图像Ir中提取视觉线索，并且使用低通滤波器L从输入图像I中提取视图相关照明。视觉提示和灯光环境照明低通滤波器高通滤波器线性混合输入图像视觉提示渲染图像1793I=2i=1i=1输入图像渲染图像混合图像手臂，BlendedMVS中的场景包含各种不同的相机轨迹。非结构化的摄像机轨迹可以更好地模拟不同的图像捕获风格，并能够使网络更普遍地适用于现实世界的重建。图4显示了BlendedMVS数据集中的7个场景以及相机位置。该数据集还提供训练图像和地面真实深度图，统一图像分辨率为H ×W = 1536 × 2048。由于输入图像通常具有不同的分辨率，我们首先将所有混合图像和渲染深度图调整为最小图像大小H s× W s，使得H s>=1536且W s>=2048。然后，我们裁剪图像图3：输入、渲染和混合图像.混合图像具有与输入图像相似的背景光，同时继承渲染图像的纹理细节。被融合以生成混合图像Ib（图1）。2）：Ib= Ir H+ I L大小为H×W=1536×2048的补丁，图像中心为BlendedMVS构建训练样本数据集。相应的摄像机参数也会相应改变。此外，为每个图像提供深度范围，因为深度图估计算法通常需要该信息。在线增强我们还增加了训练数据-1。=F F（I）·HΣ-1。+FF（I）·LΣ（1）在训练过程中。以下光度计rf f其中，“0”表示卷积运算，“·”表示逐元素乘法。符号F和F−1是2D 快速傅立叶变换（FFT ）和逆FFT re-FFT。分别为。在我们的实现中，滤波过程在频域中执行。Lf和Hf由2D高斯低通和高通滤波器逼近在我们的培训中考虑了增强：1）随机亮度：我们通过添加一个随机值b来改变每个图像的亮度，使得-50<1像素误差，其是具有大于1个深度方向像素的L1误差的像素的比率; 3）> 3个像素的误差。定量结果见图1。五、在DTU上训练[2]正如之前的方法[30，10，31]所建议的那样，DTU数据集被分为训练集，验证集和评估集。我们用固定的输入样本大小为H×W×D=512×640×128，固定深度范围为[dmin，dmax]=[425，937]。据报道，在图。5，在DTU上训练的所有三个模型（黑线）在DTU验证集上表现非常好，但是，在混合-MVS和ETH 3D数据集中产生高验证错误。事实上，模型在小规模室内场景中过拟合，显示了在MVS训练数据中具有丰富对象类别的重要性。在ETH3D上训练[23]ETH3D训练集包含5个场景。为了将培训和验证分开，我们将交货区，电子，森林作为我们的培训场景，操场，地形作为我们的验证场景。训练样本量固定为H×W×D=480×896×128。每视图深度范围由数据集提供的稀疏点云确定如图5，在ETH3D（蓝色虚线）上训练的模型的验证误差在包括其自身数据集在内的所有验证集中都很高，表明ETH3D训练集没有为MVS训练提供足够的数据。在MegaDepth上训练[15]MegaDepth数据集最初是为单视图深度图估计而构建的，它应用多视图深度图估计来生成深度训练数据。该数据集提供来自COLMAP的图像深度图训练对和 SfM 输出文件 [21] 。为了将MegaDepth应用于MVS训练，我们应用视图选择和深度范围估计[30，31]来生成MVSNet格式的训练文件。此外，由于众包图像的重构深度图通常是不完整的，因此我们在训练期间仅使用参考深度图中具有超过20%有效像素的那些训练样本。有39k个MVS训练样本，MegaDepth数据集经过建议的预处理。训练输入大小固定为H×W×D=512×640×128通过应用4.1中描述的调整大小和裁剪策略。虽然MegaDepth包含比BlendeMVS更多的训练样本，但在MegaDepth上训练的模型（图中的绿色虚线）。5）仍然不如在BlendedMVS上训练的模型。我们认为将MegaDepth应用于MVS训练存在两个主要问题：1）通过MVS重建生成地面实况深度图。在这种情况下，输入图像和重建的深度图并不一致，网络将倾向于过拟合所选算法[22]。2)MegaDepth是建立在众包互联网照片。众包图像没有很好地捕捉，训练数据质量可能对训练效果有显著影响为了使用 BlendedMVS 训练 MVS 网络，我们将MVSNet 和 R-MVSNet 的所有训练样本调整为H×W=576×768，并进一步将Point-MVSNet的样本裁剪为H×W=448 ×768深度样本数被设置为D=128。我们的数据集还分为106个训练场景和7个验证场景，评估网络培训。如图5、在BlendedMVS（红线）上训练的模型可以很好地推广到 DTU 和 ETH3D 场景。所有模型在BlendedMVS和ETH3D验证集上都取得了最好的验证结果，在DTU验证集上取得了第二好的结果（非常接近最好），显示了我们的数据集带来的强大泛化能力。5.1.2点云评估我们还比较了在 DTU ， ETH3D ， MegaDepth 和BlendedMVS上训练的模型在Tanks和Temples [14]训练集上的点云重建。由于数据集包含 MVS- Net 和PointMVSNet无法处理的宽深度范围场景，因此我们在本实验中仅测试R-MVSNet（经过150 k次迭代训练）。我们遵循R-MVSNet论文中描述的方法来恢复输入图像的相机参数，然后基于稀疏点云执行逐视图源图像选择和深度范围估计。对于后处理，我们还遵循先前的工作[30，31]来应用基于可分辨性的深度图融合[17]、平均深度图融合和可见性深度图滤波器来生成3D点云。该数据集报告了三个评估指标，即精确度（准确性）、召回率（完整性）和总体f评分[14，23]，以定量测量记录质量。如表 1 所示，在 DTU [2] 和MegaDepth [15]上训练的R-MVSNet实现了类似的f得分性能，而在提出的数据集上训练的R-MVSNet在所有场景中的表现优于在其他三个数据集上训练的模型。平均f分数提高从0. 475比0 532通过简单地将训练数据从DTU替换为BlendedMVS。深度图的定性比较如图所示。六、1796Tra ine donBle ndd MV S19630285DTU培训ETH3D培训关于MegaDepth终点误差151310853030k60k90k十二万十五万0.480.400.320.240.160.080.00>3像素误差30k60k90k十二万十五万终点误差151310853030k60k90k十二万十五万0.480.400.320.240.160.080.00>3像素误差30k60k90k十二万十五万15终点错误13108530180k 210k 240k 27万30万0.480.400.320.240.160.080.00>3像素误差180k 210k 240k 27万30万(a) DTU数据集终点误差2420161284030k60k90k十二万十五万0.540.450.360.270.180.090.00>3像素误差30k60k90k十二万十五万24终点错误20161284030k60k90k十二万十五万0.540.450.360.270.180.090.00>3像素误差30k60k90k十二万十五万终点误差24201612840180k 210k 240k 27万30万0.540.450.360.270.180.090.00>3像素误差180k 210k 240k 27万30万(b) ETH3D数据集终点误差12108642030k60k90k十二万十五万0.420.350.280.210.140.070.00>3像素误差30k60k90k十二万十五万终点误差12108642030k60k90k十二万十五万0.420.350.280.210.140.070.00>3像素误差30k60k90k十二万十五万终点误差121086420180k 210k 240k 27万30万0.420.350.280.210.140.070.00>3像素误差180k 210k 240k 27万30万(c) BlendedMVS数据集图5：在所有验证集的训练过程中的深度图验证错误。在BlendedMVS（红线）上训练的模型的结果在DTU和ETH3D验证集上都表现出良好的泛化能力。R-MVSNet模型度量谷仓Caterpillar教会法院Ignatius会议室卡车平均精度0.3870.3010.4980.3990.4090.3910.5590.421在DTU上训练[2]召回0.6740.7550.3130.7310.8560.2130.8460.623F评分0.4920.4300.3840.5170.5530.2760.6730.475精度0.3340.2970.4970.3470.3620.3240.4920.379在ETH3D上接受培训[23]召回0.5640.6080.2210.5980.7500.1120.7060.508F评分0.4200.3990.3060.4390.4880.1660.5800.400精度0.4140.2910.5660.4410.4080.4180.5220.437在MegaDepth上训练[15]召回0.6760.7240.2820.7410.8540.1520.8150.606F评分0.5130.4150.3760.5530.5520.2230.6360.467精度0.4320.3520.5700.4620.4920.4440.6020.479在BlendedMVS召回0.7150.7700.3870.7650.9010.2510.8450.662F评分0.5390.4840.4610.5770.6360.3210.7030.532表1：坦克和寺庙训练集上的点云评估[14]。在BlendedMVS上训练的R-MVSNet在所有场景中都优于在其他数据集上训练的模型。参考图像在ETH3D上培训在DTU关于MegaDepth在BlendedMVS图6：使用R-MVSNet进行深度图重建的定性比较[31]。在BlendedMVS上训练的模型生成的结果比在其他三个数据MVSNetMVSNetMVSNet卡车IgnatiusR-MVSNet教会R-MVSNetR-MVSNetPoint-MVSNetPoint-MVSNetPoint-MVSNet1797集上训练的模型更清晰。1798网络训练图像EPE<1像素。Err<3像素。Err渲染2.990.2450.136输入3.700.2430.135MVSNet [30]混纺2.880.2240.118渲染+八月2.940.2250.116Input+Aug.3.160.2340.123混合+八月。2.530.2190.107渲染5.540.2510.148输入4.470.2420.134R-MVSNet [31]混纺5.770.2390.137渲染+八月5.100. 2380.132Input+Aug.3.860.2410.126混合+八月。3.950.2340.127表2：使用不同图像进行训练的消融研究DTU数据集[2]上的验证错误表明，带有在线增强的混合图像会产生最佳结果。5.2. 训练图像的消融研究接下来，我们研究使用1）输入图像，2)渲染图像和3）混合图像作为我们的训练图像。对于这三种情况，我们还研究了在线光度增强的有效性。所有模型都经过15万次迭代训练，并在DTU验证集上进行验证。比较结果如表2所示。环境照明建议的混合图像与光度增强设置产生最好的结果，而渲染图像只产生最差的结果。此外，所有具有光度增强的图像的验证误差都低于没有光度增强的图像，这表明视图相关照明对于MVS网络训练确实很重要。值得注意的是，虽然输入图像与渲染的深度图不完全一致，但使用输入图像（有或没有增强）训练R-MVSNet也会产生令人满意的结果（表2）。原因可能是大部分场景c的3D结构都已正确恢复，因为所有场景都是事先精心选择的。在这种情况下，渲染的深度图可以被视为给定输入图像的半地面实况，其可以联合用于MVS网络训练。5.3. 讨论不完美重建使用重建模型进行MVS训练的一个问题是纹理模型中的缺陷或不完美重建是否会影响训练过程。事实上，混合图像从渲染图像继承了在这种情况下，训练过程不会恶化。出于同样的原因，我们可以将Altizure在线平台更改为任何其他3D重建管道以恢复网格模型。我们所提出的是一个低成本的MVS训练数据生成管道，它不依赖于任何特定的纹理模型重建方法。输入图像混合图像Figure 7: Privacy preserving with blended images. 人类将在混合图像中被移除或模糊。遮挡和正常信息虽然当前基于学习的方法[30，31，4，13]没有考虑像素级遮挡和正常信息，但我们的数据集也提供了这样的地面真实信息。遮挡和正常的信息可能是有用的，为未来的可感知性和补丁为基础的MVS网络。隐私使用混合图像还可以帮助保护数据隐私。例如，输入图像中的行人通常是动态的，这将不会在纹理模型和渲染图像中重建（图1中的第一行）。（七）.此外，如果行人出现在重建对象的前面，我们的图像混合过程将仅从输入图像中提取（七）.6. 结论我们已经为MVS网络训练提供了BlendedMVS数据集。该数据集提供了超过17k的高质量训练样本，覆盖了多视图深度估计的各种场景。为了构建数据集，我们从输入图像中重建了纹理网格，并将这些模型渲染成彩色图像和深度图。渲染的彩色图像已经与输入图像进一步混合以生成训练图像输入。我们使用BlendedMVS和其他MVS数据集训练了最近的MVS网络。定量和定性结果都表明，在BlendedMVS上训练的模型比在其他数据集上训练的模型具有更好的泛化能力。7. 致谢这项工作得到香港研资局GRF 16206819、香港研资局GRF 16203518和香港T22-603/15 N的支持。我们感谢 Rui Chen 在我们的数据集中帮助训练和验证PointMVSNet [4]。1799引用[1] Altizure ： 3D 世界地图。网址： //www.altizure.com的网站。[2] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据在国际计算机视觉杂志（IJCV），2016年。[3] 放大图片作者：Daniel J. Butler，Jonas Wulff，Garrett B.Stanley和Michael J.黑色.一个用于光流评估的自然开源电影。2012年欧洲计算机视觉会议（ECCV）[4] 陈睿，韩松芳，许静，苏浩。基于点的多视点立体网络。在2019年计算机视觉国际会议（ICCV）[5] Adrien Gaidon ， Qiao Wang ， Yohann Cabon ， andEleonora Vig.虚拟世界作为多对象跟踪分析的代理。在计算机视觉和模式识别，2016年。[6] AnkurHanda、VioricaPatraucean、VijayBadrinarayanan、Si-mon Stent和Roberto Cipolla。通过合成数据了解真实世界的室内场景。在计算机视觉和模式识别（CVPR），2016年。[7] 哈特曼，加利亚尼，哈弗莱纳，范古尔，辛德勒。学会了多贴片相似性。 2017 年国际计算机视觉会议（ICCV）[8] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. Deepmvs：学习多视图立体视觉。在计算机视觉和模式识别（CVPR），2018年。[9] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在2015年的国际机器学习会议（ICML）上[10] Mengqi Ji，Juergen Gall，Haitian Zheng，Yebin Liu，and Lu Fang. Surfacenet ： An end-to-end 3d neuralnetwork for multi-view stereopsis.2017年国际计算机视觉会议（ICCV）[11] Abhish e kKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。在神经信息处理系统（NIPS）的进展，2017年。[12] Alex Kendall，Hayk Martirosyan，Saumitro Dasgupta，and Peter Henry.深度立体回归的几何和上下文的端到端学习。在计算机视觉和模式识别（CVPR），2017年。[13] 骆克阳，管涛，鞠丽丽，黄海鹏，骆亚伟。Pmvsnet：学习多视图立体的逐块匹配置信度聚合。在国际计算机视觉会议（ICCV），2019年。[14] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准ACMTransactions on Graphics（TOG），2017年。[15] 李正奇和诺亚·斯内弗利。Megadepth：从互联网照片中学习单视图深度预测。在计算机视觉和模式识别（CVPR），2018年。[16] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox. 一大数据集来训练卷积网络，以进行视差、光流和场景流估计。在计算机视觉和模式识别（CVPR），2016年。[17] Paul Merrell 、 Amir Akbarzadeh 、 Liang Wang 、PhilipposMordohai、Jan-MichaelFrahm、Ruig angYang、Da vi dNiste´ r和Marc Pollefeys。基于可见性的深度图实时融合。2007年国际计算机视觉会议（ICCV）[18] DespoinaPaschalidou ， OsmanUlusoy ， CarolinSchmitt，Luc Van Gool，and Andreas Geiger.Raynet：学习用射线势进行体积三维重建。在计算机视觉和模式识别（CVPR），2018年。[19] Stephan R Richter ， Vibhav Vineet ， Stefan Roth ， andVladlen Koltun.播放数据：从电脑游戏中得到的真相。欧洲计算机视觉会议（ECCV），2016。[20] German Ros，Laura Sellart，Joanna Materzynska，DavidVazquez，and Antonio M Lopez.Synthia数据集：用于城市场景语义分割的大量合成图像。在计算机视觉和模式识别，2016年。[21] Johannes L Schonberger和Jan-Michael Frahm. 结构-从运动重新审视。在计算机视觉和模式识别（CVPR），2016年。[22] JohannesLSchoünberger ， EnliangZheng，Jan-MichaelFrahm，and Marc Pollefeys.用于非结构化多视图立体的像素视图选择。欧洲计算机视觉会议（ECCV），2016。[23] ThomasScho¨ps ， JohannesL.Schoünberger ， SilvanoGalliani，Torsten Sattler，Konrad Schindler，MarcPollefeys，and An- dreas Geiger.具有高分辨率图像和多相机视频的多视图立体基准。2017年。[24] Steven M Seitz，Brian Curless，James Diebel，DanielScharstein，and Richard Szeliski.多视点立体重建算法的比较与评价计算机视觉和模式识别（CVPR），2006年。[25] JulianStraub ， Thomas Whelan ， Lingni Ma ， YufanChen，Erik Wijmans，Simon Green ，Jakob J Engel，Raul Mur-Artal，Carl Ren，Shobhit Verma，et al.复制副本数据集：室内空间的数字复制品。arXiv预印本arXiv：1906.05797，2019。[26] Christoph Strecha 、 Wolfgang von Hansen 、 Luc VanGool、Pascal Fua和Ulrich Thoennessen。对高分辨率图像的基准计算机视觉和模式识别（CVPR），2008年。[27] Jonathan Tremblay 、 Aayush Prakash 、 David Acuna 、Mark Brophy、Varun Jampani、Cem Anil、Thang To、Eric Cam eracci、Shaad Boochoon和Stan Birchfield。用合成数据训练深度网络：通过随机化弥合现实差距在计算机视觉和模式识别研讨会（CVPRW），2018年。[28] Yuxin Wu和Kaiming He。组归一化。在欧洲计算机视觉会议（ECCV），2018年。[29] Youze Xue ， Jiansheng Chen ， Weitao Wan ， YiqingHuang ， Cheng Yu ， Tianpeng Li ， and Jiayu Bao.Mvscrf：学习多视图立体与条件随机场。国际计算机视觉会议（ICCV），2019年。1800[30] 姚姚，罗紫心，李世伟，天方，龙泉。Mvsnet：非结构化多视图立体的深度推断。在欧洲计算机视觉会议（ECCV），2018。[31] 姚姚、罗紫心、李世伟、沈天威、天方、龙泉。用于高分辨率多视图立体深度推断的递归mvsnet在计算机视觉和模式识别（CVPR），2019年。[32] Yi Zhang，Weichao Qiu，Qi Chen，Xiaolin Hu，andAlan Yuille.虚幻立体声：控制有害因素分析立体视觉。

下载后可阅读完整内容，剩余1页未读，立即下载