高精度多视图立体基准测试

147 浏览量更新于2023-10-16 收藏 2.06MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3260多视图立体基准测试，高分辨率图像和多摄像头视频ThomasScho？ps1JohannesL. Schoünber ger1Silv anoGalliani2TorstenSattler1Konrad Schindler2Marc Pollefeys1，4Andreas Geiger1，31苏黎世联邦理工学院计算机科学系2苏黎世联邦理工学院大地测量和摄影测量研究所3AutonomousVVisionGroup，MPIforIntelligentSystems，Tubingen4Microsoft，Redmond摘要出于现有的多视图立体基准的局限性为了实现这一目标，我们使用高精度激光扫描仪记录了各种室内和室外场景，并捕获了高分辨率DSLR图像以及具有不同视野的同步低分辨率立体视频。为了将图像与激光扫描对齐，我们提出了一种鲁棒的技术，该技术最大限度地减少了以几何形状为条件的光度误差。与以前的数据集相比，我们的基准测试提供了新的挑战，并涵盖了各种各样的观点和场景类型，从自然场景到人造室内和室外环境。此外，我们提供的数据在显着更高的时间和空间分辨率。我们的基准测试是第一个覆盖手持移动设备的重要用例，同时还提供高分辨率DSLR相机图像。我们在http://www.eth3d.net上提供数据集和在线评估服务器。1. 介绍从两个或多个视图重建三维几何图形的问题在计算机视觉中受到了极大的关注。应用范围从物体的3D重建[4]和更大的场景[3，5，35]自动驾驶车辆的过密集感测[6尽管三维重建有着悠久的历史，但至今仍有许多问题没有得到解决。为了识别这些问题并分析最新技术的优势和劣势，访问具有3D地面实况的大规模数据集是必不可少的。事实上，优秀数据集和基准的出现，例如[6，12，17，29，32-然而，构建良好的基准数据集是一项乏味而富有挑战性的任务。它需要获取图像和三维场景模型，通过激光扫描仪或结构光传感器以及不同模态之间的仔细配准。通常，需要手工工作[6]来掩盖遮挡区域、传感器不准确或具有无效深度估计的图像区域，例如，由于移动的物体。因此，现有的基准在其可变性方面是有限的，并且通常也是特定于领域的。本文提出了一种新的基准，两个和多个视图立体算法，旨在补充前基准跨越几个维度（c.f。图1）：(i) 与以前的MVS基准相比，我们的数据集的- fers图像采集在一个非常高的分辨率。使用专业的数码单反相机，我们捕捉图像在24万像素分辨率与Strechaet al.[40]，0的情况。KITTI中的500万像素[6]和0。[38]第三十八章：我的世界这使得能够评估为详细的3D重建而设计的算法。同时也鼓励开发内存和计算效率高的方法，可以处理非常大的数据集。(ii) 到目前为止，移动设备已经变得足够强大，可以实现实时立体声[20，28，30，36，41]，因此需要对此类手持设备的典型采集过程进行建模的基准数据集。除了DSLR图像，我们还捕获了一组图像序列，其中四个同步相机形成两个立体对，在场景中自由移动。这些视频使算法能够利用高帧速率提供的冗余来提高重建质量。同样，这种情况下奖励可以处理大量数据的高效算法。为了研究视场（FOV）和畸变的影响，我们使用不同的镜头记录立体图像。(iii) 与Middlebury基准测试[33，38]相比，我们的场景并没有在受控的实验室环境中仔细进行。相反，它们提供了真实摄影测量的全方位挑战而不是沿着受约束的轨迹移动，中3261(a) 场景类型（b）视点（c）摄像机类型（d）视场图1.示例展示了我们的数据集在外观和深度方面的多样性。(a)不同自然和人造场景的彩色3D点云渲染。(b)从不同角度拍摄的DSLR图像。(c)DSLR图像（顶部）和图像从我们的多相机钻机（底部）的同一场景。(d)具有不同视野的相机装备图像。我们的相机可以在物体周围环绕，进行不受约束的6自由度运动。因此，MVS算法需要能够考虑视点的更强变化。与Strecha的数据集[ 40 ]相比后一种类型是特别感兴趣的，因为存在较少的适用于这种情况的先验。此外，我们的场景包括精细的细节（例如，树、线），这对于现有技术是具有挑战性的。本文的贡献包括（i）一个基准，这是公开提供的，与一个网站，用于评估新的算法在一个保持测试集，（ii）一个高度准确的对齐策略，我们用来注册图像和视频序列对3D激光扫描点云，和（iii）现有的国家的最先进的算法在这个基准的分析我们的基准提供了新的挑战，我们相信它将成为未来密集3D重建研究的宝贵资源，专注于大数据和移动设备。2. 相关工作在本节中，我们将回顾现有的两视图和多视图立体数据集。Tab中提供了将我们的数据集的关键方面与现有基准进行1.一、双视图立体数据集。双视图立体评价的第一个数据集之一是Tsukuba图像对[27]，其中手动标注了16个不幸的是，由于其复杂性，手动注释无法扩展到大型现实数据集[21]。走向更现实主义， Scharstein 等人。 [33] 提出了Middlebury立体评价，包括38个VGA分辨率的室内场景，通过结构光扫描仪获得地面真实对应。最近发布了新版本的Middlebury数据集[32]，以600万像素的分辨率为33个新场景提供了地面真实差异不幸的是，在舞台上的场景和记录地面真相所涉及的人力劳动量是相当大的。因此，这些数据集的大小相对较小。此外，它们的可变性是有限的，因为设置需要受控的结构化照明条件。相比之下，我们对一般场景感兴趣，并介绍了一个具有室内和室外环境的数据集。Geiger等人[6，24]使用安装在汽车上的激光扫描仪的移动平台记录KITTI数据集。这使记录过程自动化然而，基准图像的分辨率较低（0. 5百万像素），并且地面实况注释是稀疏的（所有图像像素的50%<此外，汽车上的固定传感器设置将记录场景的多样性限制在类似道路的场景中。渲染图像，如MPI Sintel立体声基准[1]中所使用的，提供了真实记录的替代方案，并已用于学习复杂模型[23]。然而，创建逼真的3D模型是困难的，并且所需的真实度仍然没有得到很好的理解[43]。多视图立体数据集。Seitz等人的Middlebury数据集。[38]是第一个共同的基准评估- uating多视图立体平等的基础上。他们使用一个机器人对包围场景的半球进行均匀采样，为每个物体拍摄了数百张图像。参考3262基准设置决议在线评估 6DoF运动 MVS 立体声视频不同FOV[38]第三十八话实验室0.3 Mpx✓ ✓米德尔伯里[32，33]实验室6 Mpx✓ ✓[第17话]实验室2百万像素✓MPI Sintel [1]合成0.4 Mpx✓ ✓ ✓ ✓KITTI [6，24]街景0.5 Mpx✓ ✓ ✓ ✓施特雷查[40]建筑6 Mpx✓ ✓ETH3D（申报）变化0.4/ 24 Mpx✓ ✓ ✓ ✓ ✓ ✓表1.将现有的最先进的基准与我们的新数据集进行比较在其他因素中，我们区分不同的场景类型（例如，在实验室拍摄的舞台场景与合成场景），相机是否经历受限或全6自由度（DoF）运动，或者是否使用具有不同视场（FOV）的相机。数据是通过将几个激光扫描线拼接在一起而产生的。不幸的是，该基准提供了有限的图像分辨率（VGA），并且在受控实验室环境中捕获的其数据不能反映现实世界场景中的许多挑战。此外，只有两个玩具场景具有朗伯曲面特性，导致过拟合和性能饱和。因此，Strechaet al. [40]提出了一个新的MVS基准，包括6个室外数据集，其中包括600万像素分辨率的130张图像，以及激光扫描仪捕获的地面真实3D模型。而该数据集促进了有效方法的发展，它提供了相对容易的（即，纹理良好的）场景，基准测试为了弥补[38，40]中缺乏多样性和[40]的纹理良好的漫射表面，Jensen等人。[17]使用机械臂捕获了大量真实世界的物体。然而，他们的受控环境与原始的Middlebury基准有几个限制，并减少了场景和视点的多样性。与我们的工作同时，Knapitschet al.提出了一个新的基准，具有挑战性的室内和室外场景[19]。他们的基准提供高分辨率视频数据，并使用激光扫描仪获得的地面实况测量。虽然我们的基准侧重于评估双目立体和MVS，他们共同评估结构从运动（SfM）和MVS。Knapitsch等人他们使用高端相机拍摄视频序列，并精心选择相机设置，以最大限度地提高视频质量。相比之下，我们的视频是用移动机器人常用的相机拍摄的，并且总是使用自动曝光。因此，这两个基准是相辅相成的。3. 数据采集和配准我们遵循[6，24，25，38，40]并使用高度精确的3D激光扫描仪捕获数据集的地面本节介绍数据采集以及我们稳健而准确地配准图像和激光扫描的方法。3.1. 数据采集我们用Faro Focus X 330激光扫描仪记录了地面真实场景的几何形状对于每个场景，取决于我们记录了一个或多个360度全景扫描，每个扫描点多达2.28除了深度测量，我们还记录了每个3D图像点提供的激光扫描仪的集成RGB摄像头的时代。记录一次扫描花费了109分钟。对于高分辨率的图像数据，我们使用了一个profes-尼康D3X单反相机在三脚架上。我们保持焦距和光圈固定，这样所有图像之间可以共享内部参数，相同的设置。该相机以6048×4032像素的分辨率拍摄照片，具有85°FOV。对于移动场景，我们还录制了视频使用[9]中描述的多相机设置：我们使用四个全局快门相机，形成两个立体对，它们通过FPGA进行硬件同步，并在13岁。6赫兹。第一对立体摄像机的FOV为54，而其他两个摄像机的FOV为83。所有相机都以752×480像素的分辨率拍摄图像。作为移动设备的常见和必要的，我们将曝光设置设置为自动，允许设备适应照明变化。3.2. 登记为了将记录的数据用于我们的基准测试，我们首先从激光扫描中删除错误并掩盖图像中的问题区域。接下来，我们将从不同位置拍摄的扫描图像相互对齐，并将相机图像与激光扫描点云进行配准。我们采用了一个全自动的三阶段对齐程序，这项任务。第一阶段估计激光扫描和相机图像之间的粗略初始对准。然后，我们改进激光扫描的配准，然后改进相机的内在和外在校准。在下文中，我们将详细描述这些步骤中的每一个。预处理。原始激光扫描包含由从前景和背景对象两者反射的光束引起的伪影，导致在遮挡边界处前景和背景深度的插值。此外，反射物体和玻璃经常引起系统异常值。因此，我们使用[31]中的统计离群值去除程序过滤扫描。这将从云中移除所有点，3263图2.左图：立方体贴图的插图。6个虚拟摄像机中的一个以红色突出显示，坐标轴以蓝色显示。右：稀疏彩色图像和深度图（左）以及一个虚拟相机的修复图像（右）。k个最近邻大于阈值。我们扫描的点密度根据扫描仪到表面的距离而不同。因此，我们计算阈值用于离群值去除每个点从其局部neighborhood，而不是使用一个单一的全球价值。在最后一步，我们手动删除未检测到的系统误差。我们还检查每个图像并注释不应该使用的区域。这些区域包括移动对象，风中移动的树枝、在激光扫描中未正确表示的对象（例如透明表面）或由于所测量的3D点云的稀疏性而导致遮挡推理（如稍后所述）失败的区域。初始激光扫描和图像对准。我们使用COLMAP SfM流水线[35，37]来获得激光扫描姿态以及相机的外部和内部的初始估计众所周知[15，39]，渲染视图可以使用经典描述符（如SIFT [22]）与真实图像进行鲁棒匹配为了将激光扫描与图像配准，我们因此将每个扫描位置的渲染立方体映射图像包括到SfM重建中。立方体贴图使用立方体的六个面来创建环境的全向虚拟立方体地图相机的六个投影中心与激光扫描仪的原点重合。我们将激光扫描的彩色点云渲染到这些相机中，从而每次激光扫描产生六个稀疏的彩色和深度图像（c.f。见图2）。我们使用最近邻的颜色来填充未被激光扫描点覆盖的缺失像素。虽然可以使用更复杂的渲染方法[39]，但我们发现这种策略已经足以用于SfM中的特征匹配为了获得SfM模型的尺度的初始估计，我们将投影到立方体图中的SfM点的深度与渲染的深度图进行比较。激光扫描对准的改进。立方体映射的投影中心对应于每个激光扫描的原点。因此，来自连续步骤的SfM重建提供扫描的初始相对对准。我们通过点云上的点到面ICP [2]联合优化所有激光扫描的刚体姿态来改进这种对齐。目视检查证实，结果对齐几乎是完美的，这是可以预期的考虑到激光扫描仪的高精度和每次扫描的大量信息因此，我们从这里开始修复扫描姿势。图像对齐的优化。在流水线的最后一步中，我们在保持激光扫描点云固定的情况下细化相机的外部和内部参数。对于这一步，我们使用Zhou Koltun [47]提出的密集图像对齐方法的扩展版本Zhou Koltun首先从网格表面采样一组点P，然后优化相机参数和每个3D点的强度c（p），以最小化代价函数Σ Σ（Ii（πi（p））−c（p））2.（一）p∈Pi∈I（p）这里，I（p）表示点p∈ P可见的图像集合，Ii（πi（p））是图像i在像素坐标πi（p）处对应于p的投影的强度c（p）表示p的强度，其属于被优化的变量在我们的例子中，我们使用所有扫描的关节点云来计算P。为了确定可见性I（p），我们计算P的筛选泊松表面重建[18]。以来诸如电线的细对象通常不能被重建捕获，我们用splats来增强基于网格的表示，即，定向盘，为远离泊松表面的所有扫描点生成然后从网格和splats的深度图渲染确定I（p）。所有假定深度小于在其投影位置处绘制的深度图的深度加上1cm的小公差的点在图像中可见。当量1直接比较像素强度，因此，总亮度恒定性。然而，这个假设在我们的设置中被强烈地违反了，因为我们（1）使用多个相机，其中一些使用自动曝光设置，并且（2）记录强烈照明变化需要操纵快门时间的户外场景而不是直接比较像素强度，因此，我们比较强度gra-blog，使我们的目标鲁棒的亮度变化。与计算图像中的有限差分梯度类似，我们使用局部邻域计算点云中的强度梯度。然而，由于我们的数据集中的不同图像分辨率和高激光扫描点密度，点p的最近邻可能投影到一个图像中的相同像素和另一个图像中相对较远的像素在在前一种情况下，点在后一种情况下，图像的欠采样导致无意义的强度梯度。因此，我们在适当的点云分辨率上对邻域进行采样，溶液。如果点p的所有相邻点都投影到距离它大约一个像素的地方，我们才将点p的投影添加到图像中作为约束。这避免了讨论过的过度和采样不足为了在所有人3264.对于所有点，我们从预先计算的多分辨率点云中有效地采样邻域，并且我们在图像金字塔上使用多分辨率方案对于每个点投影到图像，考虑具有最合适分辨率的图像金字塔级别。这增加了梯度g与至少两个图像进行比较的机会，并且影响相应的相机参数。此外，图像上的多分辨率方案扩大了优化的收敛域我们处理cess图像金字塔粗到细，而粗分辨率保持在目标函数。更具体地，我们将每个点云级别l与3D中的点半径rl相关联。由于图像对齐的细化所做的改变很小，我们使用初始图像对齐来确定相关的点云级别。对于每个激光扫描点p和每个金字塔每个图像i∈ I（p）的水平h，我们确定半径r（i，h，p），使得球体在该金字塔层级处到图像i中的投影直径为1001像素。为了定义最高点云分辨率下的半径r0水平l+1的半径被定义为2rl。最小和最大半径r（i，h，p）定义一个区间，一个点与如果r1落入该范围，则具有水平L在每一级l，我们使用平均位置作为所得到的3D点的位置，在2rl对于每个结果点，我们找到它的25个最近的邻居，并随机选择S不L图3.给定从激光扫描仪位置L测量的单个扫描点S的精度评估示意图，评估阈值为t。绿色区域内的重建点是准确的，红色区域中的点是不准确的，蓝色区域中的点是未观察到的。在实践中，我们发现这导致图像之间的良好相对对准，但不一定导致与激光扫描的良好绝对对准。因此，我们增加了一个广告成本的条款，类似于方程。2，其最小化图像WRT中的强度差。由激光扫描仪测量的强度差。该术语通过使用激光扫描颜色作为全局参考来降低漂移。作为限制，它产生了对激光扫描颜色的依赖性，其本身可能不与扫描几何形状完美对准。然而，我们根据经验发现，所得到的比对质量满足我们的需求。4. 任务和评估协议我们的基准测试包括三种场景，对应于（多视图）立体算法的不同任务：• 高分辨率多视角立体与相对较少的图像记录的数码单反相机。其中5个用于定义点如果一个点与其相邻点之间的平均强度差小于5，则我们丢弃该点，因为它位于均匀区域中，因此不会对优化做出贡献。设pj表示点p的第j个邻居.变量g（p，pj）现在与点对相关联并表示它们的梯度。我们修改Eq.中的成本函数。1、采取以下形式 ‚• 低分辨率多视角立体视频数据（• 低分辨率双视图立体对相机对的多相机钻机。双视图立体评估的每帧由多相机装备同时拍摄的所有4个图像组成这4个相机形成2个立体对，使得每对中的两个相机具有相同的FOV。既有多视角立体声，ΣΣΣ5ρρ，（Ii（πi（pj））−Ii（πi（p））−g（p，pj））2<$narios在3D中使用相同的评估协议进行评估，而双视图立体场景在2D中进行评估p∈Pi∈I（p）j=1（二）使用单独的协议，如下面详细描述的。其中P包含多分辨率点云的所有点，ρ[·]是鲁棒Huber损失函数。注意，与Eq. 1，我们现在表示并优化每个3D点的梯度g，而不是点强度C.有关实现该成本函数的详细信息，请参见补充材料，该补充材料还提供了多分辨率方案的说明。对于用多相机装备记录的序列，我们确保装备中的相机之间的相对姿态在通过以下优化期间对于所有图像保持一致：相对相机姿态的刚性参数化为了加速优化，我们交替优化g（p，pj）和相机参数，如[47]中所提出的。多视图立体评价协议。我们将作为点云给出的MVS重建与场景的激光扫描地面实况进行比较。仅在至少两个图像中可见的激光扫描点用于评估。我们评估重建的准确性和完整性。这两种措施都在1cm至50cm的距离阈值范围内进行评价。为了确定完整性，我们测量每个地面真实3D点到其最近重建点的距离完整性被定义为该距离低于评估阈值的地面实况点的数量。精度被定义为在地面3265图4.两个激光扫描渲染的例子，由不同的对齐图像着色。顶行，从左到右：原始激光扫描颜色，初始对准，7自由度ICP对准，我们的对准。底行：每个图像与激光扫描图像的差异。请注意，不同的照明会导致显着的颜色差异。真理点由于我们的地面真值是不完整的，因此必须小心防止潜在的缺失地面真值点扭曲结果。因此，我们使用激光扫描器光束的近似（c.f.图3）。我们将每个地面实况点的激光束的形状建模为截头圆锥。我们假设从激光扫描仪原点到扫描点的光束体积仅包含自由空间。我们通过扩展光束锥与以观察点为中心的球体的相交，将光束体积扩展到每个地面实况点之外。球体所有扩展射束体积之外的重建点位于未观察到的空间中，因此在评估中被丢弃在剩余的重建点中，如果这些点在扩展射束体积内并且在地面实况点的半径t内，则这些点被分类为准确的然后，精度被定义为所有点中精确点的比率，同时忽略未观察到的点。上面提供的准确性和完整性的定义容易受到重建点云和地面实况点云两者的密度的影响。例如，对手可以用点均匀地填充3D空间以实现高完整性，同时创建已知准确的单个重建点的相对更多的副本以也实现高准确性。因此，我们将空间离散成具有小边长的体素。这两个措施首先评估每个体素单独。然后我们报告所有体素的平均值。为了测量体素的完整性，我们使用其中的地面真值点和所有重建点，甚至是体素外部的点。这些角色被颠倒来衡量准确性。由于准确性和完整性对于衡量重建的质量都很重要，因此我们使用F1分数作为对结果进行排名的单一指标给定准确性（精确度）p和完整性（召回率）r，F1得分定义为调和平均值2·（p·r）/（p+r）。双视图立体评价方案。对从多相机装备的图像生成的校正立体对执行双视图立体评价地面图5.顶行：地面实况深度（彩色）叠加到多相机钻机记录的图像上，显示我们对齐的准确性中&底行：钻机和DLSR图像的详细视图。地面实况深度在DSLR全分辨率下是稀疏的，并且并非所有对象都被完全扫描。由投影到校正图像中的激光扫描点给出真实性使用与我们的图像对齐过程中相同的遮挡推理来丢弃遮挡点。左视差图像用于评估。对于这种情况，我们评估在Middlebury基准中使用的相同指标[32]：我们测量具有大于阈值的视差误差的像素的百分比年龄，对于0.5，1，2和4个视差的阈值（bad 0.5-bad 4），像素的平均绝对误差（avgerrr），像素的均方根视差误差（rms），以及像素的误差分位数。50%、90%、95%和99%（A50-A99）。5. 结果首先，我们评估图像配准管道的准确性。由于缺乏更精确的测量，因此定性地进行该评价。节中5.2，然后我们在我们的基准上评估最先进的算法，并讨论所获得的见解。5.1. 图像配准我们将我们的对准策略与激光扫描细化步骤后获得的初始对准和基线方法进行比较。后者细化了初始相机姿势3266通过重建的SfM点和激光扫描之间的7-DoF ICP对准（优化位置、旋转和缩放）。对于每个对齐结果，我们将所有图像投影到激光扫描上，并计算每个扫描点的平均颜色，以在(a) MVS(b) 立体（%坏像素）见图4。可以看出，基线显著改善初始对齐。反过来，我们的调整策略明显地在基线上有所改进。图5示出了具有从激光扫描计算的其地面实况深度图的图像的叠加。深度边缘在我们的对齐过程中没有使用，因此它们可以作为对齐质量的良好指标我们观察到，对于DSLR图像以及相机机架图像，对准通常是像素精确的。5.2. 立体方法的评价高分辨率多视图场景。对于这种情况，我们评估了流行的基于块的PMVS [4]，Gipuma [5]，这是一种性能良好的基于 PatchMatch-based 的变量 [26] ，基于COLMAP [35]中逐像素视图选择的多视图立体方法，以及CMPMVS [16]，其目的是重建弱支撑表面。结果示于图六、我们观察到在大多数场景中，COLMAP和PMVS在准确性方面优于Gipuma在完整性方面，Gipuma的得分很低，例如，庭院、电子和交付区域，因为其视图选择方案适合于以对象为中心的场景。对于大多数数据集，CMP-MVS和COLMAP显然达到了最好的完整性。COLMAP仍在为弱纹理表面和薄结构而奋斗，如电（c.f.图8c）、踢脚器、办公室和管道。如图8d，CMPMVS能够正确地插值一些弱纹理表面，但也可以在其他部分中产生幻觉结构。图8b示出了针对办公室场景的所有方法的累积完整性得分，示出了所有现有技术都在努力实现针对不良纹理化表面的高完整性我们认为，解决这个困难但重要的问题需要更高层次的场景理解。我们的基准测试提供了各种场景，可用于评估这些方法。总的来说，我们观察到我们的数据集有很大的改进空间。选项卡. 2a比较了Strecha [40]和我们的新基准上不同方法的相对性能，分别基于[35]和使用F1评分进行排名，两种情况下均使用2cm的评估阈值。显然，两个数据集上的良好性能不一定相关。因此，我们得出结论，我们的基准包含与Strecha数据集不同的挑战。低分辨率多视图场景。对于这个场景，我们评估与前一个相同的方法。对于Gipuma，我们将视频降采样到帧的五分之一表2.在不同基准上的相对排名，展示了我们和现有数据集之间的差异。方法CMPMVS室内室外移动数码单反相机67.2 44.2 / 40.0 /42.14.4/ 7.4 / 9.871.6 1999年12月31日至1999年12月31日COLMAP 90.2/51.1/65.2 80.9/53.1/64.1吉普马74.9/ 24.0 / 36.3 52.8 / 20.8 / 29.9 31.1 / 13.4 /18.7PMVS85.1/ 28.0 / 42.1 72.2 / 27.8 / 40.1 48.7 / 18.8 / 27.2 90.1 / 31.3 /46.5表3.基于类别的MVS评价显示了2cm评价阈值下的准确性/完整性/F1评分（%）。方法[44]第四十四话坏0.5坏157.42 22.25坏24.28坏4 a2.00弗盖尔0.95RMS2.11A501.08A902.40A95 A993.60八点七七SGM+D. [十三、四十二]58.56 24.027.48 4.511.34 3.23 2.473.61 8.54 12.95[46]第四十六话29.91 13.987.57 4.670.902.21 1.372.44 3.65九点七三MC-CNN [45]33.79 14.748.468.52 17.14 49.81 30.01电子标签系统[7]42.26 22.77 11.545.051.12 3.11 4.87 5.26 4.49 11.31[44]第四十四话56.91 21.293.431.430.831.612.221.362.11六点五二SGM+D. [十三、四十二]57.79 22.435.48 2.651.03 2.431.147.05 6.46 10.69[46]第四十六话28.99 13.237.09 4.380.87 2.18 1.612.55 4.46 10.65MC-CNN [45]32.51 13.858.92 8.598.48 17.03 49.01 27.63 28.79 45.79[7] 41.20 21.56 10.50 4.561.06 3.03 4.54 3.98 5.24 9.68表4.我们的数据集上的双视图立体方法的结果。我们显示了所有区域（上半部分）和非遮挡区域（下半部分）的所有立体声对的度量平均值。这些表按bad 2标准排序。因为它在使用所有图像时耗尽了内存。结果示于图7.第一次会议。可以看出，这些数据集挑战了所有算法，导致与高质量数据集相比，准确性得分较低。PMVS和Gipuma产生非常不完整和嘈杂的结果，而CMPMVS完全失败。这表明他们没有正确利用视频中的高视图冗余。COLMAP实现了相对较好的结果，但在绝对数量方面仍有显著的改进空间此外，所有方法都需要几分钟到一小时的时间来计算序列，这突出了对可以在移动终端上实时操作的更有效算法的需求。数据集多样性。选项卡. 3提供了一个不同的MVS算法的分析，为不同的场景分类。COLMAP的平均性能最好，对于大多数单独的类别也是最好的我们还观察到，算法的性能可以在不同的场景之间显着变化，这表明需要像我们这样的基准测试，覆盖各种场景。双视图方案。对于这种情况，我们评估了五种方法[7，44其中包括属于KITTI和Middlebury Stereo最先进的我们没有调整他们的参数，除了设置最大值。方法斯特雷查我们方法中间KITTI我们PMVS3（68.9）3（41.2）[44]第四十四话5（29.3）2（5.3）1（3.4）吉普马4（48.8）4（33.2）[46]第四十六话2（14.9）4（8.4）3（7.1）3267庭院electro立面踢球者草甸管操场救济救济2露台electro森林操场100交付区域100 100100100100办公室100806040200−21010−1806040200−21010−1806040200−21010−1806040200−21010−1806040200−21010−1806040200−21010−1806040200−21010−11008060402010080604020100806040201008060402010080604020地形100806040200−21010−10−21010−10−21010−10−21010−10−21010−10−21010−1阈值[m]阈值[m]阈值[m]阈值[m]阈值[m]阈值[m]图6.高分辨率多视图场景（室内和室外数据集）的评估CMPMVS、COLMAP、Gipuma和PMVS的结果以实线表示准确性，以虚线表示完整性。交付区域100100100100地形100806040200−21010−1806040200−21010−1806040200−21010−1806040200−21010−1806040200−21010−1阈值[m]阈值[m]阈值[m]阈值[m]阈值[m]图7.多视图评估导致低分辨率场景。图的解释与图1相同六、6. 结论在本文中，我们提出了一个准确的和强大的注册过程中对齐图像和激光扫描。使用该算法，我们创建了一个新的和多样化的数据集的两视图和多视图立体方法的评估我们的基准与现有的数据集在几个关键方面有所不同-(a) 电子：激光扫描 (b)办公室：完整性(c)电子：COLMAP（d）电子：CMPMVS图8.定性结果。详见正文。mum数量的差异。评价结果见表4。表2b比较了不同方法在KITTI、Middlebury和我们的基准测试的坏的2个非阻塞结果上的相对排名。可以看出，我们的数据集和以前的数据集之间的排名有很大不同，这表明我们的基准是对现有基准的补充。特别是，我们的数据需要算法在各种场景中表现良好。因此，它鼓励一般的解决方案，并防止过拟合。鉴于基于学习的方法的流行，后者尤为重要：从Tabs中可以看出。4和2b，[45]在我们的基准测试中的表现低于平均水平，而在Middlebury和 KITTI上的表现明显优于所有其他方法pects：我们涵盖了各种各样的场景类型，因此需要防止过拟合的通用解决方案。此外，我们提供了第一个基准的手持（多视图）立体与消费级相机。国家的最先进的算法的实验结果表明，我们的数据集提出了各种挑战，尚未涵盖现有的基准。这些挑战之一是以高空间和高时间采样的形式有效处理大量数据。这些挑战远未解决，还有很大的改进空间。作为对社区的服务，我们提供网站http://www.eth3d.net用于在线评估和比较算法。感谢您的支持。我们感谢 FatmaGuüne y 在 KITTI 和Middlebury上运行了几条立体基线，感谢Lukas Meier的多相机安装，感谢ETH的Geosensors和工程大地测量组提供激光扫描仪。ThomasSchoéps获得了GooglePhDFellowship的支持该项目获得了欧盟地平线2020研究和创新计划的资助，资助号为： 688007 （ Trimbot2020）。该项目由Google Tango提供部分资金。Acc.，comp.[%]Acc.，comp.[%]Acc.，comp.[%]3268引用[1] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影ECCV，2012年。二、三[2] Y. Chen和G.梅迪奥尼通过多幅距离图像配准的目标建模。图像和视觉计算，10（3）：145-155，1992年。4[3] Y.古川湾Curless，S. M. Seitz和R.塞利斯基向互联网规模的多视角立体。CVPR，2010。1[4] Y. Furukawa和J.庞塞精确、密集和强大的多视图立体视觉。PAMI，32（8）：1362-1376，2010. 1、7[5] S. Galliani，K.Lasinger和K.辛德勒表面法向扩散的大规模在ICCV，2015年。1、7[6] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？KITTI视觉基准测试套件。CVPR，2012。一、二、三[7] A. Geiger，M. Roser和R.乌塔松高效的大规模立体匹配。InACCV，2010. 1、7[8] A. Geiger、J. Ziegler和C.斯蒂勒StereoScan：实时密集三维重建。在2011年第四期。1[9] P. Gohl ， D. Honegger ， S. Omari ， M. Achtelik ， M.Pollefeys和R.西格沃特基于嵌入式FPGA的全方位视觉障碍物检测InIROS，2015. 3[10] C. Han é ne，T. Sattle r和M. Pollef e ys. 仅使用单目摄像头和车轮里程计的自动驾驶汽车障碍物检测InIROS，2015. 1[11] C. 哈纳角Zach，J. Lim，台湾野牡丹A. Rang g anathan和M. Pollefeys. 机器人导航的立体深度图融合InIROS，2011.1[12] H. Hirschmuller和D.沙尔斯坦立体匹配代价函数的评价CVPR，2007。1[13] H. 希尔施姆乌勒河利用半全局匹配和互信息进行立体处理PAMI，30（2）：328-341，2008. 7[14] D. Honegger，H. Oleyanova和M.波勒菲斯基于FPGA和移动CPU组合的InIROS，2014.1[15] Q. Huang，H.Wang和V.科尔顿。通过图像和形状集合的联合分析实现单视图InSIGGRAPH，2015. 4[16] M. Jancosek和T.帕杰拉保留弱支撑表面的多视图重建。CVPR，2011。7[17] R.詹森，A.达尔湾Vogiatzis、E. Tola和H.阿奈斯大尺度多视立体视觉评价。CVPR，2014年。第1、3条[18] M. M. Kazdan 和 H. 霍普屏蔽泊松曲面重建。SIGGRAPH，32（3）：29，2013. 4[19] A. Knapitsch，J. Park，Q.- Y. Zhou和V.科尔顿。坦克和寺庙：对大规模场景再现进行基准测试。SIGGRAPH，36（4），2017. 3[20] K. Kolev，P.Tanskanen，P.Speciale和M.波勒菲斯把手机变成3D扫描仪。CVPR，2014。1[21] L. Ladicky，P.斯特吉斯角Russell，S.森古普塔湾，巴西-地巴斯坦拉尔，W. Clocksin和P.乇联合优化对象类分割和密集立体重建。在BMVC，2010年。2[22] D. G.洛从尺度不变的关键点中提取独特的图像特征。IJCV，60（2）：91-110，2004. 4[23] N. 迈耶，E. Ilg，P. Haeusser，P.费希尔，D. 克雷默斯A. Dosovitskiy和T.布洛克斯一个大型数据集，用于训练用于视差、光流和场景流估计的卷积网络。在CVPR，2016年。2[24] M. Menze和A.盖革自动驾驶车辆的对象场景流CVPR，2015。二、三[25] P. Merrell，P. Mordohai，J.- M. Frahm和M.波勒菲斯大规模场景重建评价。载于ICCV，2007年。3[26] C. R. Michael Bleyer和C.罗瑟PatchMatch Stereo -支持倾斜窗口的立体匹配。在BMVC，2011年。7[27] Y. 中村T.Matsuura，K.Satoh和Y.太田遮挡检测立体-摄像机矩阵中的遮挡模式。在CVPR，1996年。2[28] P. Ond ru'sReplika，P. Kohli和S. 伊扎迪MobileFusion：手机上的实时在ISMAR，2015年。1[29] C. J. J. J.温曼湖C. Tran和D.沙尔斯坦学习条件随机场立体声。IJCV，99（3）：319-337，2012. 1[30] S. Pillai，S. Ramalingam和J. J·伦纳德高性能和可调立体重建. InICRA，2016. 1[31] R. B. Rusu，Z.C. Marton，N.Blodow，M.E. Dolha，以及M.比兹面向家庭环境的基于三维点云的对象地图。RAS，56（11）：927-941，2008。3[32] D. Scharstein，H.Hirschm uüller，Y.北岛湾克拉斯·沃赫尔，N. 不，X。 Wang，P. 韦斯特林。具有亚像素精确地面实况的高分辨率ste reo载于2014年全球政策审查。一、二、三、六[33] D. Scharstein和R.塞利斯基密集两帧立体对应算法的分类与评估IJCV，47：7-42，200

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

高精度多视图立体基准测试

高数立体图形

多视图立体重建（MVS）可以使用双目相机进行拍摄吗

多视图立体重建（MVS）怎么做

计算机视觉中的多视图几何

计算机视觉中的多视图几何中文版pdf

Oracle物化视图增量刷新测试

计算机视觉中多视图几何 pdf下载

请解释多视图一致性聚类、多视图子空间聚类和相互正则化的含义

三维重建多视图领域的创新点

多视图3D显示器是什么意思？

计算机视觉中的多视图几何pdf

MFC多文档多视图创建

python中多视图学习聚类

coil-20多视图数据集

基于深度学习的多视图三维视图重建

多视图聚类的国内外研究现状

多视图 3d 目标检测

vb2010 opengl 3d 立体 视图

计算机视觉中的多视图几何 pdf

android listview 嵌套 listview,Android listview多视图嵌套多视图

最新资源

vb2010 opengl 3d 立体视图