半监督数据驱动的非刚性重建方法

145 浏览量更新于2023-10-25 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

17002DeepDeform：使用半监督数据Alja zBozic1MichaelZoll hüfer2ChristianTheobalt3MatthiasNießner11慕尼黑工业大学2斯坦福大学3马克斯·普朗克信息学图1：我们提出了一种半监督策略，将自我监督与稀疏注释相结合，以构建非刚性变形场景的大规模RGB-D数据集（400个场景，390，000帧，5，533个密集对齐的帧对）。有了这些数据，我们提出了一种新的方法，非刚性匹配，我们集成到一个非刚性重建方法。摘要将数据驱动的方法应用于非刚性3D重建一直很困难，我们认为这可能是由于缺乏大规模的训练语料库。不幸的是，这种方法失败的重要情况下，如高度非刚性变形。我们首先解决这个问题的缺乏数据，通过引入一种新的半监督策略，以获得密集的帧间的对应关系，从稀疏的注释集。通过这种方式，我们获得了400个场景、超过390，000个RGB-D帧和5，533个密集对齐的帧对的大型数据集;此外，我们还提供了一个测试集以及几个评估指标。基于该语料库，我们引入了一种数据驱动的非刚性特征匹配方法，我们将其集成到基于优化的重建流水线中。在这里，我们提出了一种新的神经网络，它在RGB-D帧上运行，同时在大的非刚性变形下保持鲁棒性并产生准确的预测。我们的方法显着优于现有的非刚性重建方法，不使用学习的数据项，以及基于学习的方法，只使用自我监督。数据/基准：https://github.com/AljazBozic/DeepDeform1. 介绍非刚性3D重建，即，非刚性变形表面在全时间对应中的密集的时空相干捕获是获得移动的真实世界的商品RGB-D传感器的广泛可用性，如Microsoft Kinect或Intel Realsense，导致静态场景重建方法取得了巨大进展。然而，利用一个深度相机对非刚性移动场景进行鲁棒且高质量的重建仍然具有挑战性。实时非刚性重建的应用范围开创性的DynamicFusion [28]方法是第一个实时显示动态非刚性重建的方法扩展主要在所使用的能量公式方面有所不同一些方法使用基于密集几何[28，36，37]、密集颜色和几何[14，47]以及稀疏特征约束[17]的手工数据项。其他方法利用多相机RGB-D设置[9，8]以获得更高的鲁棒性。然而，很少有重建方法使用基于学习的数据项用于一般的真实世界场景而不是特定场景[48]，并且在真实世界的外观变化和差异下被训练为鲁棒的17003邪教运动其中一个原因是缺乏大规模的训练语料库。最近的一种方法[33]提出了用于地面真实生成的自我监督，即，他们使用DynamicFusion [28]进行重建，并在计算的帧间对应上训练非刚性对应描述符然而，我们表明，现有的非刚性重建方法是不够强大的处理现实的非刚性序列，因此，这种基于跟踪的方法不扩展到现实世界场景的训练数据生成。不幸的是，这意味着自我监督对于许多具有挑战性的场景（例如高度非刚性变形和快速场景运动）完全失败。通过设计，这种自我监督训练的方法不可能比雇用的跟踪器更好。我们建议采用半监督的训练数据，结合自我监督稀疏用户注释，以获得密集的帧间对应。注释的稀疏点对应关系指导非刚性重建;这使我们能够处理甚至具有挑战性的运动。结果是一个包含400个场景、超过390，000个RGB-D帧和5，533个密集对齐的帧对的大型数据集。基于这种新的训练语料库，我们开发了一种新的非刚性对应匹配方法（见第二节）。3）找到RGB-D帧之间的准确匹配，并且对困难的现实世界变形具有鲁棒性。我们还提出了一个重新加权方案，在训练过程中给予更多的权重角的情况下，chal-challening变形给定源帧中的关键点最后，我们将学习到的数据项集成到非刚性重建管道中，该管道将学习到的热图匹配与密集的RGB-D重建目标相结合。此外，我们引入了一个新的基准和度量评估基于RGB-D的非刚性3D对应匹配和重建。我们广泛地比较了我们的新数据驱动的方法，现有的手工制作的功能。我们还将学习到的特征集成到非刚性重建框架中，从而大大改善了现有技术。总之，我们的贡献是：• 一种用于密集非刚性对应学习的半监督标记方法，拥有400个带注释的动态RGB-D序列和5，533个密集对齐的帧对。• 一种新的数据驱动的非刚性对应匹配策略，导致更鲁棒的对应与现有技术的手工制作的和学习的描述符相比，这是一种估计，特别是在极端变形的情况下。• 一种用于一般场景的非刚性重建方法，该方法结合了学习和几何数据项，处理比现有技术明显更快和更复杂的图2：我们的大规模数据集包含各种动态序列，具有不同RGB-D帧之间的分割掩码和点对应关系。2. 相关工作我们的方法涉及到几个研究领域，如体积三维场景重建，非刚性目标跟踪，并学习对应匹配。我们将重点讨论最相关的基于RGB-D的技术。关于详细的讨论，我们参考最近的调查[59]。使用单个RGB-D传感器重建静态环境在视觉和图形方面有着悠久的历史，包括KinectFusion [27，18]，它采用统一的体素网格将场景表示为截断的符号距离函数（TSDF）[4]，以及对大规模场景的许多扩展[49，2，40，29]。这些技术通过使用点到平面迭代最近点（ICP）算法的快速数据并行变体解决几何模型到帧对准问题来跟踪6-DoF相机运动[30]。基于光束平差[57，3]的全局一致重建在很长一段时间内只能离线进行;数据并行求解器现在能够实现实时帧速率[6]。TSDF的替代方案是基于点的场景表示[20，23，22]。最近的技术还采用非刚性配准来稳健地处理环闭合[50，58]。非刚性重建基于实时扫描数据的一般非刚性变形对象的重建具有悠久的传统[44]。一类方法使用预定义的模板，例如，人体模板，以从RGB- D [54]或立体相机数据[51]捕获穿着衣服的人的姿势和时变形状第一个无模板的方法离线运行时很慢，只适用于缓慢和简单的动作。[10]的方法解决了一个全局优化问题，以重建正则17004在给定RGB-D视频序列作为输入的情况下，可以恢复非刚性变形对象的形状，但不能恢复整个序列上的时间相关非刚性运动第一种实时演示非刚性变形和静止形状的真正动态重建的方法是DynamicFusion [28]。自从这项开创性的工作以来，已经提出了许多VolumeDeform [17]基于稀疏特征对齐提高跟踪质量。此外，他们还根据以下参数对变形场进行了参数化：密集的体积网格而不是稀疏的变形图。KillingFusion[36]和SobolevFusion [37]方法允许拓扑变化，但不能沿着完整的输入序列恢复密集的时空对应。其他方法联合优化几何，运动和运动[14]，以获得更高的鲁棒性和更好的质量。Wang et al.[47]采用全局优化以最小化表面跟踪误差。与使用单个RGB-D相机的这些方法相比，其他技术使用多个彩色[7，43]或深度相机[52，45，9，8]，这使得以更复杂的硬件为代价实现高质量的再现。我们提出一种新的基于学习的对应匹配和重构方法，其性能优于现有技术。学习严格的对应匹配历史-通常，刚性配准任务的对应匹配是基于手工制作的几何描述符[19，11，42，32，31]。如果除了深度之外还有颜色信息，则可以使用SIFT [24]或SURF [1]来建立RGB-D帧之间的稀疏特征匹配集。最近，用于特征匹配的D [38]和ScanNet [5]，其中最大的有数千个扫描，非刚性RGB-D数据集仍然在他们的幻想中。虽然这些数据集可用于预训练网络以执行非刚性对应匹配任务，但它们无法捕获对更难的非刚性设置有用的不变量当前的非刚性重建数据集太小，并且通常限于特定的场景类型[7，52]，这不足以为监督学习提供所需的训练数据。提供真实世界深度记录的数据集[13，17]没有地面实况重建，这使得客观地对不同方法进行基准测试具有挑战性。通常用于评估的其他数据集不提供真实世界的深度数据，例如，[7，43]。在这项工作中，我们介绍了第一个大规模的数据集的非刚性匹配的基础上半监督标记，并提供了一个基准，使不同的方法的客观3. 数据驱动的非刚性匹配我们的目标是找到源和目标RGB-D帧之间的匹配为此，我们提出了一种基于暹罗网络的RGB-D匹配网络架构[21]有两座塔。网络的输入是两个大小为224×224像素的局部我们假设源块以特征点为中心.目标是预测目标帧中的概率热图H，该热图H给出源点位置的可能性。首先，我们计算一个S形热图：在静态场景中，培训语料库[34，35，15，53，60]。Matchnet [15]方法采用CNN的端到端训练来提取和Hsg=σsg.ΣH（D输出）-是的匹配2D图像数据中基于块的特征。静态场景的刚性配准描述符可以通过3DMatch [56]架构直接在3D空间中学习和匹配。密集对应估计的视觉描述符可以通过采用密集重建方法以自动它是基于S形激活σsg计算的，以映射回复[0，1]。这里，Dout是解码器最后一层的输出特征图，H是将特征空间转换为热图值的卷积层。这相当于每个像素的独立二进制分类问题。其次，我们还计算了一个softmax-heatmap：RGB-D记录中的标签对应关系[33]。静态场景的描述符学习和匹配已经很好地-Hsm =σsm.ΣH（D输出）-是的研究，但缺乏具有挑战性的非刚性场景。虽然已经针对特定对象类学习了非刚性场景的类特定密集匹配[48，12]，但这些技术都不能处理任意变形的非刚性对象。我们认为其中一个原因是缺乏大规模的训练语料库。在这项工作中，我们提出了这样一个语料库，并演示了如何端到端地学习深度图像之间的RGB-D数据集虽然我们已经看到了过多的静态场景的RGB-D数据集，例如NYU [26]，SUN RGB-在这里，我们使用softmax激活σsm来使完整的热图成为概率分布，即，加起来就是1作为热图预测的基础事实，我们可以在任何地方使用零值的图像，除了我们设置为1的基础事实像素位置为了防止训练的网络仅预测零值，我们在地面实况像素周围应用高斯核Gxgt它将地面实况像素得出地面实况热图Hgt。我们还增加了更大的权重到接近地面实况像素的像素，定义17005图3：我们设计了一个基于Siamese网络的端到端RGB-D匹配架构，以查找源帧和目标帧之间的匹配。我们的网络基于两个塔，它们共享编码器，并具有一个解码器，该解码器预测目标帧中的两个概率热图，这些热图对源点位置的可能性进行编码。我们的网络还预测匹配点的深度值和可见性分数，该分数衡量源点在目标帧中是否可见像素权重为wH（x）=1+10·Gxgt（x）。然后，热图损失计算为：Σ可见性此外，我们还预测了一个可见性得分∈[0，1]，用于测量源点在目标帧中是可见（高值）还是被遮挡（低值）：LH=Φbce（wH（Hsg−Hgt））+我ΣV=σsg.ΣV（B输出）-是的λnllΦnll（wH（Hsm−Hgt））.我这里，Bout是瓶颈层的输出特征图，V是卷积层，σsg是S形激活。可见性损失的形式如下：这里，Φbce（·）表示二进制交叉熵损失，Φnll（·）是负对数似然损失，我们根据经验确定了权重λnll= 10。从这两个概率LV= ΣΦ bce（V − Vgt）。我热图中，单个热图计算为H=Hsg <$Hsm，其中<$是Hadamard乘积。除了热图预测之外，我们的网络还预测匹配点在目标相机坐标系中的深度值。受[25]的启发，我们密集地预测深度，为输出图像中的每个像素预测相同的深度值.ΣD = exp D（D输出）。这里，D是将特征空间转换为深度值的卷积层，并且指数被应用于保证正深度预测。Dgt是地面实况匹配的深度，重复for the whole整个image图片. 既然我们想鼓励深度为了将预测集中在匹配的像素上，我们再次使用像素加权，这次以wD（x）=G xgt（x）的形式，将中心像素的权重设置为1，并将权重衰减为0。使用均方误差Φmse（·）的加权版本，我们采用以下损失进行深度预测：ΣL D= λdΦmse（wD（D − D gt））.我最后，我们使用所有呈现的损失函数的加权组合来训练网络：L= LH+ λD L D+ λVL V。在所有实验中，我们使用恒定的和经验确定的权重λD=100和λV=1。网络架构的概述如图所示3 .第三章。更多的网络和培训细节可以在补充中找到4. 非刚性重建管道我们将学习的非刚性匹配算法集成到非刚性RGB-D重建框架中，该框架有效地跟踪GPU上的密集、时空相干、非刚性变形，并且还提供了有效的体积融合后端。与跟踪非刚性变形并行地，从数据重建场景的规范模型，并且基于由均匀体素网格表示的截断带符号距离场（TSDF）来存储该规范模型。新的观察融合到网格的基础上指数移动平均。基于以下跟踪能量来跟踪非刚性场景运动E total（T）= E data（T）+ λ learned E learned（T）+ λreg E reg（T）。17006权重λlearned=1和λreg=1是经验确定的，并且平衡不同的项。4.1. 变形模型为了参数化场景运动，类似于[41]，我们使用具有K个变形节点gi∈R3的粗变形图G。该图基于局部每个节点的凸组合来变换是由李代数空间中的旋转参数θi∈R3和平移向量ti∈R3参数化的。总的来说，这导致2k个自由变量来描述场景运动，我们共同将其称为T。这使我们能够将自由变量的数量与com解耦，重建场景的复杂性。变形节点基于邻近度进行连接，有关详细信息，请参阅原始嵌入式变形论文[41]。4.2. 优化条款最好地解释数据的变形图GG =argminEtotal（G）。在高斯-牛顿求解器中，我们使用数据并行预条件共轭梯度（PCG）来解决线性问题的潜在序列。具体实施详见补充文件。5. 半监督数据采集在下文中，我们提供了我们的半监督非刚性数据收集过程的细节，该过程用于训练非刚性匹配和评估非刚性重建算法。数据采集管道的高级概述如图所示1.一、5.1. 数据采集为了获得非刚性移动的RGB-D扫描，对于数据项E数据[28]如：对象，我们使用安装在iPad上的结构传感器的深度流以640×480的分辨率记录，多重密集点对点和点对面对准控制，输入深度图和当前重建之间的约束。对于正则化子Ereg，我们采用尽可能刚性（ARAP）约束[39]来强制局部刚性运动。此外，我们根据我们学到的对应关系整合了一个稀疏特征对齐项（见第二节）。（3）第三章。对于当前变形图的每个节点gi，我们预测概率热图Hi，其给出其2D当前输入深度图中的uv位置，使用初始深度图作为参考帧。此外，我们还使用其深度将具有最大热图响应的像素反向投影到3D点pi∈R3中我们的目标是将图节点与相应的使用以下对齐约束绘制热图：每秒30帧; RGB流是用iPad摄像头以1296×968像素的分辨率捕获的，该分辨率相对于范围传感器进行了校准。关于扫描指令，我们遵循ScanNet [5]管道。然而，在我们的情况下，我们专注于一个到几个非刚性移动的对象，除了一个静态的背景场景。我们总共记录了400个场景，超过390，000个RGB-D帧。5.2. 数据注释我们为我们的新数据集众包稀疏地面真实对应注释和分割掩码。为此，我们采用了基于Web的注释工具。的Elearned（T）=Σ。gi∈GΣ21− Hi（π（gi +ti））+注释分为两个任务。首先，我们选择到每个序列10帧。在这些帧中找到的所有动态对象都被赋予唯一的实例ID（λ点 Σ。gi∈GΣ2g i+ t i− p i .在整个序列中的相同实例），并且它们的掩码在每个帧中被注释。为了加快掩模分割，我们使用超像素的层次结构作为候选画笔这里，π：R3→R2是从3D相机空间到2D屏幕空间的投影热图Hi被归一化为最大值1。我们根据经验设定λ点=10。为了处理离群值，特别是在闭塞相关的情况在sponences中，我们使用预测的可见性得分和预测的匹配深度值我们过滤掉所有可见度得分为0的热图对应<。五、我们将预测深度与来自目标帧的深度图的查询深度在具有最大热图响应的像素处进行比较，并使深度差> 0的任何对应关系无效。十五米4.3.能量优化我们使用数据并行高斯-牛顿求解器有效地解决了底层优化问题，尺寸. 其次，在标注的帧中选择多达10专家注释者被指示统一注释完整的对象，标记约20点匹配每帧对。此外，在目标图像中包含的源图像部分中，均匀地选择遮挡点来收集可见性检测的数据样本动态对象分割任务平均每帧花费约1分钟，而对应标记任务平均每帧花费约2分钟。5.3.密集数据对齐使用带注释的对象掩码和稀疏匹配，17007执行。我们遵循与非刚性重建类似的方法（见第2节）。4），基于[41]的稀疏变形图。变形图是在源帧的深度图上定义的，通过使用源对象掩码仅覆盖动态对象。被优化以将源RGB-D帧与目标RGB-D帧对齐的最终能量函数是：E总（T）=E数据（T）+λ照片E照片（T）+λsilhE silh（T）+λ稀疏E稀疏（T）+λregEreg（T）。这里，Ephoto（T）鼓励来自源帧的颜色梯度值与目标帧匹配，Esilh惩罚目标帧的ob之外的对象的对象掩码，并且Esparse强制满足带注释的稀疏匹配。权重 λphoto=0 。 001 ， λsilh=0. 0001 ， λsparse=100 。 0 且λreg=10。0已被经验确定。有关不同优化项的详细信息及其效果的定性比较，请参见补充文档。为了处理在捕捉自然非刚性运动时非常常见的简单表观拓扑变化，例如手在一帧中触摸身体并在另一帧中移开，我们在两个方向上执行非刚性对齐，并使用前后运动插值计算最终非刚性对齐，类似于[55]。最后，执行快速手动检查步骤，其中，如有必要，将删除任何未正确对齐的网格部分。重新查看步骤每帧大约需要30秒。密集对齐结果和所采用的查看界面的示例可以在随附的视频中找到。6. 实验我们提供了一个训练-验证-测试分割，训练集中有340个序列，测试集中有30个序列，验证集中有30个序列。我们确保在训练和验证/测试场景之间的捕获环境之间没有重叠6.1. 非刚性匹配评估对于源图像中给定的一组像素（和对应的3D点），任务是在目标图像中找到对应的像素（和3D点）我们评估平均2D像素和3D点误差（以米为单位），并计算匹配精度（匹配比接近20像素或0。05米的地面实况对应）。我们将我们的非刚性匹配方法与几种手工制作的特征匹配策略进行比较，这些策略基于基于深度或颜色的描述符，以及学习的3Dmatch [56]描述符，请参见Tab。1.一、具体而言，我们将其与手工制作的几何描述符进行比较，例如直方图的唯一签名（SHOT）[42]和快速点特征直方图（FPFH）[31]。我们还比较了基于颜色的描述器，例如，[ 24 ][25][26][27][28][29]表1：我们的性能远远优于所有的基线匹配方法。2D/3D误差是平均像素/点误差，2D/3D精度是距离最多为20像素/ 0的像素/点的百分比。05米。建立RGB-D帧的稀疏匹配集。最后，我们在我们的训练序列上训练来自[56]的学习描述符，来自[46]的基于补丁的随机森林匹配器和来自[16]的光流我们的方法始终优于所有基线。6.2. 非刚性重建结果我们将学习到的匹配策略集成到非刚性重建管道中。我们学习的数据项显著提高了重建质量，无论是质量上还是数量上。为了能够对我们的测试序列进行定量比较，我们使用了[28]的重新实现以及[17，36，37，14]的作者提供的代码或结果。我们还将数据驱动的对应匹配模块替换为[56]中的描述器学习网络，对我们的数据进行训练，并将其与3D Harris关键点结合使用。定量评价见表1。二、评估度量测量变形误差（注释的和计算的对应位置之间的3D距离）和几何形状误差（将对象掩模内的深度值与重建的几何形状进行比较）。变形误差是更重要的度量，因为它还测量表面内的切向漂移为了能够知道如果存在多个要重建的动态对象，我们总是提供所选对象的初始地面真值分割掩码。在Tab中的所有方法。在所有30个测试序列上对2个进行了评估，以比较不同类型的对象和可变形运动。[14]给出了两个具有挑战性的测试序列的结果，它们的平均变形和几何误差为21。05厘米和14. 87厘米，而我们的方法实现的平均误差为3 .第三章。63厘米，0。48厘米。我们的方法大大优于现有技术方法[36]和[37]不方法二维错误三维错误二维访问3D访问SIFT [24]138.400的情况。552十六岁20十四岁08分区域资源中心[1]一百二十五720的情况。476二十二岁1319号。82射击[42]一百零五340的情况。342十三岁4311个国家。51FFPH [31]109 490的情况。39310个。859 .第九条。433D比赛[56]68岁980的情况。273三十50二十五33GPC [46]六十五040的情况。23131岁9328岁1617008方法变形误差（cm）Geo.误差（cm）DynamicFusion重新实施[28日]六、311 .一、08[17]第十七话21岁277 .第一次会议。78DynamicFusion +3Dmatch六、641 .一、59我们的-刚性12个。21二、30我们的稀疏8. 240的情况。77我们的自我监督五、470的情况。54我们的基地3 .第三章。940的情况。43我们的闭塞3 .第三章。700的情况。42Ours-Occlusion+深度3 .第三章。280的情况。41表2：与最先进方法的比较。我们学到的对应关系显着提高跟踪和重建质量。我们还提供了对训练数据类型和不同网络部分的消融研究。计算从标准框架到其它框架的显式点对应，因此我们不能定量地评估这些方法;我们在补充文件中提供了我们的序列的定性比较。我们还展示了与我们在图4中重新实现的DynamicFusion [28]以及图4中[14]的最先进方法的五、我们学习到的对应关系使我们能够处理更快的物体运动以及chal-chaling平面运动，其中甚至光度提示失败，例如由于均匀的物体颜色。6.3. 消融研究我们评估了网络的不同组件及其对重建质量的影响，见表1。二、由于一些序列包括其中重建对象的大部分被遮挡的运动，如图16、利用可见性检测进行对应关系修剪，使算法具有更好的鲁棒性。此外，由于深度测量和热图预测有时都可能是有噪声的，因此添加具有深度预测的对应滤波进一步改善了重建结果。6.4. 数据生成评估为了说明我们的半监督策略对于构建训练语料库的重要性，我们评估了不同的训练语料库如何影响数据驱动重建方法的性能。除了使用密集半监督帧对齐生成的训练数据之外，我们使用了室内场景的公开可用的刚性数据集（来自[5]），序列的自监督对齐（如[33]），以及来自我们数据集的仅手动注释的稀疏样本我们在Tab中提供了两种非刚性匹配的比较。1和非刚性重建。二、仅使用刚性数据不会推广到非刚性序列。虽然稀疏匹配已经提高了网络性能，但没有足够的数据来对观察对象的每个部分进行可靠的对应预测此外，带注释的稀疏匹配通常是在图像部分上的匹配，这些图像部分很容易被hu-图4：与DynamicFusion的定性比较（实施）。人匹配，并且在具有均匀颜色的区域中存在不太准确的在自监督设置中，网络获得密集的对应信息，与仅使用稀疏特征相比，这提高了该方法然而，在没有半监督密集对齐帧对的情况下，我们只能为简单变形生成匹配，其中DynamicFusion方法可以成功跟踪运动。因此，仅在自监督数据上训练的网络的性能在更极端的变形上大大降低，如图所示。7.第一次会议。在极端变形的情况下，精确的网络预测也需要太远帧的密集对齐。由于大多数密集对齐的匹配仍然是刚性移动的，因此在训练期间对更多的可变形样本进行采样是有益的。为了估计场景的哪些部分更易变形，我们采用稀疏注释的匹配并结合Procrustes算法运行RANSAC来估计平均刚性姿态。每个采样匹配的运动与平均刚性运动的差异越大，我们在网络训练期间使用非刚性位移权重的多项式分布对其进行采样的频率就越高这17009图5：我们的方法和MonoFVV [14]的重建结果的定性比较。重建结果由作者友好地提供。图6：可见性检测可以过滤被遮挡的网络对应。可见性分数在范围[0，1]内，对于可见对应性它是高的，并且对于遮挡部分它是低的。我们过滤掉所有可见性分数小于0的对应。50块策略提高了网络性能，如表1，与非加权样本的训练相比。最后，我们展示了需要多少数据才能实现鲁棒的对应预测性能;也就是说，使用较少的训练数据会大大降低匹配精度，如表1所示。1，我们只使用12个训练网络。百分之五，二十五。0%，50。0%的训练数据。图7：使用自监督训练数据（中间）和半监督密集数据（右）的参考帧（左）的对应预测的比较6.5. 限制虽然学习的对应关系使快速运动的跟踪更加鲁棒，但在重建动态对象时仍有改进的空间。一个紧迫的问题是，当对象接近背景时，背景杂波可能会意外地与对象融合。在这种情况下，重建的形状将缓慢增长，我们也可能开始重建背景。 This can cause wrongdeformation graph connectivity and lead to trackingfailures.一个潜在的未来途径是减去和忽略背景;例如，我们可以使用带注释的对象掩码来开发数据驱动的方法。7. 结论我们已经提出了一种神经网络架构，用于匹配在RGB-D帧上操作的非刚性序列中的对应关系，并证明了我们学习的描述符优于现有的手工制作的描述符。此外，我们还介绍了第一个由400个场景，超过390，000个RGB-D帧和5，533个密集对齐的帧对组成的大规模数据集。该数据集是通过将自监督与稀疏注释相结合以获得密集帧间对应的半监督策略来获得的。我们还提供了一个测试集以及几个指标，用于评估非刚性匹配和非刚性重建。我们相信，我们的数据集是实现基于学习的非刚性匹配的第一步，我们的基准将有助于定量和客观地比较不同的方法。确认我们要感谢注释专家 Sathya Ashok 、 Omar He- dayat 、 HayaIrfan、Azza Jenane、Soh Yee Lee、Suzana Spasova和Weile Weng为构建数据集所做的努力。我们还要感谢Edgar Tretschk在数据收集方面的帮助，感谢Xiaochen Fan在研究访问期间的宝贵贡献，感谢Armen Avetisyan进行了大量有益的讨论。这项工作得到了MaxPlanck Center for Visual Computing and Communications （ MPC-VCC）、TUM-IASRudolfMoßbauerFellowship、ERCStartingGrantScan2CAD （ 804724 ）、 ERCConsolidatorGrant4DRepLy（770784）和German Research Foundation（DFG）的支持，使静态和动态3D数据的机器学习变得实用。17010引用[1] Herbert Bay，Andreas Ess，Tinne Tuytelaars，and LucVan Gool.加速健壮功能（冲浪）。Comput. 目视图像理解，110（3）：346-359，2008年6月。三、六[2] Jiawen Chen，Dennis Bautembach，and Shahram Izadi.可缩放的实时体积表面重建。ACM Trans. on Graphics（Proc. SIGGRAPH），32（4）：113：1- 113：16，2013年7月。2[3] Sungjoon Choi，Qian-Yi Zhou，and Vladlen Koltun.室内场景的鲁棒重建。正在进行IEEE会议计算机视觉和模式识别，第5556-5565页，2015年。2[4] B. Curless和M.勒沃从距离图像建立复杂模型的体积法在过程补偿中Graph. &互动. Techn. 第303-312页，1996年。2[5] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在proc 计算机视觉与模式识别（CVPR）IEEE，2017年。三、五、七[6] AngelaDai ， MatthiasNießner ， MichaelZoll höfer ，ShahramIzadi，and Christian Theobalt.BundleFusion：使用动态表面重新整合的实时全局一致3D重建。ACMTrans. on Graphics，36（3），2017. 2[7] Edilson de Aguiar，Carsten Stoll，Christian Theobalt，Naveed Ahmed，Hans-Peter Seidel，and Sebastian Thrun.从稀疏多视图视频中捕获性能 ACM Trans.Graph. ，27（3）：98：1-98：10，Aug. 2008. 3[8] Mingsong Dou，Philip Davidson，Sean Ryan Fanello，Sameh Khamis，Adarsh Kowdle，Christoph Rhemann，Vladimir Tankovich，and Shahram Izadi.Motion2fusion：实时容积性能捕获。 ACM Transactions on Graphics（TOG），36（6）：246，2017。第1、3条[9] Mingsong Dou，Sameh Khamis，Yury Degtyarev，PhilipDavidson，Sean Ryan Fanello，Adarsh Kowdle，SergioOrts Escolano ， Christoph Rhemann ， David Kim ，Jonathan Tay- lor，et al. Fusion 4d：挑战场景的实时性能捕获。ACM Transactions on Graphics（TOG），35（4）：114，2016。第1、3条[10] Mingsong Dou，Jonathan Taylor，Henry Fuchs，AndrewFitzgibbon，and Shahram Izadi.具有单个RGBD传感器的3D扫描可变形物体。IEEE计算机视觉和模式识别会议论文集，第493-501页，2015年。2[11] AndreaFrome ，DanielHuber，Ra viKolluri，ThomasBu？low和Jitendra Malik。使用区域点描述符识别距离数据中的对象。第3卷，第224-237页，2004年5月。3[12] 放大图片作者：David G.金布莱恩·罗素马修·奥布里3d编码：通过深度变形的3d在ECCV，2018。3[13] Kaiwen Guo，Feng Xu，Yanang Wang，Yebin Liu，andQionghai Dai.使用l0正则化的鲁棒非刚性运动跟踪和IEEE Transaction on Visualization and Computer Graphics（TVCG），2017年。3[14] Kaiwen Guo ， Feng Xu ， Tao Yu ， Xiaoyang Liu ，Qionghai Dai，and Yebin Liu.实时几何、反照率和运动使用单个RGB-D 照相机的构造 ACM Transactions onGraphics（TOG），36（3）：32，2017。一、三、六、七、八[15] X.汉，T.梁，Y.贾河，巴西-地Sukthankar和A. C.伯格。Matchnet：统一特征和度量学习用于基于补丁的匹配。在2015年IEEE计算机视觉和模式识别会议（CVPR），第32792015年6月。3[16] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。在IEEE计算机视觉和模式识别会议的论文集，第2462-2470页，2017年。6[17] MatthiasInnmann，MichaelZollhoüfer，MatthiasNießner ， ChristianTheobalt ， andMarcStamminger.体积变形：实时体积非刚性重建。欧洲计算机视觉会议，第362-379页。施普林格，2016年。一、三、五、六、七[18]S. 伊萨迪D.Kim，O.希利格斯，D。莫利诺河纽科姆P. Kohli，J.Shotton，S.Hodges，D.Freeman，A.戴维森，以及A.菲茨吉本KinectFusion：使用移动深度相机的实时3D重建和交互。在proc ACM Symp.用户界面软件&Tech.第559-568页，2011年。2[19] Andrew E.约翰逊和马夏尔·赫伯特在杂乱的3d场景中使用自旋图像进行有效的物体识别。IEEE传输模式分析马赫内特尔，21（5）：4331999年5月3[20] Maik Keller ， Damien Lefloch ， Martin Lambers ，Shahram Izadi，Tim Weyrich，and Andreas Kolb.基于点融合的动态场景实时三维重建。在Proc. Int. Conf. 3DVision（3DV），第1-8页，华盛顿，D.C.，USA，2013. IEEE计算机协会。2[21] B. G. Vijay Kumar、Gustavo Carneiro和Ian D.里德通过最小化全局损失函数，使用深度连体和三重卷积网络学习局部图像描述符。CoRR，abs/1512.09272，2015年。3[22] D. Lefloch，M. Kluge，H. Sarbolandi，T. Weyrich和A.科尔布综合利用曲率进行稳健和精确的在线曲面重建。 IEEETrans.PatternAnalysisandMachineIntelligence（PAMI），page10.1109/TPAMI.2017.2648803，2017. 2[23] Damien Lefloch，Tim Weyrich，and Andreas Kolb.基于各向异性点的融合。在Proc. Int. Conf.信息融合（融合），第1-9页，2015年7月。2[24] David G.洛从尺度不变关键点中提取独特的图像特征。国际计算机Vision，60（2）：91-110，2004年11月。三、六[25] DushyantMehta，SrinathSridhar，OleksandrSotnychenko ， Helge Rhodin ， Mohammad Shafiei ，Hans-Peter Seidel ， Weipeng Xu ， Dan Casas ， andChristian Theobalt. Vnect：使用单个rgb摄像头进行实时3d 人体姿势估计。 ACM Transactions on Graphics（TOG），36（4）：44，2017。4[26] Pushmeet Kohli Nathan Silberman，Derek Hoiem和Rob17011Fergus。室内分割和支持从rgbd图像推断。ECCV，2012年。317012[27] Richard A Newcombe 、 Andrew J Davison 、 ShahramIzadi 、 PushmeetKohli 、 OtmarHilliges 、 JamieShotton、David Molyneaux、Steve Hodges、David Kim和Andrew Fitzgibbon。KinectFusion：实时密集表面映射和跟

下载后可阅读完整内容，剩余1页未读，立即下载