没有合适的资源?快使用搜索试试~ 我知道了~
非刚性运动的未观察到的几何形状:4DComplete方法
127064DComplete:可观测表面之外的非刚性运动估计杨莉1武原光2武富隆2博政2马蒂亚斯·尼斯纳31东京大学2东京研究中心、华为3慕尼黑技术大学图1:给定来自非刚性变形场景的输入部分扫描和帧间场景流(左),我们的方法联合恢复丢失的几何形状(中)和体积运动场(右)。颜色显示单位球体(右下角)上的运动方向摘要使用范围传感器跟踪非刚性变形场景具有许多应用,包括计算机视觉、AR/VR和机器人。然而,由于距离传感器的遮挡和物理限制,现有方法仅处理可见表面,从而导致运动场中的不连续性和不完整性。为此,我们介绍了4DComplete,一种新的数据驱动的方法,估计的非刚性运动的未观察到的几何形状。4DComplete将部分形状和运动观测作为输入,提取4D时空嵌入,并使用稀疏全卷积网络联合推断丢失的几何形状和运动场对于网络训练,我们构建了一个名为DeformingThings4D的大规模合成数据集,该数据集由1,972个动画序列组成,涵盖31种不同的动物或人形类别,并具有密集的4D注释。实验表明,4DComplete1)该方法从部分观察重构高分辨率体积形状和运动场,2)学习有益于形状和运动估计两者的纠缠4D特征表示,3)产生比经典非刚性先验(诸如尽可能刚性(ARAP)变形)更准确和自然的变形,以及4)很好地推广到现实世界序列中的不可见对象。1. 介绍使用单个距离传感器了解非刚性变形场景的运动是许多计算机视觉、AR/VR和机器人应用的核心。在这种情况下,一个基本的限制是单视图范围传感器不能捕获遮挡区域中的数据,导致3D环境的不完整观察。因此,现有的非刚性运动跟踪方法被限制到场景的可观察部分。然而,从部分观察推断完整运动的能力对于许多高级任务是必不可少的。例如,作为护理机器人,为了安全地护理老年人(例如,预测人为了解决这些问题,我们提出了这样一个问题:如何在非刚性变形的场景中推断出未观察到的几何体的运动?诸如DynamicFusion [38]和VolumeDeform [26]的现有作品提出通过潜在变形图将变形从可见表面传播到然后通过优化手工制作的变形先验(如“尽可能刚性”[47]或“嵌入变形”[49])来确定隐藏的变形,这强制图形顶点以近似刚性的方式局部移动12707这种变形先验具有几个局限性:1)它们需要大量的参数调整; 2)它们并不总是反映自然变形; 3)它们通常假定为连续表面。因此,这些先验主要用作局部变形的正则化器,但与较大的隐藏区域斗争解决这个问题的一个有希望的途径是利用数据驱动的先验知识来推断丢失的几何形状。最近,用于3D形状或场景完成以及涉及单个深度图像或房间规模扫描的其他生成任务的深度学习方法已经显示出有希望的结果[12,46,11,7,10]。然而,这些工作主要集中在静态环境。在本文中,我们第一次尝试将几何补全与非刚体运动跟踪相结合。我们认为,非刚性变形对象的形状和运动是高度纠缠的数据模态:一方面,推断未观察到的对象部分的几何形状的能力为运动估计提供了有价值的信息。另一方面,运动被认为是形状为了利用这些syn- ergies,我们提出了4DComplete,它联合恢复丢失的几何形状,并预测可见和不可见区域的运动。我们在稀疏的全卷积神经网络上构建4DComplete,这有助于以高分辨率对形状和运动进行联合此外,我们还介绍了DeformingThings4D,这是一个新的大规模合成数据集,它捕获了各种非刚性变形对象,包括类人和动物。我们的数据集提供了整体的4D地面实况与颜色,opti- cal/场景流,深度,签署的距离表示,和体积运动场。总之,我们提议作出以下贡献:• 我们介绍4DComplete,第一种方法,共同恢复的形状和运动场从部分观察。• 我们证明,这两个任务相互帮助,导致强大的4D功能表示优于现有的基线显着保证金。• 我们提供了一个大规模的非刚性4D数据集,用于训练和基准测试。 该数据集由1,972个动画序列和122,365帧组成。数据集可从以下网址获得:https://github.com/rabbityl/DeformingThings4D.2. 相关工作2.1. 使用深度传感器的用于非刚性跟踪的许多方法使用非刚性迭代最近点(N-ICP)算法的变型[1,41,29,59],其中对应点的点到点或点到平面距离被迭代地确定。最小化为了防止不受控制的变形并重新解决运动模糊性,N-ICP优化通常采用变形正则化器,例如尽可能刚性(ARAP)[47]或嵌入变形[49]。联合跟踪和重建非刚 性 表面 的 第 一 个 实时 方 法 之 一 是DynamicFusion[38]。VolumeDe- form [26]通过添加稀疏SIFT特征匹配来扩展DynamicFusion的思想,以提高跟踪鲁棒性。使用深度学习,DeepDeform [5]通过基于CNN的对应匹配取代了经典的特征匹配。Li等人[30]更进一步,通过N-ICP算法进行区分,从而获得密集特征匹配项。神经非刚性跟踪[4]采取了类似的方向为了处理拓扑变化,KillingFusion [45]直接 估计给 定一 对有符 号距离 场(SDF)的运动场。光学/场景流[15,51,50,53,32,55,33,22,34]是一种密切相关的技术。在[17,18,4,16,54]中,它们已被用于生成非刚性跟踪的初始猜测。在这些作品中,FlowNet3D [32]是直接从两组点云估计场景流虽然现有的方法主要集中在一个场景的可见表面,我们采取进一步的隐藏表面的变形模型。2.2. 形状和场景完成完成部分3D扫描是几何处理中的活跃研究领域。传统的方法,如Poisson表面重建[28],局部优化表面以拟合观察点,并适用于小的缺失区域。Zheng等人[57]通过推理物理学和Halimi等人预测未观察到的体素。[24]通过变形人体模板完成部分人体扫描。最近,我们已经看到3D CNN在深度扫描的几何完成方面具有有希望的结果[46,12,11,10]。这些作品或者在单个深度图像上操作SSCNet [46]中的场景,或房间和建筑物楼层规模扫描的场景完成,如Scan- Complete[11]和SGNN [10]所示。另一种用于形状完成的研究路线使用隐式场景表示[37,39,42,40,31,7,27];然而,尽管这些方法在对象/场景的拟合和插值方面取得了令人惊叹的结果,但它们仍然难以在具有高度几何多样性的对象类别中进行概括虽然这些现有的作品主要集中在静态场景,我们研究如何利用形状完成在动态4D域的协同作用。2.3. 非刚性4D数据集收集用于使对象变形的大规模4D数据集是一项重要的任务,特别是当目标是以获得足够大数量的物体。非刚性12708⊕⊗××⇔} SFF∈{SFF |{1}|}{{VMF|}VMF ∈{1}|}和运动。输入形状被表示为截断的有符号距离场(TSDF),作为体素lo的稀疏集合图2:4DComplete的网络架构(粉红色胶囊:训练损失;:级联;:按几何体过滤,括号中的数字:(n入,n出)特征尺寸)。输入的部分TSDF和VMF被级联在一起并被馈送到4D编码器中。两个解码器并行预测完整的TSDF和VMF有4个层次。形状解码器预测每个分层级别中的几何形状,并将预测的几何形状传递到运动解码器中的对应层和形状解码器中的下一层。我们的方法在空间维度为96 96 128的裁剪体积上进行训练,该体积覆盖了对象的约70%。我们的方法的完全卷积性质使得可以对任意大小的整个对象进行测试。数据集[14,3,2,52,23,56,26,45,5,58,35,60]具有已经被广泛使用,但是它们或者相对较小,限于特定场景类型,或者遭受遮挡和传感器噪声;因此,它们不直接适合于我们4D完井任务。值得注意的是,从真实世界3D扫描获得密集运动场地面实况是相当具有挑战性的,因为它需要昂贵的每点对应注释。这就是为什么我们在密集光流方法[36,6,34,44]的背景下看到许多合成数据集的原因之一;其中,Sintel [6]和Monka[36]由变形对象的渲染动画组成然而,这些序列相对较短并且不提供完整的3D形状和运动场。为了便于学习数据驱动的变形先验,我们引入了具有超过1,972个动画序列的大得多的合成数据集,跨越了从类人动物到各种动物物种的各种各样的对象秒4).3. 方法:4DComplete给定3D场景的单视图深度图观察以及在当前帧与其下一帧之间计算的场景流,4DComplete的目标是恢复隐藏的几何形状及其运动场。相应地更新当前深度图及其距离值为了表示可见表面的输入运动,我们预先计算每个占用体素的3D运动矢量(在R3中),从而得到体积运动场(VMF)表示。我们将TSDF和VMF连接起来,并将其作为神经网络的输入。场景流场体积运动场。 我们使用FlowNet3D [32]来预测可见表面的运动,其估计两组点云之间的场景流场(SFF)。因为3D点不一定位于规则3D网格位置上,所以我们在SFF和VMF之间转换如下:给定点云p,i,i=1,…,N,其中pi,R3是各个点的XYZ坐标,SFF被定义为i,i=1,…N,其中iR3是点的3D平移运动矢量。类似地,给定一组3Dvoxel位置v,j,j=1,… M,VMF被定义为ii=1,.,其中,是体素的3D平移运动矢量。为了从SFF转换为VMF,我们使用逆距离加权插值。如[43]中所定义:ΣSFFi·dist(pi,vj)−1pi∈knn(vj)pi∈knn(vj)我 J(一)输入. 我们使用3D体积网格来表示两个形状VMFj=Σdist(p,v)−1截断内的阳离子及其对应距离价值观使用体积融合[9]从单个深度图计算TSDF每个体素都被投影到其中knn()是查找K-最近邻的函数我们将邻居的数量设置为K=3,并且dist(,)计算两个位置之间的欧几里得距离。到12709Σi=1××× × × × ××Mi=1||VMF||·||VMF||||二、||2. 在此外,我们应用余弦相似性损失:ΣM(1−{VMF|}从VMF转换为SFF,我们进行三线性插值:SFFj=ΣVMFj·w(pi,vj)(2)vj∈knn(pi)预测稀疏位置处的地面实况运动场由i,gt ,i=1,...,M.我们用公式表示最终预测的稀疏位置上的运动场使用L2损失的情况:2K= 8表示点所在的立方体的相邻8个角。网络架构。为了允许形状和运动场的高分辨率输出,我们利用稀疏卷积[21,20,8]用于我们的神经网络架构,这使得我们的架构通过仅在表面几何形状上操作而在处理3D体积数据因此,我们的方法只处理表面区域而忽略截断区域。图2示出了我们的网络架构的概述。该网络由一个共享的4D编码器和两个解码器组成,以并行地估计形状和运动。输入稀疏张量首先被馈送到4D编码器中,该4D编码器使用一系列稀疏卷积对数据进行编码,其中每个集合将空间维度减少两倍。这两个解码器被设计在一个由粗到细的架构与4个层次的水平。我们使用4D编码器和2个解码器之间的跳过连接来连接相同空间分辨率的特征图由于形状解码器通常生成比输入更大的稀疏位置集合,因此对于不存在于输入体积中的位置,我们使用零特征向量两个分支之间的消息传递。在层次级别k处,形状解码器预测体素的ocu_k和TSDF值S_k。我们过滤sigmoid(O k(v))> 0的体素。5作为下一层级的输入几何。在每个分级级别内,形状解码器将预测的几何形状馈送到并行运动解码器,以通知应该在何处估计运动。作为回报,运动特征由稀疏几何结构过滤并共享给形状解码器。形状损失。形状解码器的最终输出是稀疏TSDF,可以通过Marching Cubes从该稀疏TSDF提取网格。在[10]之后,我们对对数转换的TSDF值应用l1对TSDF值使用对数变换有助于将损失注意力更多地转移到表面点,因为远离表面的较大值变得较小,从而鼓励在表面几何形状附近进行更准确的预测。我们还采用代理损失在每个层次结构级别的输出Ok和Sk,使用二进制交叉熵与目标占用率和11与目标TSDF值,分别。运动损失。 我们的稀疏神经网络的输出由运动解码器促进,其估计完整的视觉运动场{VM Fi|i=1,…M}。的VM Fi·VM Fi,gt)在归一化运动矢量上i i,gt鼓励运动的方向与地面真相逐步成长。我们按照[10]的思想以渐进式增长的方式训练我们的网络。有四个层次,我们逐步引入更高的分辨率几何解码器后,每2000训练迭代。为了促进运动解码器学习,代替使用形状解码器的预测几何形状,我们在开始的10K迭代期间将地面真实几何形状馈送到运动解码器训练我们使用我们新构建的DeformingTh-ings 4D数据集(参见秒(4)加强网络建设。在训练时,我们考虑扫描的裁剪视图以提高效率(见图11)。2);我们使用大小为[96 96 128]的体素的随机作物用于最精细的水平。我们以1米的间隔裁剪每个火车对象的体积,并丢弃空体积。分辨率下降2倍,得到的分辨率为[48 4864]、[24 24 32]和[12 12 16]。每个层级。我们的方法的全卷积设计可以在测试时对任意大小的整个对象进行测试。为了学习视点不变的运动表示,我们在训练期间对3D运动矢量应用随机刚性旋转变换作为数据增强随机性来自Haar分布[48],其在SO3上产生均匀分布。我们使用Adam优化器训练我们的网络,学习率为0.001,批量大小为8。4. DeformingThings4D数据集训练我们的网络需要足够量的非刚性变形的目标序列,其具有在体素水平的地面真实4D对应性(即,运动和形状)。为了提供这样的数据,我们构建了一个合成的非刚性数据集,DeformingThings4D,它由大量的动画角色组成,包括具有皮肤网格、纹理和骨架的人类和动物我们从AdobeMixamo1中获得了人物,其中使用运动捕获系统收集了人形运动数据。动物通常,通过使用“装配”和“蒙皮”将骨骼移动混合到表面蒙皮网格来设置这些对象的图3显示了数据集中的字符示例和我们数据集的统计数据。1https://mixamo.com其中w(,)计算线性插值权重,并且12710−×图3:DeformingThings4D数据集。左:动画角色的示例右:数据集统计。总的来说,我们收集了147个不同的角色,跨越31个类别,共有1,972个动画和122,365帧。4.1.数据生成给定一个三维动画网格,我们生成每帧RGB-D映射,帧间场景流,有符号距离场和体积运动场;参见图4。我们使用Blender2脚本执行数据生成。图4:数据生成过程:给定动画3D网格(a),在球体上对虚拟相机进行采样。相机中的一个被选择作为输入视图,针对该输入视图渲染深度图(b)。深度帧用于计算投影TSDF(e)和帧间场景流(f)。通过对来自所有虚拟相机的深度图像进行积分来计算地面实况完整TSDF(c)通过将网格顶点的运动混合到附近被占用的体素来获得完整的RGB-D图。为了渲染深度图,我们在以目标角色的网格为中心的球体上均匀地采样42个相机视点网格到相机的距离范围为0。5 2. 5米。我们使用Azure Kinect相机的内部参数渲染所有深度图。我们以毫米为单位存储每个像素的深度,并使用Blender内置的Eevee引擎和原则性的BSDF着色器渲染颜色通道2https://www.blender.org/帧间场景流场(SFF)。网格动画以每秒25帧的速度运行。我们跟踪一对时间相邻帧之间的网格顶点的3D位移,并将3D位移投影到相机的像素坐标作为场景流。通过在首先接收像素的投射射线的三角形面上内插3个顶点的运动来计算像素的流向量我们为源帧中的所有可观察像素生成场景流地面实况,为了模拟不同幅度的变形,我们使用帧jumps:{1,3,7,12}.有符号距离字段(SDF)。为了生成地面实况SDF,我们将来自所有虚拟相机的深度图体融合到密集的规则网格中[9],其中每个体素存储截断的有符号距离值。我们重复这个过程独立的四个层次结构水平,体素大小为1。0cm3,2. 0cm3,4. 0cm3和8. 0厘米3。从输入深度图,我们计算体素大小为1的投影SDF。0cm3作为网络输入,同时将截断设置为3体素大小。TSDF值存储在体素距离度量中,这便于对具有任意采样体素大小的体积进行测试。体积运动场(VMF)。我们计算网格表面附近的所有体素的运动地面实况,即,在3x体素截断内。对于每个有效的体素,我们首先找到它的K-最近邻顶点的网格表面上,然后使用双四元数混合(DQB)绑定的KNN顶点的运动的体素的位置。经验上,我们设置K=3。我们对SDF体积遵循相同的过程,并且我们对所有四个分辨率独立地重复该过程,即, 其中体素大小为1。0cm3,2. 0cm3,4. 0cm3和8. 0厘米3。12711∈∈方法训练数据集变形4DDeepDeform数据集[5][19]第十九话EPE↓ ACC(5)↑ACC(10)↑EPE↓ACC(5)↑ACC(10)↑EPE↓ACC(5)↑ACC(10)↑FlowNet3D[36]第三十六话7.3669.43%80.04%21.0724.62%45.09%16.8838.49%67.17%DeformingThings4D(我们的)3.7482.02%91.63%13.0827.78%61.26%17.0136.89%71.67%表1:DeformingThings4D、DeepDeform [5]和KITTI [19]数据集上的场景流估计结果。两个参数分别是以厘米为单位的终点误差(EPE)和运动精度(5cm或5%,10cm或10%)。图5:在一对真实世界RGB-D图像上进行测试。5. 结果5.1. 评估指标运动估计评估度量。在[32]之后,我们使用3D端点误差(EPE)和运动精度(ACC)作为我们的运动评估指标。3D EPE测量估计的运动矢量与地面实况运动矢量之间的平均欧几里得距离。ACC分数测量所有点中低于指定端点误差的估计运动向量的部分我们报告两个ACC指标,两个不同的阈值。请注意,在整个实验中,我们将所有VMF转换为SFF(使用等式2)在进行运动评估之前。形状完成评估度量。我们使用以下度量来评估重建的几何形状:体积IoU(IoU)、以厘米为单位的倒角距离(CD)、表面法线一致性(SNC)、点到平面距离(P2P)和SDF值的115.2. 场景流基准测试我 们 将 我 们 的 DeformingThings4D 数 据 集 与FlyingThings3D [36]进行了比较,FlyingThings3D是一个由飞行刚体组成的大规模动态运动数据集。我们用这 两 个 数 据 集 训 练 FlowNet3D [32] , 并 在DeformingThings4D,DeepDeform [5]和KITTI [19]场景流基准测试集上对其进行评估。结果见表。1.一、DeepDeform [5]是一个非常具有挑战性的非刚性运动的 真 实 世 界 基 准 。 在 我 们 的 数 据 集 上 训 练 的FlowNet3D模型显著降低了真实世界DeepDeform基准测试(来自21.07至13.08)。KITTI数据集捕捉街道场景,主要是刚性汽车在周围移动,这更接近飞行物场景。我们的数据集仍然显示出与KITTI上的FlyingThings3D相当的结果。5.3. 隐藏曲面本节评估隐藏表面的运动估计。我们进行以下实验:给出了完整的网格形状、从给定的摄像机视点可见的网格顶点的子集、以及用于可见顶点的地面真实场景流,并且目标是估计网格的隐藏顶点的运动。我们评估以下方法:·刚性接头。该方法假定形状进行刚性运动。它在SE(3)中为整个形状找到一个最好地解释表面运动的刚性变换。·尽可能刚性(ARAP)变形。 ARAP [47]被广泛用作非刚性重建[38,26,59]中的变形优先级。它假设局部地,点用刚性变换变换。这样的刚性约束施加在由边连接的附近顶点ARAP变形为每个网格顶点找到局部扇形旋转RSO(3)和全局平移向量tR3,其最好地解释了具有局部刚性约束的场景流运动。·运动完成(我们的)。该方法在给定完整形状和可见表面上的局部运动的情况下,预测完整形状的VMF,并将其转换为SFF,以获得网格顶点位置上的运动该方法仅在人形运动上进行训练,并在动物运动子集上进行评估(我们的目标是确认模型如何跨域推广)。·Motion Complete + Post Processing ( PP ) ( 我 们的)。我们发现,我们的运动完全模型的运动预测有时是嘈杂的。我们采用基于优化的后处理来减轻噪声:网格表面上的预测运动场与ARAP先验联合优化,强制附近的顶点具有相似的运动。选项卡. 2报告了所包括的表面的运动估计结果。测试序列包括1个类人序列和6个不同动物序列。请注意,我们的方法仅在hu- manoids数据集上进行训练。在基线中,刚性拟合在大多数序列上产生显著更大的误差,这表明序列经历大的非刚性运动。我们的运动完成总体上实现了比ARAP在大多数序列上更低的端点误差。Motion Complete + PP进一步提高了数值。图6示出了“鹿”和“奶制品”的表面变形12712图6:“鹿”和“奶牛”序列的表面变形。给出了可见表面(蓝色)的完整形状和运动,目标是估计隐藏表面(红色)的变形。灰色网格显示地面实况变形(灰色),其不可用于配准。ARAP导致鹿的颈部和头部严重扭曲;奶牛ARAP不能均匀地分布这种变形,导致胃处的不自然的表面折叠我们的方法产生自然变形的两个序列。请注意,我们的方法仅在人形运动上进行训练。方法人形生物(桑巴舞)奶牛(攻击)驼鹿公牛(步行)福克斯(跳)亲爱的雄鹿(攻击)豹翁卡(运行)Avg.刚性配件15.3017.672.9818.7816.9622.6194.23ARAP变形[47]3.242.731.275.714.9913.7831.72运动完成(我们的)2.322.901.344.884.088.5624.08Motion Complete + PP(我们的)1.812.241.214.202.057.1818.69表2:未观察表面的运动估计结果的定量评估。度量是以厘米为单位的3D终点误差(EPE)。请注意,我们的方法仅在人形运动上进行训练。奶牛通过使用估计的运动来扭曲源模型来实现变形的表面我们的方法产生更合理的变形比ARAP变形的闭塞表面。5.4. 形状和运动估计这个实验检验了几何完成和运动估计这两个任务是如何相互影响的为了获得可见表面的场景流,我们使用场景流数据集重新训练FlowNet3D [32]。FlowNet3D预测给定具有2048的子采样大小的一对点云的SFF我们使用等式(1)将稀疏SFF转换为VMF1作为网络输入。VMF中的体素位置与输入投影TSDF一致。如图所示。在图2中,我们交替地移除形状完成头或运动估计头以检查两个任务的协同作用。选项卡. 3报告了可见表面的运动预测结果。虽然仅在可见表面上进行评估,但使用几何完成任务的附加监督训练的模型显示出比仅在运动预处理上训练的模型的措辞这表明,完成缺失的形状对于非刚性运动估计是有益的选项卡. 4报告了我们合成的Deform-ingThings4D数据集中的几何完成结果。整个模型显示出比仅针对几何完成训练的模型的该结果验证了以下想法:在动态场景中,理解运动以便实现更好的几何完成是有益的。5.5. 形状完成结果我们展示了我们的方法的定性形状完成结果IF-Nets[7]是一种最先进的方法,可根据点云进行单深度图像重建。IF-Net的核心是使用多层感知器将3D坐标映射到占用分数的隐式函数我们在人形机器人数据集上训练这两种方法,并在看不见的序列上评估完成性能。图7示出了来自真实世界RGB-D图像的形状完成。选项卡. 5显示了对VolumeDeform [26]序列的定量评价。特别是,对于大型场景,我们的方法有效地捕获了全局和全局12713方法变形4DDeepDeform数据集[5]EPE↓ACC(5)↑ACC(10)↑EPE↓ACC(5)↑ACC(10)↑我们的(无形状完成)3.8279.02%百分之九十点五五13.7526.89%63.42%我们的(W/形状完成)3.5685.02%91.59%13.1528.57%63.66%表3:DeformingThings4D数据集和DeepDeform [5]数据集上的场景流估计结果。仅报告可见表面点的所有评分。度量是以厘米为单位的终点误差(EPE)和准确度(5cm或5%,10cm或10%)。方法CD↓IoU↑SNC↑L1↓我们的(无运动)2.6674.98%0.7790.531我们的(带运动)2.5775.72%0.8120.503表4:在De-formingThings 4D的测试集上的表面预测误差。度量是体积IoU(IoU)、以厘米为单位的倒角距离(CD)、表面法线一致性(SNC)和SDF的11图7:真实世界RGB- D图像上的形状完成结果。前3行是来自VolumeDe- form [26]的图像,最后一行来自[30]。局部结构,如图所示。8.方法IF-Nets我们的(无运动)我们P2P(cm)↓2.2311.9831.876SNC↑0.7570.8990.908时间(秒)↓14.263.193.45内存(MB)↓19,4371,1031,379表5:体积变形示例的定量结果。表面地面实况由VolumeDeform提供。度量是点到平面(P2P)距离和表面法线一致性(SNC)。我们还报告了特斯拉V100的平均推理时间和内存。图8:在一个大场景中完成形状。图像来自MPI Sintel[6]数据集。在此sintel场景中,最大深度设置为10米。使用固定的体积大小(2563),IF-Net [7]失去了为大型场景建模细节的能力6. 结论局限性在这项工作中,我们提出了第一种方法,联合估计不可见的形状和变形的部分深度帧观察。我们表明,形状完成和运动估计是相互补充的任务,与联合学习受益。我们相信,我们的方法和新的数据集打开了一个新的研究途径,通用的非刚性4D重建。我们的方法主要有几个限制:1)估计隐藏运动的不确定性是必要的,但我们的方法没有处理。概率方法(例如,Huang等人[25])将有希望用于建模运动不确定性。2)我们的方法不预测表面颜色。[13]的可微分体绘制方法是学习彩色可变形对象的潜在解决方案。3)Deform-ingThings 4D主要包含人类和动物等铰接对象。我们计划用宽松的衣服或因外力而变形的植物的例子来扩展数据7. 确认这项工作是杨莉在华为东京研究中心实习期间进行的Matthias Nießner 由 TUM-IASRudolfMo¨ßbauerFell owship 和ERCStartingGrant Scan 2CAD ( 804724 ) 支 持 。 我 们 感 谢Angela Dai为视频配音,也感谢设置数据集。12714引用[1] Brian Amberg,Sami Romdhani,and Thomas Vetter.用于 表 面 配 准 的 最 佳 步 长 非 刚 性 icp 算 法 。 在 IEEEInternational Conference on Computer Vision(ICCV)的会议记录中,第1-8页。IEEE,2007年。2[2] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。景观:人的形体完成与动画。ACM SIGGRAPH 2005论文,第408-416页。2005. 3[3] Federica Bogo , Javier Romero , Matthew Loper , andMichael J Black. Faust:3D网格配准的数据集和评估。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第3794- 3801页3[4] Aljaz Bozic , PabloPalafox , MichaelZollh ?fer ,AngelaDai,Justus Thies,and Matthias Nießner.神经非刚性跟踪。arXiv预印本arXiv:2006.13240,2020。2[5] AljazˇBozˇ icˇ , MichaelZoll hoüfer, ChristianTheobalt 和Matthias Nießner。Deepdeform:使用半监督数据学习非刚性rgb-d重建。在IEEE计算机视觉和模式识别会议(CVPR)论文集,第7002-7012页,2020年。二三六八[6] Daniel J Butler 、 Jonas Wulff 、 Garrett B Stanley 和Michael J Black。一个用于光流评估的自然主义开源电影在欧洲计算机视觉会议(ECCV)的会议记录中,第611-625页三、八[7] Julian Chibane,Thiemo Alldieck,Gerard Pons-Moll.特征空间中的隐式函数用于三维形状重构和补全。在IEEE计算机视觉和模式识别会议(CVPR)论文集,第6970二七八[8] Christopher Choy,JunYoung Gwak,Silvio Savarese.4D时空卷积:Minkowski卷积神经网络。在计算机视觉和模式识别(CVPR)IEEE会议论文集,第3075- 3084页4[9] Brian Curless和Marc Levoy。从距离图像建立复杂模型在Proceedings of the 23rd annual conference on Computergraphics and interactive techniques,pages 303三、五[10] Angela Dai,Christian Diller,and Matthias Nießner. Sg-nn:用于rgb-d扫描的自监督场景完成的稀疏生成神经网络 。在 IEEE计算 机视觉 和模 式识别 会议论 文集(CVPR)中,第849-858页,2020年。二、四[11] Angela Dai , Daniel Ritchie , Martin Bokeloh , ScottReed,JürgenSturm,andMatthiasNießner.Scancomplete:用于3D扫描的大在IEEE计算机视觉和模式识别会议(CVPR)论文集,第4578-4587页2[12] Angela Dai , Charles Ruzhongtai Qi , and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成。在IEEE计算机视觉和模式识别会议(CVPR)集,第5868-5877页2[13] Angela Dai , Yawar Siddiqui , Justus Thies , JulienValentin,and Matthias Nießner. Spsg:从rgb-d扫描生成自 监 督 摄 影 测 量 场 景 。 arXiv 预 印 本 arXiv :2006.14660,2020。8[14] Edilson De Aguiar,Carsten Stoll,Christian Theobalt,Naveed Ahmed,Hans-Peter Seidel,and Sebastian Thrun.从稀疏多视图视频中捕获性能。ACM SIGGRAPH 2008论文,第1-10页,2008年3[15] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流。在IEEE国际计算机视觉会议(ICCV)的论文集,第2758-2766页,2015年。2[16] Mingsong Dou,Philip Davidson,Sean Ryan Fanello,Sameh Khamis,Adarsh Kowdle,Christoph Rhemann,Vladimir Tankovich,and Shahram Izadi.Motion2fusion:实 时 容 积 性 能 捕 获 。 ACM Transactions on Graphics(TOG),36(6):1-16,2017。2[17] Mingsong Dou,Sameh Khamis,Yury Degtyarev,PhilipDavidson,Sean Ryan Fanello,Adarsh Kowdle,SergioOrts Escolano , Christoph Rhemann , David Kim ,Jonathan Tay- lor,et al. Fusion 4d:挑战场景的实时性能捕获。ACM Transactions on Graphics(TOG),35(4):114,2016。2[18] 魏高和拉斯·特德雷克。Surfelwarp:高效的非体积单视图动态重建。arXiv预印本arXiv:1904.13073,2019。2[19] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第3354-3361页6[20] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在IEEE计算机视觉和模式识别会议(CVPR)论文集,第9224-9232页,2018年。4[21] 本杰明·格雷厄姆和劳伦斯·范德马滕。子流形稀疏卷积网络。arXiv预印本arXiv:1706.01307,2017。4[22] Xiuye Gu,Yijie Wang,Chongruo Wu,Yong Jae Lee,and Panqu Wang.Hplflownet:用于大规模点云场景流估计的分层全面点阵流网在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第32542[23] Kaiwen Guo,Feng Xu,Yanang Wang,Yebin Liu,andQionghai Dai.使用l0正则化的鲁棒非刚性运动跟踪和在IEEE计算机视觉国际会议(ICCV)的会议记录中,第3083-3091页,2015年。3[24] Oshri Halimi , Ido Imanuel , Or Litany , GiovanniTrappolini , EmanueleRodola` , LeonidasGuibas 和RonKimmel。整体大于其非刚性部分的总和。arXiv预印本arXiv:2001.09650,2020。2[25] 黄家辉,黄世胜,宋浩轩,胡世民。Di-fusion:具有深度 先 验 的 在 线 隐 式 3d 重 建 。 arXiv 预 印 本 arXiv :2012.05551,2020。812715[26] Matthi asInnmann,MichaelZollho¨ fer,MatthiasNießner,Christian Theobalt,and Marc Stamminger.体积变形:实时体积非刚性重建。在欧洲计算机视觉会议(ECCV)的Proceedings中,第362-379页,2016年。一二三六七八[27] Chiyu Jiang,Avneesh Sud,Ameesh Makadia,JingweiHuang,Matthias Nießner,and Thomas Funkhouser.三维场景的局部隐式网格表示。在IEEE计算机视觉和模式识别会议(CVPR)论文集,第6001-6010页,2020年。2[28] Michael Kazhdan,Matthew Bolitho,and Hugues
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功