GTT-Net：学习的广义轨迹三角剖分

194 浏览量更新于2023-10-13 收藏 3.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5795GTT-Net：学习的广义轨迹三角剖分Enrique Dunn Stevens理工学院{xxu24，edunn} @ stevens.edu摘要我们提出了GTT-Net，稀疏动态三维几何重建的监督学习框架。我们建立在广义轨迹三角测量问题的图论公式上，其中已知非并发多视图成像几何形状，但不提供全局图像GTT-Net学习成对的仿射，对我们的输入观测值之间的时空关系进行建模，并利用它们来确定3D几何估计。实验结果表明，GTT-Net在重建三维运动捕捉序列的准确性和鲁棒性方面优于现有技术。在关节运动重建的背景下，我们提出的架构是1）能够学习和执行共享的训练和测试域的语义3D运动先验，同时2）能够在不同的训练和测试域概括其性能此外，GTT-Net提供了一个计算简化的框架，用于轨迹三角测量，并应用于多实例重构和事件分割。1. 介绍轨迹三角剖分的目的是在没有并发观测的情况下估计多视图稀疏动态3D几何形状。建模和估计2D观测之间的时空关系的最新进展已经产生具有增加的一般性和有效性的解决方案。然而，这样的研究工作集中于开发和利用几何见解和公式，降低了对被估计的几何实体之间的这项工作解决了数据驱动的显式表征和建模的广义轨迹三角测量的背景下，这些属性。学习编码通用时空关系取决于所使用的几何参考和分析的范围几何参考的选择通常在欧拉（例如，欧拉）和欧拉（例如，欧拉）之间造成二分法。现场方法）与拉格朗日（例如粒子方法）表示，图1：GTT-Net工作流程。输入相机姿势和2D特征被映射到对成对亲和矩阵进行编码的潜在空间，以估计3D几何形状。其中前者定义了刚性结构的基于邻接的邻域（例如，体素网格），后者基于邻近度的通用概念定义交互（例如，最近邻图）。尽管范围与这些交互机制紧密耦合，但效率与局部和全局分析之间的综合性权衡决定了学习模型和表示的功效。我们通过1）学习在所有估计的几何元素上近似成对仿射，通过2）使用稀疏连续卷积，以离散连续局部全局中间地带为目标。沿着这些路线，[40]中描述的广义轨迹三角测量（GTT）的最新框架提出了数据迷你网迷你网PointNet共享共享U-Net迷你网输出3D结构yXz一OE图像亲和度datDL成像几何utInP无组织图像P×35796根据图论表示的迭代连续优化来估计这样的然而，所述优化提供相对慢的收敛，并且没有提供用于编码内部形状约束或序列级运动先验的直接机制这项工作的重点是学习直接从输入3D几何形状合成全局形状亲和矩阵，以整合并利用[40]中使用的表示和公式，参见图1B。1.我们的贡献是：• 基于学习的多视点图像联合重建和排序问题的解决方案。• 一个可推广的学习和表示框架，适用于不同的输入形状域。• 一个有效和灵活的级联培训框架，适用于不同类型的监督信息。2. 相关工作2.1. 弹道三角测量轨迹三角测量在已知相机的前提下操作。然而，缺乏并发性需要强制执行估计约束，以区分与输入观测相符的解的空间。有动议前科。Avidan和Shashua [6]对来自单目捕获的估计3D点轨迹实施了分析线性和圆锥运动约束这些运动先验的扩展包括[5，6，13，31，30，22]。 Vo等人[36]使用基于物理学的运动先验（如最小动能）来制定一个束调整框架，用于联合优化静态和动态3D结构、相机姿态和交叉捕获时间偏移。时空平滑性。对几何估计过程[23，24，44，45，35，42，43，36，33，34]实施空间-时间平滑性已被证明是利用时间密集捕获（诸如由多个视频观察者获得的那些）的有效方法Park等人[23]根据一组直接余弦变换轨迹基的线性组合来参数化3D轨迹，并针对每个系数权重进行优化。在[24]中，Park et al.改进他们的方法，通过选择少量的DCT基根据N-折叠交叉验证方法，以避免低重构的情况下。Zhu等人[44]通过添加一组手动关键帧并添加L1范数正则化到它们的优化以在DCT基础上强制稀疏，而不是N折交叉验证。Valmadre等人[35]修改轨迹基础解的可重构性分析，并提出两个解：通过设置增益阈值和应用高通滤波器来减少轨迹基础Zheng等人[43，42]通过假设自表达运动先验并实现双凸优化问题，利用部分序列信息，由多个不同步的相机观察到的重建的动态3D结构最近的作品明确模型和解决动态3D估计及其时空数据关联之间的关系[2，3，4，1]。沿着这些思路，Xu et al.[40]使用基于图形的公式联合估计动态3D结构及其相应的离散拉普拉斯算子，以减少对输入数据的时间密度和均匀性的依赖。2.2. 稀疏动态3D几何结构化3D数据表示。与我们的问题相关，一些早期的基于CNN的3D处理方法[12，18]将3D表示映射到2D空间，其中部署了传统的CNN机器。这样的表示放弃了在投影期间丢失或扭曲的几何关系的精确建模。在体积表示上执行3D卷积[11，19，26，29，39]编码3D位置信息和相邻关系，但可能会使表示空间变小，或者导致数据合并或稀疏。Riegler等人[29]通过在八叉树数据结构上组织的数据上实现3D卷积来解决这个限制。非结构化3D数据表示。Qi等人。[25]致力于非结构化数据，通过最大池化聚合全局信息，PointNet++[27]通过捕获局部结构信息来改进性能。Wang等人。[38]提出了一种连续卷积神经网络，其类似于2D卷积，根据输入特征的加权和计算特征图。多层感知器（MLP）的使用启用自适应权重确定的基础上的几何相似性。Boulch [10]计算了一个更密集的加权函数，该函数考虑了整个内核。用于动态3D重建的深度学习。最近，已经提出了网络架构的NRSfM问题。Kong等人[16，17]提出了一种无监督自动编码器神经网络，以通过依赖于多层稀疏编码框架假设来解决正交相机模型下的NRSfM问题。Wang等人[37] 开发了类似的多层稀疏编码框架，其具有对弱和强透视相机模型的改进的泛化，以及对丢失数据的增加的鲁棒性Novotny等人[21]学习了一个深度网络，通过规范化强制一致性来明确分解3D结构和视点。Bai等人提出了一种针对多视图3D面部重建的端到端深度网络[8]。Sidhu介绍了另一种无监督的端到端深度网络[32]，它提出了第一种密集神经NRSfM方法。3. 广义弹道三角剖分广义轨迹三角剖分（GTT）的目标是从一组具有已知成像几何形状但缺乏全局性的2D观测中恢复时变的3D结构。5797∈S·T·R·O·联系我们我K输入捕获帧之间的排序关系。因此，GTT可以被认为是一般非刚性结构运动问题（NRSfM）的仅结构变化一种图论公式。最近在[40]中提出了一种结构-运动基于这种表示，GTT问题可以被公式化为联合估计动态3D几何形状。(a) GTT-Net架构图L=diag（A·1）−A（1）其中A是图MLP（64，128，512）最大池IJ对应于边缘权重eijR≥0，表征3D估计之间的时空关系X.自我表达运动先验的这种推广[43]产生了以下形式的非凸优化问题(b) PointNet自动编码器minX，LS（LX）+T. XLXΣ+R（L，Θ）+O（X，Θ），（2）图2：（a）GTT-Net结合了从输入特征学习潜在空间的U-Net和亲和学习层。其中，Θ=Xnp，Kn，Mn表示所有输入2D观测及其相机参数的聚集，（）是基于重投影误差的数据项，而（）、（）和（）是分别控制各向异性平滑度、拓扑紧凑性和多视图可重构性的正则化器。变量X和L交替求解。即，对于固定的L，通过无约束二次规划来估计3D结构X;而对于固定的X，L由线性约束二次问题估计。我们建议读者参考原始文档以了解更多细节[40]。虽然上述公式实现了现有技术的准确性和鲁棒性，但其明确的全图分析限制了其计算可扩展性。GTT-Net旨在通过开发一个编码成对亲和度值。(b)可选的PointNet自动编码器将输入的3D形状结构映射到具有固定维度的抽象表示。4.1. 网络架构参数化输入几何体。在由具有已知的内在和外在矩阵Kn和Mn的非同步透视相机捕获的N个图像n中观察到P个3D点Xnp的时变集合。3D点被表示为Xnp，而它们的图像投影是Xnp。该组所有要估计的3D点由N×3P矩阵表示11. hot water . .X1P编码器-解码器框架将输入3D几何形状X直接映射到离散Lapalace算子L。X=.. . ..（三）4. GTT网络如[40]中所呈现的，亲和矩阵优化所需的全局依赖性施加了计算瓶颈。GTT-Net学习从输入数据直接估计这些亲和从初始几何形状X_init，我们学习对输入3D形状之间的亲和度进行编码的潜在空间Fl。从该潜在空间解码的稀疏亲和矩阵AS被馈送到可微二次优化XN1。. .XNP其中Xnp表示3D点X的每一行聚集在帧η中捕获的P个3D点，并且构成每帧形状描述符，从该每帧形状描述符估计亲和力。输入矩阵Xinit通过与Xnp相关联的观看光线的伪三角测量来估计。参数连续卷积层。基于[38] 和[10]，我们对给定的特征描述符x执行近似的连续卷积运算，如K模块，用于确定精确的动态几何形状估计XE。我们使用数据增强来明确目标等效性w.r.t.相关输入捕获变量和扰动。h（x）=+∞f（y）g（x-y）dy−∞j∈<$Nx1Kf（yj）g（x−yj）（四）为了加速训练，我们利用级联训练杠杆监督损失函数的复杂性不断增加。其中，是X的K个最近邻居之一，f是特征映射值函数，并且g是卷积核函数。K最近邻卷积+层归一化+ReLU特征串联参考帧“A”A$n$&PointNet网络亲和矩阵的单线2“&“U-Net自动编码器网络流DLOE稀疏执行成对相似性小型网小型网PFC MLP（512，共享×共享P×512512U-Net330自动解码器∫MLP足球俱乐部3共享MLP（64，32，3）6MLP（32，64，128）最大池35798我我KNKNnMO&OOO 6OO21OOOOO （OOO重心$O参考帧nframesnframesTD输入输出变暗调光Fi我的天Fi+1zXy当地测序视频全球测序视频数据增强2：摄像机扰动局部旋转当地测序数据扩充1：全局旋转全局旋转捕获场景3：同步捕获场景2：不同步捕获场景1：独立映像DLOEDLOEDLOEDLOEDLOE图3：每个U-Net层学习两种类型的连续卷积滤波器：一种应用于沿着整个运动轨迹的形状描述符（WG）之间，另一种基于形状内3D点几何形状（WS）。用多层感知器（MLP）g（x − y j; θ）= MLP（x − y j;θ）。（五）这使用学习的权重参数θ的有限集合产生连续输出值。我们学习两种类型的过滤器，每层，见图。3. 第一个操作的N个单帧描述符和它们的K个最近的邻居，定义的支持邻域w.r.t.它们的形状之间的时空接近度。滤波器值由根据等式（1）的形状之间的几何差异确定。五、第二种方法对单坐标全轨迹描述符进行操作，并定义支持邻域域w.r.t.形状内几何形状（即，每个分量接近它们的重心）。过滤器值由关节之间的几何差异确定。U-Net自动编码器网络流。我们使用U-Net编码器-解码器来学习潜在空间Fl，以通过连续参数卷积来执行维度缩减，参见图1B。2a.对于不同输入数据的平移和缩放不变性，我们通过减去平均值μ，除以每个特征通道的标准差σ，同时通过可学习参数γ和β进行缩放和移位，对输入层和隐藏层应用层归一化[7]。xd，j−µd图4：生成了输入功能的五种不同变体然后，使用共享权重训练网络。对于每个输入变量独立地确定卷积支持域。每特征卷积支持域x.根据经验，我们发现Q =2产生最佳性能（见图1）。9b）并确定性地执行了这一选择标准。最后，AS被馈送到离散拉普拉斯算子估计器框架[40]的可微实例中，表示为DLOE层，以估计输出3D几何形状XE。PointNet网络流。为了允许具有不同数量的3D点的输入形状，我们集成了PointNet网络[25]以向我们的U-Net提供固定大小的输入，参见图。2b，在PointNet将其映射到30维特征之前，我们通过减去其重心来规范化每个形状。为了保持形状之间的空间分离，我们将PointNet的输出解释4.2. 监视数据取决于捕获场景，完全或部分测序先验（例如，测序优先级）可以被确定。属于同一摄像机或视频流的帧之间的排序）是可用的。由于GTT-Net根据用于连续卷积的支持度x对这些先验进行我们在我们的训练数据内显式地实例化这样的输入先验变化，并且为了考虑捕获变化性，我们执行针对如图1B中的4.第一章我们将高斯噪声注入到xd，i= √σdγd+βd（6）联系我们2D特征xnp以考虑特征本地化模糊亲和度矩阵AD通过下式以封闭形式计算为潜在空间特征Fl之间的成对相似度：计算并将几何变换应用于地面实况数据以考虑捕获可变性。捕获场景1：独立图像。独立ADnm1=（1 +exp||Fl-Fl||)（七）图像不提供测序信息。形状描述符的卷积支持域由我们的初始3D几何结构Xinit的空间分布确定。与常规图亲和矩阵不同，AD不编码图AD通过保留Q的层稀疏化成A S--A D中的最高亲和力值。其通过稀疏2D特征的穷举伪三角测量来计算。一旦每帧估计粗略的3D几何形状，我们计算每帧K最近邻。5799我.ΣFNPF我我FNP刚刚描述的损失函数解决了多种多样的通过结合三角测量误差和视线会聚分析来消除具有减小的摄像机基线和不可靠的三角测量的帧。该输入特征变量表示为FI。捕获场景2：不同步的视频。对于非同步视频，排序先验可用于每个独立的视频流，允许我们从支持域中概括地消除来自相同流的任何帧，以及另一个流中彼此不相邻的帧。这些约束减轻了重复和/或自相交的3D运动。初始化的输入特征被定义为F。捕获场景3：同步视频。对于同步视频，1全局排序是已知的，并且我们可以将K最近邻确定为在时间上与给定参考视频帧相邻的此外，伪三角测量效率和可靠性可以受益于来自已知测序信息的指导。该输入特征变量被表示为FS。数据扩充1：全局结构旋转。Fea-仅序列监督3D几何监督地面实况测序阶段1：Bootstrapping亲和力训练重量s第二阶段：DLOE培训重量sDLOE地面实况结构图5：级联监督策略。代理（伪）地面真实亲和矩阵AG，对于时间上连续的帧具有亲和值AGi，j=1，否则为零。如果地面真值结构可用，则我们通过如[40]中的优化来估计实值仿射。在图8a中比较了通过这两种（伪）地面实况亲和矩阵进行的重建精度训练我们惩罚AD和AG之间的差异。D我们的编码器层中的真实归一化减轻了全局A=1Σ||D−G||2我（九）尺度和位移变化。为了促进旋转NF不变性，我们生成增广的输入实例，由运行-圆顶旋转初始3D结构和相机姿态联合。虽然该变换不改变输入2D特征位置，但其目标是3D和测序估计的泛化该输入特征变量被表示为FGR。数据增强2：摄像机扰动。我们通过随机旋转将结构化扰动注入到我们的输入3D重建损失。给定亲和矩阵AS es-通过GTT-Net估计，我们生成相应的拉普拉斯矩阵，如等式2中所示。(1)并且通过求解二次规划问题来估计3D几何形状XE。我们惩罚3D结构估计误差w.r.t.地面真值XG作为以及平移每个帧的相机姿态由于这X=1||XE− XG||2（十）当变换改变成像几何结构时，其改变用于初始化3D结构和与每个帧相关联的K个最近邻居的输入2D特征该输入特征变量被表示为FLR。4.3. 损失函数U-Net重建损失。为了训练我们的U-Net自动编码器，我们惩罚输入和重构的输出映射之间的差异，其分别对应于初始化的3D结构Xinit和解码的3D结构Xf 。我们惩罚编码器内的每个隐藏特征图Fh与对称映射之间的差异解码器中的对应隐藏特征图F hNPF平滑度损失。在不存在地面真实3D结构XG的情况下，我们惩罚等式2中的第一项和第二项，以促进局部平滑性和线性拓扑结构。S=S（LX）+TXPointNet自动编码器重建丢失。如果考虑点网络流，则我们惩罚其输入X init与由域特定解码器重构的输出映射之间的差。在这种情况下，我们的U-Net的输入1我如图2a所示。损失函数写为，d−1P=（||Xinit−XP||（12）1=1（||Xinit−X||2+Σ||Fh−F h||（2）、（8）我其中d=4是编码器和解码器层的深度。（伪）真实亲合力损失。地面真实亲和矩阵优化是计算上难以处理的（NP-困难）。因此，我们使用地面真值测序来生成1同步表示时间对齐，而不是捕获并发4.4. 一种级联监督策略。我们的目标是通过监督来控制性能方面。然而，它们施加不同水平的监督特异性以及计算负担。为了简化训练过程，我们将其划分为连续的阶段，每个阶段都考虑了增加特异性和复杂性的监督损失函数。5800∼×(a) 人（b）猴（c）手图6：PointNet自动编码器在三个不同的铰接运动数据集上进行训练：人、猴和手。我们的目标是使用有效的弱监督引导训练过程，然后通过引入更具针对性和计算负担更重的损失函数来提高结果的质量。我们观察到，基于DLOE层输出的强监督虽然最有效，但显著减慢了收敛速度并增加了每个历元的处理时间。因此，基于DLOE的监督被用于微调亲和度估计，并且在初始训练时期期间被省略。我们现在描述我们的2级级联方法，如图所示。五、阶段1：Bootstrap亲和力监督。第1阶段仅强制执行排序约束，并依赖于最小和最小A损失函数。目标是准确地学习自动编码U-Net对于仅测序监督，使用AG的二进制版本来针对时间邻域的识别相反地，如果地面实况3D几何结构XG可用，则使用连续版本的AG来以细粒度亲和度估计为目标。第二阶段：基于DLOE的监管。阶段2利用DLOE模型对输出3D结构实施几何正则化对于仅测序监督，我们强制执行平滑损失函数以学习AS中的亲和度值，从而产生平滑的3D轨迹。对于XG可用的训练实例，我们将S替换为3D重建损失X以进行完全监督学习。5. 实验5.1. 运动捕捉数据集我们使用130个人体3D运动的运动捕捉数据[20]，用于31个关节，帧速率为120 Hz。我们从130个动作中选择10个，每个动作平均300帧进行测试。我们通过从剩余的120个具有不同水平的2D噪声、帧速率和关节丢失百分比的数据集中随机选择来我们模拟四个虚拟相机1000 1000分辨率和1000焦距。动态3D关节位置被投影在它们上作为3m距离处的2D观测对于训练和测试数据集中的每个3D运动，以30Hz执行时间采样，并且系统地避免并发观察我们在图中显示了3D重建精度比较的结果。7. GTT-Net与离散拉普拉斯算子估计（DLOE）[40]，自表达字典学习（SEDL）[43]，轨迹基础（TB）[24]，高通滤波器（HPF）[35]和第4.2节中的伪三角测量方法进行了比较。SEDL需要部分测序信息。TB和HPF需要完整的地面实况测序。变化的2D噪波。我们随机添加2D高斯噪声与标准偏差从1到5个像素到我们的观察。图7a显示GTT-Net在所有测序信息条件下与其他方法竞争。当完整的测序信息可用时， GTT-Net 优于仅几何方法（例如，DLOE），这表明我们学习了改进的亲和关系以三角测量3D射束。即使没有任何测序信息，GTT-Net也胜过利用全局测序的方法。改变帧速率。我们通过将2D捕获下采样到7.5Hz、15Hz和30Hz来模拟较低的帧速率如图7b，我们的方法在部分测序信息和没有测序信息的条件下比DLOE表现得更好。使用完整的测序信息，我们的方法仍然具有竞争力。数据缺失。我们以10%到50%的比率随机抽取3D关节，并比较GTT-Net对缺失和/或遮挡输入特征的鲁棒只有DLOE、SEDL和TB能够在缺少关节的情况下运行。GTT-Net的稳健性在所有测序信息条件下都具有竞争力。级联训练的消融。图8a比较了我们的级联训练策略中的不同阶段之间的重构误差分布我们包括一个自我监督的版本，只使用？和A损失函数，没有外部数据。令人惊讶的是，自我监督训练与完整的训练级联结果具有很强的竞争力，尽管受到更大的可变性。PointNet网络验证。GTT-Net的PointNet使能变体在关节3D运动的不同数据集上训练，例如猴子[9]、手[41]和人类2，参见图6，与测试数据相比，所有这些都具有不同的关节拓扑结构。在图8b中，我们比较了三个GTT-Net变体的重建误差分布1) 多域PointNet使能的GTT-Net，2）单域3D监督的GTT-Net和3）单域3D监督的GTT-Net，其中随机刚性运动被应用于各个关节3D轨迹以将它们的运动与原始运动语义去相关。我们的观点-2CMU Mocap（http：//mocap.cs.cmu.edu/）5801∼(b)稀疏强制(a)效率比较全局测序弹道高通三角测量带排序的基础滤波器DLOEGTT-Netw/测序w/测序独立图像DLOE（独立t图像）GTT网络（独立t图像）本地测序自曝DLOEw/局部测序三角测量GTT网络w/局部测序3.532.521.510.501 2 3 452d高斯噪声的标准（像素）(a) 噪声水平10.80.60.40.2030 15 7.5 30 157.5帧速率（Hz）(b) 帧速率0.90.80.70.60.50.40.30.20.1010 20 30 40 50缺失关节(c) 缺失点图7：（a）不同2D噪声水平下运动捕捉数据集的3D重建误差，（b）帧速率和(c)丢失帧图8：重建误差分布。(a)不同的训练级联变化。（b）不同的全球贸易技术网变体。Net变体在去相关输入3D运动上优于变体训练，并且与单域3D监督变体竞争对去相关运动的训练提供较差性能的事实表明，我们的GTT-Net框架在估计形状间亲和力时有效地学习执行一般3D运动语义。相对于[40]的计算优势当估计跨不同序列长度的单个全图亲和力矩阵时，GTT-Net比[40]的开源版本快一个数量级（30倍平均加速），同时始终更准确，如图1B9a.图9：（a）与DLOE [40]的计算效率比较。(b)不同稀疏度水平的重建误差（即保持每行的前N个亲和性值）。5.2. 跨域多视点视频数据集不同的3D形状类的实验说明了我们的PointNet启用GTT-Net变体的一般性。多视图Human Ski [28]和Dog[15]数据集是不同步的，其提供的2D特征被输入到GTT-Net。图11示出了我们的定性结果。GTT-Net在训练期间没有暴露于任何测试域。5.3. Panoptic Studio数据集CMU Panoptic Studio数据集[14]包含同步多视图视频、2D人体关节估计和相机姿势。我们采样视频帧来生成多视点不同步的图像流。再次，作为数据集提供的稀疏形状特征输入（即，骨架关节）1.61.61.41.41.21.2110.80.80.60.60.40.40.20.200(a)训练消融(b)PointNet验证平均欧氏重建误差（cm）重建误差（cm）平均欧氏重建误差（cm）重建误差（cm）平均欧氏重建误差（cm）5802∈{I}{I}(b)狗(a)滑雪图10：（a）不相交的舞蹈场景的结果。亲和矩阵和光谱分析示出了三个片段（b）该场景包括通过亲和矩阵和相应的光谱分析聚类的成人和幼儿图11：非同步多视图视频捕获的定性结果GTT-Net未在测试域上进行训练不同于用于训练的31维稀疏形状应用于事件分割。对于捕获时间上分离的事件的多视图视频，我们的目标是基于估计的亲和度矩阵A/S联合重建动态3D结构并分割所有事件。ASde-用多个连通的分量画出一个图，每个分量对应一个单独的事件。对于每个分割的事件，其构成图像的测序直接从亲和矩阵中提取。从图的右上角。10a，我们可以通过对亲和矩阵进行光谱分析来注意每个事件的链状结构。应用于多目标场景。我们考虑在多视图相机中捕获多个形状给定N个图像n最大M我们基于GTT-Net提出了针对这种情况的解决方案：1）我们为原始图像中捕获的每个对象单独创建虚拟帧~n，m（每个观察P 2）执行GTT-Net在（高达NM）新的虚拟图像上重建3D结构并生成对应的亲和矩阵，如在单个形状的情况下。3）通过任何标准聚类方法基于亲和矩阵对个体对象进行4）合并源自相同图像的估计的3D形状。5）在具有聚合形状特征的N个原始输入图像上运行GTT-Net以细化来自步骤2的解耦事件重建。图10 b显示了我们在两个目标场景下的结果。6. 结论GTT-Net使用监督学习来估计成对的时空亲和度，并根据图像观察来计算动态3D几何。我们的框架允许一组不同的训练场景，并利用它们的级联监督策略，以提高训练效率和适应可用的监督信息。此外，所提出的系统在不同的形状轨迹域上是鲁棒适用的，同时优于现有技术的当前状态。0.080.0820500.060.06400.04100600.040.02800.0215001000-0.02200120-0.04-0.02140250-0.06-0.04160-0.1-0.0550100150200250300亲和基质0 0.05特征向量20.1300-0.0618020020406080100120140160180200亲和基质特征向量2(a)多事件分割(b)多人特征向量35803引用[1] 安东尼奥·阿古多rgb视频中非刚性形状的分割与三维重建在2020年IEEE图像处理国际会议（ICIP），第2845-2849页。IEEE，2020年。[2] Antonio Agudo和Francese Moreno-Noguer。基于正则化子空间并的可变形运动三维重建2018年第25届IEEE图像处理国际会议（ICIP），第2930-2934页。IEEE，2018年。[3] Antonio Agudo和Francesc Moreno-Noguer。一个可扩展的，高效的，准确的解决方案，从运动的非刚性结构。计算机视觉和图像理解，167：121[4] Antonio Agudo和Francesc Moreno-Noguer。多变形体的鲁棒时空聚类与重构 IEEE Transactions on PatternAnalysis and Machine Intelligence，41（4）：971[5] Shai Avidan和Amnon Shashua。线的轨迹三角测量：从单目图像序列重建沿着线移动的3d点在1999年IEEE计算机协会计算机视觉和模式识别会议集，第2卷，第62-66页中。IEEE，1999年。[6] Shai Avidan和Amnon Shashua。轨迹三角测量：从单目图像序列进行运动点的3D重建。IEEE模式分析机器情报汇刊，（4）：348[7] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。[8] Ziqian Bai ， Zhaopeng Cui ， Jamal Ahmed Rahim ，Xiaoming Liu，and Ping Tan.深层面部非刚性多视图立体。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。[9] Praneet C Bala ， Benjamin R Eisenreich ， Seng BumMichael Yoo，Benjamin Y Hayden，Hyun Soo Park，andJan Zimmermann. Openmonkeystudio：自由移动猕猴的自动无标记姿态估计。bioRxiv，2020.[10] 亚历山大·布尔奇非结构化点云的离散卷积泛化。在3DOR，第71-78页[11] 本杰明·格雷厄姆和劳伦斯·范德马滕。子流形稀疏卷积网络。arXiv预印本arXiv：1706.01307，2017。[12] Saura bhGupta，RossGirshick，PabloArbela' ez，andJiten-dra Malik.从rgb-d图像中学习丰富的特征用于目标检测和分割。欧洲计算机视觉会议，第 345-360 页。Springer，2014.[13] 韩美和金田武夫。具有多个线性移动对象的场景的重建International Journal of Computer Vision，59（3）：285[14] Hanbyul Joo，Tomas Simon，Xulong Li，Hao Liu，LeiTan，LinGui，Sean Banerjee，Timothy Godisart，BartNabbe，Iain Matthews，et al. Panoptic Studio：一种用于社交互动捕捉的大规模多视图系统。IEEE Transactionson Pattern Analysis and Machine Intelligence，41（1）：190-204，2017。[15] Sinead Kearney，Wenbin Li，Martin Parsons，Kwang InKim，and Darren Cosker.Rgbd-dog：预测犬科动物姿势RGBD传感器。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。[16] 陈空和西蒙·露西。运动产生的深层非刚性结构在IEEE国际计算机视觉会议论文集，第1558-1567页[17] 陈空和西蒙·露西。数据缺失的运动导致的深层非刚性结构IEEE Transactions on Pattern Analysis and MachineIntelligence，2020。[18] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页[19] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络。2015年IEEE/RSJ智能机器人和系统国际会议（IROS），第922-928页。IEEE，2015年。[20] M. Müller，T. R o¨ de r，M. 克劳森湾埃伯哈特湾Kru¨ge r和A.韦伯文档mocap数据库hdm05. 技术报告CG-2007-2，Un i versi taütBonn，2007年6月。[21] David Novotny ， Nikhila Ravi ， Benjamin Graham ，Natalia Neverova，and Andrea Vedaldi. C3dpo：用于运动非刚性结构的规范3d姿态网络。在IEEE计算机视觉国际会议论文集，第7688-7697页，2019年[22] 朴贤秀和亚瑟·谢赫根据单目图像序列的平滑铰接轨迹的3D重建。2011年国际计算机视觉会议，第201-208页。IEEE，2011年。[23] Hyun Soo Park 、 Takaaki Shiratori 、 Iain Matthews 和Yaser Sheikh。根据一系列2D投影对移动点进行3D重建。欧洲计算机视觉会议，第158-171页施普林格，2010年。[24] Hyun Soo Park 、 Takaaki Shiratori 、 Iain Matthews 和Yaser Sheikh。透视投影下的三维轨迹重建InternationalJournal of Computer Vision，115（2）：115[25] Charles R.Qi ， Hao Su ， Kaichun Mo ， and LeonidasJ.Guibas Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。[26] Charles R Qi，Hao Su，Matthias Nießner，Angela Dai，Mengyuan Yan，and Leonidas J Guibas.用于三维数据对象分类的体积和多视图cnn。在IEEE计算机视觉和模式识别会议的论文集，第5648-5656页[27] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. Pointnet++：度量空间中点集的深度层次特征学习。神经信息处理系统的进展，第5099-5108页，2017年[28] HelgeRhodin ， Jo¨rgSpo¨rri ， IsinsuKatircioglu ，VictorConstantin ， Fre´de´ ricMeyer ， ErichMu¨ ller ， MathieuSalzmann，and Pascal Fua.从多视角图像学习单目3d人体姿态在IEEE计算机视觉和模式识别会议论文集，第8437-8446页[29] Gernot Riegler、Ali Osman Ulusoy和Andreas Geiger 。Octnet：以高分辨率学习深度3D表示5804在IEEE计算机视觉和模式识别会议论文集，第3577-3586页[30] 戴娜·西格尔和阿姆农·沙舒亚根据从移动相机看到的移动对象的视线切线测量的欧洲计算机视觉会议，第621-631页。Springer，2000年。[31] Amnon Shashua，Shai Avidan，and Michael Werman.圆锥曲线上的轨迹三角剖分。第七届IEEE计算机视觉国际会议，第1卷，第330-336页。IEEE，1999年。[32] Vikramjit Sidhu，Edgar Tretschk，Vladislav Golyanik，Anto- nio Agudo，and Christian Theobalt.神经密集的非刚性结构从运动与潜在的空间约束。欧洲计算机视觉会议（ECCV），2020年。[33] 托马斯·西蒙，杰克·瓦尔马德雷，伊恩·马修斯，还有亚瑟·谢赫。时变三维点云凸重构的可分离时空先验。在欧洲计算机视觉会议上，第204Springer，2014.[34] 托马斯·西蒙，杰克·瓦尔马德雷，伊恩·马修斯，还有亚瑟·谢赫。动态三维重建的克罗内克马尔可夫先验IEEETransactionsonPatternAnalysisandMachineIntelligence，39（11）：2201[35] 杰克·瓦尔马德雷和西蒙·露西非刚性重建的一般轨迹先验在Proceedings of 2012 IEEE Conference on ComputerVision and Pattern Recognition ，第 1394-1401 页中IEEE，2012。[36] Minh Vo，Srinivasa G Narasimhan，and Yaser Sheikh.动态三维重建的时空光束法平差。在IEEE计算机视觉和模式识别会议论文集，第1710-1718页[37] Chaoyang Wang，Chen-Hsuan Lin，and Simon Lucey.深度nrsfm++：在野外进行三维重建。arXiv预印本arXiv：2001.10090，2020。[38] Shenlong Wang ， Simon Suo ， Wei-Chiu Ma ， AndreiPokrovsky，and Raquel Urtasun.深度参数连续卷积神经网络。在IEEE计算机视觉和模式识别会议集，第2589-2597页[39] 吴志荣，宋舒然， Aditya Khosla ， Fisher Yu ， Lin-guang Zhang ， Xiaoou Tang ， and Jianxiong Xiao. 3dshapenets：体积形状的深度表示。在IEEE计算机视觉和模式识别会议论文集，第1912-1920页[40] Xiangyu Xu和Enrique Dunn。动态三维重建的离散拉普拉斯算子估计。在 IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。[41] 袁善新，叶琪，比约恩·斯登格，西丹·杰恩，金泰均.大块头2 2m基准：手部姿势数据集和最先进的分析。在Proceedings of the IEEE Conference on Computer Visionand P

下载后可阅读完整内容，剩余1页未读，立即下载