无监督学习的在线铰接刚体三维运动结构估计

23 浏览量更新于2023-10-13 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3809任意刚体三维运动结构的在线无监督学习Urbano Miguel Nunes和Yiannis Demiris个人机器人实验室，伦敦帝国理工学院，英国{um.nunes，y.demiris}@ imperial.ac.uk摘要研究了从RGB-D数据序列中学习任意铰接刚体的三维运动学结构的问题。通常，该问题通过处理一批帧的离线方法来解决，假设完整的点轨迹可用。然而，当考虑需要连续性和流动性的场景时，这种方法是不可行的，例如，人机交互。相比之下，我们建议以在线无监督的方式解决这个问题，通过反复保持场景的3D结构的度量距离，同时实现实时性能。通过构建基于线性嵌入表示的相似性度量，并将该表示纳入原始度量距离，减轻了噪声的影响。然后，基于隐式运动和空间特性的组合来估计运动学结构。所提出的方法实现了竞争力的性能，定量和定性的估计精度方面，甚至相比离线方法。1. 介绍铰接刚体的运动学结构提供了一种紧凑且有意义的表示，这对于机器人操作任务和对象运动学识别[21]、寻找对象之间的运动学对应关系[6]、与环境交互感知和动作[3]等都很有用。因此，它是计算机视觉[5，17，23]和机器人[14]中的一个活跃的研究课题基于模型的运动学结构学习方法已被证明在场景模型已知的领域中更优越[4]。然而，当不是这种情况时，通常使用无监督方法，并且运动学结构学习的问题被分为两个众所周知的问题，即刚性体的运动分割我们采用了非监督的方法，因为我们打算估计任意铰接刚性物体的运动学结构。使用单目RGB相机的图像对运动学结构估计做出了重大贡献[5，23]。通常，这些方法依赖于跟踪完整的特征点轨迹来执行运动分割，并且对来自背景的离群值敏感。例如，为了弥补后者的局限性，Chang和Demiris [5]引入了自适应对象边界生成，以区分实际对象和背景。使用RGB-D传感器可以相对容易地克服这个问题，RGB-D传感器采集3D数据，其中前方/背景分割是微不足道的。现有的运动学结构学习方法对于实时应用是不可行的和/或不可行的，例如通过学习运动学对应关系[6]来感知环境中的对象并与之交互[3]。因此，据我们所知，我们提出了第一种方法，可以保持实时和在线方式估计的3D结构。基于属于同一刚体的点之间的距离是恒定的[18]的观察，我们隐式地为每个传入帧保持运动信息。然后，我们计算每个点之间的相似性度量，以适应丢失的点和噪声（例如，由于遮挡）通过设计有效的策略来合并新的点，同时保持所跟踪的点的均匀分布。最后，可以根据需要估计潜在的运动结构.我们的方法在行动中的一个例子是在图。1.一、尽管所提出的方法独立于3D数据的实际来源，但为了简单起见，我们关注由RGB-D传感器获取的数据。我们还可以考虑一个管道，其中从单目图像[1，2]估计对象的3D形状，并提供相应的3D点作为所提出方法的输入。由于我们的方法依赖于相对距离，因此产生的尺度模糊性不会成为问题。主要贡献：1）据我们所知，这是第一种直接解决任意铰接刚体的在线和实时3D运动学结构学习问题的方法; 2）我们自然地处理丢失的点和出现的噪声，因此该方法3810图1：iCub序列的第19、24、162和499帧（第一行）以及通过所提出的方法进行的相应3D运动学结构估计（第二行）。直到帧19左右，没有观察到明显的运动，因此整个对象被分割。到第24帧时，感知到一些运动，并建立3D运动学结构的初始草图。在第162帧，右臂已被正确分割为三个部分，躯干周围的一些点仍被错误分类，直到它们被正确标记，如第499帧所示。最好用彩色看。不依赖于完整的点轨迹; 3）我们建议结合隐式运动和双调和距离[13]来构建更合理的运动学结构，因为考虑了对象的运动和空间属性。2. 相关工作文献分为三个部分，最相关的主要贡献，这项工作：1）运动分割从3D数据，2）运动学结构学习的基础上，3D数据和3）在线运动分割方法。基于3D数据的运动分割：使用来自RGB-D相机的数据，Perera和Barnes [18]提出了一种运动分割的方法，该方法不显式，它估计潜在的运动。主要的观察结果是，共享相同运动的点之间的欧几里得距离不会变化。它们基于相应的标准差建立相似性度量，其中相应地做出阈值化的二元决策（即，如果标准偏差低于给定的阈值，则相应的点共享相同的运动）。我们采用相同的观察作为我们的方法的基础，但不执行任何二元决策来构建相似性度量，因此不需要阈值来分组点。基于标准偏差的模糊（不）相似性度量已知对离群值敏感，并且不适合长期情景，因为它们在某个点稳定。Zografos等人[29]提出了一种方法，诉诸组理论不变量，其中属于同一运动的点的规范表示可以通过对应于相关联的刚性变换的唯一对齐来恢复尽管它们快速准确，但它们需要给出运动的次数。此外，为了估计要执行的运动分割，Juddet al. [11]应用多运动拟合技术，其中基于给定的观测和先前估计的模型来联合估计点轨迹和运动模型。运动的数量是通过一个迭代过程来估计的，在这个过程中，提出并合并了运动的可能性。Nunes和Demiris [16]在3D运动分割的背景下应用子空间聚类方法，其中他们还结合了自适应谱聚类方法来估计刚性运动的数量。与下面的方法相反[16]不能处理丢失的点，这限制了其在完整点轨迹可用的情况下的使用基于3D数据的运动学结构估计：Zhang等人[26]在连续帧之间执行非刚性匹配以跟踪点轨迹。然后，类似于[18]，他们基于点之间成对距离的标准差构建相似性矩阵，并确定生成最小生成树的对象的运动学结构，其权重基于每个估计部分之间的最大-最小欧几里得成对距离。与[5]一致，我们主张结合物体的拓扑结构，基于双调和距离[13]和隐式运动。Tzionas和Gall[22]提出了一种基于可变形网格重建关节模型的方法，该方法专注于跟踪点，将谱聚类应用于具有阈值的相应点轨迹，以估计身体部位的数量Yuan等[24]提出了一种方法，prop- agates和合并所有的模型，在一个给定的序列分割。[24]的局限性之一在于它不能鲁棒地处理帧之间的大位移，因为点可能会丢失。我们通过自然处理丢失的积分来缓解这个问题。3811我IJIJNG2IJg gh在线运动分割：在线运动分割是一个非常重要的问题，主要是由于：1）只有当前和过去的信息属于身体部位g ={1，. . . ，c f}。给定一个点云Pf，第i个点P f的3D位置为定义为xf∈R3，其中i={1，. . . ，N}。Df=[df]∈伊伊季帧可用，2）当前和过去帧信息必须总结，3）点轨迹可能不会跨越整个序列。Elqursh和Elgammal [8]提出了一种在线运动分割方法，其中通过考虑2D特征点轨迹的运动和空间亲和力来维护当前和过去的帧信息然后，他们应用标签传播的基础上马尔可夫随机游走的图，其边缘我们考虑一种类似的方法，其中标签传播由标签扩展[28]方法进行，以便允许对预标记的点进行调整Kang和Chung [12]提出了一种方法，该方法依赖于在图像平面中为每个点构建空间邻域并推断潜在的RN×N 表示所有点之间的两两欧几里德距离，=[d∈f]∈RN×N表示AVPED，Wf=[wf]∈RN×N表示相似矩阵 built. 估计的第 g 个身体节段由点的子集Sf<$P f组成，其中Sf<$Sf= h，gf=h。的符号兰蒂昂|·|表示Hadamard乘积和Euclidean乘积距离，分别。关于框架当仅考虑一个帧时将省略。3.2. 制剂在任何帧，我们的目标是估计一个铰接刚体的运动学结构，给定其点云和相应的3D点位置仿射运动基于来自随机选择的时间链接点的子集两Xf=xf1xf. . .xf∈ R3× N.（一）这些方法依赖于2D特征点，这可能不足以描述一般的情况。我们可以计算两两欧几里德距离Df为-在所有点之间，然后获得AVPED3. 方法我们提出了一种方法，认为信息的D= Σfj=1|Dj−Dj−1|ts=Df−1+|Df−Df−1|ts、（二）以在线方式输入帧，以估计任意铰接刚体的运动结构。仅做出以下假设：1）假设给定身体的3D点云（其可以由任何合适的传感器或由来自单目图像的顺序3D形状恢复方法[1]提供），以及2）我们假设身体是分段刚性的，这意味着属于相同身体段的点之间的成对欧几里得距离1在所有帧中是恒定的;相反，如果观察到足够的相对运动，则属于不同身体部位的点之间的成对欧几里德距离改变。基于这些假设，我们设计了一个算法来估计任意铰接刚体的运动结构。首先，基于场景流[10]跟踪每个点，并为每个传入帧计算点云中点之间的成对欧氏距离。得到了两两欧氏距离的累积变化量（AVPED），并利用AVPED建立了相应的相似性度量.然后应用标签扩展[28]，以便将点分割为不同的身体部位。最后，生成对象的运动结构作为相应图3.1. 符号N是所考虑的点的数量cf是在帧f∈N处估计的身体部位的数量，并且nf是其中ts是采样周期。有了这个公式，AVPED还可以被解释为成对欧几里德距离中的绝对时间变化率的累积。注意，通过构造，AVPED定义了适当的欧几里得距离矩阵，该距离矩阵将用于构建所考虑的每个点之间的相似性矩阵并对其进行聚类。此外，该公式不需要静态相机假设，因为运动是相对于相对成对距离隐式地捕获的。换句话说，只有相对距离重要，并且由于每个点都将受到相同的视运动，因此感知到的成对距离将是相同的，而不管相机运动如何。3.3. 建立相似性所提出的方法依赖于这样一个事实，即属于同一身体部分的点之间的成对欧几里德距离在整个帧中保持恒定，而它们对于属于不同身体部分的点是变化的，这提供了足够的证据.dij≤ 若pi，pj∈Sgd~”否则。（三）因此，如果AVPED接近零，则.1 如果dij≤[1]我们把欧几里得距离称为l2范数。wi=0否则、（四）3812Σ22并相应地阈值化。Perera和Barnes [18]提出了一种类似的方法，相反，他们构建了这个矩阵，考虑了点之间成对距离的标准差。然而，这种方法有一个主要的局限性：必须提供全局阈值，其在实践中可能取决于所观察的场景或传感器测量的误差。通常，必须为每个场景手动查找和设置不同的值，这可能很麻烦。相反，我们将AVPED嵌入到特征空间中，没有充分利用以前的分割结果[8]。因此，为了考虑以前的标签信息，我们在W定义的图上使用标签扩展[28]，这也允许根据过去信息和当前图结构的组合进行重新标签通过对与现有标签对应的每个子图执行规范化切割[20]来获得新标签。该方法简要详述如下。标签扩散：基于相似度矩阵Wf，我们计算其归一化图拉普拉斯算子为使用所得到的表示来构建相似性矩阵。特别地，由于AVPED定义了一个适当的欧氏距离矩阵，所以配置Z∈RN×k，k≤N可以找到，这样原始的欧几里得距离是在哪里L=<$−1Wf<$−1∈RN×N，（9）∈RN×N是Wf的对角度矩阵，我曾有过这样的经历，我曾有过这样的经历。其元素由δi=jw i j。然后B=−1J2.DDΣJ=ZZT∈RN×N（5）给定先前的标签Yf−1∈RN×cf−1，得到新的标签Yf∈RN×cf，每行具有点pi属于标签g的概率，如下所示是非线性系统的内积的正定矩阵其中J=I−111T∈RN×N，Yf=（1 −µ）（I −µL）−1Yf−1，（10）NI∈RN×N是单位矩阵，1∈RN是向量其中μ∈[0，1）。参数µ控制一个。B可以通过其特征分解分解为B=V ~VT，（6）其中V是对应于特征值（λ1，λ2，. . .，λ N）在Λ的对角线中以降序排序。由于B是正定的，我们可以得到一个k维（k ≤ N非零特征值表示1Z=Vk~2，（7）图形结构影响未来的标签，先前的标签（例如，当μ→1时，图形结构是主导因素）。获取新标签：由于标签传播只能传播现有的标签，我们需要能够找到新的标签，e.G.可能出现新的细分市场。属于新标签的点将被分配给一些现有的标签，增加其集群内的变化。这意味着我们可以对每个标签的子图执行标准化切割给定相应的相似性子矩阵Wg，我们计算其k正规化图LaplacianL根据等式(9)得双曲正弦值.其中Vk∈RN×k是对应于包含在Λk∈RN×k的对角线中的前k个首特征值的k个特征向量的矩阵。最后，我们建立一个相似度矩阵W，其元素wij由指数径向基函数核得到第二大特征值2对应的特征向量。然后根据特征向量值的平均值对特征向量进行阈值化，得到归一化切割代价。如果这个成本低于τ，那么我们分裂集群，获得一个新的集群;否则，我们将保持完整。Σwij= exp−|zi−zj|γΣ2Σ、（8）3.5. 建立运动学结构运动学结构表示为非循环图G=（V，E）的最小生成树[5，23]。其中zi∈Rk对应于Z的第i行，γ∈R+与内核参数有关。生成的矩阵将与Eq. (4)，其中属于同一段的点是相关联的，因为它们的AVPED几乎为零。3.4. 标签扩散聚类在建立了相似性矩阵W之后，我们现在可以每个线段每对顶点之间的接近度（即，边Eij=βdij+（1−β）dij，（11）其中dij是AVPED，dij对应于段的中心i之间的双采用任何合适的聚类算法（例如，光谱聚类[15，25]），因为场景的连续性是主要的-2拉普拉斯算子−G.3813也可以计算为L=I-I12W-一个月2由AVPED提供虽然这是可行的，但最终结果可能会显示帧之间的不连续性，因为我们将唯一的区别是特征值的值，从λi到1−λi;因此，选择对应于第二大特征值，而不是第二小的。3814我我j，分别。该距离提供了局部邻域的测地距离与全局结构上的大距离之间的平衡。因此，每条边3.6. 处理失分在观察现场时，有些点可能会丢失，e.G.这是由于跟踪/测量误差或者某些身体部分自然地从视场中消失所以，亲。在这种情况下，我们将df−1初始化为零，并让算法运行，就好像这是该特定点的第一帧然而，可以在先前跟踪的点所在的区域中选择新的点。根据我们的第二个假设（请参考第3节），我们假设该点与新的邻近点具有密切的相似性，特别是如果它们属于同一身体部位。因此，我们主张，它的AVPED应初始化取决于它的相邻点的AVPED。特别地，我们建议加权平均如下：ad提出的方法必须能够处理这些事件，如在真实世界场景中那样，使得它们的影响最小化。可以观察到，根据AVPED，df−1我jΣjjja j.i∈邻域（i），（13）Σ当量(2)，直接负责维护信息其中aj=exp−α|xf−xf|且α∈R+.这意味I j关于现场。因此，我们建议在D的计算过程中处理丢失点。首先，每个点云都是复制的，以八叉树数据结构表示[9]，这使我们能够了解场景的3D空间结构并相应地对其进行操作。每当一个点丢失时，我们就会搜索点较少的区域，并随机选择一个点开始跟踪。具体实现如下。三维点云的八叉树表示：八叉树表示是一种有效的基于树的数据结构，其中每个分支节点表示3D空间中的立方体体积，称为体素。每个节点又细分为八个子节点，直到满足某个停止标准e.G.最大深度或帧内分辨率。没有子节点的节点由叶节点指定，所有原始点都映射到这些节点上。这种表示允许不同级别的分支深度，这导致有效的数据处理。保持跟踪点的均匀分布：特别是，我们对维护有关点的3D分布密度的信息感兴趣为了保持均衡的代表性。每个点的相邻点的数量计算为ρi=#neighborhoo d（i）=#{p j：|xi−xj| ρthresh），这意味着在给定的区域中集中了太多的点，有些点应该被丢弃;然后，我们搜索密度最低的区域，并从中随机选择一个点。补充新的要点：一般来说，当新点开始被跟踪时，没有关于它的先前信息是已知的，因为我们没有关于来自先前帧的其相应AVPED的先验知识，如在等式（1）中。（二）、越近的点的贡献越大。请注意，丢失点可以被视为自然处理的特殊情况，因为每当被跟踪的点丢失时，我们从较低密度区域随机选择另一个点并遵循上述过程。3.7. 握持噪音噪声必须是一个基本的考虑因素时，处理现实世界的情况下，例如。由于测量我们建议处理这个问题，通过观察到原始距离矩阵D_i必须是一个适当的欧氏距离矩阵的结构，根据方程。（二）、因此，B在Eq. (5)是正定的，即特征值在[0，1]中。然而，在实践中，噪声可能会向表示Z或evenmake eD非度量引入非重要方向 [19]。形式上，这意味着B将具有小的和/或负的本征值。后一种情况很容易处理，因为我们知道D是一个适当的欧氏距离矩阵，因此B必须有非负的特征值。因此，我们简单地忽略任何来自负本征值的贡献。然而，前一种情况没有立即的解决方案，因为每个本征值贡献的重要性，即使很小，也可能取决于特定的场景。我们可以仅采用如上所述的频谱变换来获得每个输入帧的表示。然而，噪声的影响将仍然存在并且在原始距离矩阵很可能达到一个点，会占主导地位。通过将频谱变换结合到原始距离矩阵中，可以减少噪声影响我们有[19]DD=b1T+1bT−2B，（14）其中，b∈RN是包含B的对角元素的向量，如等式2中所定义。（五）、因此，可以通过仅考虑=3815数量的段数量的段数量的段N2JJJJ11建议方法基于[18]的[16]第十六话0.580.5640 02-0.52 4 6 810特征值-0.502 4 6 8 10-2特征值(a) 没有合并。(b) 与合并。-4驴灯管1/2pipe 3/4 iCub iCub arm图2：合并频谱变换的效果到原始的距离矩阵： a）大负本征-10值反映了显著的噪声贡献; b）结合8频谱变换，噪声贡献可以忽略不计。6l个前导特征值的贡献：首先，基于4当量(6)，Bl，其中只有l个前导特征值-2Ues和相应的特征向量被考虑;然后，0(a) 段数错误。1086420我们根据Eq.最后，在第n个帧中，我们考虑等式（14）中的D_l，其中Bl被代替使用（2）相反。图第二个例子说明了考虑规范的效果将trum变换为原始距离矩阵。4. 实验结果在[22]提供的数据集以及两个新记录的序列上评估了所提出的方法。所有实验均使用具有Intel Core i7-8700 k CPU@3.7Ghz（x6）和32 GB RAM的PC，使用C++实现3进行。在所有实验中使用相同的参数，并设置如下：6008001000120014001600数量的点(b) 驴10864206008001000120014001600数量的点(d)iCub臂10Ground Truth：286008001000120014001600数量的点(c)iCub10864206008001000120014001600数量的点(e) 灯108µ=0。75，γ=e−2 i、jd~ij，α=50，ρthresh，2ΣN，6 6ρi，4 4r作为八叉树分辨率，l = 3，τ = 0。025且β = 0。二百七十五此外，我们比较我们的方法与三维子空间clus-基于排序的方法[16]和我们的方法的变体，其中相似性是基于[18]以在线方式构建的我们注意到，由于3D子空间聚类方法[16]可以206008001000120014001600数量的点(f) 管道1/2206008001000120014001600数量的点(g) 管道3/4由于没有处理遮挡，我们没有将其与我们新记录的序列进行比较，因为它们表现出一些遮挡。补充材料中提供了广告结果，我们鼓励读者探索。定量评估：评估了五个指标：精确度P ij、召回率R ij、f-测量F ij、估计的分段数和每帧的执行时间。给定段估计的Si和相应的地面实况，SGT，精确度，召回率和f-度量由下式给出：图3：（a）1000点最初二次采样和随机选择。（b）-（g）由所提出的方法估计的运动段的数目是子采样点的数目的函数。估计较少的段（即，查全率为零，查准率定义为一）。每个指标进行评估一百次试验，并为每个试验的点是随机选择的。图3示出了针对估计的分段数获得的结果。我们看到，所提出的方法实现了|SIP=公司简介|，R为|SI 公司简介|、F=2PijRij，与离线方法相当的性能[16]。为有些物体存在恒定的偏差，这可能表明|Si|IJ|SGT|IJIJ +Rij（十五）或者某些运动太细微而未被检测到，如iCub序列中所见，或者严重的点跟踪错误它试图捕捉假阳性之间的权衡”[17]“失”这些指标的总体评估遵循[17]中的描述，其中匈牙利方法用于找到对地面实况的最佳分段分配，并且在存在以下情况时引入空分段：3公开代码：www.imperial.ac.uk/personal-robotics。Ground Truth：4Ground Truth：9Ground Truth：6Ground Truth：3Ground Truth：2数量的段数量的段数量的段=我IJP3816引入额外的运动，如驴和灯序列中所见。此外，所考虑的点数不会显著影响估计的分段总数这意味着可以对更少的点进行子采样，而不会影响整体性能。图4表示平均累积计算38170.350.30.250.20.150.10.050600 800 1000 1200 1400 1600数量的点图4：每帧的累积计算时间与所考虑的点数的函数关系。跟踪点和计算的AVPED可以在实时考虑高达约1400点。请注意，处理丢失点和噪声所花费的时间也分别包括在内。所提出的方法所需的每帧时间。我们可以观察到，考虑到多达约1400个点被跟踪，AVPED可以被实时维护（我们还必须包括跟踪点所花费的时间这是每个输入帧所需的唯一计算，因为AVPED负责维护整个场景中的信息。其余的计算，I.E. 依赖于计算资源，亲和性、标签扩展和运动学结构因此，所提出的方法适合于实时应用。在图5中，我们展示了精度，召回率和f-测量指标与其他方法的比较。这些结果从每个序列的最后一帧获得我们强调，即使我们的方法是在线的，由于估计总是仅基于当前和过去的信息，我们实现了与离线方法相当的结果[16]（甚至优于驴序列），其设计考虑了整个序列。基于[18]的变体，其中相似性矩阵是基于成对距离的标准差构建的，实现了最低的性能。其中一个原因可能是由于该距离随着帧数量的增加而逐渐停滞的事实相反，我们的方法没有这样的限制，因为如果运动持续发生，AVPED不会停滞。这意味着运动将被分割，无论它们何时发生，这导致更高的整体性能，并且不会削弱在线运动分割的想法。定性评估：图6呈现了每个序列的最后一帧的一些定性结果。我们可以看到，所提出的方法与地面实况相比产生了合理的运动学结构，同时在线和实时运行。基于[18]的变量所获得的结果似乎证实了这样一个事实，即模拟从成对距离的标准偏差建立的相似性不能适应序列中稍后出现的运动（例如，驴的头是最后移动的部分，并且它不是分段的）。此外，结果似乎表明，基于[18]的变体产生噪声更大的分割。还值得一提的是，在图1中分割的运动的数量中，所提出的方法对于某些序列表现出的偏差。3、现在可以更好地理解了。例如，iCub的片段数量一直被低估了大约两个片段;然而，我们可以从图中看到。6表明左臂的三个节段被估计为一个节段，这解释了偏差。一个可能的原因可能是所暴露的运动不显著和/或太微妙，并且该方法不能区分它们。即使在这些情况下，估计的运动学结构是合理的。5. 结论和今后的工作提出了一种无监督的三维运动学结构在线学习方法，该方法能够自然地处理噪声和丢失点。据我们所知，这是第一种以在线方式实时估计任意3D运动学结构的方法。实验结果表明，该方法的性能与离线方法相当，生成的运动学结构是每个物体结构的合理而紧凑的表示。点跟踪是计算机视觉领域中的一个未解决的问题，例如：由于大的位移和咬合。尽管我们设计了一种方法来减轻丢失点和噪声的影响，但这仍然是我们工作的一个组成部分，仍然可以改进。因此，作为未来的工作，我们计划通过在连续帧之间不显式地关联点来桥接该分量我们设想我们的方法应用于现实世界的sce- narios，如人机交互。与一次只能处理一批的离线方法相反，所提出的方法可以连续运行，这对于实现流畅的人机交互至关重要。例如，通过演示或探索，使仿人机器人能够自适应地学习周围物体的运动学特性，以更好地操纵和抓取物体。确认Urbano Miguel Nunes获得了葡萄牙科学技术基金会的博士资助，参考号为 SFRH/BD/130732/2017 。Yiannis Demiris得到了皇家工程学院新兴技术主席的支持。本研究部分得到EPRSC Grant EP/S 032398/1的支持。作者感谢审稿人提供的有见地的反馈，以及伦敦帝国理工学院个人机器人实验室成员的支持。跟踪点计算AVPED计算相似性标签扩展建立运动学结构20 fps30 fps时间3818该方法基于[18]的[16]第十六话10010010080 80 8060 60 6040 40 4020 20 200驴灯管1/2管道3/4iCubiCub臂(a) 精密度（%）0驴灯管1/2管道3/4iCubiCub臂(b) 召回率（%）0驴灯管1/2管道3/4iCubiCub臂(c) F-测量值（%）图5：精确度、召回率和f-measure指标比较。所有结果均来自100次试验，其中1000分是初始子采样并随机选择我们不将iCub和iCub臂序列与[16]中提出的方法进行比较，因为它无法处理丢失点和遮挡。驴灯管道1/2管道3/4iCubiCub臂对象地面实况[16]第十六话基于[18]的该方法图6：定性结果。所示的这些结果是针对每个序列的最后一帧获得的所提出的方法学习对象的似然3D运动学结构。最好用彩色看。3819引用[1]Antonio Agudo和Francesc Moreno-Noguer。结合局部物理和全局统计模型，从运动序列变形形状。International Journal of Computer Vision，122（2）：371[2]Antonio Agudo和Francesc Moreno-Noguer。一个可扩展的，高效的，准确的解决方案，从运动的非刚性结构。计算机视觉和图像理解，167：121[3]Jeannette Bohg ， Karol Hausman ， Bharath Sankaran ，Oliver Brock ， Danica Kragic ， Stefan Schaal ， andGaurav S Sukhatme.交互感知：在感知中利用行动，在行动中利用感知。IEEE Transactions on Robotics，33（6）：1273[4]曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别上，第7291-7299页[5]张亨进和扬尼斯·德米里斯结合运动信息和运动学信息的高清晰度运动学结构估计.IEEE Transactions on PatternAnalysis and Machine Intelligence，40（9）：2165[6]Hyung Jin Chang，Tobias Fischer，Maxime Petit，MartinaZambelli，and Yiannis Demiris.使用多阶相似性学习运动学结构对应。IEEE Transactions on Pattern Analysisand Machine Intelligence，40（12）：2920[7]Ehsan Elhamifar和Rene Vidal。稀疏子空间聚类：算法、理论与应用。IEEE Transactions on Pattern Analysis andMachine Intelligence，35（11）：2765[8]Ali Elqursh和Ahmed Elgammal。使用动态标签传播的在线运动分割。在 IEEE International Conference onComputer Vision，第2008-2015页，2013年。[9]Yan Huang，Jingliang Peng，C. C. Jay Kuo和M Gopi。渐进式点云编码的通用方案。IEEE Transactions onVisualization and Computer Graph-ics，14（2）：440[10]Mariano Jaimez ， Mohamed Souiai ， Javier Gonzalez-Jimenez，and Daniel Cremers.一种实时密集rgb-d场景流的原 - 对偶框架。在 IEEE International Conference onRobotics and Automation，第98-104页[11]Kevin M.作者：Jonathan D. Gammell和Paul Newman。多运动视觉里程计（mvo）：摄像机和第三方运动的同时估计。在IEEE/RSJ智能机器人和系统国际会议上，第3949-3956页[12]姜正元和郑明进通过多时间间隔运动分析实现快速在线运动分割。 IEICE Transactions on Information andSystems，98（2）：479[13]Yaron Lipman ， Raif M Rustamov ， and Thomas AFunkhouser. 双调和距离。 ACM Transactions onGraphics，29（3）：1[14]罗伯托·马丁-马丁塞巴斯蒂安·霍弗和奥利弗·布洛克一个综合的方法来视觉感知的关节对象在IEEE机器人和自动化国际会议上，第5091-5097页[15]安德鲁·Y Ng，Michael Jordan，and Yair Weiss.关于谱聚类：分析和算法。神经信息处理系统进展，第849-856页，2002年[16]Urbano Miguel Nunes和Yiannis Demiris。基于RGB-D数据的铰接刚体的3D运动分割。在英国机器视觉会议论文集，2018年。[17]Peter Ochs，Jitendra Malik，and Thomas Brox.通过长时间视频分析分割运动对象。IEEE Transactions on PatternAnalysis and Machine Intelligence，36（6）：1187[18]萨曼达·佩雷拉和尼克·巴恩斯基于最大团的rgb-d摄像机刚体运动分割。在亚洲计算机视觉会议上，第120-133页，2013年。[19]ElzstecbietaPeEschkalska，PavelPaclík，andRobertPWDuin. 基于相异性分类的广义核方法。Journal of Machine Learning Research ， 2 ： 175-211 ，2001。[20]Jiibo Shi和Jitendra Malik。归一化切割和图像分割。IEEETransactionsonPatternAnalysisandMachineIntelligence，22（8）：888[21]Jürgen Sturm，Cyrill Stachniss，and Wolfram Burgard.一个概率框架学习运动学模型的articulated对象。Journalof Artificial Intelligence Research，41：477[22]Dimitrios Tzionas和Juergen Gall。从rgb-d视频重建关节操纵模型在欧洲计算机视觉研讨会上，第620[23]Jingyu Yan和Marc Pollefeys。一个基于因式分解的方法，用于从视频中恢复关节式非刚性形状、运动和运动链。IEEE Transactions on Pattern Analysis and MachineIntelligence，30（5）：865[24]Qing Yuan ， Guiqing Li ，Kai Xu，Xudong Chen ，andHuang Huang.关节点云序列的时空联合分割。ComputerGraphics Forum，35（2）：419[25]Lihi Zelnik庄园和Pietro Perona。自校正谱聚类。神经信息处理系统的进展，第1601-1608页，2005年[26]Quanshi Zhang ， Xuan Song ， Xiaowei Shao ， RyosukeShibasaki，and Huijing Zhao.基于3d变形匹配的无监督骨架提取与运动捕捉神经计算，100：170[27]张茵和周志华。非度量标签传播。第21届国际人工智能联合会议，第1357-1362页[28]Dengyong Zhou，Olivier Bousquet，Thomas Lal，JasonWeston，and Bernhard Schölkopf.学习本地和全球一致性。神经信息处理系统的进展，第321-328页，2004年[29]Vasileios Zografos，Reiner Lenz，Erik Ringaby，MichaelFelsberg，and Klas Nordberg.利用群论不变量快速分割稀疏三维点轨迹在亚洲计算机视觉会议上，第675-691页

下载后可阅读完整内容，剩余1页未读，立即下载