基于李群动力学的非参数物体和零件建模

106 浏览量更新于2023-10-23 收藏 3.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于李群动力学的非参数物体和零件建模David S.放大图片作者：John W.麻省理工学院计算机科学与人工智能77 Massachusetts Ave.马萨诸塞州剑桥02139{dshayden，pachecoj，fisher}@ csail.mit.edu摘要关节运动分析通常利用强先验知识，例如已知或训练的人体部位模型。然而，这个世界包含了各种各样的有关节的物体--哺乳动物、昆虫、机械化结构--其中特定物体的部件的数量和配置是事先未知的。在这里，我们通过一个无监督的贝叶斯非参数零件模型来放松这种强假设，该模型推断出未知数量的零件，其运动由身体动力学耦合并由SE（D）参数化，SE（D）是刚性变换的李群。我们推导出一个推理过程，利用短观察序列（图像，深度，点云或网格）的对象在运动中，而不需要标记或学习身体模型。用于在SE（D）上的分布上进行推断的有效吉布斯分解在3D和2D观测模型下都展示了移动对象的鲁棒部分分解。推断的表示允许新的分析，如对象分割的相对部分运动，并转移到新的观察相同的对象类型。1. 介绍世界充满了由关节部分组成的运动物体。尽管这些物体的范围很广，很复杂，但人类有一种非凡的能力，可以通过很少的观察准确地分辨出有关节的部分的数量及其与整体我们对模仿这种能力的推理方法和算法感兴趣虽然人们可能会考虑依赖于关于每个可想象的对象、关节运动和视图的大量标记训练数据的监督方法，但数据收集的任务似乎令人生畏且不必要。因此，我们开发了一个生成模型，推断一个对象分解仅仅从运动中的对象具体来说，我们提出了一个基于零件的表示，利用贝叶斯非参数动态模型，同时避免强假设，图1.物体各部分的数量、旋转、平移和形状身体和部件的运动由3D或2D中的刚性变换的李群参数化。支持的数据源包括网格/点云序列（A，人类）、深度数据（B，绒猴）和2D图像（C，手，蜘蛛）。部件的数量或结构 The model simultane- ously infers adynamic body frame, the number of parts, and their motionrelative to the body frame.支持多种输入-假设物体和零件在空间中平滑地旋转和平移，导致SE（D）中的自然参数化，即刚性变换的李群借代表─在李代数se（D）中，给出运动统计量，推导出关于平移动力学的封闭形式的吉布斯更新，和旋转动力学的有效采样器。捐款. 我们指定了一个新的贝叶斯nonparametric模型，非常适合于articulated运动中的对象的属性（部分持久性，刚性transformation- tion动态，未知数量的部分）。我们展示了一种新的分解，在具有集中高斯先验的SE（D）我们验证我们的方法在2D和3D序列包含不同的对象类型。我们表明，在一个数据序列的部分转移到其他数据序列相同的对象类型（但不同的实例）。最后，我们提出了不同的运动的新颖的分析，74267427t=1t=1n=1Nt----X1X2···XT∞θ1kθ2k···θTky1ny2nyTnz1nz2nπN1N 2zTnNT图2.未知数的简化图模型（因此分配）需要特别注意[23，37]，例如：简单的加性噪声模型违反了组拓扑。我们的方法定义了关于群元素的切平面中的分布（高斯分布）[35]。大多数用SE（D）建模动态的作品都用近似滤波器或平滑器进行推理，通常是EKF[4]或UKF [6]。一个例外是[28]，它做了完全的后验推理，尽管它不是一个动力学模型。见[8]一个方便的介绍李群，和[16]更全面的介绍。时变部分{θtkT，∞t=1，k=1通过共享动力非参数模型扩展了{xt}T. 如果z tn = k，则观测ytn由部件k生成。著名的狄利克雷过程（DP）[1]包括HDP-斗杆重量{π}∞影响每个观测值的计数HMM [31]、粘性HDP-HMM [12]、无限HMM [2]和kk=1部分为了清楚起见，省略了先验和{Q，ωk，Sk，Wk，Ek}对象的区域，例如基于对象的部分相对于身体框架的运动来分割对象2. 相关工作这项工作借鉴了身体/部件模型，贝叶斯非参数动力学模型和李群。每一个都包含了丰富的文献，所以我们只强调最相关的细节。重要的是，我们知道没有工作，models身体和部分运动随着时间的推移与李群动力学，这也是无监督和非参数的部分。身体和部件模型基于部件的建模的许多处理开始于图形结构的人类模型的开创性工作[10]和纸板人[18]。后来对可变形零件模型的研究[9]消除了定义特定于对象的零件配置的需要。在离线分析成功的基础上，实时人体姿势跟踪现在也成为可能[27，13]。所有这些方法都需要指定零件的数量。已经针对各种对象开发了更详细的形状和姿态模型，使用已知的身体模型、网格表示和复杂的收集方案的组合，包括多个相机、IMU、激光器和/或专门绘制的目标[21，41，3，24]。无监督方法[36，20，26，41，40]具有显著的限制，例如仅适用于2D或仅适用于3D数据，或者需要注释的地标或点对应。相比之下，我们的无监督方法适用于2D和3D输入，只需要单个传感器观察运动中的对象，不需要独特或注释的对象标记，也不需要观察对应关系。李群我们的工作依赖于李群SE（D），刚性变换的空间，用于表示身体和部分运动。李群已广泛用于机器人和计算机视觉任务，如SLAM [6]，导航[19]和基于零件的模型[5，14，17]。定义李群的观测模型是具有挑战性的，因为李群不是向量空间。因此，距离的概念无限阶乘HMM（ifHMM）[15]。每一个都允许有无限多个状态，但仅限于离散的标签。对连续变化的潜在状态的扩展包括HDP-SLDS [11]、动态HDP [25]、DP的混合[7]和进化HDP [38]。虽然每一个都具有共享全局动力学的理想属性，但没有一个捕获组件持久性允许每次出现新原子这对于部件建模是不期望的，因为对象不倾向于随着时间的推移获取和丢失部件，并且非参数先验已经存在创建重复部件的风险[12]。密切相关的是无限阶乘动力学模型 [32] ，它是ifHMM的连续扩展，只允许共享全局二进制开/关状态，以及变换的狄利克雷过程[30]，一种允许多组观察共享同一组原子（但没有动力学）的DP。最相关的，我们用来比较，是贝叶斯非参数模型的周等人。[39]，一个线性动力学模型，其中部分在每个时间从狄利克雷过程中独立采样（但没有部分持久性或李群表示）。3. 模型设t=1，. . .，T索引时间，k=1，. . .，∞个指数部分，并且n=1，. . .，Nt在时间t的索引观测。最一般地，我们的非参数部件模型（图2）将观察值{ y t }T作为其唯一输入，其中第t批y t=y tn包含具有未知对应关系的Nt个观察值。有一个全球（身体）动态具有时变参数xt和时定参数Q.存在未知数量的具有时变参数θtk和时定参数ωk，Sk，Ek，Wk的元件（部件）。随机动力学模型f、g和随机观测模型h是，对于每个t、k、n，xt<$f（xt−1，Q）θtk<$g（θ（t−1）k，ωk，Sk）ytnh（xt，θtztn，ωztn，Eztn）其中ztn=k表示观测ytn由分量k生成。给出了关联的先验概率}7428×∈∈由杆重π的离散分布（α >0）：ztn<$ππ<$GEM（α）（1）为了专门用于对象和零件建模，我们必须进一步指定随机变量的域{ytn，xt，θtk，ωk，Sk，Ek，Wk，Q}，形式前科{Hx，Hθ，Hω，HS，HE，HW，HQ}和{f，g，h}。首先，我们介绍李群上的分布3.1. 李群矩阵李群G是一个连续群，它的元素可以用具有特殊结构的矩阵来描述。在本文中，G=SE（D）是RD上的刚性变换空间，G=SO（D）是D维真旋转空间与G相关联的是李代数g，它可以被看作是关于实验µvb=bLogµc= vc图3.位置和尺度分布（如高斯分布）可以通过将它们的支集映射到局部向量空间近似TµG来局部定义。3.1.2SE（D）行动将b，c∈G=SE（D）表示为实分块矩阵，G的单位元。这种近似可以对于G中的任何元素，因为组元素通过矩阵乘法组成，并且每个元素具有.Σb=Rb db0 1.Σc=Rc dc0 1（五）相反对于b，μ∈G，我们称局部向量空间ap-关于μ的近似μ的切空间，记为Tμ G。从μ的切空间到μ的切空间的映射通过左不变黎曼对数和左不变黎曼指数完成，R是SO（D）中的D-D旋转矩阵（行列式为+1），d是R-D中的平移矩阵.然而，我们使用这个符号来表示SE（D）中任何元素的旋转和平移分量;例如，如果xt∈SE（D），那么它有旋转Rxt和平移dxt。−1Log：G×G→g= Logµb= logG（µ b）（2）SE（D）的元素通过矩阵乘法组成Exp：G×g→G= Expµv=µ expG（v）（3）（保持集团封闭），并作为基础的变化对于点p∈RD的齐次坐标p∈ R D：其中v∈g是μ的切空间中的切向量，.ΣR（R p+d）+d和logG， expG是李群对数和指数bcp=b c c b1（六）映射，可以使用矩阵对数矩阵指数。请注意，v被称为切向量，即使它被表示为矩阵：这是因为在矩阵和v的向量表示之间存在双射映射。为了简洁起见，我们省略了额外的符号。3.1.1李群上的分布由于G不是一个向量空间，因此在G上构造一个分布来推理身体和部位模型是复杂的利用群元素与其切空间之间的映射，我们可以通过将其支集映射到μ的切空间来定义具有位置参数μ G的分布。定义左不变集中高斯分布根据多元高斯N（·）：N L（b）|µ，µ）= N（Log µb|（4）与[29]类似，这可以被认为是关于平均μ G的切空间中的高斯分布。协方差矩阵存在于切空间中，可以理解为与典型的欧几里得情形相同，只是Tμ G中的向量必须通过方程n映射回群。3 .第三章。图3是SO（2）的可视化。BBG = SO（2）µµNL（µ，）C7429∈联系我们如果p是坐标系c中的坐标，那么cp可以解释为它在坐标系b中的坐标，bcp可以解释为它在标准（或世界）基中的坐标。一般来说，碱基的变化最好被看作是从左到右的合成，但作用于从右到左的点。3.2. 车身和零件模型设G= SE（D），对于维度D二，三。我们试图通过直接观察运动中的物体来推断一个有关节的物体的部分分解。具体来说，我们将输入ytnRD建模为对象内采样点的随机集合，因为它在时间上移动每次都支持变量（包括无）观测值，并且假设观测值之间没有对应关系。支持多种输入，包括2D图像序列的前景像素、深度序列的未投影点和网格序列内采样的3D点云。我们假设部分持久性对象不会随着时间的推移而增加或丢失部分。我们还假设部件在空间中平滑移动，但仍然靠近（在L2意义上）一个同样平滑移动的共同物体。身体和部分运动之间的关系可以在7430--t−k∈WxtωkθtkωkθtkxtωkθtkWxtW不第k部分身体世界图4. 在时间t包含对象的帧。每时间的身体坐标系xt是从世界坐标系W的刚性变换。每个部分k包含一个时间固定的标准部分框架ωk和一个每时间部分框架θtk。ωk是从体标架xt的刚性变换，而θtk是从ωk的刚性变换。使用稳定的随机游走动力学，每个每时间部分框架θtk被设计为随着时间平滑地变换，但保持在它们各自的规范部分框架ωk的原点附近。有很多方法：一个极端是将它们建模为具有线性动力学的漂浮体，而另一个极端是将它们建模为存在于关节的骨架网络中。线性动力学无法捕捉到其中I∈G是单位元（无平移或旋转），协方差Wk可以认为（隐式）存在于xt的切空间中。每个部分都有按时间的动力学驾驶噪声协方差Sk的θtk由以下方程控制关节，而骨骼网络过度限制。我们采取中间立场：部分θ tk，ω k，S k，E k，W k被模拟成旋转和平移.θtk=ΣExpRθφtkAdθ（t−1）k+Bmtk（第一章0 1（九）关于体标架xt∈G光滑地穿过空间，但是带附件A=diag（diag，. - 是的- 是的，a），B=其起源往往保持在一个典型部分标架ωk∈G通过稳定的随机游动动力学diag. - 是的- 是的，1 − a和Eqn中的Exp。9里曼-集成电路。典型的部分框架接近于身体框架，并且在时间上保持固定，但部分也有每个时间的框架θtk G。各部分的空间范围不固定;相反，它们具有由高斯协方差Ek控制概率性椭圆形模型。部件动力学由协方差Sk控制，而本体动力学由协方差Q控制。正则部分标架关于体标架的离散度由协方差Wk决定。图4以图形方式描述了主体和部件框架的组成方式。3.2.1身体和部件动力学身体框架xt和部件独立地演化，但通过观察模型是直接耦合的。具体而言，车身框架随机动力学模型为：x t N L（x t|x t−1，Q）（7）对象动力学是G上的非线性随机游动，其噪声协方差Q存在于前一时刻关于身体坐标系的切空间中。典型部分标架ωk以协方差Wk分散在体标架上，ωk<$Hω=N L（·|（8）对于SO（D），nian指数。 φtk∈so（D）是一个向量，Rθ（t−1）k的切空间。部分平移驱动噪声mtk和旋转驱动噪声φtk共同分布：（mtk，φtk）<$N（0，Sk）（10）如补充中所证明的，仔细选择矩阵A，B（a=0. 95）使部分平移dθtk的渐近协方差等于平移驱动噪声mtk的协方差。这种形式使部件能够平滑地转换，但不会远离它们的规范位置，并减轻了推理过程中的部件混淆。所有驱动噪声协方差都来自Inverse-Wishart分布，其中我们注意到我们的模型支持对象、规范部分和部分变换的平移和旋转之间的任意相关性QHQ=IW（·|vQ0，ΛQ0）（11）SkHS=IW（·|vS0，ΛS0）（12）7431WkHW=IW（·|vW0，ΛW0）（13）根据以下公式绘制初始实体和零件框架：x1Hx=N L（·|（14）θ1kHθ=N L（·|θ0，θ0）（15）7432t=1n=1t−1−−1t−1TNTN不 K TKR不 K TKK TKK不t−1t−1⊤⊤ ⊤不∞联系我们E RR R--3.2.23D和2D数据的观测模型假设输入ytn在世界坐标系W中，世界坐标系W被假设为与传感器的坐标系对准部件在其各自的部件坐标系中生成观察结果，并通过θtk、ωk和身体坐标系xt映射到世界坐标。也就是说，k生成点etn<$N（0，Ek），然后映射到世界坐标y_∞=xωθe_∞，如果z=k（其中tn tk tk tn tn（·）是（·）的齐次投影。在世界坐标系下齐次点的均值和方差的计算中，该变换在所有情况下都是线性的车身骨架投影切线分布图5. 左：通过李群运算，将时间t时物体坐标系的物体动力学投影到时间t−1时的坐标x−1x。右：投影在SE（3）中，具有高斯统计量-y∈tn，得到以下观测模型（对于ztn=k）t−1tyN（y|xωθ0<$，xωθE<$θωx）（16）其中，R是RD中的齐次零向量，Ek是具有零行和零列的退化块协方差矩阵Ek在没有齐次坐标的情况下，这是（通过等式5）、y tn N（y tn|µ tk，tk）（17）µtk=RxtRωk（dθtk+dωk）（18）x t −1的切平面中的tic。该图从概念上描绘了两个自由度，而SE（3）将具有6个自由度。其中t=l，. . .，T，k=1，. . .，n=1，. . .，N t和省略的前导下标被认为是指联合依赖性（即，y=y tT和yt=y tnNt）。推理复杂度与观察和部分的数量成线性关系。在我们的实验中，通常在大约300个样品后混合链，每个样品大约1分钟是我们测试的任何数据的最差情况时间。tk=RxtRωkRθtk⊤Kθtk⊤ ⊤ωkxt（十九）在续集中，我们素描采样的身体transforma-tionsxt。所有的细节都在补充，随着山姆-虽然简单，但它可容纳像平面观测2D中的深度观测，2.5D中的深度观测和3D中的XYZ观测。补充条款（例如外观）是直接的，但对于我们的目的来说并不需要。与大多数生成模型一样，对丢失数据的鲁棒性（对于深度传感器来说很常见）得到了无缝处理。ytn的观测协方差tk是由于身体和部分框架的组成而对ztn=k 的Ek 的某种因此， Ek 被约束为对角的（即，轴对准）以避免歧义。虽然使用的Ek意味着概率，椭圆形的零件形状模型，其主要功能是产生强大的关联ztn的观察到的部分。在这里，我们使用以下先验：正则部分ωk和部分变换θtk的组合，它们具有类似的形式。我们还讨论了采样部分的as-associationsztn，这是共轭的，除了当采样分配给基本措施。第三组中的条件（π，Ek，Sk，Q）可以解析地采样由于共轭先验，我们推迟到补充。最后，部分{θ tk，ω k，S k，W k，E k}可以跨k并行采样，并且z tn可以跨t，n并行采样。4.1. 李群动力学我们利用李代数发展了一个有效的吉布斯采样器的动力学项xt，ωk，θtk。例如，运算x-1x在时间t变换身体帧EkHE=IW（·|vE0，ΛE0）（20）在时间t1时的身体帧中（图5，左）。这操作是SE（D）的元素：4. 推理.Σ−1Rx−1，xtdx−1，xtxt−1xt，t−1t−1、（二十二）我们希望从后部取样，hood与等式（1，7，8，10，TT）的乘积成比例11，12，13，14，15，17，20）。这与马尔可夫链蒙特卡罗（MCMC）推断相结合，MCMC推断利用切线空间中的高斯统计进行有效更新，同时通过等式尊重李群的2和4.这是住宿-其中Rx−1，xt=Rxt−1Rxt和dx−1，xt=Rxt−1（dxt−dxt−1）。标架xt中的元素通过黎曼对数映射映射到xt−1的正切空间（图1）。5，右）：.Σ−1Vx−1，xdx−1，xt日志x，log（xx）=t−1tt−1（二十三）通过从全条件分布中抽样得出每一个潜在的变量，按照讨论的顺序分组，xt−1tG t−1t−1φx−1，xtx−1xNL（xt | xt −1, Q)Logxt−1xt−1Logxt−1xtt−1不xt−1XtT Gxt−1不t−1G= SE（3）7433t−1第一个元素Vx−1，xdx−1，xt是切空间坐标。t−1tt−1（xt，θtk，ωk）ztn（π，Ek，Sk，Q）（21）第二项φx−1，xt是一个旋转数，7434x−1，xtt−1t−1.x−1，xtt−1−t−1|t−1∞n=1∫|∝|Nt矢量可逆线性算子V−1t−1是com-5. 结果由旋转Rx−1，xt（或由φx−1，xt）推出。这是我们定量和定性地比较非对位-t−1t −1对于x−1x足够接近同一性，5.1中的度量和参数基线。我们目前的结果与小的增量运动相一致。4.2. 吉布斯采样更新记住这个等式。（22）和（23）将xt映射到xt−1的切空间。当以旋转为条件时，该映射在平移分量dxt中是线性的。该观测结果与切空间中的高斯统计相结合，产生用于平移的封闭形式的吉布斯更新。要看到这一点，请注意，切空间（Fig.5，右），5.2中的动态网格数据，并演示对象分段-基于5.3中的相对部件运动的分段。我们将学习的表示转移到一个新的数据集，并从补充中的学习表示合成运动。视频补充动画这些结果。5.1. 定量比较我们研究了三个对象运动数据集上的部分发现性能，并与手动注释的地面实况进行比较。我们强调，注释不-..N L（x t|x t−1，Q）=NCdxt+uφx−1，xtΣ。Σ. 0，Q（二十四）加入到推理程序中我们指的是数据集，如手，蜘蛛，和绒猴。hand和spider是2D图像数据，而marmoset是未从深度相机投影的3D数据。推理利用其中C=V−1t−1⊤xt−1 且u = − V x − 1，x t⊤xt−1dxt−1。12 44帧（取决于数据集）和结果与五个手动注释的地面实况帧以旋转Rxt和先前的身体框架为条件xt−1，对应的旋转向量φx−1，xt和矩阵Vx−1，xt是固定量。这使得C和u是可计算的，并产生dx t的高斯条件分布。这个条件句构成了我们关于dxt的先验信念给定Rxt，xt−1和协方差Q。类似的逻辑让我们得到一个关于dxt的高斯条件，给定未来的变换xt+1。这些可以解析地组合以提供dxtRxt，xt−1，xt+1 的高斯分布。因为这是高斯分布，观察模型也是已知参数的高斯乘积，{ω k，E k，θ tk}k=1和{z tn}，则d x t上的后验也是高斯的，并且是可解析计算的。相比之下，旋转参数的采样缺乏封闭形式。我们利用单变量切片采样[22]对每个旋转参数的全条件进行处理，同时使用固定数量的MCMC建议来校正已知的旋转对称性。详情见补充资料。部件关联对现有部件k ≥ 1的单个分配的条件分布由p（z tn=k）给出y tn，x t，ω，θ t，π，E）π kp（y tn x t，ω k，θtk，Ek）.相反，与新部件的关联由下式给出，p（z tn= −1|y tn，x t，ω，θ t，π，E）（25）ππp（y tn|x t，ω，θ t，E）p（ω，θ t，E）d（ω，θ t，E）式中，πθ是对应于基本测量值的杆重（即，所有未实例化的部分）。这在我们的模型中不是解析的，但可以通过蒙特卡罗有效地近似部件的采样（只需要进行一次）或通过常数的近似（因为部件的预测分布将是宽的，但是以参考的对象帧为中心我们用这两种方法都得到了满意的结果。RR不7435（其中，地面实况是部分的数量及其分段-示例在补充中）。在每个数据集中，部件具有几乎无法区分的外观，并且没有一种比较方法使用外观模型。因此，通过运动动力学分析实现零件发现输入只包含前景（即背景被移除），就像在相关作品中所做的那样[20]。我们报告了多对象跟踪和分割（MOTS）指标[34]，该指标衡量部分关联与地面实况部分分割（MOTSA，sMOTSA，MOTSP）的重叠程度以及部分关联随时间的稳定性（IDS）。这些指标旨在分割多个目标，但我们将其重新用于分割多个部分。与IoU 0比较。3 .第三章。我们比较两个基线：贝叶斯非-[39]的参数模型（在第2节中讨论），我们称之为非参数范围模型NPE，以及[39]的参数修改，因此它具有知道部件的真实数量的优点。我们称之为参数范围模型pe。npe和pe都没有考虑时间上的部分持续性（就像我们所做的那样），因此对于这些方法，我们使用匈牙利算法来计算时间步长对之间的部分对应性（在主体框架中）。综上所述，我们的模型和两个基线构成了一个消融研究，其中我们考虑了具有李群动力学的未知数量的部件，以及不具有李群动力学的未知/在所有情况下，我们计算从1000个样本的马尔可夫链中提取的100个样本的MOTS统计量的平均值和标准差，使用数据相关先验（在补充资料中指定），并设置浓度参数α=0。1.一、图6（左）显示了定量结果，而图9显示了我们的方法与基线之间的定性比较。74367PE65432100 10 20 30 40时间图6.（左）：使用MOTS指标对我们的非参数零件模型（我们的）与非参数基线npe和参数基线pe进行定量比较。IDS越低越好，MOTSA、MOTSP和sMOTSA越高越好。最好的方法是大胆的。（右）：基于部件随时间运动的对象分割。而最接近身体中心的部分几乎没有运动（在身体框架中），蜘蛛的四肢表现出大量的运动。（左上）：零件关联。（右上）：基于运动能量的零件分割（底部）：记录随时间的累积部分运动能量（颜色与关联协调）。图7.动态网格分割。通过使用网格内采样的点作为我们的非参数零件模型的输入，然后计算与网格顶点的关联，我们的模型可以从网格数据中学习图1图8. 手和蜘蛛的部分后部。虚线椭圆是平均部分协方差，实线椭圆显示部分后验位置协方差。点是用于后验更新的观察到的部件位置蜘蛛腿的位置由于关节而模糊，而手的手指则集中。我们的模型在所有数据集和指标上都优于非参数基线pe基线（受益于知道部分的数量）优于我们的方法在标签开关（IDS）和整体质量（sMOTSA）的3D绒猴数据。这在很大程度上是由于来自深度传感器的噪声数据产生了来自背景的观察结果，这些观察结果远离对象，但不是那么远。被降级为基本措施。在我们的模型中，我们看到非常少的ID切换（IDS）和相对高的精度（MOTSP），我们将其归因于规范部分ωk强制每个部分变换θtk稳定地移动在视觉上，部分分配最好对应于作为末端（手指、腿、尾巴）的地面实况部分，但倾向于过度分割大对象内部（手掌、身体）。我们把这归因于椭球观测模型，但发现，为了部分分析的目的，它没有明显的负面影响。5.2. 动态网格分割我们将我们的方法应用于[33]的网格化数据集中的squat 1序列，将网格序列分解为如图7所示的部分。请注意，腿被分割成两部分，而手臂被分割成一部分。这与腿弯曲但手臂伸直的动作一致。当人蹲下时，左小腿（红色）在膝盖以上有少量关联时，会出现轻微伪影，但当人站直时则不会经验证，结果符合人体部位解释。5.3. 运动分析我们展示了我们的模型如何促进新的对象/部件分析。从图8开始，我们可视化了hand和spider的零件图。虚线椭圆示出了每个部分（在对象帧中）的观测噪声模型Ek，而实线椭圆示出了该部分的跨时间的平移的协方差因为部分平移协方差在空间上是分离的，所以模型抵制部分之间的标签切换，我们观察到手的部分平移协方差是紧的，但是蜘蛛的部分平移协方差是水平模糊的-这是预期的，因为手指移动了数据集方法IDsMOTSAMOTSPsMOTSA我们0的情况。00 ±0。00二、79 ±0。300的情况。71 ±0。011 .一、34±0。24NPE4.第一章45±1。841 .一、93 ±0。80的情况。51±0。01-4。2 ±0。78手纸4.第一章03±2。111 .一、57 ±0。440的情况。47±0。01-0。33 ±0。37我们五、14 ±1。493 .第三章。44±0。250的情况。55 ±0。021 .一、26±0。18NPE19号。6±2。88-4。4 ±0. 920的情况。51±0。01-6。72 ±0。9蜘蛛十七岁28±3。061 .一、73 ±0。310的情况。52±0。01-0。24 ±0。27我们1 .一、24±0。651 .一、39 ±0。890的情况。49 ±0。02-0。47 ±0。71NPE3 .第三章。18 ±1。28-32 44 ±2。780的情况。35±0。01-34 06 ±2。72对数累积能量7437图9. 手、蜘蛛和绒猴的部件关联示例。对于每个序列，显示了来自原始视频的示例帧（顶行），其中部分关联和对象/部分坐标帧覆盖了我们的方法（中间行）和基线NPE关联（底行）。通过我们的方法估计的部分随着时间的推移在很大程度上是一致的，即使是高度铰接的蜘蛛腿。与蜘蛛的腿相比，手上的很少。我们的模型能够进行的一个分析是在身体框架（即，运动不是来自物体的运动，而是来自它的部分）。通过在身体框架内整合每个部分图6（右）显示，对于蜘蛛，腿能够从其他部分分割。6. 讨论在这项工作中，我们证明了我们的非参数表示的运动体推断有意义的部分分解的对象在无监督的方式，简单地观察他们的运动。此外，我们的李群表示约束关节的运动部件物理上合理的运动状态，而不需要的对象特定的知识，如骨架结构。部分分解可以在很短的时间内学习序列，并推广到相同对象类型的其他数据集和实例。与依赖于广泛的训练数据和/或对象特定的2D/3D模型的方法相比，我们能够通过直接观察对象的单个实例来证明稳健的分析。我们的模型简化了推理和运动分析，同时提出了简单的扩展。例如，部分持久性确保部分的表示在视频序列上持久，即使部分被包含。类似对象的多个视频上的分层模型因此对于任何单个视频中的遮挡是鲁棒的。此外，高斯切空间条件允许封闭形式的吉布斯更新的翻译，有效的切片采样的旋转，并证明足够的运动分析。零件形状的显式模型可以避免过度分割大的区域，是当前工作的重点。致谢本工作得到ONR N 00014 -17-1-2072和NIH 5 R 01MH 111916的部分支持。7438引用[1] 查尔斯·E·安东尼亚克Dirichlet过程的混合及其在非参数问题中的应用。统计年鉴，1152-1174页，1974年。2[2] 马修·J·比尔，祖宾·格拉马尼，卡尔·E·拉斯穆森.无限隐马尔可夫模型。神经信息处理系统的进展，第577-584页，2002年。2[3] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J Black.动态浮士德：记录人体运动。在IEEE计算机视觉和模式识别会议论文集，第6233-6242页，2017年。2[4] GuillaumeBourmaud ， Re'miMe' gret ， MarcArnaudon 和Audrey Giremus。基于集中高斯分布的矩阵李群上的连续-离散扩展卡尔曼滤波器。Journal of MathematicalImaging and Vision，51（1）：209-228，2015。2[5] C. Bregler和J.马利克用曲折和指数地图追踪人。诉讼1998年IEEE计算机协会计算机视觉和模式识别会议（Cat。No.98CB36231），第8-15页，1998。2[6] Martin Brossard ， Silvere Bonnabel 和 Jean-PhilippeCondomines 。李群上的无迹卡尔曼滤波。 2017 年IEEE/RSJ智能机器人与系统国际会议（IROS），第2485-2491页。IEEE，2017年。2[7] David B. 邓森潜在特质分布的贝叶斯动态模型Biostatistics，7（4）：551-568，2006. 2[8] 伊森·艾德计算机视觉的李群。剑桥大学Cambridge，UK，Tech. Rep，2014. 2[9] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence ， 32 （ 9 ）： 1627-1645，2010. 2[10] Martin A Fischler和Robert A Elschlager。图像结构的表现和匹配IEEE Transactions on Computers，（1）：67-92，1973. 2[11] 艾米丽·福克斯，埃里克·B·萨德斯，迈克尔·I·乔丹和艾伦·S·威尔斯基。切换动态线性模型的贝叶斯非参数推断。IEEE Transactions on Signal Processing，59（4）：1569-1585，2011. 2[12] Emily B Fox，Erik B Sudderth，Michael I Jordan，AlanS Willsky，et al.一种粘性hdp-hmm及其在说话人日志化中的应用应用统计年鉴，5（2A）：1020- 1056，2011年。2[13] 卡特琳娜·弗拉基亚达基，谢尔盖·莱文，潘纳·费尔森，和吉坦德拉·马利克.用于人体动力学的循环网络模型。在IEEE计算机视觉国际会议论文集，第4346-4354页2[14] Oren Freifeld ， Alexander Weiss ， Silvia Zuffi ， andMichael J Black.轮廓人物：二维人体的参数化模型。在2010年IEEE计算机协会计算机视觉和模式识别会议上，第639-646页IEEE，2010。2[15] Jurgen V Gael，Yee W Teh，and Zoubin Ghahramani.无限阶乘隐马尔可夫模型。神经信息处理系统的进展，第1697-1704页，2009年2[16] 布莱恩·霍尔李群、李代数与表示。《数学家的量子理论》，第333Springer，2013. 2[17] SørenHauber g，FrancoisLauze，andKimSteenstrupPeder-sen.UnscentedKalmanfilteringonRiemannmanifold.Journal of Mathematical Imaging and Vision，46（1）：103- 120，2013。2[18] Shanon X Ju ，Michael J Black 和Yaser Yacoob 。纸板人：关节式影像运动的参数化模型。在第二届自动面部和手势识别国际会议的会议记录中，第38-44页。IEEE，1996年。2[19] Giuseppe Loianno，Michael Watterson，and Vijay Kumar.SE上四旋翼的视觉惯性里程计（3）。Proceedings-IEEEInternationalConferenceonRoboticsandAutomation，2016-June（3）：1544-1551，2016. 2[20] Dominik Lorenz，Leonard Bereska，Timo Milbich，andBjorn Ommer.对象形状和外观的无监督的基于部分的解开。在IEEE计算机视觉和模式识别会议论文集，第10955-10964页二、六[21] Naureen Mahmood、Nima Ghorbani、Nikolaus F Troje、Gerard Pons-Moll和Michael J Black。Amass：将运动捕获存档在IEEE计算机视觉国际会议论文集，第5442-5451页，2019年。2[22] Radford M Neal等.切片取样。The annals of statis- tics，31（3）：705-767，2003. 6[23] Frank C.公园刚体运动的距离度量及其在机构设计中的应用。机械设计杂志，117（1）：48-54，1995。2[24] Gerard Pons-Moll ， Andreas Baak ， Thomas Helten ，MeinardMüller，Hans-PeterSeidel，andBodoRosen-hahn.多传感器融合三维人体运动捕捉。2010年IEEE计算机协会计算机视觉和模式识别会议，第663IEEE，2010。2[25] 放大图片作者：David B.邓森和劳伦斯·卡林。动态分层Dirichlet 过程。 Proceedings of the 25th InternationalConference on Machine Learning - ICML2[26] David A Ross，Daniel Tarlow和Richard S Zemel。从运动中学习骨骼的无监督学习。欧洲计算机视觉会议，第560-573页。Springer，2008. 2[27] J Shotton ， A Fitzgiant ， M Cook ， T Sharp ， MFinocchio，R Moore，A Kipman和A Blake。从单个深度图像中实时人体姿态识别。在2011年IEEE计算机视觉和模式识别，第1297IEEE计算机学会，2011年。2[28] Julian Straub ， Jason Chang ， Oren Freifeld ， and JohnFisher III.球形数据的dirichlet过程混合模型。在人工智能和统计，第93027439[29] Julian Straub ， Oren Freifeld ， Guy Rosman ， John JLeonard，and John W Fisher III.曼哈顿框架模型-表面法线空间中的曼哈顿世界推断。IEEE Transactions onPattern Analysis and Machine Intelligence，2017。3[30] ErikB Sudderth ， AntonioTorralba ， WilliamTFreeman，and Al

下载后可阅读完整内容，剩余1页未读，立即下载