基于RGBD图像的狗的3D姿态预测的方法及其应用

37 浏览量更新于2023-10-23 收藏 2.54MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8336RGBD狗：从RGBD传感器Sinéad Kearney1 Wenbin Li1 Martin Parsons1 Kwang In Kim2 DarrenCosker 1巴斯大学2UNIST{s.kearney，w.li，m.m.parsons，d.p.cosker}@ bath.ac.ukkimki@unist.ac.kr图1：我们提出了一个从RGBD图像预测狗的骨架姿势的系统。如果狗的大小和形状未知，则提供估计此处显示的是Kinect序列的帧[4，7，13，18]，显示了由管道生成的2D投影、3D骨架和蒙皮网格本文中的所有数字在彩色时都是最有信息量的摘要动物三维姿态的自动提取在一系列科学领域中，没有标记物的生物标记物是令人感兴趣的。迄今为止，大多数工作都是根据关节位置的2D标签从RGB图像预测动物姿势。然而，由于获得训练数据的困难性质，没有3D动物运动的地面实况数据集可用于定量评估这些方法。此外，缺乏3D动物姿态数据也使得难以以与流行的身体姿态预测领域类似的方式训练3D姿态预测方法在我们的工作中，我们专注于从RGBD图像中估计3D犬姿态的问题，使用几个Microsoft Kinect v2记录各种犬种，同时通过运动捕捉系统获得3D我们从这些数据中生成合成RGBD图像训练堆叠的沙漏网络来预测3D关节位置，然后使用形状和姿势的先验模型来约束3D关节位置。我们在合成和真实RGBD图像上评估我们的模型，并将我们的结果与以前发表的将犬模型拟合到图像的工作进行比较。最后，尽管我们的训练集只包含狗的数据，但视觉识别意味着我们的网络可以对其他四足动物的图像产生良好的马或猫1. 介绍虽然姿势估计传统上集中于人类主体，但近年来对动物主体的兴趣增加（[7]，[3]，[37]，[38]）。有可能将标记放在某些经过训练的动物（例如狗）上以实施基于标记的运动捕捉技术。绝不-但是，与人类受试者相比，与此相关的实际困难要多得多有些动物可能会发现标记令人痛苦，不可能把它们放在野生动物身上。神经网络目前实现了人类姿势估计的最佳结果，并且通常需要在提供2D和/或3D注释的广泛可用的大规模数据集上进行训练（[33]，[1]，[15]，[16]）。然而，目前没有关于样本数量、种类和注释的相同尺度的3D动物数据的数据集，使得难以实现可比的研究在本文中，我们提出了一种无标记的方法，从RGBD图像的三维骨骼姿态估计的犬为了实现这一目标，我们提出了一个犬数据集，其中包括皮肤的3D网格，以及同步RGBD视频和3D骨骼数据从运动捕捉系统，作为地面实况。狗被选为我们的捕捉对象有几个原因：他们熟悉与人的接触，因此通常接受穿着动作捕捉套装;可以轻松地将它们带入动作捕捉工作室;它们响应于给定的方向，在众多的对象中产生可比较的运动;它们不同的身体形状和大小产生具有有趣的形状变化的数据。我们建议，我们得到的狗骨架结构是更解剖学上正确的SMAL模型相比，骨骼中的骨骼数量更大，允许更多的表达。用（不受控制的）动物控制捕获环境具有挑战性-在有限的捕获会话中覆盖足够宽的可变性被证明是具有挑战性的。因此，我们的方法利用狗的骨架和运动捕捉系统产生的网格，以产生一个大的合成8337数据集。该数据集用于使用3D关节数据和相应的投影2D注释来训练预测网络和生成模型。单独使用RGB图像可能不足以进行姿态预测，因为许多动物已经进化到融入它们的环境中，并且类似颜色的肢体可能导致模糊。另一方面，深度图像不依赖于纹理信息，并且为我们提供了额外的优势，即提供用于预测关节的表面信息我们选择使用微软Kinect v2作为我们的RGBD深度传感器，由于其广泛的可用性和与该设备相关的既定研究领域。使用Li等人的Kinect传感器模型从我们合成生成的3D狗网格渲染图像。[20]提供具有逼真Kinect噪声的图像作为网络的训练数据。数据集生成过程的详细信息见第3.2节。尽管使用纯合成图像训练网络，但在真实深度图像上测试时，我们实现了高精度，如第4.1节所述。除此之外，在4.3节中，我们发现仅用狗训练网络仍然可以让它在类似渲染的四足动物（如马和狮子）上产生合理的结果。由深度网络预测的关节位置可能包含误差。特别是，它们不能保证估计的骨长度在同一动物的一系列图像中保持恒定，并且还可能产生物理上不可能的姿势。为了解决这些限制，我们采用了联合姿态配置的先验知识– 分层高斯过程潜变量模型（H-GPLVM）[18]。这允许在较低维度中表示高维非线性数据，同时模拟利用我们数据中的骨架结构。综上所述，我们的主要贡献包括：• 使用RGBD输入数据预测作为PCA模型参数的3D形状、3D关节位置和估计犬科动物的运动骨架。• 组合用于初始联合估计的堆叠沙漏CNN架构和用于解决姿势模糊性、改进拟合和转换联合位置的H-GPLVM。运动学骨架。• 一种新的RGB和RGBD犬数据集，具有从同步3D运动捕捉系统和形状模型估计的骨骼地面实况，包含-收集真实狗和合成狗的信息。该数据集和模型可在1.2. 相关工作2D动物姿态估计。动物和昆虫的2D姿态和位置数据在一系列行为研究中是有用的1https://github.com/CAMERA-Bath/RGBD-Dog。迄今为止，大多数解决方案使用浅训练神经网络架构，其中感兴趣的动物或昆虫的一些图像示例用于训练基于关键帧的特征跟踪器，例如，LEAP EstimatesAnimal Pose [28] ， DeepLabCut （ [22] ， [26] ）和DeepPoseKit（[12]）。Cao等人[7]通过提出一种在预测看不见的物种的姿态时用于跨域适应的方法来解决物种间表现的广泛变化的问题通过结合人类姿势的大型数据集（MPII Human Pose[2]），Microsoft COCO [21]中动物的边界框注释和作者的动物姿势数据集来创建训练数据集3D动物姿态估计。Zuffi等人[39]介绍了皮肤多动物线性模型（SMAL），它将动物外观分为PCA形状和姿势相关形状参数（例如，凸出的肌肉），从扫描的玩具动物的数据集产生。回归矩阵计算给定网格的关节位置。SMAL with Refinement（SMALR）[38]扩展了SMAL模型以提取毛皮纹理，并实现了更准确的动物形状。在这两种方法中，必要时手动创建轮廓，手动选择的关键点指导模型的拟合在学习形状和纹理的SMAL（SMALST）[37]中，神经网络自动回归形状参数，以及RGB图像中特定品种斑马的姿势和纹理，消除了轮廓和关键点的要求。Biggs等人[3]将SMAL模型拟合到使用Deeplab [ 8 ]从视频中自动提取的轮廓序列。CNN被训练来预测2D关节位置，训练集使用SMAL模型生成。二次规划和遗传算法选择最佳的2D关节位置。然后，SMAL适合于关节和轮廓。在训练我们的神经网络时，我们还从记录自狗的真实运动的大量运动捕获数据生成合成RGBD数据，而不是SMAL模型及其变体，其中姿势基于玩具动物和人类创建的步行周期。使用合成训练数据进行姿态估计。在从RGB图像预测姿态时，通常发现使用真实图像和合成图像的组合训练网络比单独使用真实图像或合成图像的训练提供更准确的预测（[35]，[9]，[29]）。之前的深度图像工作也表明，在真实图像上测试时，单独的合成训练可以提供准确的结果[17]。随机森林经常用于深度图像的姿态估计。这些包括与人体部位（[32]），小鼠身体部位（[25]）以及与人体模型表面网格（[34]）的密集对应的标记像素。Sharp等人[31]使用Kinect v2实时稳健地跟踪手部。8338图2：我们的管道网络部分概述。在训练阶段，从狗运动数据生成合成数据集。为每帧渲染一对图像：使用InteriorNet的Kinect模型渲染深度图像[21]以及使用OpenGL渲染的轮廓遮罩。在测试阶段，RGB Kinect图像用于生成狗的遮罩，然后将其应用于深度Kinect图像并输入网络。该网络产生一组2D热图，从中提取2D和3D关节位置。图3：我们的流水线的细化部分的概述，显示了当狗的中性体型未知时所采取的步骤。来自深度图像的点云初始化骨骼的比例，并且PCA模型从骨骼长度预测身体形状。H-GPLVM用于估计狗网格的粗略姿态，然后使用网格法线来细化网格/点云对齐。狗的尺度被细化，PCA模型产生最终的形状预测，H-GPVLM将狗的蒙皮网格完全拟合到点云。对于已知形状，不需要PCA预测步骤最近，神经网络也被用于从深度图像进行姿态估计。Huang Altamar [14]生成人体姿势的合成深度图像的数据集，并使用该数据集来预测身体上半部的姿势。Mueller等[24]结合两个CNN来定位和预测手部姿势。将运动学模型拟合到3D关节，以确保关节旋转的时间平滑性和骨骼长度在整个镜头中一致。在我们的工作中，我们使用来自狗的选择的运动捕捉数据来生成合成深度图像的数据集该数据集用于训练堆叠沙漏网络，该网络预测3D空间中的关节位置。给定由网络预测的关节，PCA模型可以用于预测未知狗的形状，并且H-GPLVM用于将关节位置约束到那些物理位置。cally似是而非的。我们相信我们的方法是第一个训练神经网络从RGBD图像中预测3D动物形状和姿势的方法，并将我们的管道结果与动物难以获得的3D地面实况进行比较，因此研究人员尚未探索。3. 方法我们的管道包括两个阶段;预测阶段和细化阶段。在预测阶段，纽维尔等人提出的沙漏网络模型被用来预测.[27]预测给定深度图像的一组2D热图。根据这些，重建3D关节位置。为了训练网络，使用Vicon光学运动捕捉系统记录了五只狗执行相同五个动作的运动数据（第3.1节）。这些骨架构成了一个网状的8339图4：包含在我们数据集中的狗，每只狗都穿着运动捕捉服。左边的两只狗只用于测试镜头。然后通过Kinect噪声模型将其渲染为RGBD图像，以生成大型合成训练数据集（第3.2节）。我们提供了关于网络训练数据的更多细节，并在第3.3节中解释了从热图进行3D关节重建。在细化阶段，使用在骨骼关节旋转上训练的H-GPLVM [19]来约束预测的3D关节位置（第3.4节）。所得到的骨架可以使由用户提供的或从形状模型生成的网格动画化，然后可以将该网格与深度图像点对齐以进一步细化骨架的根的我们比较我们的结果与比格斯等人的方法。[3]并在第4节中使用合成图像和真实图像中的地面真实联合位置来评估我们的方法。图2和图3分别概述了我们方法的预测和细化阶段3.1. 动物运动数据采集由于没有3D狗运动数据可用于研究，我们首先需要收集数据集。当地一家救援中心提供了16只狗进行记录。我们专注于五只狗，涵盖了各种形状和大小。对于训练/验证集，为每只狗选择相同的五个动作，还选择了额外的任意测试序列进行测试。除这5只犬外，还有2只犬用于评价管道，未纳入训练集中。这些犬如图4所示。一个带有20个红外摄像机的Vicon系统被用来记录狗的定制捕捉服上的标记。Vi- con以119.88帧/秒的速度记录标记，以59.94帧/秒的速度导出骨架数据。同时记录多达6个Kinect v2，使用libfreenect2库提取数据[4]。虽然Kinect以30fps的速度录制，但同时使用多个设备将整体帧速率降低到了6fps。然而，这并不影响我们预测网络的性能。有关记录的更多详细信息，请参见文档材料（第2.1）。图5：一系列真实Kinect v2图像（上图）与InteriorNet[20]（下图）生成的图像的比较，其中所有图像都已标准化。3.2. 合成RGBD数据生成我们的模板狗骨架是基于解剖骨架[11]。与人类不同，犬的肩部不受锁骨约束，因此具有平移和旋转自由度[10]。耳朵是用坚硬的骨头建模的，也有平移的自由，允许耳朵相对于头骨的底部移动。骨骼共有43个关节，自由度为95度. 每只狗的中性网格是由一位艺术家创建的线性混合蒙皮用于将网格蒙皮到相应的骨架，权重也由艺术家创建。为了从我们的蒙皮3D骨架创建逼真的Kinect图像，我们遵循Interior- Net [20]的类似过程。给定虚拟环境中狗的3D网格，我们对投射到对象上的独特红外点图案进行这个过程被认为保留了Kinect成像系统的大部分特征，包括深度阴影和遮挡。真实与合成Kinect图像的比较如图5所示。使用多达30个合成相机来为每只狗生成深度图像和相应的二进制掩码。补充材料中给出了用于生成地面实况热图的图像和联合数据归一化的详细信息。通过使用这些图像的镜像版本，数据集的大小增加了一倍，在训练集中总共有650，000张图像，在验证集中有180，000张图像。在图2的“Train”部分中可以看到数据生成的概述3.3. 骨架姿态预测网络为了使用堆叠沙漏框架，我们将关节表示为2D热图。网络的输入是256x256灰度图像，其中3D关节J3D256在该坐标空间中被定义。给定一个输入图像，网络产生一组129个热图H，每个热图的大小为64x64像素。狗骨架中的每个关节j与三个热图相关联，其索引为8340已知：hjXY，hjYZ，hjXZ，分别表示j的xy-，yz-和xz-坐标。在我们的实验中，这一组提供了最准确的结果为了生成训练网络所需的热图，J3D256被转换为64x64的图像坐标.设J3D64为这些变换后的坐标，其中J3D64=floor （J3D256/4）+1. 我们在以J3D 64的xy、yz和xz坐标为中心的热图中生成2D高斯，标准偏差为一个像素。由Biggs et al.[3]，沿动物矢状面的对称关节（即，腿和耳朵）产生多模型热图。关于热图生成的进一步技术细节可以在补充材料中找到。我们的神经网络是Newell等人提出的2层沙漏网络。[27]第10段。这个特定的网络被选为下采样和上缩放的连续阶段，允许在各种尺度上组合特征。通过在全局和局部尺度上观察图像，可以更容易地确定对象的全局旋转，并且可以利用关节之间的关系来产生更准确的预测。我们使用Py- Torch实现我们的网络，基于Yang提供的代码[36]。RMSprop被用作优化器，学习率为0.0025，批量大小为6。我们的损失函数是地面实况和网络生成的热图之间的MSE。3.3.1从2D关节位置给定网络生成的热图，我们确定J3D64的值，即每个关节在64x64图像坐标中的x轴、y轴和z轴上的位置每个关节j与三个热图相关联：hjXY、hjYZ、hjXZ。对于产生单峰热图的关节，具有来自hjXY、hjYZ、hjXZ的集合的最高峰值的热图确定三个坐标中的两个坐标的值，其中剩余坐标取自具有第二最高峰值的图对于具有多模态热图的关节，我们重复此步骤，首先参考三个热图中的最高峰，然后参考第二高峰。该过程导致形成对称对（jp1，jp2）的所有接头的两个潜在接头位置如果jp1的预测坐标的XY位置在jp2的XY位置的阈值内，则我们假设网络错误地预测了两个关节的相同位置在这种情况下，具有最高置信度的关节保留该坐标，并且剩余关节被分配其下一个最可能的关节。一旦确定了J3D64，坐标就转换成J3D256.在这一步之前，如Newell et al. [27]，四分之一像素偏移量应用于J3D 64中的预测。我们首先在每个预测关节的4像素邻域内确定具有最高值的邻域的位置。此位置决定了应用偏移的方向。作者指出，增加这一关-集合提高了联合预测精度。最后，J3D64被缩放以适合256x256的图像，得到J3D256. 当变换用于网络输入的图像时获取的图像比例和平移被反转，并用于将J3 D 256的xy坐标变换为J2 Dfull，即全尺寸图像中的投影。为了计算J3D256中每个关节在相机空间中的深度，图像和关节数据归一化过程被反转并应用. J2 Dfull使用相机的内部参数和每个预测关节的深度转换为J 3 Dcam。3.4. 姿势先验模型虽然一些先前的姿势模型使用PCA模型表示骨架旋转，诸如Safonova等人的工作。[30]，我们发现这种类型的模型产生的姿势对狗来说是不可能的。与此相反，高斯过程潜变量模型（GPLVM）[18]可以对非线性数据进行建模，并允许我们在低维流形上表示我们的高维骨架。分层GPLVM（H-GPLVM）[19]利用骨架不同部分之间的关系从模型中排除耳朵由于耳朵是由软组织制成的，它们主要受狗的速度影响，而不是其他身体部位的姿势。这将骨架的自由度从95减少到83。骨旋转表示为单位四元数，肩部的平移相对于其静止位置定义。镜像也包括在模型中。补充材料包含我们的层次结构的进一步技术规格（第2.3）。我们移除包含相似姿势的帧以减少训练集S中包括的帧的数量。使用点积计算两个四元数的相似度，然后将骨架中所有骨骼的结果相加，给定一个候选姿势，我们计算它与S中所有姿势之间的相似度。如果所有计算的最小值高于阈值，则将候选姿态添加到S。将相似性阈值设置为0.1可将序列中的帧数数据矩阵由S构造并归一化。在优化模型时使用后向约束，这意味着相似的姿势在流形中彼此非常接近。3.4.1将H-GPLVM拟合到预测的关节权重与网络预测的每个关节相关联，以帮助指导H-GPLVM的拟合补充材料中提供了关于这些重量的信息。为了在H-GPLVM的根节点中找到初始坐标，我们使用k-means聚类对50个保持根平移固定，我们找到最小化8341网络预测关节和模型生成关节。具有最小误差的姿态和旋转被选择作为下一优化步骤的初始值。然后对H-GPLVM坐标和根旋转进行了细化。在这个阶段中，包括联合投影误差，因为发现如果网络给出合理的2D预测，但有噪声的3D预测，这有助于姿态估计。由模型的根节点生成的向量提供了沿着树进一步的节点的初始坐标。然后，模型的所有叶节点、根旋转和根平移被同时优化。在拟合过程中，我们寻求最小化网络预测的关节位置与H-GPLVM预测的关节位置之间的距离：公式1定义了相应的损失函数：ΣBL（X，R，T，t）= γb <$jb−F（X，R，T，t）b<$b=1ΣB+λγb<$Φ（jb）− Φ（F（X，R，T，t）b）<$。（一）b=1这里，B是骨架中关节的数量，J=[j1，...，是来自网络的预测关节位置的集合，r = [γ1，.，γb]是与每个关节相关联的权重的集合，Φ是透视投影函数，λ是拟合模型时2D信息的影响。令X是H-GPLVM的给定节点的n维坐标的集合，并且F是取集合X、根旋转R、根平移T、肩部平移t并且产生3D关节的集合的函数。图3显示了过程的结果。4. 评价和结果为了评估我们的方法，我们预测犬的形状和姿势RGBD数据的一组五个测试序列，每只狗。选择每个序列用于犬的全局定向，以覆盖广泛范围，包括侧视图和透视图，其动作包括一般行走/探索运动。在每种情况下，我们预测形状和姿势，并将这些预测与从运动捕捉系统获得的地面真实骨架进行比较（见3.1节）。更详细的实验分析以及实验装置的进一步技术细节-以及视频结果-可以在补充材料中找到。由于没有以前的方法自动提取深度图像中的狗鼻，我们比较我们的结果与Biggs等人。[3]，我们将其称为BADJA结果。我们注意到，作者的方法只需要轮廓数据，因此预计我们的方法会产生更准确的结果。这两种算法都在无噪声图像上进行了测试。我们使用两个指标来衡量我们的系统的精度：平均每关节位置误差（MPJPE）图6：当根据地面真实骨架评估预测骨架时，每个骨架组中的关节数左：BADJA [ 3 ]使用的SMAL骨架，右：我们的骨架关键点正确概率（PCK）MPJPE测量欧几里得距离，并在两个骨架的根对齐后计算。变体PA MPJPE使用Procrustes分析来将预测的骨架与地面实况骨架对齐。PCK描述了以下情况：预测的关节在距离真实值的阈值内阈值为αA，其中A是图像中具有非零像素值的区域，α= 0.05。值的范围为[0，1]，其中1表示所有关节都在阈值内。PCK也可以用于3D预测[23]，其中阈值设置为人头部宽度的一半。由于我们只能确定头骨的长度，因此我们将阈值设置为1，并缩放每个骨架，使头骨的长度为2个单位。为了比较MPJPE和PCK 3D的值，我们还使用PA PCK 3D，其中关节与PA MPJPE中相同，然后计算PCK 3D。由于犬肢体频繁闭塞，以下组报告了错误：全部-骨架中的所有关节;头-包含在颈部和头部的关节;身体-包含在脊柱和四条腿的关节;– 尾巴：尾巴上的关节。图6显示了使用的两个骨架的配置和属于每个组的关节。我们针对每只狗的管道包含一个单独的神经网络、H-GPLVM和形状模型，因此在测试之前，相应的模型不会看到来自该特定狗的数据。表1包含用于比较的PA MPJPE和PA PCK 3D结果。将这些结果与MPJPE和PCK 3D结果进行比较，对于我们的方法，PA MPJPE将误差平均降低0.416，PA PCK3D将误差平均增加0.233。对于BADJA，MPJPE PA将误差平均降低了1.557，PA PCK 3D增加了0.523，这表明单独从轮廓确定根旋转的困难，就像使用BADJA的情况一样。4.1. 将管道应用于真实Kinect视频在真实世界数据上运行网络涉及从输入图像生成狗的掩码的附加步骤。我们从RGB图像生成遮罩有两个原因：（1）预先训练用于检测动物的RGB分割网络是现成的，（2）RGB图像具有8342狗方法度量所有头身体尾巴Dog1我们MPJPEPCK0.4710.9360.3820.9840.5270.9150.3850.955巴迪亚[3]MPJPEPCK0.9760.6650.9930.6071.0020.6850.8790.661狗2我们MPJPEPCK0.4021.0000.3031.0000.4101.0000.4730.998巴迪亚[3]MPJPEPCK0.4910.9560.3921.0000.5241.0000.4860.928狗3我们MPJPEPCK0.3920.9850.4390.9450.3900.9940.3530.999巴迪亚[3]MPJPEPCK0.6100.8660.8430.7070.6170.8740.3561.000狗4我们MPJPEPCK0.4170.9810.3950.9530.4210.9850.4280.996巴迪亚[3]MPJPEPCK0.7300.7870.6780.8610.7600.7540.6870.817狗5我们MPJPEPCK0.7460.7900.5420.9250.7480.7870.9440.664巴迪亚[3]MPJPEPCK0.9970.6920.7630.7941.1070.6580.8850.694图7：来自BADJA [3]的结果（第1- 4行）和我们的结果（第5-8行）的示例。第1列是地面实况骨架。第2列是3D结果的投影。第3列是在PA MJPJE误差中计算的3D结果的侧视图（其中地面实况以较细的线显示），第4列是自上而下的视图。分辨率比深度图像更高，并且包含更少的噪声，特别是当将狗的脚与地平面分离时因此，在使用单应矩阵变换之前，从RBG图像生成掩模表1：使用PA MPJPE和PA PCK 3D计算的3D误差结果，比较了我们的管道和BADJA [3]中使用的管道。图6中报告了与全身或重点身体部位相关的错误。狗方法度量所有头身体尾巴狗6CNNMPJPEPCK0.8660.7450.4910.9560.7760.7801.5230.425H-GPLVMMPJPEPCK0.6670.8730.4660.9690.6270.9380.9930.575H-GPLVM（已知形状）MPJPEPCK0.3840.9670.4330.9750.4370.9540.1691.000狗7CNNMPJPEPCK0.5630.9070.3640.9930.5070.9430.9390.707H-GPLVMMPJPEPCK0.5570.9220.4940.9470.4710.9820.8880.711表2：使用真实Kinect图像时PA MPJPE和PA PCK 3D的3D误差结果，其中每个骨架被缩放，使得头部具有两个单位的长度。我们显示了网络预测（CNN）和最终管道结果（H-GPLVM）的误差。对于Dog6，我们还显示了已知狗网格和骨架形状的错误转换为深度图像坐标。使用两个预训练网络的组合来生成掩码：Mask R-CNN [13]和Deeplab [8]。更多细节见补充材料。我们在表2中显示了狗的中性形状未知和已知的情况下的3D结果骨架的示例如图8所示。4.2. 未知狗如果当前狗的骨架和中性网格事先是未知的--就像我们所有的结果中的情况一样，除了表2中的“已知形状”结果-8343图8：真实Kinect图像上的结果示例。从上到下：地面实况，最终 3D结果的投影，将 3D 结果与计算 PAMPJPE后的较薄地面实况结果进行比较。左：狗6，未知形状。中心：狗6，已知形状。右：Dog7，未知形状。用来预测这些信息。该模型由18只狗组成：5只狗用于训练CNN，由艺术家创建，另外6只狗也由艺术家创建，3只狗是详细的玩具动物扫描，4只是购买的摄影测量扫描。所有的狗都有一个共同的姿态和网格与一个共同的拓扑结构。PCA模型是根据狗从常见姿势到中立站立姿势所需的网格、骨骼长度和关节旋转来构建的。模型的前四个主成分用于找到骨骼比例与记录的狗最匹配的狗这将生成狗的估计中性网格和骨架。4.3. 延伸到其他四足动物我们在Bronstein等人提供的其他物种的额外3D模型上测试了我们的网络。（[5]，[6]）。模型的图像按照第3.2节所述进行渲染。网络的训练数据由五只训练犬的由于没有为3D模型提供地面真实骨架信息，因此我们基于视觉检查来评估性能。图9的前三列中提供的示例结果显示，当给定动物的姿势与训练集中看到的姿势相似时，即使受试者不是狗，网络也表现良好。然而，当动物的姿势与训练集中的姿势范围非常不同时，预测会降低，如图10的最后三列所示。图9：给定Bronstein等人提供的3D模型子集的图像时的网络结果。（[5]，[6]），如第3.2节所述。虽然网络只使用狗的图像进行训练，但前三列显示网络可以为动物与训练集中的动物相似的图像生成良好的姿势。最后三列显示了网络未能预测出合理姿势的地方。图9.这为进一步的工作提供了动力。5. 结论和未来工作我们已经提出了一个系统，它可以预测3D形状和姿势的狗从深度图像。我们还向社会提出了我们的预测网络是使用利用这些数据合成生成的深度图像进行训练的，并且被证明在真实Kinect输入的情况下可以很好地用于3D骨架姿势预测。我们评估了我们的结果对3D地面实况联合位置证明我们的方法的有效性。图9显示了将管道延伸到其他动物物种的潜力。我们预计，姿势更加多样化的训练集将产生比图9中的失败案例更准确的结果。除了在多个帧上估计骨骼长度的选项目前，蒙版生成需要额外的预处理步骤，并且基于Kinect的RGB通道。相反，姿势预测网络可以执行从深度图像本身提取狗的步骤。这可以产生更鲁棒的掩模，因为狗的提取将不再依赖于纹理信息。由于一般对抗网络（GAN）现在被认为可以产生最先进的结果，我们打算更新我们的网络，以直接回归关节旋转，并将其与GAN结合起来，以约束姿势预测。谢谢。这项工作得到了运动分析、娱乐研究和应用中心（EP/M023281/1）、EPSRC数字娱乐博士培训中心（EP/L016540/1）和蔚山国立科学技术研究所结算研究基金（1.190058.01）的支持。8344引用[1] 卡内基梅隆大学运动捕捉数据库。网址：//mocap.cs.cmu.edu网站。2019-08-05. 1[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议（CVPR）中，2014年6月。2[3] 本杰明·比格斯，托马斯·罗迪克，安德鲁·菲茨吉，罗伯托·西波拉。伟大和渺小的生物：从视频中恢复动物的形状和运动。在亚洲计算机视觉会议上，第3-19页。Springer，2018. 一、二、四、五、六、七[4] Joshua Blake ， Christian Kerl ， Florian Echtler ， andLingzhu Xiang. libfreenect 2：Kinect v2深度相机的开源库，发布0.1.1，2010年1月1日。2016. 4[5] Alexander M Bronstein ， Michael M Bronstein 和 RonKimmel。有效计算等距不变的距离之间的表面。SIAMJournal on Scientific Computing，28（5）：1812-1836，2006. 8[6] Alexander M Bronstein ， Michael M Bronstein 和 RonKimmel。几何学和纹理操作的非刚性曲面演算IEEETransactions on Visualization and Computer Graphics，13（5）：902-913，2007。8[7] Jinkun Cao，Hongyang Tang，Hao-Shu Fang，XiaoyongShen，Cewu Lu，and Yu-Wing Tai.跨域适应动物姿态估计，2019。一、二[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。二、七[9] 陈文正、王欢、李阳燕、苏浩、王振华、涂长河、丹尼·利辛斯基、丹尼尔·科恩-奥尔和陈宝泉.合成训练影像以提升人体三维位姿估计。2016年第四届3D视觉国际会议（3DV），第479IEEE，2016. 2[10] A.法里塞利狗有一项圈 -骨头？https://dogdiscoveries.com/do-dogs-have-a-collarbone/，2019.2019-08-07. 4[11] A. Gardiner和M.雷诺狗解剖工作手册。特拉法尔加广场，2014年. 4[12] Jacob M Graving ， Daniel Chae ， Hemal Naik ， LiangLi，Ben-Koger，Blair R Costelleg，and Iain D Couzin.快速和鲁棒的动物姿态估计。bioRxiv，第620245页，2019年。2[13] Kaiming He，Georgia Gkioxari，Piotr Dollár，and RossGir-shick. 面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页7[14] Jingwei Huang和David Altamar。基于卷积神经网络的深度图像姿态估计3[15] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu.人类3。6m：自然环境中3D人体感知的大规模数据集和预测方法。IEEE Transactions onPattern Analysis and Machine Intelligence，36（7 ）：1325-1339，2013. 1[16] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。英国机器视觉会议论文集，2010年。doi：10.5244/C.24.12。1[17] Christoph Lassner ， Gerard Pons-Moll ， and Peter VGehler.穿着衣服的人的生成模型。在IEEE计算机视觉国际会议论文集，第853-862页，2017年。2[18] 尼尔·D·劳伦斯高维数据可视化的高斯过程隐变量模型。神经信息处理系统的进展，第329-336页，2004年。二、五[19] Neil D Lawrence和Andrew J Moore。层次高斯过程潜变量模型。第24届机器学习国际会议论文集，第481-488页。ACM，2007年。四、五[20] Wenbin Li ， Sajad Saeedi ， John McCormac ， RonaldClark ， Dimos Tzoumanikas ， Qing Ye ， YuzhongHuang，Rui Tang，and Stefan Leutenegger.内部网：大规模多传感器照片逼真的室内场景数据集。2018年英国机械视觉会议（BMVC）。二、四[21] Tsung-Yi Lin，Michael Maire，Serge Belongie，JamesHays，Pietro Perona，Deva Ramanan，Piotr Dollár，andC Lawrence Zitnick.微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 二、三[22] 放大图片作者：Alexander Mathis，Pranav Mamidanna，Kevin M.放大图片作者：Kerry，Taiga Abe，VenkateshN.Murthy ， Mackenzie W. 马西斯和马蒂亚斯 · 贝奇Deeplabcut：使用深度学习对用户定义的身体部位进行无标记姿势估计。自然神经科学，2018。2[23] Dushyant Mehta Helge Rhodin Dan CasasPascal Fua，Oleksandr Sotnychenko ， Weipeng Xu ， and ChristianTheobalt.使用改进的cnn监督进行野外单目三维人体姿态估计。在2017年3D视觉国际中，第506-516页IEEE，2017年。6[24] Franziska Mueller、 Dushyant Mehta、 Oleksandr Sotny-chenko 、 Srinath Sridhar 、 Dan Casas 和 ChristianTheobalt。基于自我中心rgb-d传感器的遮挡下手部实时跟踪。在IEEE计算机视觉国际会议论文集，第1284-1293页3[25] Ashwin Nanjappa，Li Cheng，Wei Gao，Chi Xu，AdamClaridge-Chang，and Zoe Bichler.从深度图像估计鼠标姿态。arXiv预印本arXiv：1511.07611，2015年。2[26] Tanmay Nath，Alexander Mathis，An Chi Chen，AmirPatel，Matthias Bethge，and Mackenzie W Mathis.使用deeplab- cut进行跨物种和物种的3d无标记姿态估计。Nature protocols，2019. 2[27] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络在欧洲计算机视觉会议上，第483-499页施普林格，2016年。三、五[28] TalmoD Pereira ， DiegoE Aldarondo ， LindsayWillmore ， Mikhail Kislin ， Samuel S-H Wang ， MalaMurthy，and Joshua W Shaevitz.使用深度神经网络进行快速动物姿态估计。Nature methods，16（1）：117，2019. 28345[29] 格里高利·罗杰斯和科迪莉亚·施密德mocap引导的野外3d姿态估计神经信息处理系统的进展，第3108-3116页，2016年2[30] Alla Safonova，Jessica K Hodgins，and Nancy S Pollard.在低维、特定行为空间中合成物理上真实的人体运动。在ACM Transactions on Graphics（ToG），第23卷，第514ACM，2004年。5[31] TobySharp，Cem Keskin，Duncan Roberts

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于RGBD图像的狗的3D姿态预测的方法及其应用

用于3D对象检测和姿态估计的方法

基于RGBD图像的遮挡处理实时增强现实

基于RGBD图像和卷积神经网络的快速道路检测

使用kinectv2生成rgbd图像需要图像配准的方法

基于深度学习的RGBD图像语义分割研究现状

基于深度学习的 RGBD 图像语义分割相关原理

基于深度学习的RGBD图像语义分割算法基本知识

基于深度学习的 RGBD 图像语义分割算法研究研究现状

基于深度学习的RGBD图像语义分割算法研究损失函数

基于python将Kinect2的彩色图像与深度图像保存并生成rgbd图像从而生成点云

RGBD 三维人体姿态估计

RGBD图像语义分割基础

使用kinectv2生成rgbd图像需要图像配准吗

RGBD图像语义分割基础流程

RGBD图像语义分割研究现状

基于深度学习的 RGBD 图像语义分割算法研究国内外研究现状时间线

RGBD图像语义分割算法研究现状

最新资源