人体姿势推断及应用研究

179 浏览量更新于2023-10-23 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9890You2Me：通过第一和第二人称交互推断自我中心视频中的身体姿势Evonne Ng1，2ng@berkeley.edu东莱巷3号donglaix@cs.cmu.eduHanbyul Joo4hjoo@fb.com克里斯汀·格劳曼2，4grauman@cs.utexas.edu1加州大学伯克利分校2德州大学奥斯汀分校3卡内基梅隆大学4Facebook AI Research摘要佩戴相机的人的身体姿势对于增强现实、医疗保健和机器人技术中的应用非常感兴趣，但是对于典型的可穿戴相机来说，人的身体的大部分都是不可见的。我们提出了一种基于学习的方法来估计相机佩戴者的三维身体姿势从自我中心的视频序列。我们的关键见解是利用与另一个人的互动，我们可以直接模仿他的身体姿势，作为与第一人称主体的身体姿势内在联系的信号。我们表明，由于个人之间的相互作用往往会引起一系列有序的来回响应，它是可能的，即使一方是在很大程度上的观点，学习一个时间模型的相互关联的构成我们展示了我们的想法在各种领域的二元互动，并显示自我中心的身体姿态估计，提高了国家的艺术的实质性影响。1. 介绍可穿戴相机正成为一个越来越可行的娱乐和生产力平台。在增强现实（AR）中，可穿戴耳机将允许用户将来自虚拟世界的有用信息与真实的第一人称视觉体验融合在一起，以及时访问信息在医疗保健领域，可穿戴设备可以为试图在自己家中改善身体机能的康复患者开辟新的远程治疗形式。在机器人领域，可穿戴设备可以简化基于视频的学习。在所有这些情况下，以及更多的情况下，相机接收周围视觉世界的第一人称或“自我中心”视角。分析以自我为中心的视频流的视觉系统不仅应该提取关于可见环境（对象、场景、事件）的高级信息，而且还应该提取佩戴摄像机的人的当前状态。特别地，相机佩戴者的身体姿势是非常感兴趣的，因为它揭示了他/她的身体活动，图1.人与人之间的互动在日常活动中很常见，并为感知提供了丰富的信号。我们的工作考虑如何从第一人称可穿戴相机的交互可以促进自我中心的3D身体姿势估计。姿势和手势。不幸的是，相机佩戴者的身体通常在很大程度上在相机的视野之外。While this makes state-of-the-art third-person pose methods poorly suited [63, 45, 58,34, 24, 10], recent work suggests that an ego-video streamnonetheless offers implicit cues for first-person body pose[26, 69, 70].然而，先前的工作将任务限制在缺乏人与人之间交互的静态环境中，迫使算法依赖于低级线索，如明显的相机运动或粗糙的场景布局。我们的想法是通过关注在第一人称视频流中观察到的第一和第二人称之间的交互来促进相机佩戴者的3D身体姿势（或简称“自我姿势”）的恢复人际交往是非常普遍的，占据了每个人日常活动的很大一部分正如认知科学中众所周知的那样[47，60，8]，人体姿势在很大程度上受到相互作用的个体之间的固有同步的例如，一个人看到别人伸出手来握手，很可能也会伸出手来回应;一个人在讲故事时生动地打手势，可能会看到他们的互动伙伴点头回应;儿童玩耍可能与他们的身体动作密切互动。见图1为此，我们引入“You2Me”：一种用于自我姿态估计的方法，其明确地捕获第一和第二人体姿态之间的相互作用。我们的模型使用了一个递归神经网络，1在整个过程中，我们使用“第二人称”来指代相机佩戴者当前正在与之交互的人;如果佩戴者是“我”，则交互中的被交互者或伙伴是“你”。9891图2.我们的目标是推断完整的三维身体姿势序列的人从他们的自我中心的视频捕获的一个单一的胸部安装的摄像机。我们的模型侧重于交互动力学预测佩戴者的姿势作为交互对象的姿势，这是从自我视图可见的功能。该图示出了输入视频，其中被交互者的（第二人称）姿势被突出显示，并且佩戴者的姿势的输出3D联合预测与相机佩戴者的对应图片。请注意，我们的方法只看到自我中心的视频（顶部）;它看不到显示相机后面的“第一人”的图像的底行。所观察到的第二人称姿态与相机运动和场景外观一起来推断整个视频序列上的潜在自我姿态。参见图2。据我们所知，没有先前的工作模型的自我姿态的相互作用我们的主要贡献是利用二元交互中的动作-反应动力学来估计来自单目可穿戴摄像机的自我姿态。我们验证了我们的You 2 Me自我姿态方法在两种形式的地面真实捕获-从Kinect传感器和Panoptic Studio[28]-对视频数据跨越10个主题和几个互动领域（对话，体育，手部游戏和投球）。我们的研究结果表明，即使第一人称此外，我们的You2Me方法在适应我们的设置时优于用于自我姿势的最先进的方法以及当前标准的深度第2. 相关工作第三人称身体姿势和交互有大量文献从传统的第三人称视角估计人体姿势，其中人完全可见[53，50，64，13]。最近的方法探索了新的基于CNN的方法，这些方法大大改善了图像和视频中可见身体姿势的检测[10，65，71，11，34，24，18，58，36，35，30]。我们的ap-相反，Proach估计基本上多人姿态跟踪研究人体运动和人与人之间交互的结构，以限制潜在的姿态轨迹[25，10]。除了身体姿势，还有越来越多的人对建模人与人之间的交互[57，23，40]的兴趣，以预测行人的轨迹[1，43，2]，ana-溶解社会行为和群体活动[43，59，6，15，23]，并理解人与物体的相互作用[61，19，12]。我们的方法还利用了人际互动的结构。然而，尽管这些现有方法假设所有人都完全在相机的视野内，但我们的方法解决了视野内的个体和视野外的个体之间的交互，即，相机佩戴者以自我为中心的视频最近以自我为中心的视觉工作主要集中在识别物体[14]，活动[44，16，39，56，46，37，52，51，68]，可见手和手臂姿势[7，31，32，49，48]、眼睛注视[33]或预测未来的摄像机轨迹[41，9]。相比之下，我们探索相机佩戴者全身的3D姿势估计，并且与上述任何一个不同，我们表明推断的另一个来自视频的第一人称身体姿势自我中心3D全身姿势估计仅受到有限的关注[26，55，69]。针对该问题的第一次尝试是基于几何的“由内而外的mocap”方法[55]，该方法使用运动恢复结构（SfM）来重建放置在人关节上的16个身体安装摄像机的3D位置。相比之下，我们提出了一种基于学习的解决方案，它只需要一个胸部安装的摄像头，这使得它更适合日常活动。有限的最近的工作提取自我姿态从单眼第一人称视频[26，69]。[26]中的方法通过用手工制作的成本函数阵列优化隐式运动图来推断相机佩戴者的姿势，包括坐/站分类器。相比之下，我们提出了一种端到端的学习方法，它从完整的视觉框架中学习。[69]中的方法在基于控制的方法中使用人形模拟器来恢复影响姿势的动作序列，并且仅对合成序列进行定量评估。虽然这两种基于学习的方法都专注于引起显著相机运动（如弯曲，坐下，行走）的扫动运动，但我们的方法在相机只有细微运动（如握手和其他会话手势）时改进了对上身关节位置的预测。此外，与[69]不同的是，我们的方法不需要模拟器，并且直接从视频中进行所有学习，这些视频由地面真实自我姿势组成。最重要的是，与任何现有的方法[26，55，69]不同，我们的方法发现了人际互动中的动态和自我中心的身体姿势之间的联系第一人称视频中的社交信号第一人称视频以人为中心，自然是丰富的社交信息来源探索社交信号的先前工作集中在从自我视频中检测社交群体[3，4，17]和相互凝视[66，67]或共享凝视[42]。更相关9892对于我们的工作，[68]的活动识别方法使用成对的以自我为中心的视频来学习二元交互中的手势和该方法捕获人与人之间的动作之间的相关性（例如，指向、传递项）以更好地对它们进行分类。然而，尽管[68]在测试时需要两个以自我为中心的视频，但我们的方法仅依赖于单个自我视频。虽然取消第二个摄像头带来了新的技术挑战（因为我们无法同时查看动作和响应），但它提供了更大的灵活性。此外，我们推断身体姿势，而[68]对动作进行分类。3. 我们的方法目标是将单个第一人称视频作为输入，并估计相机佩戴者的3D身体姿势序列作为输出。我们的主要见解是不仅利用第一人称视频中明显的外观和运动，而且还估计第二人称在这一节中，我们提出了一个模型，使用第一和第二人称特征-都从单眼自我中心的视频提取-预测的3D关节的相机佩戴者。我们首先定义了姿势编码（第3.1节）和网络的三个输入（第3.2节至第3.4节），然后是循环长短期记忆（LSTM）网络，它使用它们来对视频进行姿势预测（第3.5节）。3.1. 问题公式化给定来自胸部安装的摄像机的N个视频帧，我们估计N个3D人体姿势的相应序列。每个输出姿势pt∈R3J是3D点的线条画骨架，其包括帧t处的相机佩戴者的预测身体姿势的J个关节位置。请注意，我们的目标是与识别动作相反，推断关节姿势。每个预测的3D身体关节被定位在一个人身上-中心坐标系，其原点在佩戴者胸部上的相机处。第一轴线平行于地面并且指向佩戴者面向的方向。第二轴平行于地面，并与肩线位于同一平面上。第三个轴是每一个接地平面。为了考虑不同尺寸的人，我们根据个人的肩宽对每个骨架进行标准化。3.2. 动态第一人称运动特征从第一人称相机观察到的运动模式提供了关于相机佩戴者的身体关节的强烈的场景独立线索例如，高度的突然下降可以指示朝向坐姿的移动，或者逆时针旋转可以指示肩膀向左倾斜。为了捕捉这些模式，我们通过提取一系列的homogra来构建场景不变的动态特征在每个连续的视频帧之间的phies，遵循[26]。虽然单应性仅在相机纯粹旋转时是严格场景不变的，但是当帧速率高时，自我中心相机在连续帧之间平移非常少。这些单应性便于推广到新的环境中，因为运动信号是独立的场景的确切外观。我们通过SVD [22]求解齐次线性方程来估计流对应的单应性然后将得到的3×3单应性矩阵中的每个元素通过左上角的元素进行归一化在给定持续时间内的归一化单应性的堆栈用于represent the global camera movement within the interval.对于给定视频中时间步t处的帧ft，通过计算间隔[ft-15，ft]内的连续帧之间的单应性来构造运动表示。然后，我们对单应性进行矢量化，并将它们组合成mt∈R135矢量，该矢量表示帧ft之前的相机移动的半秒间隔（对于30 fps视频）。3.3. 静态第一人称场景特征虽然动态特征揭示了引起显著的相机运动（例如跑步或坐着）的扫动动作的重要线索，但是对于以自我为中心的视频中几乎没有运动的序列，它们更加模糊。为了说明这一点，我们的第二个功能关注周围场景的出现。在日常生活中，许多静态场景结构与某些姿势密切相关。例如，如果相机佩戴者向前倾斜以触摸他/她的脚趾，则以自我为中心的相机可以看到地板;如果照相机佩戴者站着看计算机监视器，则与照相机佩戴者坐着看同一监视器相比，以自我为中心的照相机将看到不同的图像。与上面的动态特征一样，周围的场景提供了关于自我姿态的线索，而相机佩戴者为了获得静态第一人称场景特征，我们使用了在ImageNet上预训练的ResNet-152模型。删除预训练模型上的最后一个全连接层，我们将ResNet-152的其余部分视为视频帧的固定特征提取器。给定帧ft，我们将图像通过修改后的ResNet-152，输出st∈R2048。[26]而自我姿态的方法依赖于站立与。坐图像分类器捕获静态上下文，我们发现我们的场景的完整视觉编码有助于更准确的姿势学习。请注意，默认情况下，此功能也会捕获第二人称姿势的元素;然而，如果不显式提取姿势，那么简单地从ResNet功能中学习它会更加低效，正如我们将在结果中看到的那样。9893图3.从自我视频帧中提取的特征的可视化。ResNet Grad-CAM [54]热图表明，当一个人离得较远时，焦点会集中在房间里的静态物体（沙发，自行车，壁毯）上，这有助于捕捉粗略的姿势，但当被交互者离得较近时，焦点会更多地集中在人身上，这会影响更精细的细节。虽然流/单应性特别好地从相机佩戴者的手捕获运动OpenPose [10]生成一个2D表示的互动者3.4. 第二人称身体姿势交互特征2D关键点联合估计（请参见Supp.文件）。对于每个帧，我们将输出25个关键点估计平坦化为向量0t∈R50（表示为我们将〇t中的缺失或闭塞关节设置为零，这可以提供其自己的关于穿戴者当他/她更靠近时看不到腿）。请注意，我们的学习方法对于自我和第二人称姿势的精确编码是灵活的。将归一化的2D关键点用于第二人称姿态与将以人为中心的3D坐标用于自我姿态是秒3.1）;而这将是一个问题，对于以这种方式混合2D和3D的基于学习的方法，依赖于空间配准的纯几何方法是一致的。此外，虽然完美的3D第二人称姿势将提供最完整的信息，例如，为了避免透视缩短，我们发现最先进的3D方法[29，62，71]由于佩戴者手部的广泛遮挡而无法使用我们的数据。参见第5用于具体证明该设计选择的实验。图3展示了完整的特性集。3.5. 用于位姿推断的递归神经网络上面定义的所有三个基于视频的线索都用作递归神经网络的输入以执行姿势估计我们的第三个也是最重要的输入包括与相机佩戴者交互的人的“第二人称”姿势。虽然动态和静态特征都有助于捕获来自较大的共同动作的姿势，但我们建议结合第二人称姿势来明确说明交互动态，该交互动态影响参与交互的两个人之间顺序执行的手势和微动作在人与人之间的互动中，双方的行为者之间存在着大量的共生关系。特定的动作会引起一定的反应，而这些反应又会影响个体的身体姿势。例如，如果我们看到一个人准备投球，我们的自然反应是举起手臂接球。或者更微妙地说，如果我们看到一个人转向看一个路人，我们可能会转向跟随他们的目光。通过理解这种动态，我们可以通过简单地观察与他/她交互的人的可见姿势来收集相机佩戴者的重要因此，我们的第三特征记录被交互者的推断姿势。仍然使用以自我为中心的视频，我们估计每帧中被交互者在这里，我们可以从第三人称角度利用最近的成功进行姿势估计：与照相机佩戴者不同，第二个人是可见的，即，自我摄像机镜头给出了交互者的第三人称视图。由于其效率和准确性，我们使用OpenPose [10]来推断被交互者的姿势，尽管也可以采用其他OpenPose提供实时多人关键点检测：给定一个帧堆栈，它返回一个对应的标准化25帧堆栈。完整的序列。特别是，我们定义了一个长短-术语记忆（LSTM）网络[20，21]用于我们的任务。LSTM学习相机佩戴者、场景和被交互者的当前状态，并使用此编码来推断相机佩戴者的下一个姿势。LSTM虽然可以训练LSTM对身体姿势的实值坐标进行回归，但我们发现细粒度分类任务可以更稳健地训练，正如文献中经常报道的那样（见表1的最后一行）。因此，我们首先使用K-均值将训练身体姿势的空间划分为大量细粒度姿势（详情如下）。现在的任务是在每个时间步映射到最接近的给定D的隐藏状态维度，LSTM在时间t的隐藏状态向量ht∈RD捕获视频中该时刻的相机佩戴者的姿势的累积潜在表示对于每个帧ft，我们提取单应矩阵mt，ResNet-152场景特征vec，torst，以及第二人称关节位置向量ot。为了向LSTM提供场景的更紧凑的表示（有助于节省GPU内存），我们将st投影到一个低维嵌入xt∈RE：xt=φx（st;Wx），（1）其中W x的大小为E ×2048，由φ x（. ）的情况。然后将嵌入通过批处理规范化层。9894图4. Network architecture for our You2Me approach. （a）对于每个视频帧，我们提取三个特征。ResNet提供关于场景的静态视觉提示过去15帧的堆叠单应性为自我相机提供运动线索最后，我们使用OpenPose [10]提取可见交互对象的推断2D姿势。所有这三个特征都被连接（candidate）并输入LSTM。(b)说明了我们的LSTM，它将（a）中的特征向量和从前一帧估计的相机佩戴者姿势的嵌入作为输入。LSTM的输出产生自我姿势预测，将细粒度量化的身体姿势之一分配给每个帧。LSTM使用佩戴者令pt-1是K维独热向量，其指示相机佩戴者在前一帧t-1处的姿势（在t=0处初始化为平均训练姿势）。我们学习线性嵌入对于姿态指示符，将其映射到向量zt：zt=φz（pt−1;Wz），（2）其中，W z的大小为E × K，并且由针对φ z（. ）的情况。所有的特征都被连接（由运算符表示）到单个向量bt∈R135+50+2E中：bt=mtotxt zt，（3）然后将其用作LSTM单元的输入，用于在时间t进行相应的预测。这为隐藏状态向量引入了ht=LSTM（ht−1，bt;θl），（4）其中θl表示LSTM参数。我们将网络的损失定义为整个序列的交叉熵损失，用于预测每帧中的正确（量化）姿势。具体地，长度为N的视频的损耗L为：ΣNL（Wx，Wz，Wp，θl）=− log（σP（Wpht）），（5）不其中，σP（·）是正确姿势“类”的softmax概率回想一下，量化是细粒度的，使得每帧的估计是相当具体的;平均而言，码本中最近的量化姿态仅为0.27 cm（见附录）文件）。在时间t的推断的姿态ID（即，在该时间步上的姿态后验上的ARG_MAX）被取作后续帧的Z_T+1的输入而不是统一的所有J关节，我们执行混合粒度聚类，以考虑到更微妙的姿势变化集中在上半身。跨帧的下半身姿势表现出较小的变化，但是上半身姿势具有更细粒度的重要差异（例如，手臂的动作）。因此，我们对下半身关节使用稀疏的 K 均值聚类（ Kbot=100 ），对上半身使用密集的 K 均值聚类（Kupp=700因此，根据2D集群ID对任何给定姿态进行编码。在测试时，我们使用经过训练的LSTM来预测姿势序列。从时间t-1到t，我们使用来自等式中的前一个LSTM单元的预测的clus-terpt-1。二、图4概述了该模型;请参见Supp. 了解架构细节。4. You2Me视频数据集我们提出了一个第一人称交互数据集，由42个两分钟的序列，从10个人之间的一对一的互动。我们要求每个人（依次）佩戴胸前安装的GoPro相机，并与另一个人进行各种互动活动。我们收集他们以自我为中心的视频，然后将其与相机佩戴者和站在相机前的个人的身体姿势地面实况同步。该数据集包含四类活动：手游戏、抛接球、运动和交谈。这些类足够广泛，因此存在类内变化。例如，体育类别包含（重新制定的）篮球、网球、拳击等的实例会话类别包含玩猜字谜游戏、销售产品、谈判等的个人。在大约50%的画面中，看不到第一人称的身体部位。为了确保我们的方法是可推广的，我们采用了两种捕获方法，下面将详细介绍。9895Panoptic Studio捕获我们的第一个捕获模式使用PanopticStudio圆顶，遵循[28]。摄影棚拍摄由14个序列组成，使用GoPro Hero3胸部安装的摄像机以1920×1080的分辨率以30 fps的速度记录。中等视野设置。然后以30 fps重建相机佩戴者和被交互者的地面真实图像每个骨架通过使用[28]的方法获得的J=19个3D关节位置进行参数化。在圆顶中捕获视频提供了非常准确的地面实况，但代价是更受限制的背景环境。总共有六名不同身高、体型和性别的参与者从四个活动类别中的每一个中执行序列。Kinect捕捉我们的第二种捕捉模式使用Kinect传感器来获取地面真实姿势。Kinect捕获由28个序列组成，也以 1920×1080分辨率以 30 fps 记录。我们使用 GoProHero4胸部安装摄像头，宽视野设置。两个人姿势由MS Kinect SDK中定义的J=25个3D关节位置表示。考虑到Kinect相比PanopticStudio具有更大的移动性，我们要求四名参与者在办公室、实验室和公寓房间等不同场所的来自该数据集的视频是在不受约束的环境中拍摄的，但由于Kinect V2传感器的限制，这些视频都是在室内拍摄的。虽然Kinect感测的地面实况姿态比Panoptic Stu- dio中捕获的那些姿态噪声更大，但先前的工作表明，总体而言，Kinect姿态与人类对姿态的判断很好地一致[26]。我们强调，我们的方法只使用以自我为中心的摄像机时代的视频作为输入，在测试时的两个数据集。此外，我们强调，没有现有的数据集是适合我们的任务。现有姿态检测和跟踪数据集（例如，[5，27]）是以第三人称视角拍摄的。现有的以自我为中心的数据集要么局限于可见的手和手臂[32，44]，要么只包含单人序列[26，5，27]，要么由合成测试数据[69]组成，要么缺乏身体姿势关节标签[68]。我们所有的数据都是公开的。2参见Supp视频中的示例。5. 实验我们在Panoptic Studio和Kinect捕获上评估我们的方法。我们的方法是在活动不可知的环境中训练和测试的：将训练集和测试集分开，使得每个集包含来自每个活动域（会话、运动等）的大致相等数量的序列。对于Panoptic Studio，我们在7个序列上训练并在7个序列上测试。对于Kinect集，我们在18个序列上进行训练，设置。对于两者，我们确保出现在测试剪辑中的人不会出现在训练集中。实现细节我们通过为训练集中的每个序列创建大小为512帧的滑动窗口来生成训练数据，其中重叠32帧。这产生3.2K训练序列和2.3K测试序列。对于LSTM，我们使用E = 256的嵌入维数，D = 512的固定隐藏状态维数，以及32的批量大小。前10个时期的学习率为0.001，然后下降到0.0001。在最初的实验中，我们发现结果对K upp从500到900以及K bot从70到120的值相对不敏感，并且对于所有结果固定Kupp=700和K bot=100。训练时间为18小时，在单个GPU上进行20个epoch;测试时间为36 fps。参见补充基线我们比较以下方法：• 自我姿态运动图（MotionGraph）[26]：用于从真实自我中心视频预测身体姿态的当前最先进方法[26]。我们使用作者在我们的数据集上重新训练模型。该方法还输出量化的姿势;我们发现他们的方法在K=500的数据上表现最好。• 第三人称姿态解卷积网络（DeconvNet）[63]：我们将[63]的人类姿态估计基线调整为我们的任务。4他们的方法增加了反卷积层在2017年COCO关键点挑战赛中取得了最先进的成绩。我们使用基线中提供的相同网络结构，但在我们以自我为中心的数据集上重新训练它，改变3D关节的输出空间虽然该网络旨在检测第三人称图像中的可见姿势，但它有助于衡量一种非常有效的现成深度姿势方法可以从自我视频中学习到什么程度。• Ours without pose information（Ours w/oot）：这是我们模型的简化版本，其中我们没有将第二人称2D关节馈送到LSTM。其余网络是不变的，并且将提取的图像特征和单应性作为输入这种消融隔离了对我们方法中的所有剩余设计选择进行交互体姿势建模的影响• 总是站着（站着）和总是坐着（坐着）：一个简单的猜测方法（比真正的随机猜测更强），利用了大多数姿势都是一些-站着或坐着的姿势。站姿和坐姿在训练序列上取平均值。评估指标我们旋转每个骨架，使肩部平行于yz平面，身体中心位于原点，然后计算误差，作为预测的3D关节与地面真实值之间的欧氏距离，平均值在列车上看不到的位置记录的10个测试3http://www.hao-jiang.net/code/egopose/egopose code.tar.gz2http://vision.cs.utexas.edu/projects/you2me/ 4https://github.com/leoxiaobin/pose.pytorch9896KinectPanopticUppBot所有UppBot所有我们15.312.914.36.512.08.6无xt16.113.815.37.013.39.4无/无19.415.618.011.215.412.8w/o两者20.016.918.810.215.312.1表1.两个数据集捕获的所有方法的平均联合误差（cm）我们的方法比现有的方法更强大，第二人称姿势对其性能至关重要。图5.最常见的第二人称2D姿势（顶部）在测试序列的给定预测3D姿势集群（底部）之前立即看到。You2Me捕获有用的交互链接，如相互接触或捆绑的对话手势。并基于30 cm的参考肩距缩放至厘米（cm）。请注意，我们根据精确的连续地面实况姿势来- 而不是我们是否推断出正确的姿势集群。虽然预测的关节是聚类中心，但量化是如此细粒度，以至于平均而言，最佳离散姿态仅为0.70从连续的姿势。结果表1表明，所提出的方法一致地给出了比所有竞争方法更好的结果。我们显示了所有J关节的平均误差，并且分别针对在日常活动中具有最高方差的上身关节（头、肘、腕、手）和下身关节（髋、膝、踝、脚）。参见补充每个关节错误的文件。我们的方法优于MotionGraph [26]和我们的w/o t。该结果支持我们对第一人和第二人之间的相互姿势交互进行我们的方法结果表明，由被交互者的姿势提供的信息对于导出相机佩戴者的准确身体姿势估计是必不可少的。我们发现我们的方法文件）。这表明，在涉及较少全局运动的对话序列期间，第二人称姿势为更准确的上身自我姿势预测提供了必要的另一方面，在体育节目中，表2.消融研究，以衡量第二人称姿势特征和场景特征的重要性。误差单位：cm。受试者经常长时间移动到视野之外，这解释了我们的方法虽然坐和站为大多数测试帧提供了合理的先验，但我们的方法仍然在它们上取得了显着的进步，显示出对肢体进行更明智估计的能力上身关键点平均好10cm）。Stand优于其他基线，但不是我们的方法。这是运动预测中一个众所周知的问题：“什么都不做”比做一些事情更好，因为平均站立姿势处于许多测试姿势之间，代表 “安全 ” 估计 [38]。我们的方法也优于DeconvNet[63]，这表明从第三人称角度检测姿势的方法不容易适应处理第一人称姿势任务。用回归替换我们模型图5显示了我们的方法所受益的链接姿势的示例我们显示第二人称姿势估计值，紧接在各种自我姿势估计值之前，用于我们的方法在我们的w/ot基线上有所改进的情况。直觉上，通过良好的肢体语言联系进行互动会有所收获，例如相互伸出手或较小的对话手势。图6和图7分别显示了我们的方法的成功和失败案例。在图6中，我们的方法在预测相机佩戴者的上身运动方面优于MotionGraph[26]，例如，更好地捕捉手臂的摆动，然后再接球或在谈话中伸手抓住物体。图7中的失败显示了第二人称姿势对我们的方法的重要性分析具有最高误差的帧，我们发现失败的情况主要发生在相机佩戴者蹲下，相机指向地板，或者被交互者的视野被阻挡时。虽然我们的模型有足够的先验知识来继续准确地预测没有被交互者姿势的几个帧的姿势，但是在长时间内没有第二人称姿势是有害的。表2显示了消融研究，其中我们从模型中添加或删除特征以量化第二人称姿势的影响。回想一下，ot是第二人称姿势，xt是ResNet场景特征。结果表明，我们的和w/oxt模型，都使用第二人称姿势（OpenPose估计），一贯优于KinectPanopticUppBot所有UppBot所有我们15.312.914.36.512.08.6我们的w/oot19.415.618.011.215.412.8[26]第二十六话24.415.721.211.920.715.2DeconvNet [63]26.020.323.318.321.219.4站27.823.125.410.618.513.5坐21.843.328.517.328.921.6我们的回归22.920.020.912.316.814.69897图6.在领域不可知设置中训练的三个不同活动领域的示例推断姿势。第1行：带有OpenPose覆盖的自我视频视图（我们方法的输入仅为原始帧）。第2行：3D地面真实姿势（以黄色显示），显示为与2D OpenPose骨架交互。注意：为了便于查看，我们将它们并排显示。第3行：我们的方法的结果。第4行：MotionGraph [26]结果。在最后一列中，被交互者在自我视图中被完全遮挡，但我们预测的姿势仍然准确。图7.失败案例示例。典型的失败案例是当自我视角指向地面或脚时，长时间缺乏互动者KinectPanopticUppBot所有UppBot所有ot15.312.914.36.512.08.6GT 3D13.812.313.26.08.76.9仍20.515.618.711.716.013.1零21.016.119.111.516.813.3随机22.416.620.411.817.714.3预测3D19.315.217.811.016.813.0表3.第二人称姿势的效果来源。误差单位：cm。W/OT和W/O两个模型都缺少第二人称姿态估计。此外，结果表明，添加ot最显著地改善了上身预测。由ResNet（w/oot）捕获的被交互者的特征不足以捕获在显式姿态估计中编码的信息。表3分析了第二人称姿势估计的来源如何影响我们的结果。首先，我们替换被交互者的3D地面实况（GT）骨架，即，Panoptic Studio或Kinect给出的第二人称的真实姿势。我们看到，更准确的第二人称姿势可以进一步改善结果，虽然马-GIN小于将我们的方法与基线分开的GIN。使用2DOpenPose比使用预测的3D姿势更好[71];单目数据的3D姿态仍然具有挑战性。这证明了我们使用2D的正确性。接下来，为了确认我们的网络正确地学习了被交互者姿势和自我姿势之间的相关函数，我们为ot提供了不正确的值：平均站立姿势（静止），空姿势（零）或来自另一个类的另一个序列的随机姿势（随机）。在所有情况下，网络产生较差的结果，表明我们的方法确实利用了交互中的真实结构。请看Supp。视频文件、每个关节和每个活动的错误故障、细粒度量化的描述、量化对方法的影响以及其他体系结构细节。6. 结论我们提出了You2Me方法来预测摄像机时代佩戴者的姿势，给出来自单个胸部安装的摄像机的视频。我们的关键见解是捕捉第一（未观察到的）和第二（观察到的）个人姿势之间的相互作用的联系。我们的结果从几个不同的活动域的两个捕获方案证明了我们的想法的承诺，我们获得了国家的最先进的结果自我姿态。未来的工作将包括推理的情况下，第二人称姿势的互动不发生时，扩展到序列与多个鸣谢：我们感谢郝江有益的讨论。UT Austin部分由ONR PECASE和NSF IIS-1514118支持。9898引用[1] A. Alahi，K.Goel，V.Ramanathan，A.罗比凯湖Fei-Fei和S. Savarese社会lstm：拥挤空间中的人体轨迹预测。在IEEE计算机视觉和模式识别会议，2016年。2[2] A. Alahi、V. Ramanathan和L.飞飞具有社会意识的大规模人群预测。在 IEEE计算机视觉和模式识别会议（CVPR），2014年。2[3] S.阿莱托湾Serra，S. Calderara和R.库奇亚拉在自我中心的视野中理解社会关系模式识别，2015年。2[4] S. 阿莱托湾 Serra ， S. Calderara ， F. Solera 和 R. Cuc-chiara。从自我到无视：以第一人称视角探测社会关系。在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，2014年。2[5] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议（CVPR）中，2014年。6[6] T. Bagautdinov，A.Alahi，F.Fleuret，P.Fua和S.Savarese社交场景理解：端到端多人动作定位和集体活动识别。在IEEE计算机视觉和模式识别会议（CVPR），2017。2[7] S. Bambach，S. Lee，D. J. Crandall和C. Yu. 伸出一只手：在复杂的以自我为中心的互动中检测手和识别活动。2015年，国际计算机视觉会议（ICCV）。2[8] F. J. Bernieri，J. S. Reznick和R.罗森塔尔同步，伪同步和不同步：测量母婴互动中的个性与社会心理学杂志，1988年。1[9] G. Bertasius，A. Chan和J.石从单个第一人称图像进行自我中心篮球运动规划。在IEEE计算机视觉和模式识别会议（CVPR），2018。2[10] Z. Cao，G. Hidalgo，T. Simon，S.- E. Wei和Y.酋长OpenPose：使用部件亲和场进行实时多人2D姿态估计。2018.一、二、四、五[11] J. Carreira，P. Agrawal，K. Fragkiadaki和J.马利克基于迭代误差反馈的人体姿态估计。在IEEE计算机视觉和模式识别会议（CVPR），2016年。2[12] Y.-- W. Chao，Z.中国地质调查局W. Y. He、J.Wang和J.邓小平更 Hico ：识别图像中人与物体交互IEEEInternationalConferenceonComputerVision（ICCV），2015年。2[13] G. 切龙岛 Lapt ev和C. 施密特P-cnn：用于动作识别的基于姿势的 IEEEInternational Conference on ComputerVision（ICCV），2015年。2[14] D. Damen，T. Leelasawassuk岛海恩斯A. Calway，以及W. W.马约尔-奎瓦斯You-do，i-learn：从多用户自我中心视频中发现任务相关对象及其交互模式。英国机器视觉会议（BMVC），2014年。2[15] Z. Deng、A.瓦赫达特湾Hu和G.森结构推理机：用于分析关系的递归神经网络在群体活动识别中。在IEEE计算机视觉和模式识别会议（CVPR），2016年。2[16] A. Fathi，A. Farhadi和J. M.瑞格以自我为中心的行为。2011年国际计算机视觉会议（ICCV）。2[17] A. Fathi，J. K. Hodgins和J. M.瑞格社会交往：第一人称视角在IEEE计算机视觉和模式识别会议，2012年。2[18] R. Girdhar，G.基奥克萨里湖Torresani，M.Paluri和D.交易。检测和跟踪：视频中的高效姿态估计。在IEEE计算机视觉和模式识别会议（CVPR），2018年。2[19] G. 基奥沙里河Girshick，P. Dol la'r和K. 他外检测和识别人机交互。在 IEEE 计算机视觉和模式识别会议（CVPR），2018。2[20] A. Graves. 用递归神经网络生成序列 . arXiv 预印本arXiv：1308.0850，2013。4[21] A. Graves和N.贾特利用递归神经网络实现端到端语音识别。在2014年的国际机器学习会议（ICML）上。4[22] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，2003年。3[23] D.- A. Huang和K.M. 喜谷行动-反应：预测人类互动的动态欧洲计算机视觉会议（ECCV），2014。2[24] E. 因萨富季诺夫湖皮舒林湾Andres，M.安德里卢卡，B.席勒Deepercut：一个更深、更强、更快的多人姿势估计模型。欧洲计算机视觉会议（ECCV），2016。一、二[25] 联合Iqbal，A.Milan和J.胆Posetrack：联合多人姿势估计和跟踪。在 IEEE 计算机视觉和模式识别会

下载后可阅读完整内容，剩余1页未读，立即下载