3D手-物体姿势与交互的统一框架

98 浏览量更新于2023-10-19 收藏 1.42MB PDF 举报

统一框架

神经网络识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4511H+O：3D手-物体姿势和交互Bugra Tekin1Federica Bogo1Marc Pollefeys1，21Microsoft2ETHZuürich摘要我们提出了一个统一的框架，用于理解从以自我为中心的RGB相机的原始图像序列中的3D手和对象的相互作用。给定单个RGB图像，我们的模型联合估计3D手和对象姿势，对它们的交互进行建模，并通过神经网络的单个前馈来识别对象和动作类。我们提出了一个单一的架构，不依赖于外部检测算法，而是在单个图像上进行端到端的训练。我们进一步合并和prop-agate信息在时域推断手和物体轨迹之间的相互作用，并识别动作。完整的模型将帧序列作为输入，并输出每帧的3D手部和对象姿势预测以及整个序列的我们展示了我们的算法的最先进的性能，即使在比较的方法，工作在深度数据和地面实况的注释。1. 介绍人类行为可以通过一个人在与周围物体和环境的交互中采取的个人行动来表征。大量的研究集中在人类[8，25，36，40，59，65，70，74]和物体[4，28，64，66]的视觉理解上，彼此隔离。然而，共同理解人类和物体的问题，虽然至关重要的语义有意义的解释的视觉场景，得到了很少的关注。在这项工作中，我们首次提出了一种统一的方法来联合识别3D手和物体的姿态，以及它们之间的相互作用，从egocentric单目彩色图像。我们的方法联合估计的手和物体的姿势在3D中，他们的相互作用建模，并识别的对象和活动类。示例结果示于图1中。1.一、我们的统一框架与增强现实和虚拟现实高度相关[62]，对人们行为的细粒度识别图1：第一人称视角的统一推理。我们的方法作为输入彩色图像，并产生一个全面的自我为中心的场景解释。我们同时估计3D手和物体的姿态（显示为骨架和3D边界框），物体类（例如。果汁瓶）和动作类别（例如，浇注）。在考虑接触对象的同时捕捉动作中的手是一个极具挑战性的问题。从移动的、以自我为中心的相机联合推理手和物体甚至更具挑战性，因为这将需要理解在手经常被物体或视点遮挡的杂乱的现实世界场景中发生的复杂且经常微妙的计算机视觉的最新研究已经成功地解决了针对深度和多相机输入的手和对象的联合理解中的一些挑战。Srid-har等[60]已经证明，联合考虑手和物体有助于比忽略交互的模型[21，37，41，68]的开创性工作已经提出了建模手-对象交互的方法，以增加恢复手部运动的鲁棒性和准确性。然而，大多数这些工作受到以下因素的限制：首先，它们依赖于主动深度传感器或多相机系统。深度传感器耗电量很大，并且比常规RGB相机更不流行。另一方面，多相机系统由于建立传感器的校准和同步系统的成本和努力第二，他们不会对主体正在执行的行为进行推理。虽然估计3D手部姿势对于机器人和图形学中的许多应用是至关重要的，但是姿势的唯一知识缺乏关于主体动作的语义第三，主要集中在4512仅捕获手部运动而不恢复3D中的对象姿势[21，37]，因此缺乏环境理解。我们的方法旨在解决所有这些问题。为此，我们提出了一种方法，通过一种新的数据驱动的架构，同时预测3D手和对象的姿势，对象类和动作类别。我们的模型从单个图像中联合产生3D手部和对象姿势估计，动作和对象类，并且既不需要外部区域建议，也不需要预先计算的检测。我们的方法进一步建模的时间性质的3D手和物体运动，以识别动作和推断的相互作用。我们的贡献可归纳如下：• 我们提出了一个统一的框架，用于识别3D手和物体的相互作用，同时解决四个任务，在前馈通过神经网络网络：3D手部姿势估计、物体姿势估计、物体识别和活动分类。我们的方法在单目彩色图像上操作，并依赖于所有任务之间共享的联合特征。• 我们介绍了一种新的单次神经网络框架，该框架联合解决了同一框架内的3D铰接和刚性姿态估计问题架构我们的方案依赖于一个共同的输出表示的手和对象，参数化他们的姿态与三维控制点。我们的网络直接预测3D而不是2D中的控制点，与常见的单次神经网络范例[48，66]相反，无需解决2D到3D对应问题[32]，并在准确性上有很大的提高• 我们提出了一个时间模型来合并和传播时间域中的信息，显式地建模交互并推断手和ob之间的关系。直接在3D中。在第4节中，我们定量地展示了这些贡献使我们能够在目标任务中实现更好的整体性能，同时以实时速度运行，并且不需要详细的3D手部和对象模型。我们的方法，我们称之为手+对象（H+O），在具有挑战性的序列上实现了最先进的结果，并且优于依赖于地面实况姿态注释和深度数据的前向方法2. 相关工作我们现在回顾一下现有的3D手部和物体姿态估计（联合和孤立）以及动作识别方面的工作手和物体。文献中的许多方法解决了孤立地估计手或对象姿势的问题。Brachman等人[4]使用基于回归森林的多阶段方法从单个RGB图像恢复6D对象姿态。最近的方法[28，46]依赖于卷积神经网络（CNN）。BB8 [46]使用CNN粗略地分割对象，然后预测对象的3D边界框的2D然后，通过Pestival [32]从这些估计计算6D姿态。SSD-6D [28]预测2D边界框与对象姿态的估计。这些方法需要详细的纹理化3D对象模型作为输入，并且需要进一步的姿态细化步骤以提高精度。Tekin等人[66]通过引入单镜头架构来克服这些限制，该架构以实时速度在单次向前传递中预测对象的3D边界框的2D投影。所有这些方法都没有解决手-物体交互场景中估计物体姿态的问题，其中物体可能被很大程度上遮挡。自我中心视图中的3D手部姿势和形状估计最近开始受到关注[7，22，37，51，70，72，73]。由于自遮挡和可用的训练数据量有限[37，39，51，70]，该问题对于第三人称场景[58，74]具有挑战性。Mueller等[37]在合成数据上训练CNN，并将其与生成的手部模型相结合，以跟踪与以自我为中心的RGB-D视频中的对象相互作用的手部。这种混合方法随后被扩展到RGB视频[36]。Iqbal等人[25]从单个RGB图像，从第一人称和第三人称视角，通过CNN回归2.5D热图来估计3D手部姿势。这些方法专注于手姿态估计，并试图在存在对象的情况下保持鲁棒在推理手的动作时，对象交互可以被用作额外的约束[41，49，51，53]。通过观察不同的物体形状引起不同的手抓握，[7，51]中的方法根据深度输入有区别地估计3D手部姿势。还提出了基于模型的方法[54]，以更精细的细节水平联合估计手和对象参数。然而，大多数方法专注于第三视图场景，将深度作为输入[41，43，67，68]。据我们所知，文献中没有方法仅从RGB视频联合估计3D手和对象姿势。行动识别。虽然动作识别是计算机视觉中的一个长期存在的问题[3，10，18，26，31，38，69]，但第一人称动作识别直到最近才开始成为一个活跃的领域，这主要是由于消费级可穿戴传感器和大型自我中心数据集的出现[9，20，44，52]。第一人称视角4513我我我我我我由于快速的相机运动、大的遮挡和背景杂乱，动作识别面临独特的挑战[33]。早期的自我中心动作识别方法依赖于运动提示[29，50，55]。特别地，[29]使用基于光流的全局运动描述符来对跨体育类型的“自我动作”进行分类[45]将稀疏光流馈送到3D CNN以索引自我中心的视频。在[63]中，运动和感知线索与深度结合使用除了运动之外，许多研究还提出了基于凝视信息[13]，头部运动[33]以及最近CNN学习的特征[35]的特征另一条工作线专门关注第一人称动作识别的手和物体线索[12，16，27，57，61]。Pirsi-avash和Ramanan [44]探索活动对象检测作为活动识别的辅助任务Koppula等人[30个]学习对象启示模型以理解活动点定义见第2节。3.2.我们用No表示对象类的数量，用Na表示动作的数量，用Nia表示交互的数量。我们的模型首先用全卷积网络处理序列的每一帧It（图2）。2a）并将输入图像划分为包含H×W×D单元的规则网格Gt，这些单元跨越相机前面的3D场景（图2 a）。（见第2段b）。我们在张量Gt中保持我们的网络对于手和物体的目标值（图2c-d）。即，在特定单元位置处的手或物体的目标值，i∈H×W×D，以多维向量vi的形式放在Gt的第i个胞腔中.能够联合估计手和可能遮挡的物体的姿势我们允许每个细胞存储两组独立的值，一组用于手，用vh表示，另一组用于对象，用vo表示（图2e）。向量vh存储了con-我我RGB-D视频 EgoNet [2]检测I.E. 从第一人称RGB-D图像链接到视觉或触觉交互的对象Fathi等人[12，14]使用动作提示手部姿势的控制点，yh∈R3Nc，动作概率，a∈RNa，以及手姿态估计，ch∈[0，1]。 Vectorvo存储控件分割手和物体，然后从我对象姿势的点，yo我∈R3Nc，对象类probabil-这些前景区域。然而，所有这些方法伊蒂斯角∈RNo，以及专注于2D而不显式地建模手对象间，3D中的动作最近，Garcia-Hernando et al.[17]证明了3D几何学对第一人称动作识别是有益。然而，它们依赖于深度输入并依赖于地面实况对象姿势。与我们类似，Cai et al.[34]提出了一种结构化的方法，其中抓取类型、对象属性及其上下文关系被一起分析。然而，他们的单图像框架不考虑时间维度。对象关系网络[1]通过空间和时间对检测到的语义对象实例之间的上下文关系进行建模。所有这些方法的目的都是为了在2D中理解场景。在这里，我们在3D中建模更复杂的手和对象属性，以及它们的时间交互。3. 方法我们的目标是从原始图像序列中构建以自我为中心的场景的全面解释，为此，我们提出了一个统一的框架，共同估计3D手和对象的姿势和rec-ognize对象和动作类。3.1. 概述我们的手+对象模型的总体概述在图中给出。二、我们的模型将一系列彩色帧It（1≤t≤N）作为输入，并预测每帧的3D手部和物体姿势、物体类别和动作类别，以及每个序列的交互类。在这里，我们把动作定义为动词.“pour”, and interactions as “倒果汁”。我们表示手和物体构成的Nc三维控制点。控制详情目标姿态估计，co∈[0，1]。我们基于[48]训练我们的单通道网络，以便能够预测这些目标值。在测试时，预测在细胞与低置信度值，即。在感兴趣的手或物体不存在的情况下，被修剪。所有这些预测都是通过网络中的单个前向传递获得的虽然非常有效，但该步骤独立地对每个帧起作用因此，我们添加了一个循环模块来整合跨帧的信息，并对手和物体之间的交互进行建模（图11）。2 a）。该模块将具有高置信度值的手和物体预测作为输入，并输出一个概率。能力向量，pia∈RNia。在下面的部分中，我们将分别介绍这些组件更详细。3.2. 联合三维手部目标姿态估计在刚性物体姿态估计的上下文中，[46，66]回归8个关键点的2D位置-然后使用Pesthetic算法[ 32 ]估计对象在我们的情况下，采用类似的方法将不起作用，因为我们的目标也是估计手的铰接为了解决这个问题，并共同估计3D关节和刚性的姿势在同一架构内，我们建议使用一个共同的输出表示的手和对象。为此，我们用3D控制点联合地参数化手和对象姿势，3D控制点对应于手姿势的21个骨架关节和对象关键点的3D位置，3D位置对应于3D对象边界框上的位置为了简单起见，我们选择Nc= 21，并为对象定义8个关键点，p4514(a)（b）（c）（d）（e）图2：我们的手+对象方法概述。（a）拟议的网络结构。每个帧It通过全卷积网络以产生3D规则固定网格Gt。（b）H×W×D网格显示负责识别手和物体的细胞。（c）每个单元预测3D手部姿势和3D网格中的对象边界框坐标（d）我们的输出张量网络，其中存储了手和对象的目标值。（e）单元与包含手和对象姿势、对象和动作类别的目标值以及总体置信度值的向量相关联。然后传递具有高置信度值的预测通过交互RNN来传播时间域中的信息，并在手和对象之间的3D中建模交互在[46，66]中提出，以及12个边缘中点和3D边界框的质心。对手和物体采用一致的参数化简化了回归任务。我们将输入图像细分为H×W单元的网格，并进一步将深度离散为D单元。注意，前两个维度的离散化定义在像素空间中，深度。因此，每个单元格的大小为 Cu×Cvpix-els×Czm。在每个单元格内，我们预测偏移量Δu，对于与控制点对应的位置，相对于更靠近相机的单元的左上角，（u，v，z）。对于手根关节和物体质心，我们将偏移量限制在0和1之间，其中1的大小对应于网格尺寸内单个单元的完整范围对于其他控制点，我们不限制网络然后，控制点的预测位置（wu，wv，wz）被计算为：使用刚性变换将词表达到参考3D边界框这无需像[46，66]中那样使用Pests来解决2D到3D对应问题，并通过Procrustes变换[19]恢复6D姿态。这样的公式还减少了由从3D到2D的投影引起的深度模糊。我们在Sec中显示。这导致改进的对象姿态估计精度。除了手和物体控制点位置之外，我们的网络还预测手（或物体）存在的细胞的高置信度值，以及它们不存在的低置信度值。计算可靠的置信度值是在测试时获得准确预测的关键。我们将预测的置信度定义为一个预测到地面真实值的距离的函数，受[66]的启发。即，给定预测的2D位置（wu，wv）及其与在图像空间中测量的地面真实值的欧几里得距离DT（wu，wv），置信度值cuv（wu，wv）被计算为具有截止值dth和锐度参数α的指数函数：wu=g（u）+u（1）wv=g（v）+v（2）cuv（w<$u，w<$v）=e、、、α1−DT（w<$u，w<$v）dth（五）wz=g（z）+z（3）其中，g（·）被选择为针对根关节和对象质心的1DS形函数这里，（u，v，z）是网格维度中的单元格的索引。给定相机本征矩阵K，以及对于网格位置的预测（wu，wv，wz），则控制点在相机坐标系中的3D位置y被计算为：如果DT（wu，wv）

下载后可阅读完整内容，剩余1页未读，立即下载