自我为中心的视频预测手部运动和交互热点

138 浏览量更新于2023-10-25 收藏 13.44MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

32820从自我为中心的视频中预测手部运动和交互热点0Shaowei Liu 1* Subarna Tripathi 2 Somdeb Majumdar 2 Xiaolong Wang 301 伊利诺伊大学香槟分校 2 英特尔实验室 3 加利福尼亚大学圣地亚哥分校0摘要0我们提出根据自我为中心的视频预测未来的手-物体交互。我们直接预测手部运动轨迹和下一个活动对象上的未来接触点（即交互热点），而不是预测动作标签或像素。这种相对低维度的表示提供了对未来交互的具体描述。为了解决这个任务，我们首先提供了一种自动收集大规模数据上的轨迹和热点标签的方法。然后我们使用这些数据来训练一个基于对象的Transformer（OCT）模型进行预测。我们的模型通过Transformer中的自注意机制执行手部和物体交互推理。OCT还提供了一个概率框架来采样未来的轨迹和热点以处理预测中的不确定性。我们在Epic-Kitchens-55、Epic-Kitchens-100和EGTEAGaze+数据集上进行实验，并展示OCT在性能上显著优于现有方法。项目页面可在https://stevenlsw.github.io/hoi-forecast上找到。01. 引言0实现预测人的意图、偏好和未来活动的能力是人工智能系统的基本目标之一。当涉及到以自我为中心的视频数据时，这一点尤为有用，用于增强现实（AR）和机器人技术等应用。在厨房内部进行自我为中心的视角想象（例如，图1），如果一个人工智能系统能够预测人类接下来会做什么，AR头盔可以提供有用和及时的指导，机器人可以更流畅地与人类合作。模型应该预测什么空间？最近的方法[25, 26, 28,72]已经提出了在给定一系列帧作为输入的情况下预测离散未来动作类别，即动作预测。然而，预测语义标签并不能揭示人类如何移动以及未来将与什么进行交互。另一方面，由于其具有较大不确定性的高维输出，预测未来帧的像素[9, 44,53,84]非常具有挑战性。与采用这两种表示不同，我们的工作受到了最近关于人体运动轨迹预测的工作的启发[11]，该工作以图像作为输入并输出未来姿势关节的坐标。轨迹不仅提供了运动的具体描述，而且是一个较小的预测空间，与预测相比更小0* 在英特尔实验室实习期间完成的部分工作。0图1.在预测未来的单个动作标签之外，我们提出了在以自我为中心的视频中共同预测未来手部运动轨迹（蓝色和红色线条）和下一个活动对象上的交互热点（热图）。0与像素预测不同，自我为中心的视频中的预测还涉及与物体的密集交互，这不能仅通过轨迹建模。在本文中，我们提出了在给定自我为中心视频的一系列输入帧的情况下，共同预测未来手部运动轨迹和下一个活动对象的交互热点（可供性）。从输入视频的最后一帧开始，我们将通过从模型推断的概率分布中进行采样来预测两只手的轨迹。我们不是学习一个确定性模型，而是以概率的方式处理未来的不确定性。同时，我们将预测未来手部所接触的下一个活动对象上的接触点。这些接触点也通过交互热点的概率分布表示，并且以预测的手部轨迹为条件。为了进行联合预测，我们引入了基于Transformer的模型和一种自动生成大规模数据集进行训练的自动方式。我们提出了一种自动收集数据的方法，而不是通过高成本的人工劳动来收集手部轨迹和交互热点的注释。给定一个视频，我们将模型的输入帧称为观察帧，预测帧称为未来帧。我们首先利用现成的手部检测器[73]在所有未来帧中定位手部。由于相机在自我为中心的视频中通常是移动的，我们利用近距离帧的单应性将检测到的未来手部位置投影回最后的观察帧。通过这种方式，所有的检测结果都在同一个坐标系中对齐。类似地，我们还检测了未来手部与未来帧中的物体的交互位置。32830手与物体在未来的帧中进行交互，并将它们投影回到最后的观察帧。这个过程为训练我们的预测模型准备了数据，并且我们在Epic-Kitchens-55、Epic-Kitchens-100和EGTEAGaze+数据集上生成了标签，而无需任何人工劳动。通过收集到的数据，我们提出了一种新颖的以物体为中心的Transformer（OCT）模型，它从视频中捕捉手-物体关系，用于手部轨迹和交互热点的预测。给定观察帧作为输入，我们首先使用ConvNet提取它们的视觉表示。我们执行手部和物体检测，并采用RoI Align[34]提取它们的特征。我们将手部和物体特征都作为以物体为中心的标记，并将平均池化的帧特征作为图像上下文标记。我们将所有输入帧的所有标记都传递给Transformer编码器，它使用自注意力进行手部、物体和环境上下文交互推理。我们不采用确定性的解码方式，而是在Transformer解码器中采用条件变分自动编码器（C-VAE）作为网络头部，以建模预测中的不确定性。具体而言，我们在Transformer解码器中计算编码器的输出标记和预测的未来手部位置之间的交叉注意力。获得的标记被作为C-VAE的条件变量。解码器将同时预测手部轨迹和交互热点，并且训练由与地面真实值相对应的重构损失进行监督。我们在Epic-Kitchens-55[15]、Epic-Kitchens-100 [16]和EGTEA Gaze+[46]数据集上进行评估。我们使用亚马逊机械土耳其平台手动注释了验证集的轨迹和热点标签。我们的OCT模型在手部轨迹和交互热点预测任务上显著优于基线模型。有趣的是，我们发现轨迹估计有助于交互热点预测，并且随着更多自动注释的训练数据，我们可以获得更好的结果。最后，我们尝试在行动预测任务上对训练好的模型进行微调，并发现预测手部轨迹和交互热点可以有助于分类未来的行动。我们的贡献如下：0•我们提出了从自我中心视频中共同预测手部轨迹和交互热点0•一种新颖的以物体为中心的Transformer，用于预测未来轨0• 我们不仅在Epic-Kitchens和EGTEAGaze+数据集上实现了最先进的预测任务性能，还展示了我们的模型可以帮助行动预测任务。02. 相关工作0视频预测。视频预测旨在预测视频中的未来事件，包括未来帧预测[9, 36, 44, 53, 80, 84, 89]、行动预测[25, 26, 28, 58, 72,87]和动力学学习[23, 29,67]。然而，这些工作大多要么依赖于预测未来的高维视觉表示，在具有外观变化和移动主体的动态场景中极具挑战性，要么专注于预测0未来动作的语义标签。这些标签既不能告诉我们人的意图移动的位置，也不能告诉我们人想要与之互动的物体。相反，我们预测未来手部运动轨迹和交互热点，两者都反映了人的意图和未来的交互。人体运动预测。预测未来的人体运动[11, 33, 47,66, 82]或轨迹[1, 17, 48, 49,55-57]一直是一个长期存在的研究课题。其中许多研究是在第三人称视角或固定的鸟瞰视角下进行的。鉴于第一人称视角能更好地捕捉人的意图和互动，并且适用于增强现实和机器人技术[39, 43,68]，在第一人称视角下估计人体运动在自我中心视频中[49,64,88]更值得关注。由于手是人类在自我中心视频中探索和操作的中心手段，预测人手的移动位置可以揭示未来的活动并理解一个人的意图。刘等人[49]也研究了自我中心视频中未来手部轨迹的估计，但他们的方法受到了手动注释和单手预测的限制。相比之下，我们设计了一种自动收集数据的方法，并且可以从数据中学习到双手的未来轨迹。基于行为预测的实体预测。物体可用性基础[19, 21, 42, 60, 69,74]是指定位交互在物体上发生的位置。给定视频输入，可用性预测任务是估计人类将与之交互的物体上的未来活动区域。一般来说，有两个主要的预测类别，即下一个活动物体[5, 18,24]和交互热点[49, 54,61]。前者将下一个将与手整体接触的物体分割出来，忽略了物体表面上的细粒度空间区域。后者输出一个热图来指示物体上的显著区域。Nagarajan等人[61]提出了一种弱监督方法来确定静止图像上的交互热点。更进一步，我们考虑在自我中心视频中预测交互热点。这个任务更具挑战性，因为它需要在杂乱的场景中定位下一个活动物体，然后再确定热点。在我们的工作中，我们不使用热图表示，而是直接预测更紧凑的接触位置。视频预测的Transformer。在自然语言处理中，Transformer[79]取得了巨大的成功，最近的研究表明它在解决视觉任务[12, 14, 20, 50,78]方面的有效性。长距离推理和序列建模能力使得Transformer适用于视频理解[6, 27, 51, 86]。TimeSformer[6]将视频视为一系列补丁，并采用分割的时空注意力来捕捉视频中的时空关系。Transformer在视频预测问题中也被广泛应用，如动作预测[28]、轨迹估计[30, 90]和人体运动预测[45,66]。最近的研究通过将VAE[41]与Transformer相结合进行生成建模[22, 37,66]取得了有希望的结果。在我们的工作中，我们提出了一种以物体为中心的Transformer（OCT），它以预训练的ConvNet [83]提取的RoIAlign[34]手部、物体和环境特征向量作为输入标记。Transformer编码器在所有输入标记之间采用自注意力进行交互推理，而Transformer解码器在编码器的输出标记和预测的未来手部位置之间计算交叉注意力。我们还引入了C-VAE [41]头部Given the video clip of observation frames V ={f1,···,fT},we extract per-frame features, {X1,···,XT}. Each frame consistsof three types of input feature tokens Xt = (Xth, Xto, Xtg),whereXti represents the feature of i-th type in frame t. Subscriptsh,o,g refer to the hand, object, and global feature (environmentcontext) vectors respectively. To this end, we first encode eachframe ft using a pre-trained Temporal Segment Network [83](TSN) and extract hand and object RoIAlign [34] feature Ptigiven the detected bounding boxes from [73].The globalfeature Ptg is obtained similarly by average-pooling. Next, forhands and objects, we concatenate the pooled features alongwith the corresponding center coordinates and forward it to aMulti-Layer Perceptron (MLP), yielding the Xti. Take a handas an example, Xth =Wh[ht;Pth], Wh is the learnable weightsof the corresponding hand MLP. When there is no hand or objectdetected in a certain frame, we set corresponding places with zerovectors. For global features, we directly use an MLP to obtainthe output, Xtg = WgPtg. All the features (global/hand/object)are taken as independent input tokens to the Transformer.32840图2. 给定T个观察帧作为输入（左），目标是预测F步未来的手部轨迹（右）和交互热点。橙色曲线显示了我们如何将未来的手部位置（红点）投影到最后一个观察帧上。未来的手部轨迹以红色虚线显示。0使用Transformer解码器来表达未来的不确定性。03. 问题设置03.1. 任务描述0给定长度为T的观察关键帧V = {f1, ∙∙∙,fT}作为输入，其中fT是最后一个观察帧，我们的目标是预测未来时间范围为F的手部轨迹H和物体接触点O，如图2所示。H = {hT+1, ∙∙∙,hT+F}表示未来的手部轨迹。在每个时间步t，未来的手部位置ht = (htl,htr)由最后一个观察帧中的左右手2D像素位置组成。时间步T + F是手-物体接触发生的时间，帧fT + F是接触帧。O ={o1, ∙∙∙,oN}表示未来的物体接触点，其中N是接触预测的最大数量，每个元素定义了最后一个观察帧中的2D未来接触位置。03.2. 训练数据生成0我们描述了如何自动从未来关键帧{ft+1, ∙∙∙,fT}中收集未来手部轨迹H和物体热点O的训练标签，而无需手动劳动。我们首先运行一个现成的主动手-物体检测器[73]，以获取每帧的手部和物体边界框，从而提供每帧的未来手部位置。然后我们将它们投影回最后一个观察帧，以收集完整的未来手部轨迹。参见图2进行说明。如[62，81]所示，两个连续帧之间的全局运动通常很小，它们可以通过单应性[77]相关。给定每两个连续帧之间的单应性，我们可以建立一个链条，并建立每个未来帧相对于最后一个观察帧的关系，并将未来的手部位置投影回来。为了估计单应性，我们首先排除移动物体，特别是每帧中检测到的手部和物体。我们遮罩掉相应的位置，并在遮罩区域外使用SURF描述符[3]找到两个帧之间的对应关系。我们通过采样4个点并应用RANSAC来计算单应性，以最大化内点的数量。类似地，为了收集热点标签，我们在手部和物体边界框的活动交叉区域内执行额外的皮肤分割[70]和指尖检测[1]，以获得接触点。然后我们采用与上述类似的技术，将采样的接触点从接触帧投影到最后一个观察帧。更详细的讨论请参见补充材料。01 https://www.computervision.zone/courses/finger-counter/03.3. 预处理04. 物体中心的Transformer0提出的物体中心Transformer（OCT）具有编码器-解码器架构，如图3所示。编码器和解码器都堆叠了多个基本的编码和解码块 B。每个块都有一个名为Att的注意力模块和一个由两层MLP和一层归一化层（LN）组成的前馈模块。两个块之间唯一的区别在于注意力模块，编码块中对输入令牌进行自注意力计算，解码块中对编码器输出和预测进行交叉注意力计算。假设 Q ℓ − 1 是块 ℓ − 1 的输出查询，K ℓ − 1 ，V ℓ − 1 ，M分别表示键、值和掩码，它们是块 ℓ 的三个额外输入。则块B 的输出 Q ℓ = B ( Q ℓ − 1 ; K ℓ − 1 ; V ℓ − 1 ,M )可以写成如下形式：0[ Q ; K ; V ]= W [ Q ℓ − 1 ; K ℓ − 1 ; V ℓ − 1 ]0Q ′ = Q ℓ − 1 +Att( Q,K,V,M )0Q ℓ = Q ′ +MLP(LN( Q ′ ))Att(Q,K,V,M)=softmax(QKT√32850图3.OCT具有编码器-解码器架构。输入是观察帧和相应的手-物体检测结果。输出是未来的手部轨迹和接触点预测。在模型内部，我们使用ConvNet提取每个帧的手部、物体和全局特征作为Transformer编码器的输入令牌。所有令牌（全局/手部/物体）都独立地通过Transformer。我们将编码器的输出和先前预测的手部位置作为解码器的输入。解码器的输出被发送到手部C-VAE和物体C-VAE以获得最终结果。0其中输入令牌 Q ℓ − 1 ， K ℓ − 1 ， V ℓ − 1 首先通过由 W参数化的线性变换层进行处理，产生嵌入 Q,K,V；然后将它们传递给注意力模块 Att。注意力输出通过带有残差连接[35]的前馈模块发送，以获得最终输出 Q ℓ 。注意力运算符定义如下：0D ) V0D 是注意力模块的维度。注意力运算符计算值 V的加权和，其中权重由查询 Q 和键 K的点积计算得到，并加上掩码 M，然后进行缩放和Softmax归一化。M通过在Softmax计算之前将相应位置设置为-inf，屏蔽键 K中的填充值。04.1. 编码器0编码器 E 堆叠了多个编码块 B ，从输入 { X 1 , ∙∙∙ ,X T }（第3.3节）生成输出 { Z 1 , ∙∙∙ ,Z T } ：0Z 1 , ∙∙∙ ,Z T = E ( X 1 , ∙∙∙ ,X T ) (1) 每个 X t由三个令牌组成，手部令牌 h ，物体令牌 o 和全局令牌 g。输入令牌通过两种嵌入进行编码，一种是可学习的空间嵌入[20]，用于表示不同特征的类别特定（全局/手部/物体）信息，另一种是正弦位置嵌入[79]，用于融合时间位置信息。所有令牌都独立地通过编码块。在每个编码块中，我们在空间和时间上对所有输入令牌进行自注意力计算。考虑到在某些帧中没有检测到手部/物体时可能存在填充令牌，我们使用掩码 M 来屏蔽这些填充令牌。0令牌。因此，在每个第 ℓ 个编码块中，我们有 Q ℓ = B ( Q ℓ− 1 ,Q ℓ − 1 ,Q ℓ − 1 ,M )，其中查询、键和值来自同一个输出 Q ℓ − 1 。04.2. 解码器0解码器 D 逐个预测未来的手部特征 X T + t ，其中 t ∈ ( T+ 1 ,T + F ) 是未来的时间步长。预测的特征 X T + t然后发送到轨迹头网络，以预测未来的手部位置 h T + t。在每个步骤中，解码器是自回归的[32]，在生成 X T + t时，消耗先前生成的未来手部位置 ( h T , ∙∙∙ , ( h T + t − 1 )作为额外输入。解码器的第0个输入是最后观察帧中的手部位置 h T 。解码器在未来时间步长 t的预测可以写成如下形式：0XT+t =D(hT,∙∙∙,hT+t−1)（2）解码器由多个解码块B组成。每个块的工作方式类似于编码块，除了它执行交叉注意力，将来自块ℓ−1的输出Qℓ−1作为查询，将编码器在最后观察帧中的输出令牌ZT（第4.1节）作为键和值。为了限制解码块只能关注Qℓ−1的较早输入位置，我们创建一个掩码M′来屏蔽后续位置。因此，在每个解码块ℓ中，我们有Qℓ =B(Qℓ−1,ZT,ZT,M′)，其中块B的三个输入对应于查询、键和值。在将输入转发到第一个解码块之前，我们使用正弦位置嵌入[79]对其进行编码，以融入时间信息。04.3. 头部网络0我们使用两个C-VAE作为两个头部；一个用于手部轨迹估计，另一个用于对象接触点预测。Inference.During inference, we sample 20 times for boththe trajectories and contact points from the C-VAE for eachinput video.Following the evaluation protocol in previous32860C-VAE包含两个函数：编码函数Fenc将输入x和条件c编码为由均值μ和协方差σ参数化的潜在z空间，解码函数Fdec将从潜在空间中采样的z和条件c解码为重构输入x。形式上，我们有μ,σ = Fenc(x;c)和ˆx =Fdec(z;c)，其中z�N(μ,σ2)。Fenc和Fdec被实现为MLP。在训练时，我们最小化重构误差Lrecon(x,ˆx)=∥x−ˆx∥2，以及KL散度项Lkl(μ,σ)=−KL[N(μ,σ2)||N(0,1)]，用于将潜在z空间正则化为接近正态分布N(0,1)。在推断过程中，我们从潜在空间中采样z，并与条件c连接以预测输出ˆx。0手部C-VAE。在未来的时间步t，手部C-VAE将手部位置hT+t作为输入，并以来自解码器输出的手部特征令牌XT+t（第4.2节）为条件。编码函数Fhenc输出潜在空间的分布参数μh和σh。解码函数Fhdec预测未来手部位置ˆhT+t。因此，手部C-VAE的损失函数LH是所有未来时间步t的重构损失和KL散度正则化的组合：0LH =0t=1 Lrecon(hT+t,ˆhT+t)+Lkl(μh,σh)（3）0对象C-VAE。对象C-VAE将从生成的未来接触点集合O（第3.1节）中采样的未来接触点o作为输入，并以来自Transformer编码器输出的最后观察帧中的全局特征令牌ZTg（第4.1节）和未来手部位置（hT，∙∙∙，hT+F）为条件。手部轨迹被转发到全连接层，并与ZTg连接作为条件输入。我们发现，通过将未来手部轨迹作为条件输入，可以更准确地预测对象的未来接触点。在训练过程中，我们使用教师强制[85]，将真实的未来手部轨迹作为输入。在推断过程中，我们使用预测的未来手部轨迹作为对象C-VAE的输入。与手部C-VAE类似，编码函数Foenc输出μo和σo，而解码函数Fodec预测未来对象接触点ˆho。对象C-VAE的损失函数LO如下：0LO = Lrecon(o,ˆo)+Lkl(μo,σo)（4）04.4. 训练和推断0训练。我们使用手部轨迹损失LH和对象接触点损失LO来训练对象中心Transformer。我们观察到，在我们生成的训练集中，对象接触点标签比手部轨迹标签更加嘈杂。总损失为L= LH + λLO，其中λ =1e−1是一个用于平衡训练损失的常数系数。05.1. 实现细节05. 实验05.2. 数据集0我们在Epic-Kitchens上以每秒4帧的速度采样T =10帧作为输入观察，并在未来预测1秒，其中未来时间范围F= 4。我们在EGTEA Gaze+上以每秒6帧的速度采样T =9帧，预测0.5秒，其中F = 3。我们使用[25]中的TSN[83]作为主干，从输入视频剪辑中提取RGB特征。我们使用[73]中提出的检测器在每个输入帧中检测活动手部和物体边界框。然后，我们使用RoIAlign[34]和平均池化来生成手部Pth、物体Pto和全局特征Ptg（第3.3节）的1024-D向量，其中t是输入时间步。我们将OCT的嵌入维度设置为512。在Epic-Kitchens上，我们将编码器和解码器中的块数设置为6和4，在EGTEAGaze+上，我们将编码器和解码器中的块数设置为2和1。每个块有8个注意力头。对于C-VAE中的编码和解码函数Fenc和Fdec，我们对手部和物体都使用单层MLP。OCT使用Adam优化器[40]进行训练，学习率为1e-4，批量大小为128。在Epic-Kitchens上进行35个时期的训练，在EGTEAGaze+上进行25个时期的训练，包括5个时期的热身[31]和余下的时期的余弦衰减[52]。在推理过程中，我们从C-VAE中分别对手部轨迹和物体接触点进行20次采样。请参阅补充材料以获取详细的网络结构。0我们在实验中使用了Epic-Kitchens-55（EK55）[15]，Epic-Kitchens-100（EK100）[16]和EGTEAGaze+（EG）[46]数据集。EK100数据集是EK55数据集的扩展版本。所有数据集都捕捉了厨房中的日常活动。根据[16,25]中的标准分区协议，我们将两个数据集的训练集分为训练和验证集。由于测试集仅用于动作预测，我们在实验中不使用它们。我们使用第3.2节中的方法自动生成训练标签。评估是在所有数据集的验证集上进行的。我们手动过滤掉生成不良的手部轨迹，并通过亚马逊机械土耳其平台收集了一个具有挑战性的子集上的交互热点注释（详见补充材料）。在给定未来的最后观察帧和接触帧的情况下，我们要求工人在最后的观察帧中放置1-5个未来的接触点。根据[21,61]，我们将这些注释转换为一个可供性热图作为我们的真实标签。在EK55数据集上，我们收集了8523个训练样本，1894个评估手部轨迹和241个交互评估热点。在EK100数据集上，我们收集了24148个训练样本，3513个评估手部轨迹和401个评估交互热点。在EG数据集上，我们收集了1880个训练样本，442个评估手部轨迹和69个评估交互热点。Table 1. Future hand trajectory estimation performance on threedatasets. (↑/↓ indicates higher/lower is better.) Our method outperformsprevious approaches by a large margin and achieves comparableperformance with the more elaborate divided space-time attention design.EK55EK100EGSeq2Seq [75]0.180.140.180.140.180.14FHOI [49]0.360.350.350.350.340.34EK55EK100EGFHOI [49]0.310.3232870方法 ADE ↓ FDE ↓ ADE ↓ FDE ↓ ADE ↓ FDE ↓0分割 0.11 0.11 0.12 0.11 0.15 0.15 我们的 0.12 0.12 0.12 0.11 0.14 0.1405.3. 评估指标0轨迹评估。我们使用归一化的预测2D手部位置进行评估，使用以下指标。 • 平均位移误差 (ADE) .ADE是预测未来和真实情况在整个轨迹和两只手上的 ℓ 2距离的平均。0• 最终位移误差 (FDE) .FDE是预测未来和真实情况在最后一个时间步的 ℓ 2距离，然后对两只手求平均。0交互热点评估。我们对得到的可行性热图进行下采样和归一化，分辨率为 32 x ，确保总和为 1 。我们不使用KLD(Kullback-Leibler Divergence)指标 [ 10]，因为已知它对分布的尾部非常敏感 [ 4 , 63 , 91]。低密度区域的微小差异可能导致巨大的KLD，尤其是对于预测问题而言。 • 相似度指标 (SIM) : SIM [ 76 ]用于衡量预测的可行性热图分布与真实热图分布之间的相似性。它计算的是在每个像素位置上预测热图和真实热图之间的最小值之和。0• AUC-Judd (AUC-J) : AUC-J [ 38 ]是Judd等人提出的AUC的变体。AUC评估在不同阈值下预测到的真实情况占比 [ 10 ]。0• 规范化扫视显著性 (NSS) : NSS [ 65 ]用于衡量预测的可行性热图与真实热图之间的对应关系。它通过将预测的可行性热图归一化为零均值和单位标准差，并对真实情况位置求平均来计算。05.4. 与最先进方法的比较0轨迹估计。我们将我们的方法与几种基线方法和最先进方法进行比较。卡尔曼滤波器 (KF) [ 7 ]跟踪观察帧中手的中心，并预测未来的手部位置。Seq2Seq [75 ]使用LSTM来编码观察序列中的时间信息，并解码目标位置。预测HOI (FHOI) [ 49 ] 使用I3D [ 13 ] (CNN)和运动注意力来预测未来的手部运动。注意，FHOI只使用观察帧作为输入，没有访问手-物体检测结果。此外，我们还与分割注意力 (Divided) [ 6 ]进行比较，该设计在编码器中分别应用时间注意力和空间注意力。0表2. 三个数据集上未来物体交互热点预测性能。 ( ↑ / ↓表示越高/越低越好。)我们的方法在性能上优于之前的工作以及分割注意力显著。0方法 SIM ↑ AUC-J ↑ NSS ↑ SIM ↑ AUC-J ↑ NSS ↑ SIM ↑ AUC-J ↑ NSS ↑0中心 0.09 0.61 0.33 0.09 0.62 0.31 0.09 0.63 0.27 热点 [ 61 ] 0.15 0.66 0.53 0.14 0.660.47 0.15 0.71 0.69 FHOI [ 49 ] 0.13 0.57 0.21 0.12 0.56 0.18 0.15 0.66 0.510分割 0.19 0.67 0.67 0.16 0.66 0.50 0.19 0.70 0.69 我们的 0.22 0.70 0.87 0.19 0.690.72 0.23 0.75 1.010表3.跨数据集手部轨迹估计泛化性能。所有模型都在Epic-Kitchens上进行训练，然后在EGTEAGaze+上进行测试。0方法 ADE ↓ FDE ↓0分割 0.15 0.13 我们的 0.160.130表4.跨数据集交互热点预测泛化性能。所有模型都在Epic-Kitchens上进行训练，然后在EGTEAGaze+上进行测试。0方法 SIM ↑ AUC-J ↑ NCC ↑0热点 [ 61 ] 0.15 0.71 0.69 FHOI [ 49] 0.12 0.54 0.100分割 0.21 0.74 0.80 我们的 0.23 0.781.020而不是同时进行（第4.1节）。我们仅在不同帧中的手部令牌之间计算时间注意力，并且仅在每个帧内计算空间注意力。结果如表1所示。实验结果表明，我们的方法在ADE和FDE上分别相对于每个指标的第二好方法提高了50%和27.3%在EK100数据集上，与分割注意力Transformer编码器设计的性能相似。这证明了在以自我为中心的视频中使用Transformer捕捉手部、对象和环境上下文交互的优越性。0交互热点预测。我们将我们的结果与以下方法进行比较。Center [49, 54,61]在图像中心放置固定的高斯生成热图。Hotspots[61]使用Grad-Cam[71]预测未来的动作标签作为额外输入来预测空间交互区域。FHOI [49]和Divided[6]是在轨迹估计中引入的相同方法和基准，其中它们分别使用了I3D（CNN）和分割的时空Transformer编码器。表2总结了交互热点预测的结果。我们的方法在数据集和所有指标上都取得了最佳性能，在EK100数据集上相对于每个指标的第二好方法，SIM提高了+5%，AUC-J提高了+3%，NSS提高了+25%。与分割注意力相比，联合建模观察帧中的所有手-对象令牌对于预测更有益。这些结果还突显了Transformer架构对于视觉预测问题更加合适。0跨数据集泛化。我们评估了学习模型在两个任务上的跨数据集泛化能力。所有模型都在Epic-Kitchens上进行训练，并在EGTEAGaze+上进行测试。手部轨迹估计和交互热点预测的性能如表3和表4所示。除了在领域内表现优越外，我们的方法0.5s1.0s1.5s2.0s2.5sobservation time0.100.110.120.130.140.15errorADEFDEf32880表5.通过使用不同的头部网络进行轨迹估计的消融研究。粗体字表示随机模型。0Heads ADE条件↓ FDE条件↓0MLP 0.21 0.16 Bivariate0.19 0.14 C-VAE 0.120.110表6.通过使用不同的头部网络进行热点预测的消融研究。粗体字表示随机模型。0Heads SIM条件↑ AUC-J条件↑0MLP 0.14 0.59 0.43 MDN 0.160.64 0.53 C-VAE 0.19 0.690.720表7.不同C-VAE条件的消融研究。H和O分别代表未来的手部轨迹和接触点。O|H表示对象C-VAE在手部轨迹上有条件，H|O类似。None表示没有条件。在手部轨迹的条件下预测接触点在两个任务上表现最好。0轨迹交互热点0ADE条件↓ FDE条件↓ SIM条件↑ AUC-J条件↑ NCC条件↑0None 0.14 0.12 0.16 0.64 0.53 H|O 0.13 0.12 0.16 0.640.54 O|H 0.12 0.11 0.19 0.69 0.720在两个任务上，我们的方法在所有指标上显著优于其他方法，表现出很强的跨领域泛化能力。05.5.消融和分析0我们在EK100数据集上对我们的方法进行消融研究。0头部消融。首先，我们评估使用不同的随机/确定性头部网络进行轨迹估计和接触点预测的性能。对于轨迹估计，我们将提出的C-VAE与MLP和Bivariate进行比较。MLP确定性地输出未来的手部位置，而Bivariate[1]假设未来的手部位置在每个时间步骤上遵循双变量高斯分布，并在推理过程中从预测的分布中显式采样。对于未来的接触点预测，我们将C-VAE与MLP和MDN进行比较。MDN[8]采用混合密度模型（MDN）并将未来的接触点的分布建模为高斯混合模型，其中我们将高斯分量的数量设置为3。如表5和表6所示，随机模型在两个任务上表现优于确定性模型，这要归功于它们处理不确定性的能力。采用C-VAE而不是MLP可以将轨迹估计性能提高75.0%的ADE和45.5%的FDE，还可以在热点预测的SIM、AUC-J和NCC上获得+5%、+10%和+29%的增益。此外，我们还观察到C-VAE相对于Bivariate和MDN取得了更好的结果。这表明在潜在空间中建模随机性比在输出空间中更有效。0C-VAE条件。除了在C-VAE中建模不确定性外，我们还分析了C-VAE中条件依赖的影响。在表7中，我们评估了在手和物体上使用不同C-VAE条件的性能。我们比较了三种情况：手轨迹和物体接触点之间没有条件，表示为None；手轨迹以条件形式0表8.利用更多自动注释的训练数据的消融研究。我们比较了在EK55和KE100训练集上以相同设置训练的两个模型，并在EK100验证集上评估性能。使用更多自动注释的训练数据（EK100）在两个任务上都获得了更好的性能。0轨迹交互热点0训练评估 ADE ↓ FDE ↓ SIM ↑ AUC-J ↑ NCC ↑0EK55 EK100 0.13 0.12 0.18 0.68 0.60 EK100 EK100 0.120.11 0.19 0.69 0.720表9.不同输入特征对轨迹估计的消融研究。编码环境上下文和手部特征的全局特征最重要。0手对象全局 ADE ↓ FDE ↓0� � � 0.13 0.16 � � � 0.13 0.11 � � � 0.15 0.� � � 0.12 0.110图4.观察时间对轨迹估计的影响。较长的时间上下文是有帮助的。0在物体接触点上，表示为H|O；在手轨迹上有条件的物体接触点，表示为O|H。我们发现在C-VAE中明确地加入条件依赖性可以提高整体性能。在未来手部轨迹有条件的情况下预测交互热点在两个任务上获得了最佳结果，相比于以相反顺序有条件的情况下，SIM、AUC-J和NCC的性能分别提高了3%、5%和18%。这表明这两个任务是相互关联的，明确地建模它们的关系有益于性能。0更多的训练数据。由于我们自动生成训练数据而无需手动标注，我们有兴趣了解是否利用更多的自动注释训练数据可以提高性能。我们在EK55和EK100的训练集上使用相同的设置训练了两个模型。我们在手动收集的EK100验证集上评估它们的性能，该验证集与EK55和EK100的训练集都没有重叠。如表8所示，我们观察到使用更大的数据（EK100）训练的模型在两个任务上都优于在EK55上训练的模型。这证明了我们方法的有效性。尽管在训练数据生成过程中引入了不可避免的噪声，但我们的方法仍然可以学习到有用的预测表示，并且受益于利用更多的训练数据。这也表明我们的方法在更大规模的自我中心视频上具有巨大的潜力。0输入消融。我们评估不同输入设置对轨迹估计性能的贡献。由于接触点预测性能是在轨迹的条件下进行的，因此输入关系不像轨迹估计那样直接。我们通过评估不同特征的贡献来32890表10.EK55和EK100验证集上的行动预测性能。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

自我为中心的视频预测手部运动和交互热点

如何在虚幻引擎VR模板中将手部模型添加到场景中并且进行一系列交互

mediapipe输出手部关键点坐标

相比于语音交互、手势交互、键鼠交互等其他交互模式，眼动交互有哪些优点和缺点呢？

我想训练一个用图片中的手部替换视频中的手部，该选择什么模型

leapmotion 交互引擎中抓取检测

体感交互技术的功能和方法

二自由度机器人已知手部中心p点坐标值,求该机器人运动方程的逆解

processing和Kinect2.0交互，用Kinect的人体手部动作替代processing的鼠标点击和移动功能

leapmotion 交互引擎中交互碰撞检测

leap motion 作为针对手部与臂部捕捉的体感设备,能够以高帧率,高精度捕获手部及臂

手部姿态估计任务中什么叫手部置信图

unity导入手部模型

相比于眼动交互、手势交互、键鼠交互等其他交互模式，语音交互有哪些优点和缺点呢？

unity 手部模型下载

基于帕金森的手部关键点检测

leapmotion 交互引擎中接触的原理

leapmotion 交互引擎中接触监测

怎么获取手部的参数jupyter

unity vr交互如何实现

基于微信小程序的新生报到系统设计与实现.docx

最新资源