第一人称视角下注视与动作联合学习的深度模型

深度模型

37 浏览量更新于2024-06-20 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"该文探讨了在第一人称视觉（First-Person Vision，FPV）中如何通过深度学习模型联合学习注视（gaze estimation）和动作识别（action recognition）。研究指出，人的注视行为与执行的动作紧密相关，尤其在第一人称视角下，注视可以指示动作发生的关键区域，减少背景干扰，帮助理解动作的本质。文章提出了一个新的深度模型，使用随机单元（stochastic units）来描述参与者的注视作为一个可预测和可修改的信息分布。通过这些随机单元生成的注意力图指导视觉特征的聚合，从而实现注视与动作之间的耦合。在标准的EGTEA数据集上，该方法的性能超过了现有最先进的技术，提高了约5%的识别准确率。在第一人称视频中，由于摄像机位于参与者头部，因此视频和动作都与参与者的视线对齐。这为研究注意力和动作的联合建模提供了独特的视角。传统的动作识别方法往往忽视了注视的重要性，而近期的一些研究开始利用人类的凝视信息来辅助动作识别。然而，同时建模注视和动作是一项具有挑战性的任务，因为实际生活中，人们的注视行为常常是不稳定的，比如频繁的扫视。该文通过深度网络中的随机单元来处理这种不确定性，这些单元能够生成的注意力图有助于从大量视觉信息中提取关键的、与动作相关的部分。此外，作者强调了第一人称视觉数据集EGTEA在评估此类模型中的作用，该数据集包含了丰富的厨房活动场景，使得模型能更好地理解和捕捉真实世界中复杂的注视和动作模式。通过在EGTEA上的实验，作者证明了他们的联合学习模型不仅能够提高动作识别的准确性，而且对于理解第一人称视频中的行为动态具有重要的理论和应用价值。总结来说，这篇论文介绍了一种创新的深度学习模型，该模型能够处理第一人称视频中不稳定的注视行为，并将其与动作识别相结合。通过这种方式，模型能够更准确地理解并识别出复杂场景中的动作，展示了在人工智能和计算机视觉领域中，模拟人类视觉系统和注意力机制的重要性。"

资源详情

资源推荐

Y. Li，M. Liu和J.M. 雷格

行动识别。有大量关于动作识别的文献（参见[41]的调查）。我们讨

论了相关的工作，目标是开发深度模型和使用注意力线索识别动作。

•

行动的深层模型。深度模型已经证明了动作识别的最新成功。

Simonyan和Zisserman [34]提出了双流网络，该网络学习从光流和RGB

帧中识别动作。Wang等人。[44]扩展了双流网络，以模拟视频中的多

个时间段。Du等人。[40]用时空卷积代替2D卷积，并训练了一个用于

动作识别的3D卷积网络。Carreira和Zisserman进一步提出了用于动作

识别的双流3D网络[4]。在[42]中也探讨了类似的想法。我们的模型建

立在双流3D卷积网络的最新发展之上[4]，以识别FPV中的动作。我们

的技术新颖性是将随机单位模型自我中心的目光。

•

注意

行动。人类的目光提供了有用的信号的位置的动作，这种直觉

已经探索的领域以外的FPV的动作识别Mathe和Sminchesescu [24]提出

通过从预测的显着性图中采样局部描述符来识别动作Shapovalova等人

[31]提出了一种方法，使用人类的目光学习本地化的行动。然而，这

些方法没有使用深度模型。最近，Shikhar et al.[32]将软注意力纳入深

度循环网络以识别行动。然而，他们的注意力概念是由区别性图像区

域定义的，这些区域不是从注视中

作为注意力分割

出来的，并且对

于自我中心注视和动作的联合推断，

这一点

是

不

成立

的

我们的方法与[24，31]共享一个关键的直觉：使用预测的注视来选

择视觉特征。然而，我们的注意力模型是在深度网络中构建的，并进

行了端到端的训练。我们的模型类似于[32]，因为我们还设计了一个

促进端到端培训的注意力机制然而，注意力在我们的网络中被建模为

随机单元，并接受来自嘈杂的人类凝视测量的监督。

方法

我们将输入第一人称视频表示为

=（

，

…

），其帧

由时间

索

引。我们的目标是预测

的动作类别

。我们假设自我中心注视测量

=（

，

…

）在训练期间可用，但需要在测试期间推断。

被测量为

在

的图像平面上定义的时间

处

的单个2D注视点。对于我们的模

型，将t重新表示为2D显著性图

（

，

）是有帮助的，其中注视位

置的值

在

上，并且所有这些值都在e上

。

且

，

（

，

）

在

此

，

（

，

）定义2D凝视的适当概率分布。

图2是我们的模型的概述

。

我们

希望在我们的模型和用于对象检测的众

所周知的R-CNN框架之间建立一个算法[9，29]

。我们的模型将视频

作为

输入，并输出注视q的分布作为中间结果。然后，我们从该预处理中

采样凝视图

。

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

第一人称视角下注视与动作联合学习的深度模型

第一人称和第三人称漫游（学校背景）

第一人称视角室内漫游程序

从篮球运动员的第一人称视频中预测未来运动（位置和注视方向）的方法及其社会行为的研究

unity第一人称视角的实现方式介绍

使用CDN链接引入第一人称视角库

unity第一人称视角室内漫游

unity第一人称视角

vr第一人称视角如何设计

three.js 第一人称视角

three.js 结合 tween.js实现第三人称视角转变第一人称视角

unity第一人称视角移动

unityfps第三人称视角

three.js实现第一人称视角飞行

在unity中如何使用第一人称视角角色移动来进行虚拟仿真漫游，请写出具体操作和代码，需要什么物体来实现第一人称视角角色移动，如何控制物体和摄像机，请写出具体的物体和摄像机

第一人称视角漫游three.js

u3d第一人称视角防卡

unity第一人称视角控制代码

unity 角色控制器 第一人称

最新资源

unity 角色控制器第一人称