行动识别。有大量关于动作识别的文献(参见[41]的调查)。我们讨
论了相关的工作,目标是开发深度模型和使用注意力线索识别动作。
•
行动的深层模型。深度模型已经证明了动作识 别的 最新 成功。
Simonyan和Zisserman [34]提出了双流网络,该网络学习从光流和RGB
帧中识别动作。Wang等人。[44]扩展了双流网络,以模拟视频中的多
个时间段。Du等人。[40]用时空卷积代替2D卷积,并训练了一个用于
动作识别的3D卷积网络。Carreira和Zisserman进一步提出了用于动作
识别的双流3D网络[4]。在[42]中也探讨了类似的想法。我们的模型建
立在双流3D卷积网络的最新发展之上[4],以识别FPV中的动作。我们
的技术新颖性是将随机单位模型自我中心的目光。
•
注意
行动。人类的目光提供了有用的信号的位置的动作,这种直觉
已经探索的领域以外的FPV的动作识别Mathe和Sminchesescu [24]提出
通过从预测的显着性图中采样局部描述符来识别动作Shapovalova等人
[31]提出了一种方法,使用人类的目光学习本地化的行动。然而,这
些方法没有使用深度模型。最近,Shikhar et al.[32]将软注意力纳入深
度循环网络以识别行动。然而,他们的注意力概念是由区别性图像区
域定义的,这些区域不是从注视中
作为注意力分割
出来的,并且对
于自我中心注视和动作的联合推断,
这一点
是
不
成立
的
我们的方法与[24,31]共享一个关键的直觉:使用预测的注视来选
择视觉特征。然而,我们的注意力模型是在深度网络中构建的,并进
行了端到端的训练。我们的模型类似于[32],因为我们还设计了一个
促进端到端培训的注意力机制然而,注意力在我们的网络中被建模为
随机单元,并接受来自嘈杂的人类凝视测量的监督。
3
方法
我们将输入第一人称视频表示为
X
=(
X1
,
…
x
t
),其帧
x
t
由时间
t
索
引。我们的目标是预测
x
的动作类别
y
。 我们假设自我中心注视测量
g
=(
g1
,
…
g
t
)在训练期间可用,但需要在测试期间推断。
g
t
被测量为
在
x
t
的图像平面上定义的时间
t
处
的单个2D注视点。 对于我们的模
型,将t重新表示为2D显著性图
gt
(
m
,
n
)是有帮助的,其中注视位
置的值
在
e
上,并且所有这些值都在e上
。
且
d
t
hu
s
Σ
m
,
n
g
t
(
m
,
n
)
=
1.
在
此
,
g
t
(
m
,
n
)定义2D凝视的适当概率分布。
图2是我们的模型的概述
。
我们
希望在我们的模型和用于对象检测的众
所周知的R-CNN框架之间建立一个算法[9,29]
。我们的模型将视频
x
作为
输入,并输出注视q的分布作为中间结果。然后,我们从该预处理中
采样凝视图
g
。