Simoyan
等人。
[32]提出了一种广泛采用的双流架构用于动作识
别,该架构提取两个不同的流,一个处理原始RGB输入,一个处理预
先计算的光流图像。
在稍窄的设置中,关于视频内容的先验信息可以允许更细粒度的
模型。关节式姿势广泛用于保证有人在场的情况[30]。姿势估计和活
动识别作为一个联合(多任务)问题,最近已经证明可以改善这两项
任务[23]。
注意力模型是一种以通常通用的方式构建深层网络的方法。它们
能够迭代地将注意力集中到数据中的特定部分,而不需要关于部分或
对象位置的先验知识。在活动识别中,近年来它们已经获得了一些牵
引力,无论是对铰接姿势(关节)[33],特征图单元[31,36],时间
[42]还是通过可区分作物[3]的原始RGB输入中的部分的软关注。
当原始视频数据被全局输入深度神经网络时,它们专注于提取时
空特征并执行聚合。已经表明,这些技术在具有挑战性的细粒度数据
集上失败,这些数据集需要学习长时间依赖性和人机交互。已经做出
了集中的努力来创建大规模数据集以克服这些问题[12,11,21,
13]。
关系推理。关系推理是一个很好的研究领域,从视觉推理[29]到物
理系统的推理[4]。Battaglia
等人
[4]介绍了一种完全可微的网络物理引
擎,称为交互网络(IN)。IN学习预测几个物理系统,如引力系统,
刚体动力学和质量弹簧系统。它显示了令人印象深刻的结果;然而,
它从虚拟环境中学习,该虚拟环境提供对几乎无限的训练示例的访
问。基于同样的观点,Santoro
等人
[29]引入了关系网络(RN),这是
一 种 用 于 深 度 网 络 推 理 的 插 件 模 块 。 RN 显 示 了 人 类 水 平 的
per-
functional
in
Vi
sual
Que
sti
on
An
swe
r
i
n
g
(
V
QA )
by
in
f
err
i
n
g
pai
r
wise“o b jec
t“re l at i on s
.
然而
,就我们的工作而言,[ 29]中的“对象”不是指
语义上有意义的实体,而是指特征图中的离散单元
。因此,交互
的数量随着特征图分辨率的增加而增加,这使得难以缩放。此外,最
近的一项研究[19]表明,其中一些结果受到数据集偏差的影响,并且
不能很好地推广到数据集设置的微小变化。
在同一行中,最近的工作[35]已经显示出使用来自虚拟环境的训练
示例以无监督方式发现对象及其交互的有希望的结果。在[38]中,注
意力和关系模块在图结构上组合。从不同的角度来看,[25]表明,可
以以数据驱动的方式学习关系推理以进行视觉推理,而无需任何先
验,使用基于条件信息的特征仿射变换的条件批量归一化。在相反的
方法中,强结构先验以复杂注意力机制的形式被学习:在[17]中,外
部存储器模块与对输入图像和文本问题的注意力处理相结合,执行
VQA的迭代推理。