视频中的时间关系推理能力：一个有效的和可解释的网络模块（TRN）

139 浏览量更新于2023-10-13 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视频中的时态关系推理Bolei Zhou，Alex Andonian，Aude Oliva，Antonio TorralbaMIT CSAIL{bzhou，aandonia，oliva，torralba}@ csail.mit.edu抽象。时间关系推理，随着时间的推移链接对象或实体的有意义的转换的能力，是智能物种的基本属性。在本文中，我们介绍了一个有效的和可解释的网络模块，时间关系网络（TRN），旨在学习和原因在多个时间尺度的视频帧之间的时间依赖关系。我们使用三个最近的视频数据集- Something- Something，Jester和Charades -从根本上依赖于时间- poral关系推理来评估TRN配备的网络的活动识别任务。我们的研究结果表明，所提出的TRN给卷积神经网络一个显着的能力，发现在视频中的时间关系。仅通过稀疏采样的视频帧，配备TRN的网络可以准确地预测Something-Something数据集中的人与对象的交互，并以非常有竞争力的性能识别Jester数据集上的各种人类手势。配备TRN的网络在识别Cha rades数据集中的日常活动方面也优于双流网络和3D卷积网络。进一步的分析表明，模型学习直观和1视频中可解释的视觉常识知识。1介绍随着时间的推移，推理实体之间关系的能力对于智能决策至关重要。时间关系推理允许智能物种分析当前相对于过去的情况，并制定关于接下来可能发生的事情的例如（图1），给定一个事件的两个观察结果，人们可以很容易地识别视觉世界的两个状态之间的时间关系，并推断出只给出两个视频帧2发生了什么。时间关系推理对于活动识别是至关重要的，形成用于描述事件的步骤的构建块单个活动可以由短期和长期时间尺度上的若干时间关系组成。如短跑运动中包含着起跑蹲、跑道跑、终点线跑的长期关系，同时短跑运动中也包含着起跑蹲、跑道跑、终点线跑的长期包括周期性手和脚运动的短期关系。1代码和型号可在www.example.com上http://relation.csail.mit.edu/。2 答案：a）戳一堆罐头，让它塌下来; b）堆一些东西; c）整理衣柜; d）竖起大拇指。2B. Zhou，中国古柏A.Andonian，A.Oliva和A.Torralba？？a B？？C d图1：两次观察之间发生了什么？(see答案在第一页下方）。人类可以很容易地推断出这些观察之间的时间关系和转换，但这项任务对于神经网络来说仍然很困难。行为识别一直是计算机视觉领域的核心课题之一然而，由于在适当的时间尺度上描述活动的模糊性，它仍然很困难[1]。许多视频数据集，如UCF101 [2]，Sport1M [3]和THUMOS [4]，包括许多可以在不推理长期时间关系的情况下识别的活动：静止帧和光流足以识别许多标记的活动。事实上，经典的双流卷积神经网络[5]和最近的I3D网络[6]都基于帧和光流，在这些数据集上执行活动识别非常好然而，卷积神经网络仍然在数据和观察有限的情况下挣扎，或者底层结构的特征在于变换和时间关系，而不是某些实体的出现[7，8]。对于卷积神经网络来说，推理时间关系并预测什么变换仍然是非常具有挑战性的。观察结果发生了变化在这项工作中，我们提出了一个简单的和可解释的网络模块，称为时间关系网络（TRN），使时间关系推理的神经网络。该模块受到[7]中提出的关系网络的启发，但TRN不是对空间关系进行建模，而是旨在描述视频中观察之间的时间关系。因此，TRN可以在多个时间尺度上学习和发现可能的时间关系。TRN是一个通用的可扩展模块，可以以即插即用的方式与任何现有的CNN架构一起使用。我们将配备TRN的网络应用于三个最近的视频数据集（Something-Something [9]，Jester [10]和Charades [11]），这些数据集是为了识别不同类型的活动而构建的，例如人与物体的交互和手势，但都依赖于时间关系推理。配备TRN的网络即使在仅提供离散RGB帧的情况下也能实现非常有竞争力的结果，从而比基线有了显著的改进。1.1相关工作用于活动识别的卷积神经网络。视频中的行为识别是计算机视觉的核心问题随着深度对话的兴起-视频中的时态关系推理3尽管卷积神经网络（CNN）在图像识别任务上实现了最先进的性能[12，13]，但许多工作已经研究了设计用于活动识别的有效深度卷积神经网络[3，5，14-16，6]。例如，在Sport1M数据集上探索了在时间维度上融合RGB帧的各种方法[3]。两个流CNN，一个流提出了静态图像的光流和其他光流流来融合对象外观和短期运动的信息[5]。3D卷积网络[15]使用3D卷积内核从密集的RGB帧序列中提取特征。时间段网络对不同时间段上的帧和光流进行采样，以提取用于活动识别的信息 [16] 。CNN+LSTM模型使用CNN提取帧特征，使用LSTM随时间推移整合特征，也可用于识别视频中的活动[14]。最近，I3D网络[6]在密集RGB和光流序列上使用具有膨胀3D卷积的两个流CNN，以实现Kinetics数据集[17]的最新性能。现有CNN在动作识别方面存在几个重要问题：1）对光流的预先提取的依赖性降低了识别系统的效率; 2）考虑到连续帧中的冗余，密集帧序列上的3D卷积在计算上是昂贵的; 3）由于输入到网络中的帧序列通常限于20到30帧，因此网络难以学习帧之间的长期时间关系。为了解决这些问题，所提出的时间关系网络稀疏地采样单个帧，然后学习它们的因果关系，这比采样密集帧并将它们卷积要有效得多。我们表明，TRN配备的网络可以有效地捕捉在多个时间尺度的时间关系，并优于密集的基于帧的网络，只使用稀疏采样的视频帧。活动识别中的时间信息。对于许多现有视频数据集（如UCF 101[2]、Sport 1 M [3]、THU-MOS [4]和Kinetics [17]）上的活动识别，静止帧和短期运动（如光流）的出现因此，诸如双流网络[5]和I3D网络[6]的活动识别网络被定制为捕获密集框架的这些短期动态。因此，exx是两个任务，不需要构建所有相关的推理能力。另一方面，最近已经存在经由众包收集的各种视频数据集，其集中于顺序活动识别：Something-Something数据集[9]被收集用于通用的人类对象交互。我已经看到了这样的内容，即“从hingin g中删除hing i n g，并使用hing i n g中的hing i n g”。 Jesterdaset[10]是用于手势识别的另一个可靠的视频数据集。视频由众包工作记录，形成27千个诸如“T h u m b i n g up”和“S w i p i n g Le f t”的视频。Charades数据集也是一个高级人类活动数据集，它通过要求人群工作人员执行一系列家庭活动来收集视频，然后记录自己[11]。为了识别这三个数据集中的复杂活动，将时间关系推理集成到网络中是至关重要的。此外，许多以前的作品模型的时间结构的视频行动4B. Zhou，中国古柏A.Andonian，A.Oliva和A.Torralba使用单词袋、运动原子或动作图进行识别和检测-3月[18-22]。我们使用一个更通用的结构来学习端到端训练中的时间关系，而关系推理和直觉物理学。最近，关系推理模块已经被提出用于具有超人类性能的视觉问答[7]。我们专注于视频中的多尺度时间关系建模在机器人自监督学习领域，已经提出了许多模型来学习帧之间的直观物理给定初始状态和目标状态，使用具有强化学习的逆动力学模型来推断对象状态之间的转换[23]。物理交互和观察也用于训练深度神经网络[24]。时间对比网络用于从第三人称视频观察中进行对象操纵的自监督模仿学习[25]。我们的工作旨在在监督学习环境中学习视频中的各种时间关系建议TRN可以扩展到机器人对象操作的自监督学习1 2 3 4 5 6 7 8 9 10 11 12时间1 9 5 10 3 8 12 1 4 10 2 5 9 12图2.时间关系网络的图解视频的代表性帧（如上所示）被采样并馈送到不同的帧关系模块中。仅示出了2帧、3帧和4帧关系的子集。2时态关系网络在本节中，我们将介绍时态关系网络的框架它很简单，可以很容易地插入到任何现有的卷积神经网络架构中，以实现时间关系推理。在后面的实验中，我们展示了配备TRN的网络发现可解释的视觉常识知识来识别视频中的活动。2.1定义时态关系受视觉问答的关系推理模块[7]的启发，我们将成对时间关系定义为以下复合函数：T2（V）=hφ.ΣI jΣgθ（fi，fj）（一）CNNCNNCNNCNNCNN+++假装把东西放在东西旁边2-框架关系3-框架关系 4- 框架关系视频中的时态关系推理5KDN其中输入是具有n个选择的有序帧的视频V，V ={f1，f2，.，其中fi是视频的第i帧的表示，例如，输出激活从一些标准的CNN。函数hφ和gθ融合了不同序框架的特征。在这里，我们简单地使用分别具有参数φ和θ的多层感知器（MLP）。为了有效的计算，而不是添加所有的组合对，我们均匀地采样帧i和j，并对每一对进行排序。我们进一步将2帧时间关系的复合函数扩展到更高的帧关系，例如下面的3帧关系函数：’。ΣT3（V）=hφi j k′Σgθ（fi，fj，fk）（二）其中求和再次是在已经被均匀采样和排序的帧i、j、k的集合2.2多尺度时间关系为了捕获多个时间尺度下的时间关系，我们使用以下复合函数来累积不同尺度下的帧关系：MT N（V）= T2（V）+T3（V）… + T N（V）（3）每个关系项T_d捕获d个有序帧之间的时间关系每个Td都有自己独立的h（d）和g（d）。注意，对于任何给定的φ θd帧，所有时间关系函数是端到端不同的。因此，它们都可以与用于提取每个视频帧特征的基础CNN一起训练。总体框架如图2所示。2.3高效的培训和测试当训练多尺度时间网络时，我们可以通过为视频的每个Td项选择不同的d帧集合来对总和进行采样。然而，我们使用的采样方案，大大减少了计算首先，我们一致从视频的N个片段中采样一组N帧，V*V，我们使用NV*N 计算TN（V）。然后，对于每个d N，我们选择k个随机子样本vv。这些用于计算每个的d-框架关系Td（V）. 这允许在运行基础CNN时对kN时间关系进行采样仅在N个帧上，而所有部分一起进行端到端训练。在测试时，我们可以将配备TRN的网络与队列相结合，以非常有效地处理流媒体视频队列用于缓存从视频采样的等距帧的提取的CNN特征，然后这些特征被进一步组合成不同的关系元组，这些关系元组被进一步求和以预测活动。CNN特征仅从传入的关键帧中提取一次，然后排队，因此配备TRN的网络能够在桌面上实时运行，以处理来自网络摄像头的流式视频。6B. Zhou，中国古柏A.Andonian，A.Oliva和A.Torralba3实验我们评估的TRN配备的网络上的各种活动识别任务。对于识别依赖于时间关系推理的活动，配备TRN的网络比没有TRN的基线网络表现更好。我们在用于人类交互识别的Something-Something数据集[9]和用于手势识别的Jester数据集[10]上取得了非常有竞争力的结果配备TRN的网络在Charades数据集[11]中的活动分类上也获得了有竞争力的结果，仅使用稀疏采样的RGB帧就优于Flow+RGB集成模型[26，11]三个数据集Something-Something数据集（Something-V1 [9]和Something-V2 [27]，其中Something-V2是2018年7月初数据集的第二个版本）[9，27]，Jester数据集[10]和Charades数据集[11]的统计数据列于表1中。所有这三个数据集都是众包的，其中视频是通过要求众包工作人员记录他们自己执行指示的活动来收集的。与UCF 101和Kinetics中的Youtube类型视频不同，众包视频中的每个活动通常都有明确的开始和结束强调时间关系推理的重要性。表1：用于评估TRN的数据集的统计。数据集类视频类型什么-V1174108,499人-物交互什么-V2174220,847人-物交互杰斯特27148,092人体手势字谜1579,848日常室内活动3.1网络架构和培训用于提取图像特征的网络在视觉识别任务中发挥着重要作用[28]。来自更深层次网络（如ResNet）的功能[29]通常表现得更好。我们的目标是评估TRN模块在视频中进行时间关系推理的有效性。因此，我们在所有实验中将基础网络架构固定为相同，并比较了具有和不具有所提出的TRN模块的CNN模型的性能。我们采用在[30]中使用的ImageNet上预训练的Inception with BatchNormalization（BN-Inception），因为它在准确性和效率之间取得了平衡我们遵循部分BN的训练策略（冻结除第一个层外的所有批归一化层）和全局池化后的dropout，如[16]所用我们保持MultiScale TRN模块的网络架构和所有三个数据集上的训练模型的训练超参数相同。我们在实验中将k= 3设置为视频中的时态关系推理7每个关系模块。gφ简单地是每层具有256个单元的两层MLP，而hφ是单元号与类号匹配的一层MLP。用于给定帧的CNN函数是来自BN-整数的全局平均池化层（在最终分类层之前）的活动鉴于BN- Inception作为基础CNN，在单个Nvidia Titan Xp GPU上，100个训练epoch的训练可以在不到24小时内完成在多尺度TRN中，我们包括从2帧TRN到8帧TRN的所有TRN模块（因此在等式3中N= 8），因为包括更高帧TRN带来边际改进并降低效率。3.2关于Something-Something数据集Something-Something是一个用于人机交互识别的最新视频数据集。有174个类别，一些模糊的活动类别是所有的，如“T earing S om e t h i ng t w o p i c e s s 'v e r us”“T earing S om e t h i n g j u s t a little le b it”，“T u r s om e t h i n g t h i n g t h i n g t u s”“P r e t e t i n g t u r som e t h i n g t h i n g t h i n g t h i n g t u s t h i n g t h i n g t u s t h i n g t h in g t u s t h i n g t h i n g t u s t h i n g t u s t h i n g t h i n g t u s t t h i n g t us t h i n g t h i n g t u s t h i n g t h i n g t u s t t h i n g t h i n g t u s t h i n g我们可以看到对象的所有特征和变换，而不是对象的外观表征数据集中的活动。Something-Vl和Something-V2数据集的验证集和测试集的结果基线是在从每个视频中随机选择的单帧上训练的基础网络。具有TRN的网络的性能大大超过单帧基线我们通过简单地对来自任何给定视频的两个流的预测概率进行平均来构建2流2流TRN进一步将Something-vl和Something-v2的验证集的准确度分别提高到42.01%和55.52%注意，我们发现在TSN [16]中使用的具有平均帧池化的光流比具有所提出的时间相对池化的光流获得更好的分数，因此我们在光流流上使用8帧TSN，其在Something-Vl和Something-V2的验证集上分别获得我们进一步提交了测试集上的MultiScale TRN和2-stream TRN预测，结果如表2.a我们将TRN与TSN [16]进行比较，以验证时间顺序的重要性。TSN不是连接时间帧的特征，而是简单地对深度特征进行平均，使得模型仅捕获特征中的模式的同现而不是时间排序。我们保持所有训练条件相同，并改变两个模型使用的帧数如表2b所示，我们的模型大幅优于TSN。这一结果表明，时间关系推理的框架顺序的重要性。我们还看到，包括在关系中的额外的帧带来进一步的显着改善TRN。3.3英文名称：Jester and Charades我们进一步评估了Jester数据集上配备TRN的网络，Jester数据集是一个具有27个类的手势识别视频数据集上的结果8B. Zhou，中国古柏A.Andonian，A.Oliva和A.TorralbaTRN TSN2-fr. 22.23 16.723-fr.26.22 17.305-fr.30.39 18.117-fr.31.01 18.48(a)（b）第（1）款表2：（a）Something-Vl数据集（Topl准确度）和Something-V2数据集的验证集和测试集的结果（报告了Topl和Top5准确度）。（b）TRN和TSN作为帧的数量在Something-V1的验证集上变化。TRN优于TSN在一个大的利润率作为帧的数量增加，显示时间顺序的重要性表3a中列出了Jester数据集的验证集。表3b中列出了测试集的结果以及与顶级方法的比较。MultiScale TRN再次实现了接近95% Top1精度的竞争性性能Val测试基线63.6020BN Jester系统82.342帧TRN75.65VideoLSTM85.86三帧TRN81.45纪尧姆·伯杰93.87四帧TRN89.38福特几何系统94.115帧TRN91.40贝斯内94.23多尺度TRN95.31多尺度TRN94.78（一）（b）第（1）款表3：（a）验证集和（b）测试集的Jester数据集结果我们在最近的Charades数据集上评估了MultiScale TRN用于日常活动识别。结果列于表4中。我们的方法优于各种方法，例如2流网络和C3D [11]，以及最近的异步时间场（TempField）方法[26]。多尺度TRN对三个数据集的定性预测结果如图3所示。图3中的示例表明，模型能够正确地识别动作，对于这些动作，帧的整体时间排序对于成功预测是必要的。例如，逆时针转动的手类别在反向显示时将假定不同的类标签。此外，成功地预测类别，其中，一个独立的预测结果是你的行为（例如，一个独立的预测结果）。G.什么-V1什么-V2Val基线11.41MultiScaleTRN 34.442流TRN 42.01测试-三十三块六40.71Val-测试-48.80/77.6450.85/79.3356.24/83.15视频中的时态关系推理9包含在短段中的动作传达关于整个活动类的关键语义信息这一优异的性能表明了TRN在时间关系推理中的有效性及其在不同数据集上的强大泛化能力。表4：关于字谜活动分类的结果方法随机C3D AlexNet IDT 2流TempField我们的mAP 5.910.9 11.3 17.2 14.3 22.425.2a 把某物倒进某物1：将某物倒入某物（0.859）。2：将某物倒入某物直到其溢出（0.072）假装把东西放进东西1：假装把某物放进某物（0.710）。2：因为某物不合适而未能将某物放入某物中（0.265）b 拇指推某物，使其几乎掉下来，但没有1：推某物，使其几乎掉到地上，但没有（0.280）。2：假装从某物中拿走某物（0.134）使某物在平面上滚动1：在平面上滚动某物（0.672）。2：让某物在平面上滚动（0.192）逆时针旋转指针1：竖起大拇指（0.999）2：拇指朝下（0.001）1：逆时针旋转手（0.967） 2 ：顺时针旋转手（0.033）用两根手指放大1：用两个手指放大（0.993）2：用两根手指缩小（0.006）C卷手向后1：向前滚动手（0.990）2：手后滚（0.01）抱着枕头（0.120）抱着枕头（0.361）走过门口（0.066）拿着毯子（0.083）走过门口（0.339），（0.245），拿着盘子（0.109），拿着书（0.131）拿着枕头（0.188）拿着毯子（0.112）从某处拿枕头（0.207）拿枕头（0.142）抱枕头（0.501），（0.401），（0.225）走过门口（0.048），（0.100），（0.148）拿着一个盘子（0.423）从抱着枕头（0.118）从某处拿枕头（0.079）有人在打喷嚏（0.099）坐在椅子上（0.065）在某个地方（0.154）坐在地板上（0.267），（0.291），（0.229），（0.142）看/读/看一本书（0.162），拿着一本书（0.185），（0.163）（0.129）拿着一本书（0.163）合上书（0.093）抱着枕头（0.151）躺在床上（0.084）躺在地板上（0.084），（0.124）坐在椅子上（0.071），地板（0.104）图3：a）某物-某物，b）小丑，和c）Cha- rades的预测示例。对于从Something-Something和Jester中提取的每个示例，前两个预测的绿色文本表示正确的预测，红色文本表示不正确的预测。前2个预测显示在字谜框架上方。3.4解读TRN中的视觉常识知识与之前的视频分类网络（如C3D [15]和I3D [6]）相比，所提出的TRN的一个独特属性在本节中，我们有一个更深入的分析，解释通过解决这些时间推理任务的TRN学习的视觉常识知识。我们探讨以下四个部分：10B. Zhou，中国古柏A.Andonian，A.Oliva和A.Torralba由TRN投票以识别活动的视频的代表性帧。直观地，人类观察者可以通过选择代表性帧的小集合来捕捉动作的本质。对于经过训练以识别活动的模型，是否也是如此？为了获得每个TRN的代表帧序列，我们首先计算来自视频的等距帧的特征，然后随机组合它们以生成不同的帧关系元组并将它们传递到TRN中。最后，我们排名的关系元组使用不同的TRN的响应。图4示出了由不同TRN投票以识别同一视频中的活动的顶部代表性帧。我们可以看到，TRN学习表征活动的时间关系对于相对简单的动作，单个帧足以在正确动作中建立一定程度的置信度，但是当存在变换时容易出错2帧TRN拾取最好地描述变换的两个帧。同时，对于更困难的活动类别，例如“Pretengtopokeomething”，这两个动作对于甚至人类观察者来说都不足以进行区分。类似地，网络需要TRN中的附加帧来正确地识别行为。因此，代表性帧的进展及其相应的类预测告诉我们，时间关系如何帮助模型推理更复杂的行为。一个特定示例是图4中的最后一个视频：由单个框架给出的动作的描述（具有接近于被捕获的可能性）足以将顶部预测缩小到定性上类似的，两帧的关系稍微增加了初始预测的概率，尽管这两个帧甚至不足以让人类观察者做出正确的预测。现在，三个框架关系开始强调假装类别的“某物-某物”集合的模式特征：初始框架非常类似于某个动作，但后面的框架与该动作的完成不一致，好像它从未发生过。这种关系有助于模型将其预测调整到正确的类别。最后，在4帧关系的第三帧中，个体手的向上运动进一步增加了场景的预期和观察到的最终状态之间的不一致;类似于动作的运动似乎发生而对对象没有影响，因此，巩固了对正确类别预测的信心视频的时间对齐。由TRN识别的代表性帧在动作类别的实例之间是一致的这一观察表明TRN非常适合于将视频在时间上彼此对准的任务。在这里，我们希望通过在多个视频的帧序列之间建立对应关系来同步多个视频的动作。给定同一动作的多个视频实例，我们首先为每个视频选择最具代表性的帧，并使用它们的帧索引作为图5示出了来自对齐的视频的样本。我们可以看到动作的不同阶段被时间关系捕获。的视频中的时态关系推理11单帧2帧TRN 3帧TRN 4帧TRN5把某物移下来0 5 1 3 50 1 4 5把某物向下移动（0.352）把某物向下移动（0.998）把某物向下移动（0.999）6 3用某物覆盖某物揭开某物（0.226）覆盖某物（0.997）覆盖某物（0.998）覆盖某物（0.999）6将某物抛向空中并接住6 7 0 4 70 1 4 7将某物抛向空中并接住（0.986）将某物抛向空中并接住（0.999）将某物抛向空中并接住（0.934）并接住（0.520）2 2 32 3 62 3 4 5假装打开某物但实际上没有打开展开某物（0.045）展开某物（0.164）假装打开某物但实际上没有打开（0.828）假装打开某物但实际上没有打开（0.870）图4：由单帧基线网络、2帧TRN、3帧TRN和4帧TRN确定的顶部代表性帧。TRN学习仅在给定有限数量的帧的情况下捕捉活动的本质视频来自Something-Something数据集时间对齐也是我们的TRN模型的独家应用，这是以前的视频网络3DconvNet或双流网络无法完成的时间顺序对活动识别的重要性。为了验证帧的时间顺序对于活动识别的重要性，我们进行实验以在训练TRN时将场景与时间顺序和混洗顺序的输入帧进行比较，如图6a所示。为了训练混洗的TRN，我们随机混洗关系模块中的帧Something-Something数据集上的显著差异显示了时间顺序在活动识别中的重要性。更有趣的是，我们在UCF101数据集[2]上重复相同的实验，并且观察到有序帧和混洗帧之间没有差异。这表明在UCF101中对你的活动类型的识别不一定需要强大的推理能力，因为不存在与已经进行的活动相关联的为了进一步研究时间排序如何影响TRN中的活动识别，我们在图6b中检查并绘制了从Something-Something数据集提取的有序和混洗输入之间的类别准确性差异最大的类别。一般而言，具有强方向性和大尺寸的动作，例如“移动到下一个位置”，似乎从保持正确的时间顺序中受益最多。这一观察结果与以下想法一致，即连续运动的中断和洗牌视频帧的潜在后果可能会使人类观察者感到困惑，因为这将违背我们对物理学的直观概念。有趣的是，如果在一些情况下完全惩罚，则用于混洗相对静态动作的帧的惩罚不太严重，其中几个类别勉强适合于被混洗的输入，这是因为观察到的是，该类别或将那些能够被混洗的帧混洗到一个可以被混洗的被混洗的帧。因此，简化帧的重合而不是时间变换可能是足够的6124024712B. Zhou，中国古柏A.Andonian，A.Oliva和A.Torralba一将某物从右向左推将某物完全举起，然后让它落下1 2 3 4 5 1 2 3 4 5B放大与充分的手推手y1 234512345图5：使用最具代表性的帧作为时间锚点对来自（a）某物-某物和（b）Jester数据集的视频进行时间对准对于每个动作，使用5个时间锚点对齐4个不同的视频。对于该模型，以区分类似的活动并做出正确的预测。特别是针对复杂的情况，对于从视频中发现的部分或完整的问题，通过排序模型，可以从随机选择的类型中选择一系列类型，而不是从随机选择的类型中选择，从而导致该动作的准确性的奇怪差异。TSN和TRN之间的区别在于使用不同的帧特征池策略，其中使用时间关系（TR）池的TRN强调捕获帧的时间依赖性，而TSN简单地使用平均池来忽略时间顺序。我们详细评估了两种池策略，如表5所示。使用平均池和TR池的性能差异实际上反映了视频数据集中时间顺序的重要性。测试数据集按视频源分类，其中前三个是Youtube视频，其他三个是来自AMT的众包视频。CNN的基础是BNInception。这两个模型都使用8帧。有趣的是，具有平均池和TR池的模型在Youtube视频上实现了类似的准确性。因此，您可以不进行简单的推理，这可能是由于随机修剪的Youtube视频中的活动通常不具有清晰的特征。在另一方面，众包视频只有一个活动，具有明确的开始和结束，因此时间关系池带来了显着的改善。视频中的时态关系推理131：Tearing sth just a little bit（0.998）1：向下滑动（0.881）什么-什么3530252015101 2 3 45帧UCF10190858075701 2 3 4 5帧(a)（b）第（1）款图6：（a）分别在Something-Something和UCF 101数据集上使用有序帧和混洗帧获得的准确度。在某物-某物上，时间顺序对于识别活动至关重要。但是，在UCF101中识别活动并不一定需要时间关系推理。（b）在作为输入的有序帧和混洗帧之间分别表现出最大增益和最小增益（负）的前5个动作类别具有定向运动的动作似乎受到混洗输入的影响最大。Youtube视频众包视频数据集UCF动力学时刻东西杰斯特字谜Num.Classes10120033917427157平均池82.6963.3424.1119.5385.4111.32TR合并液83.8363.1825.9434.4495.3125.20表5：具有两个池策略的模型在六个视频数据集上的准确度。第一帧预测地面实况2：将某物撕成两片（0.001）3：假装在撕不可撕的东西（0.001）举升一个表面，上面有某物，但不够向下滑动（0.490）2：将某物与某物一起举起（0.423）3：将某物稍微倾斜，使其不会掉落（0.079）1：轻轻地戳某物，使其不动或几乎不动（0.466）2：戳一堆东西，使堆叠崩溃（0.207）3：戳某物使其轻微移动（0.164）2：向上滑动（0.105）图7：当仅给出前25%帧时的活动的早期识别。由左列中所示的第一帧表示的每个视频的前25%用于生成前3个预期预报和中间列中列出的相应概率。地面实况标签由指向右侧视频最后一帧的蓝色箭头突出显示。有序洗牌有序洗牌Top1准确度Top1准确度14B. Zhou，中国古柏A.Andonian，A.Oliva和A.Torralba表6：在Something-Something和Jester数据集上使用MultiScale TRN的早期活动识别。仅将帧的前25%和50%给予TRN以预测活动。基线是在单个帧上训练的模型。东西杰斯特帧基线TRN基线TRN前25%9.0811.1427.2534.23前50%10.1019.1041.4378.42充分11.4133.0163.6093.70早期活动识别。在活动发生或完全发生之前对活动进行早期识别甚至预测和预测是活动识别中一个具有挑战性但较少探索的问题在这里，我们评估我们的TRN模型在每个验证视频中仅给出前25%和50%的帧时对活动的早期识别结果示于表6中。为了比较，我们还包括单帧基线，其在来自视频的随机采样的单个帧上训练我们看到，TRN可以使用学习的时间关系来预测活动。性能随着接收到更多有序帧而提高图7示出了仅使用视频的前25%和50%帧来预测活动的一些示例这些例子的定性审查表明，模型预测只有初始帧作为非常合理的预测，尽管被赋予的任务具有高度的不确定性，即使是人类观察员。4结论我们提出了一个简单且可解释的网络模块，称为时间关系网络（TRN），以实现视频神经网络中的时间关系推理。我们在最近的几个数据集上评估了建议的TRN，并仅使用离散帧建立了竞争结果最后，我们已经表明，TRN模块发现视频中的视觉常识知识。鸣谢：这项工作的部分资金由DARPA XAI项目No. FA 8750 -18-C-0004，NSF批准号1524817，以及Samsung至A.T.; Vannevar Bush教师奖学金计划由ONR资助。N 00014 -16-1-3116至A.O.。它还通过内政部/内政部商业中心（DOI/IBC）合同号D17 PC 00341得到情报高级研究项目活动（IARPA）的美国政府有权为政府目的复制和分发重印本，尽管其上有任何版权注释免责声明：本文所含的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA、DOI/IBC或美国政府的官方政策或认可（政府的视频中的时态关系推理15引用1. Sigurdsson，GA，Russakovsky，O.，Gupta，A.：了解视频中的人类行为需要采取哪些行动？arXiv预印本arXiv：1708.02696（2017）2. Soomro，K.，Zamir，A.R.，Shah，M.：Ucf101：来自野外视频的101个人类动作类的数据集Proc. CVPR（2012）3. Karpathy，A.，Toderici，G.，Shetty，S.，Leung，T.，Sukthankar河李菲菲：用卷积神经网络进行大规模视频分类。In：Proc. CVPR.（2014年）4. Gorban，A.，Idrees，H.江，Y.，Zamir，A.R.，拉普捷夫岛Shah，M.，Sukthankar，R.：Thumos挑战：具有大量类的动作识别。在：CVPR研讨会。（2015年）5. 西蒙尼扬，K.，齐瑟曼，A.：双流卷积网络用于视频中的动作识别。在：在神经信息处理系统的进展。（2014）5686. 卡雷拉，J.，齐瑟曼，A.：你好，动作识别？新模型和动力学数据集。arXiv预印本arXiv：1705.07750（2017）7. Santoro，A. Raposo，D.，Barrett，D.G.，Malinowski，M.，帕斯卡努河巴塔利亚P.，Lillicrap，T.：一个用于关系推理的简单神经网络模块。arXiv预印本arXiv：1706.01427（2017）8. Lake，B.M.，Ullman，T.D.，Tenenbaum，J.B.，Gershman，S.J.：构建机器，使其具有可操作性。Behavi oralandBrainSciences（2016）19. 你好，R.， Kahou，S.， Mi chalski，V.， Materzyn'ska，J.，我们是朋友SKim，H.，Haenel，V.，弗鲁恩德，我，是的，M.，是的。：“所有这些”提供了一个用于平衡和评估的数据库，这是一个常见的问题。 Pr oc.ICCV（2017）10. ：Twentybnjester数据集：手势数据集。www.twentybn.com/datasets/jester（2017）11. Sigurdsson，GA，Varol，G.，王，X.，Farhadi，A.，拉普捷夫岛Gupta，A. ：家庭中的好莱坞：众包数据收集，用于活动理解。 In ：EuropeanConferenceonComputerVision，Springger（2016）51012. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。在：神经信息处理系统的进展。（2012年）109713. Zhou，B.，（1991年），中国地质大学，Lapedriza，A.肖，J.，Torralba，A.，Oliva，A.：使用地点数据库学习用于场景识别的深度特征。在：神经信息处理系统的进展。（2014）48714. Donahue ， J. ，安妮 · 亨德里克斯 Guadarrama ， S. ， Rohrbach ， M. ，Venugopalan美国，Saenko，K.达雷尔，T.：用于视觉识别和描述的长期递归卷积网络。在： Proceedings of the IEEE conference on computervisionandpa t eter nrecognition. （2015）262 515. Tran，D.，Bourdev，L.费格斯河托雷萨尼湖Paluri，M.：用三维卷积网络学习时空特征。In：Proc. CVPR. （2015年）16. Wang，L.，美国，Xiong，Y.，王志，Qiao，Y.，Lin，D.唐，X.，VanGool，L.：时间段网络：深入行动识别的良好做法。见：Proc. ECCV。（2016年）17. 凯， W. ，卡雷拉， J. ，西蒙尼扬， K. ，张， B. ，希利尔角Vijayanarasimhan，S.，Viola，F.，Green，T.，退后TNatsev，P.，等：人体动作视频数据集。arXiv预印本arXiv：1705.06950（201

下载后可阅读完整内容，剩余1页未读，立即下载