时间CRF模型：视频中活动的推理与学习

121 浏览量更新于2023-10-15 收藏 1009KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

585端着一杯倒入杯中时间用杯子喝水用于动作识别的异步时间场贡纳河Sigurdsson1Santosh Divvala2，3 Ali Farhadi2，3 Abhinav Gupta1，31卡内基梅隆大学2华盛顿大学3艾伦人工智能github.com/gsig/temporal-fields/摘要动作不仅仅是运动和轨迹：我们做饭吃，我们拿着杯子喝。对视频的透彻理解需要超越外观建模，并且需要对活动的顺序进行推理，以及更高级别的结构，如意图。但是我们如何对这些进行建模和推理呢？我们提出了一个完全连接的时间CRF模型，用于对活动的各个方面进行推理，包括对象，动作和意图，其中潜力由深度网络预测。这种结构化模型的端到端培训是一项具有挑战性的工作：对于推理和学习，我们需要构建由整个视频组成的小批量，从而导致只有少数视频的小批量。这导致数据点之间的高度相关性，从而导致反向传播算法的故障。为了解决这一挑战，我们提出了一种异步变量推理方法，允许有效的端到端训练。我们的方法在Charades [ 42 ]基准上实现了22.4%的分类mAP，优于最先进的（17.2% mAP），并且在时间定位任务上提供了相同的收益。1. 介绍考虑图1所示的视频：一个男人走过门口，站在桌子旁，拿着一个杯子，倒了一些东西进去，喝了它，把杯子放在桌子上，最后走开了。尽管描述了一个简单的活动，视频涉及一系列行动与潜在目标和意图的丰富相互作用。例如，男人站在桌子旁“拿杯子”，他拿着杯子“喝它”，等等。对视频的彻底理解要求我们对活动之间的这种相互作用进行建模，并对广泛的时间尺度和动作的多个方面（对象，场景等）进行推理。大多数当代基于深度学习的方法已经将视频理解的问题视为仅外观和运动（轨迹）建模的问题[43，53，7，Gunnar在AI2实习时完成了这项工作。目的：喝点东西图1.理解视频中的人类活动需要对活动的多个方面进行联合推理，例如在本文中，我们提出了一个端到端的深度结构化模型，随着时间的推移，在一个随机的时尚训练。该模型捕捉活动的丰富语义方面，包括意图（为什么），类别（什么），对象（如何）。该图显示了Cha- rades[42]数据集训练中使用的视频帧和注释27]。虽然这促进了该领域的有趣进展，但这些方法仍难以超越基于手工制作特征的模型，例如密集Trajec[56]。为什么会出现这种脱节？我们认为，视频理解需要超越外观建模，并需要推理的活动序列以及更高层次的结构，如意图。最近出现的大规模数据集包含丰富的现实活动序列[42，63，60]，在一个完美的时间来促进我们探索这种复杂的推理。但是，对时间关系和目标驱动行为进行建模和推理的正确方法是什么呢在过去的几十年里，图形模型，如条件随机场（CRF）一直是结构化推理的主要工具。因此，一种可能的替代方案是使用基于ConvNet的方法[19]为CRF训练算法提供特征。或者，已经证明，将CRF与ConvNet架构集成并以端到端的方式对其进行训练，可以显著改善分割和情况识别等任务[66，1，62]。受这些进展的启发，我们提出了一个深度结构化的模型，可以在时间上对活动的多个方面进行推理。对于每一帧，我们的模型推断活动类别-586血淋淋的，对象，动作，进度和场景使用CRF，其中潜在的预测是由联合端到端训练的ConvNet在所有帧中的所有预测。该CRF具有用于视频中的演员的意图的潜在节点和所有个体帧预测之间的成对关系虽然我们的模型很直观，但以端到端的方式训练它是一项重要的任务。特别是，端到端学习需要计算各个帧的似然性，并使用CRF训练算法对所有连接的帧进行联合推理。这与深度网络的标准随机梯度下降（SGD）训练算法（backprop）形成鲜明对比，在深度网络中，我们需要具有大量独立和不相关样本的小批量，而不仅仅是几个完整的视频。为了有效地处理这个问题：（1）我们放松马尔可夫假设并选择一个全连接的时间模型，这样每个帧的预测都受到所有其他帧的影响，以及（2）我们提出了具体地，该结构允许通过强调来自最近迭代中计算的帧的影响来近似来自其他帧的影响（消息）的实现。它们更准确，并且显示出优于仅限于相邻帧的优势。除了更适合随机训练之外，全连接模型在以下方面表现出更高的性能：各种任务[18，66]。总而言之，我们的主要贡献是：（a）基于深度CRF的模型，用于在多个方面（诸如动作序列、对象、甚至意图）方面对视频进行结构化理解和推理;（b）适用于深度网络的端到端训练的表达性时间CRF的异步训练框架;以及，（c）在最先进的基础上进行了实质性改进，在具有挑战性的Charades [ 42 ]基准测试中，将性能从17.2% mAP提高到22.4% mAP。2. 相关工作理解活动和行动有着广泛的历史[32，59，22，17，23，2，26，56，29，21]。间事实上，通过行为的外观来分析行为已经经历了多次迭代。早期的成功是手工制作的表示，如时空兴趣点（STIP）[22]，3D梯度直方图（HOG3D）[17]，光流直方图（HOF）[23]和运动约束直方图[2]。这些方法捕获和分析的视觉时态数据流的本地属性。在过去的几年中，最突出的手工制作的表示来自基于轨迹的方法[26，56，29，21]，其中改进的密集轨迹（IDT）[56]表示实际上与多个最近数据集上的最新技术水平相当[8，42]。最近，有一个推动中层代表-视频[37，46，13，20]的表示，捕获超出本地属性。然而，这些方法仍然使用手工制作的功能.随着深度学习的出现，从数据中学习表示已经得到了广泛的研究[14，15，44，57，52，53，24，7，61，55，40，3]。其中最流行的框架之一是Simonyan等人的方法[44]，他介绍了训练单独的颜色和光流网络来捕获视频的局部属性的想法其中许多方法是为个别活动的简短片段设计的，因此不能很好地推广到实际的活动序列。根据视频流的时间演变捕获视频的整个信息已经成为一些最近方法的焦点[51，6，12，35，49，30]。朝着更有表现力的深度网络（如LSTM）发展已经成为编码此类时间信息的流行方法[48，4，65，50，58，41，64]。有趣的是，虽然这些mod- ELS朝着更完整的理解完整的视频流，他们还没有显着优于本地方法[44]的标准基准。理解的一个不同方向来自于在一个互补方向上对完整视频流的推理-结构。以人为中心的方式理解活动编码了我们对视觉世界的特殊体验。理解与外生物体有关的活动是一个特别富有成果的方向[25，36，9，34，54]。类似地，一些作品也尝试将活动建模为转换[58]或状态更改[5]。最近，在对完整的以人为中心的方面进行建模方面取得了重大进展，其中图像识别是根据对象及其角色进行的[62，10]。超越表象和推理图像中主体的状态需要理解人类的意图[16，31]。这种根据信念和意图理解人的能力在心理学中被传统地研究为心理理论[33]。如何准确地对视觉世界和时间世界的结构进行建模，一直是众多领域所追求的目标。特别令人感兴趣的是将深度网络的代表性力量与结构化建模相结合的工作。由于联合训练深度网络（随机采样）和序列模型（连续样本）的差异，训练此类模型通常很麻烦[28，66]。在这项工作中，我们专注于完全连接的随机场，这在图像分割中很流行[18]，其中图像过滤用于有效的消息传递，后来扩展到使用CNN势[39]。3. 该方法给定一个包含多个活动的视频，我们的目标是根据活动来理解视频。理解活动需要对交互587IintentC类别C097C类C110C类C108C类C106C类别C097全连接时态模型时间Z（V）O对象A门步程序开始S场景用餐O对象A杯取程序开始S场景用餐O对象A杯倒程序中期S场景用餐O对象A水饮料程序中期S场景用餐O对象A门步程序端S场景走廊图2.我们的结构化模型概述语义部分捕获对象、动作等。在每一帧上，并且时间方面随时间捕获那些在左侧，我们展示了如何在视频中的每个时间点，双流网络预测潜力。我们的模型联合推理所有视频帧中活动的多个方面意图在整个活动序列中捕获人的活动组，细粒度的时间推理是通过完全连接的时间连接。与，互动发生的地方，之前发生了什么，之后发生了什么，这个当前的行动，甚至是演员在视频中的意图我们通过在活动的不同方面制定一个深度条件随机场（CRF）来整合所有这些。也就是说，视频可以被解释为图形模型，其中每个帧中的活动的组件是图中的节点，并且模型电位是图中的边。特别是，我们创建了一个CRF，它可以预测活动，对象等，视频中的每一帧。为了推理时间，我们创建了一个完全连接的时间CRF，在文中称为异步时间场。也就是说，与用于时间建模的线性链CRF（隐马尔可夫模型的区分对应物）不同，每个节点取决于图中每个其他节点的状态。我们将意图作为另一个潜在变量，它连接到所有的行动节点。这是一个影响活动顺序的这个变量是指导和更好地解释代理采取的动作序列的共同潜在因素在实验中分析了这个潜在变量学习的结构。我们的模式有三个优势：（1）它解决了长期相互作用的问题;（2）它包含了对活动的多个部分的推理，如对象和意图;（3）更有趣的是，可以进一步写X t={C t，O t，A t，P t，S t}，其中C是活动类别（例如，‘drinking from cup’), ‘cup’),动作（例如，‘drink’),{开始，中间，结束}，并且S表示场景（例如，'Din-ing Room'）。为了在下面的推导中清楚起见，我们将将Xt的所有相关变量称为单个随机变量Xt。附录中对通用报告格式作了更详细的说明在数学上，我们考虑一个随机场{X，I}在我们的模型中的所有随机变量（{X1 ，. . . ，X ， T，I}）。给定输入视频V ={V1，. . . ，Vt}，其中Vt是视频帧，我们的目标是估计最大后验概率。随机场的边缘化的意图I.这可以写为：x=argmaxP（x，I|V）。（一）X我为了符号清晰起见，我们将放弃对V的条件化而写为P（X，I）。我们可以使用吉布斯分布将P（X，I）定义为：P（X，I）=1exp（−E（x，I））其中E（x，I）是x上的吉布斯自由能。在我们的CRF中，我们对所有帧之间的所有一元和成对集团进行{X1，. . . ，X T}和意图I. 吉布斯能量是：看，它允许在异步环境中进行有效的端到端培训ΣE（x，I）=φΣ（x）+φΣ（x，I）+ φ（x，x），（2）随机的方式。XiXI我我我XXI ji、jv}ij3.1. 架构语义联系我们时间在这项工作中，我们编码活动的多个组件。每个视频都有T 帧表示为{X1，. . . 其中，X t是时间步长t的帧级随机变量的集合，并且I是未观察到的随机变量。表示整个视频中的全局意图的变量。我们fc7双流网络C类C 097对象门A部分走程序开始S场景用餐588其中φXX（xi，xi）是帧i和帧j之间的电势，并且φXI（xi，I）是帧i和意图之间的电势。为了符号清晰，φX（xi）包含了Ct，O t，A t，P t，S t的所有一元和成对势。该模型最好从两个方面来理解：语义589消息服务器输入输入在线留言输出消息损失CNN输出反向传播单个时间点RGB&光流视频时间CNN图3.学习算法和消息传递结构的说明。已处理的每个时间点都有一条消息（蓝色突出显示最近计算的消息）。丢失接收这些消息的组合，使用它们来构造新消息，并更新网络。方面，其在每个帧（Ct，Ot，At，Pt，St）中合并局部变量;以及时间方面，其在帧和意图I之间合并交互。这在图2中可视化。我们现在将解释语义和时间潜能。函数μ（x i，x j）是从数据中学习的，σ是通过交叉验证选择的超参数。3.2. 推理虽然可以在单个帧中枚举所有可变配置，但是对于多个帧及其交互这样做是棘手的。我们的算法使用了结构化的变分近似来近似全概率分布。特别是，我们使用平均场近似来进行推理和学习。通过这种近似，我们可以通过跟踪帧之间的消息来进行推理，并一次异步训练一个帧（以小批量的方式）。更正式地说，结构变分近似不是计算上面给出的精确分布P（X，I），而是在给定的分布族中找到分布Q（X，I），该分布族最适合KL发散方面的精确分布通过选择一个家庭的温顺分布，可以使涉及id eQal分布的推断易于处理。这里我们使用Q（X，I）=QI（I）iQi（xi），结构化平均场近似。最小化这两个分布之间的KL发散产生以下迭代更新方程：.语义方面的帧潜在 φX（xi）incor-Qi（xi）φX（xi）+EU<$QI[φXI（xi，U）]分析了活动类别、对象动作、过程和场景，可以写成解释性的作为 φX（Ct，Ot，At，Pt，St）.在练习这个Σ+J>IΣEUj<$Qj[φXX（xi，Uj）]Σ势由一元组成，成对地，和叔Σ+ E[φ（U，x）]（五）由CNN直接预测的潜力。我们发现只预测以下项就足够了J I. ΣUjQjXXj iΣ没有引入太许多附加参数：φX（Ct，Ot，At，Pt，St）=φ（Ot，Pt）+φ（At，Pt）+φ（Ot，St）+QI（I）EUj<$Qj[φXI（Uj，I）]J（六）φ（Ct，Ot，At，Pt）其中我们仅对分配进行建模在训练集中看到，并假设其他人是不可能的。模型的时间方面是根据帧意图电位φXI（xi，I）和其中，Qi是关于以下各项的边际分布：的框架，和QI是边际相对于intent。该等式的算法实现如算法1中所示。帧-帧电位φXX（xi，xj）。意图陷害用CNN从视频帧（像素和运动）预测素材。在我们的模型中，两个时间点i和j的成对势φXX（x i，x j）具有以下形式：异步时态场的算法11：初始化Q_n均匀分布2：而不收敛3：Visitt帧iφXX（xi，xj）=μ（xi，xj）Σ w（m） k（m）（vi，vj），（3）4：得到φj>iEUj<$Qj[φXX（xi，Uj）]5：得到φjiEUj<$Qj[φXX（Uj，xi）]m6：获取jEUj<$Qj[φXI（Uj，I）]其中，μ对帧之间的非对称亲和力进行建模，w是内核权重，并且每个k（m）是取决于视频帧vi和vj的高斯内核。在这项工作中，我们使用一个单一的内核，优先考虑短期的相互作用：7：不收敛时，8：使用等式（1）更新Qi和Qi。69：发送EUQi[φXX（x，U）]10：发送EUQi[φXX（U，x）]11：发送EUQi[φXI（U，I）]k（vi，vj）= exp.（j −i）2分-2σ2（四）这里的术语消息服务器用于一个中央进程，590一般非对称兼容性的参数跟踪什么视频中的什么节点发送什么消息，以及591XX习时间初始预测第一次消息传递第二次消息传递第三次消息传递图4.随着消息传递的增加，预测的演变第一行显示了在没有任何消息传递的情况下用扫帚整理的类别的初始预测，其中较暗的颜色对应于较高的可能性，蓝色则是相似性的增加，而棕色则减少。在第一个消息传递中，高预测的置信度得到传播，并最终增加整个预测的置信度。应要求分发。实际上，这可以在多机器设置中实现。异步时域的算法21：鉴于视频V2：不收敛时3：对于每个小批量中的示例，4：样本帧v ∈V <$V5：获取传入消息6：更新Qi和QI7：用Eq. 7-98：通过CNN反向传播梯度9：发送传出消息来计算每个部分梯度。这与对比分歧的想法[11，38]。在测试时给定一个视频，我们在图4中可视化了随着分布收敛到多个消息传递，预测如何变化。消息封装关键是所有传入消息的格式为M（z）=jf j（z）其中是来自n个节点j的某个函数;例如，M（z）=3.3. 学习训练深度CRF模型需要计算导数-jEUj<$Qj[φXI（Uj，z）]= jfj（z），来自算法1。我们在训练过程中使用以下近似根据模型中的每个势来确定目标的值，这又需要P（X，I）的推断|V）。网络被训练成最大化hM（z） jdj Σdj fJ（j）（z），（10）J数据l（X）=logIP（x，I|V）。目标是更新其中d∈[0，1]是折扣因子，h是超参数，模型的参数，我们需要梯度关于参数。与SGD类似，我们一次找到关于一部分参数的梯度，特别是关于一帧中的一个电势也就是说，φi（x<$）代替φX（x<$）。该损失相对于每种潜在损失的偏导数如下：并且J（·）是基于其中计算消息的迭代的该视频中的消息的排序消息是存储消息的加权组合。4. 实验结果及分析我们分析了我们的模型在挑战性的简体中文（CN）i（x）=1x=x -Qi（x）（7）视频活动分类和时间定位的任务。此外，我们还调查了简体中文（CN）Σ实验j=ΣφXI（xj，I）模型，并将演示它们如何一起操作1x=xi（x，I）IexpjφXI（xj，I）数据集近年来，简体中文（CN）（a，b）=ΣJ>I1x=ak（vi，vj）−Qi（x）ΣJ>IQI（b）k（vi，vj）大规模数据集，包含常见的日常活动[42，63，60]。对于我们的评估，我们选择了Σ+J I1x=bk（vj，vi）−Qi（x）ΣJ IQI（a）k（vi，vj）（9）Charades数据集[42].这个数据集是一个具有挑战性的平台-标记包含9，848个视频，跨越157个动作类，66，500个注释活动，包括名词（对象），动词其中，φi（x）和φi（x，I）是框架和框架意图（动作）和场景。该数据集的一个独特功能是X XI框架i的势，我们使用x来区分标签和变量，导数是相对于它们取的。μi（a，b）是关于帧i的非对称亲和性核的参数，并且1x=xx x是指示符变量，如果地面真值标签对应于该变量，则该指示符变量具有值1。完整的推导过程见附录。这些梯度用于更新底层CNN模型。这些更新方程导致算法2中提出的学习过程。图3以图形方式说明了学习过程。由于在整个训练过程中会重复访问视频，因此我们不必运行多个消息传递∂φ592现实的人类复杂的共同出现的存在生成的活动使其成为我们分析的完美测试平台我们使用[42]中的评估标准和代码来使用所提供的时间注释在每帧分类方面评估时间定位实现细节我们使用具有附加层的VGG16网络[45]来预测模型电势（图5）。我们在RGB帧和光流图像堆栈上训练网络，遵循双流架构[44]。训练网络的主要挑战是输出层大小的增加。对于较大的潜力，593CNN+LSTM同步我们的40966861318异步时态场VGG-16fc7fc7恒定0.150.120.09百分之十二百分之八百分之四1140图5.VGG-16变体预测了RGB和0.0610005000迭代0%的百分比900010005000 9000迭代和流动。该网络预测了除一个势之外的所有势的值（在该图中，为了清晰起见，我们将框架势φX分组为一层）。该模型通过将异步时域的梯度传递到网络来进行端到端训练。我们使用以下结构从fc 7到 φX1 ：线性层（4096到100），ReLU，Dropout，线性层（100到潜在值）。RGB网络的输入是一个大小为224×224×3的图像，我们在其中随机裁剪位置、大小和纵横比。我们使用颜色抖动和PCA照明噪声的数据增强。RGB网络在以下方面进行了预训练：ImageNet.流网络的输入是从当前帧开始的24 FPS的10个连续光流帧的堆栈。由于每个光流有两个通道，因此输入大小为224×224×20，如[44]所示。如Sigurdsson等人所述，在UCF 101 [47]上对Flow网络进行了预训练[42]和随机裁剪一样，RGB。我们遵循Charades [42]中的训练设置，并考虑一个帧一次有一个活动标签。即便如此，我们的方法仍然能够推理视频中的其他活动模型的收敛性使用在每帧处的近似分布Qi（X）来Charades数据集具有为每个活动序列随机选择场景的属性。出于这个原因，我们发现对场景的推理会降低性能，并且在模型中降低了该术语的权重。为了获得动作进度pt的注释，我们将每个活动注释分成三个大小相等的部分。网络的所有层都使用240的批量大小进行训练学习率为10−3（RGB），10−5（Flow）。学习-每30k次迭代，执行速率降低10倍对于RGB，以及对于Flow，每140k次迭代。消息衰减参数d的值被设置为d=0。9，并且（4）中的标准偏差σ设定为6。25秒（150帧）。为了进行测试，我们从视频中采样了25个等间隔的帧，并在帧，直到收敛（10个消息传递）。RGB和Flow网络的预测以概率方式组合，方法是将每个类别的概率预测相乘。更多的实施细节可以在附录中找到。这些网络是在Torch中实现的，代码可以在项目页面上找到。不同批次如第1节所强调的，图6.与其他方法相比，我们的方法的收敛性捕捉时间结构的ODS。我们的异步训练方法包含更多不同的批次，具有更快，更稳定的收敛性，并在测试集上达到更高的精度。时间模型的批量采样方式导致数据点之间的高度相关性，从而导致SGD的崩溃。为了理解从多个视频中获得许多不同示例的重要性，我们将我们的方法的收敛性与使用同质批次的两种替代方法进行了比较：CNN+LSTM来自Ng等人。[65]和我们的方法的同步版本，其中每个批次包含完整的视频（每个小批次中只有三个视频）。我们做同步消息传递，直到收敛之前，计算梯度的反向传播。图6显示了我们的异步训练方法，包含更多不同的训练批次，具有更快，更稳定的收敛。4.1. 视频分类给定一个视频，这里的任务是验证它是否包含157个活动类别中的一个或几个。分类准确性是用标准平均精度（mAP）标准来衡量的，其中为每个视频给出了预测。这项任务已被证明是高度复杂的，与国家的最先进的非集成方法达到的mAP只有17。2%，特别是因为该数据集中的每个视频都有一系列具有真实世界长尾活动分布的多个细粒度活动。我们按照第3节中概述的过程，使用提供的训练分割来训练我们的模型。为了对整个视频进行预测，我们将视频中25个等距帧的活动类别之外的所有内容每个活动类别的得分是[42]设置后所有帧的在我们的分析中，我们包括[42]提供的非集合基线以及以下附加基线：双流++。我们重新实现了[ 42 ]中描述的网络，该网络遵循Simonyan等人。[45]相同的参数。我们增加了数据增强功能，并对网络的所有层进行了微调.仅包括RGB 流的性能（RGB++）。我们还考虑了Two-Stream Extended，它是相同的网络，但Flow网络的迭代次数是RGB网络的25倍（在TitanX归一化损失地图59420100Flow+RGBFlow+RGB-结构流RGBRGB- -一种RGB- -一种表1. 视频分类结果上的Charades [42]. [42]《易经》中的“道”，是指“道”，是指“道”。图8. 我们提出的模型的消融分析。Y轴是视频分类mAP %。每个因素都有助于改善整体模型性能。φ（P）表示在语义因子φ X中删除“progress ”项。重新设定新的基线。我们提出的方法优于所有在这个数据集上的竞争方法。随机RGB双流++双流双流我们+LSTM扩展关闭冰箱把扫帚放在某处打开冰箱用扫帚整理躺在床上拿扫帚洗镜子喝杯子里的-7.0+34.1某人微笑在桌旁工作洗杯子在镜子里微笑扔鞋子打开灯躺在走廊洗碗-7.0+34.1表2. Cha-rades [42]数据集上的时间定位结果（mAP %）。我们提出的方法优于LSTM模型，并且在大规模训练时也更容易处理。T1n），φXI（即，没有意图），两者（即，仅语义信息），并且进一步丢弃φX（即，删除所有结构）。mAP差异mAP差异图8显示了语义推理比图7.具有最高正和负差异的类我们的方法和Two-Stream（无结构）之间的引用。我们的方法在许多类上做得更好，在任何类上都不会做得更差。特别是，具有时间结构的活动，例如打开/关闭冰箱，具有显着更高的性能，因为我们的模型可以联合推理这些活动。GPU）。结合增强，我们发现这大大提高了准确性。Two-Stream+LSTM 我们遵循[65]中概述的方法，在双流网络上联合训练LSTM。我们使用[42]中的相同设置训练了RGB和光流使用Two-Stream++训练的网络来初始化模型。表1显示了通过我们的方法获得的精度以及基线。我们提出的方法获得了22的mAP。4%，大大超过双流扩展基线18。6%mAP，IDT基线为17. 百分之二。我们的方法在显著更大的时间尺度和活动的多个方面上进行推理。为了确定这一点，我们在图7中突出显示了我们的方法和双流网络之间具有最高正差和负差的活动类。有趣的是，其中两个活动是打开和关闭冰箱，可以说具有重要的因果结构（打开的冰箱在某个时候被打开），我们的模型利用它来显着提高准确性。为了研究不同模型部分的贡献，我们还分别训练了模型的消融版本，为每个版本选择最佳超参数。除了我们的模型只有RGB或流量，我们还考虑下降φXX（即，没有连续的信息-基线此外，虽然φXI和φXX都捕获时间信息，但它们是互补的。4.2. 时间定位为了测量这些方法在时间上局部化和理解活动确切发生时间的能力，我们调整了[42]的基准，以使用相同的mAP度量进行评估，也就是说，每个视频都有一个预测，而不是一个单一的预测，评估现在被分成25个等距的时间点，这些时间点有零个或多个活动，模型对每个时间点进行预测。我们发现这种评估本地化的方法对注释歧义是鲁棒的，并且对具有挑战性的数据集是有用的所有的超参数在定位和分类实验之间保持相等。所有基线在整个视频的75帧上运行，然后每隔一帧选择一次，总共25帧。我们还考虑了具有后处理的方法，其中对75个帧的模型预测在30个帧上进行平均以获得更多的空间一致性，然后如前所述选择25个帧。表2显示，我们的方法优于其他方法，包括已被证明是强大的时间建模工具的LSTM模型，但由于连续样本之间的重叠，在双流网络上训练具有挑战性。这些结果表明，我们的方法是训练端到端结构化模型来理解活动的易处理的方法有趣的是，我们的方法仍然受益于添加后处理，明显超过LSTM基线，可能是因为我们的方法在更大的时间尺度上进行推理这表明此评估代码已作为Charades数据集（allenai.org/plato/charades/）的一部分。22.418.617.218.317.417.6 17.317.216.415.6% mAP方法地图方法地图[42]第四十二话5.9RGB++15.6C3D [53]10.9双流++16.8AlexNet [19]11.3双流+LSTM17.8[第56话]17.2双流扩展18.6[43]第四十三话14.3我们的（仅RGB）18.3我们22.4RGBRGBRGBRGB----------标准2.427.898.949.609.379.69洗窗户关窗后处理2.429.0510.910.411.612.8拿着扫帚修灯595类别：坐在椅子上类别：看书类别：拿着书动作：坐动作：保持对象：书图9.为示例视频建模预测。随着时间的推移，我们看到了类别、对象和行为之间的相互作用。例如，模型对动作“早坐”变得有信心，这有助于理解“坐在椅子上”，一旦椅子变得可见，这有助于预测“阅读”。较暗的颜色表示更高的可能性，我们平均预测以对应于每帧。群组1群组2群组3a)b）、放松打扫房子图10. 为了可视化学习到的意图，我们对视频进行聚类，准备离开家摄影Something基于意图。在群集1中，模型捕获从躺下起身的意图。在组2中，折叠衣服之后是把它们放好，组3显示用扫帚/吸尘器/毛巾清洁，然后捡东西。我们的模型可以进一步受益于在时间项中使用额外内核的联合训练定性可视化我们的模型的一个关键优势是从多个方面对视频进行结构化理解，例如动作序列、对象甚至意图。为了可视化这一点，我们在图9中显示了三个最有信心的活动类别、两个最有信心的动作和最有信心的对象随时间的预测。附录中提供了更多的例子在我们的模型中，意图I是潜变量上的连续分布。为了深入了解我们的模型如何学习意图，我们进行了一个简单的实验，将数据集中具有最相似推断意图分布的图10中的第一个集群显示了模型捕获的简单意图，即人打算从躺下站起来在视频中，这些动作间隔10-20秒，表明意图有助于在大时间尺度上进行推理。为了进一步分析“intent”变量，我们绘制了测试集中视频的intent变量的t-SNE嵌入。我们看到，图中有清晰的相似视频聚类。上午11我们还注释了10种类型的意图（总共100个视频）。更多详情见附录。我们观察到，意图表示保留了图1中的一些意图类型11b. 甚至是数量级的图11. 用于学习的意图的t-SNE可视化。每个点对应于一个视频。在a）中，它基于10个最近邻居中的大多数共享的活动而被着色（每个视频具有多个动作）。在b）中，具有6个注释的意图类型的视频用由类型着色的较大点来强调。在不减少离群值的情况下，意图类型内的视频对之间的平均距离（以10−3 计）为6。从02到7。25（σ=1.06），并且对于10种意图类型中的5种（p= 0 . 05），差异是显著的。①的人。这初步表明意图捕获数据中有趣的结构，我们希望这将鼓励未来的工作。5. 结论在本文中，我们提出了一个深层次的结构化模型，使用一个完全连接的时间CRF，不仅模型的语义方面的活动，但长期的时间关系的原因。我们还提出了一种异步随机推理算法，该算法绕过了大规模端到端模型学习中的一个关键瓶颈。使用我们提出的方法，我们已经证明了令人印象深刻的活动分类和时间定位结果的一个具有挑战性的数据集的现实活动。鸣谢：这项工作得到了ONR MURI N 00014 -16-1-2007、ONR N00014 -13-1-0720、NSF IIS-1338054、NSF-1652052，NRI-1637479，英特尔通过英特尔科学技术中心视觉云系统，艾伦杰出研究者奖，来自谷歌和艾伦人工智能研究所的作者要感谢 Mark Yatskar 在深度 CRF 方面的专业知识，以及 OlgaRussakovsky，Christoph Dann和匿名评审员的宝贵建议和意见。596引用[1] L- C. ChenJiang，A. G. Schwing， A. L. Yuille和R.乌塔松学习深度结构化模型。在Proc.ICML，2015中。*同等贡献。1[2] N.达拉尔湾Triggs和C.施密特使用流量和外观的定向直方图进行在ECCV，2006年。2[3] C. R. de Souza，A. Gaidon，E. Vig和A. M.伊佩斯对细节的同情：密集轨迹和混合分类-阳离子架构的行动识别。在ECCV，2016年。2[4] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期CVPR，2015。2[5] A. Fathi和J. M.瑞格通过状态更改对操作进行建模。InICCV，2013. 2[6] B. Fernando，E. Gavves，M. J. Oramas，A. Ghodrati，以及T. Tuytelaars为动作识别建模视频演变。CVPR，2015。2[7] G. Gkioxari和J.马利克找活动管。CVPR，2015。一、二[8] A. 戈尔班，H. 伊德里斯，Y.-- G. 江泽民说，A.罗山·扎米尔，I. Laptev，M. Shah和R.苏克坦卡THUMOS挑战：具有大量类的动作识别。http://www.thumos.info/，2015年。2[9] A. 古普塔A。Kembhavi和L.S. 戴维斯观察人与物体的相互作用：利用空间和功能的兼容性进行识别。TPAMI，2009年。2[10] S. Gupta和J.马利克可视化语义角色标注。CoRR、/abs/1505.04474，2015年。2[11] G. E.辛顿通过最小化对比差异来训练专家的产品。神经计算，14（8）：1771 5[12] H. Izadinia和M.Shah. 大间隔联合低层事件模型识别复杂事件ECCV，2012年。2[13] A. 贾恩A.古普塔，M。Rodriguez和L.S. 戴维斯使用中级判别补丁表示视频CVPR，2013。2[14] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。TPAMI，2013年。2[15] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR，2014。2[16] K. M.基塔尼湾D. Ziebart，J. A. Bagnell和M. 赫伯特活动预测。ECCV，2012年。2[17] A. Klaser，M. Marszalek和C.施密特一种基于三维梯度的时空BMVC，2008年。2[18] P. Kr aühenbuühl和V. 科尔顿具有高斯边势的全连通crfs的有效推理NIPS，2011年。2[19] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。1、7[20] T. 兰岛，澳 - 地 Zhu ，中国茶青冈 A. R. Zamir 和 S.Savarese由分层中层行动要素进行的行动在ICCV，2015年。2[21] Z.兰，M。Lin，X. Li，长穗条锈菌A. G. Hauptmann和B.Raj. Be-yond高斯金字塔：用于动作识别的多跳特征堆叠。CVPR，2015。2[22] I.拉普捷夫关于时空兴趣点。IJCV，64，2005. 2[23] I. Laptev，M.马萨莱克角Schmid，和B.罗森菲尔德从电影中学习真实的人类动作。CVPR，2008。2[24] Q. V. Le，W. Y. Zou，S. Y. Yeung，和A. Y. Ng.学习分层不变时空特征，用于独立子空间分析的动作识别。CVPR，2011。2[25] L- J.Li和L.飞飞什么，在哪里，谁？通过场景和对象识别对事件进行分类。载于ICCV，2007年。2[26] P. Matikainen，M. Hebert和R.苏克坦卡轨迹：通过跟踪特征的运动分析进行动作识别。在ICCV研讨会上，2009年。2[27] P. Mettes，J. C. van Gemert和C. G.斯诺克现场：从点监督的建议行动本地化。在ECCV，2016年。1[28] 诉嗯K.Kavukcuoglu，D.小银A. 格拉夫I. 安东诺格鲁D. Wierstra和M. 里德米勒用深度强化学习玩雅达利。arXiv预印本arXiv：1312.5602，2013。2[29] X.彭角，澳-地Zou，Y. Qiao和Q.朋使用堆叠费雪向量的动作辨识。2014年，在ECCV。2[30] H. Pirsiavash和D. Ramanan用分段语法解析动作视频。CVPR，2014。2[31] H.皮尔西亚瓦什角Vondrick和A.托拉尔巴在图像中推断原因。arXiv预印本arXiv：1406.5472，2014年。2[32] R.波普基于视觉的人类动作识别研究综述。图像和视觉计算，28（6）：976-990，2010。2[33] D. Premack 和 G. 伍德拉夫黑猩猩有心理理论吗？Behavioral and Brain Sciences，1（04）：515 2[34] A. 普雷斯特角Schmid和V.法拉利弱监督学习人类和物体之间的交互。TPAMI，2012年。2[35] M. 罗尔巴赫 M. Regneri， M. 安德里卢卡 S. 阿明M. Pinkal和B.席勒用于复合活动的基于属性的识别的脚本数据。ECCV，2012年。2[36] M. S. Ryoo和J. Aggarwal。人类活动与物体交互的层次识别。CVPR，2007。2[37] S. Sadanand和J. J·科索行动银行：视频中活动的高级表示。CVPR，2012。2[38] R. Salakhutdinov和G. E.辛顿深层玻尔兹曼机器。载于AISTATS，2009年。5[39] A. G. Schwing和R.乌塔松完全连接的深层结构网络。arXiv预印本arXiv：1503.02351，2015年。2[

下载后可阅读完整内容，剩余1页未读，立即下载