存储驱动的时间活动定位：语义匹配强化学习模型

50 浏览量更新于2023-10-19 收藏 748KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

334存储驱动的时间活动定位：语义匹配强化学习模型王伟宁1，3黄燕1，3王良1，2，3，41智能感知与计算研究中心（CRIPAC），国家模式识别实验室2中国科学院自动化研究所脑科学与智能技术卓越中心（CEBSIT）3中国科学院大学（UCAS）4中国科学院人工智能研究所（CAS-AIR）weining.wang @ cripac.ia.ac.cn{yhuang，wangliang}@wwwnlpr.ia.ac.cn摘要目前对未修剪视频中的动作检测的研究大多是针对动作类设计的，其中动作是在单词级别上描述的，例如跳跃，翻滚，摆动等。本文重点研究了一个很少研究的问题，通过一个句子查询，这将是更具挑战性和实用性的活动定位。考虑到目前的方法通常是耗时的，由于密集的帧处理方式，我们提出了一种基于递归神经网络的强化学习模型，选择性地观察一个序列的帧，并关联给定的句子与视频内容的匹配为基础的方式。然而，直接匹配的句子与视频内容表现不佳，由于大的视觉语义的离散性。因此，我们通过提取视频的语义概念，然后将它们与全局上下文特征融合，将该方法扩展到语义匹配强化学习（SM-RL）模型在TACoS、Charades-STA和DiDeMo三个基准数据集上进行的实验表明，该方法具有较高的检测速度，达到了最先进的性能，证明了该方法的有效性和高效性。1. 介绍随着视频监控系统的快速发展，产生了大量的视频数据。了解视频数据的内容变得越来越重要。动作识别是该领域最热门的话题之一，它首先获得给定视频的表示然而，动作识别通常假设视频是手动预切的，并且每个动作都是普遍存在的。存在于给定的视频中。这种假设在现实世界的场景中并不总是成立，因为实际应用中的大多数视频为了解决这个问题，出现了时间动作检测，其目的是同时识别和定位视频中的动作。人们对时间动作检测越来越感兴趣，并且已经提出了不同的方法[19，27，6，9，28，25，14，2]。虽然已经取得了重大进展，但时间动作检测存在重大限制。特别是，这些研究只集中在一组有限的行动描述在词的水平。由于现实世界中的活动是复杂多样的，包含了许多语义概念，如参与者、动作、对象等，因此，它们不能很好地处理实践中的活动。以图1中的句子用一个词来描述这种活动或简单地将其归类为行动类是不合适的。在本文中，我们感兴趣的更具挑战性和实际的问题，即语言驱动的时间活动本地化。很少有研究调查这个问题[11，8，15]，这些研究都利用传统的跨模态检索框架来匹配具有对齐损失或排名损失的视频剪辑和句子查询然而，他们利用滑动窗口来生成密集的propos- als，每一帧都需要处理，这是非常耗时的。此外，它们使用平均池来生成剪辑级别的视频特征，因此可能没有充分利用时间信息。受到使用强化学习的工作的激励，335语义句子查询：视频帧人削减橘子上砧板概念评分人1橙色0.75削减0.93砧板0.83视频帧句子查询：切橘子的人 n切菜板0.830.750.93橙色切割人…砧板R概念图1.视频中的语义概念插图为了避免在单字视频动作检测中耗时的建议生成[26]，我们还希望使用基于强化学习的方法来进行有效的语言驱动的时间活动定位。然而，直接将现有方法应用于这个新问题是不可行的，因为它们以分类的方式将动作词与视频内容相关联，而我们关注的是句子而不是单词，其中包括多个动作词，演员和对象。虽然我们可以将一个句子视为多个单词级别的类，并以多标签学习的方式进行强化学习，但这会忽略句子的内在语义顺序，并导致最终语义的混乱[12]。此外，现有的方法通常为每个动作类训练一个单独的强化学习模型（总共20或21个模型），这不能扩展到我们的问题，因为句子中的单词可能是不同的，总数可能是几千个。为了解决这些问题，我们提出了一个基于递归神经网络的强化学习模型，用于语言驱动的时间活动定位。在句子的指导下，我们的模型充当基于递归神经网络的代理，其动态地观察视频帧序列，并最终以高检测速度输出给定句子查询的时间特别地，在每个时间步，递归神经网络的隐藏状态由句子嵌入来监督，以选择下一个观察位置并输出可检测的检测。在观察几个选定的视频帧后，模型将输出活动的最终时间边界。不同于通过分类为每个动作类单独训练模型[26]，我们的模型旨在以基于匹配的方式将整个句子与视频内容相特别是，我们引入了一个状态值，即匹配分数，它衡量给定的句子查询和当前观察到的视频帧的相似性。在这里，我们使用反向传播来训练神经网络组件和策略梯度，以解决由于选择方式的不可微性。然而，我们通过实验发现，直接将句子与视频内容进行匹配的效果很差，匹配分数的预测不准确，活动定位的性能也就是因为在视频和句子查询之间存在巨大的视觉语义鸿沟。如图1所示，句子包含高度抽象的语义概念，如演员，动作和对象，而视频的表示通常缺乏这种高级语义信息。为了使视频表示在语义上与句子更具可比性，我们将我们的方法改进为语义匹配强化学习（SM-RL）模型，该模型通过引入视觉语义概念来改进视频表示为了预测视频帧的语义概念，我们利用基于数据集的注释的监督学习方法。为每个视频帧创建一个固定长度的向量，其长度为属性集的大小。向量中的每个元素表示特定语义概念的预测概率。在应用语义概念学习后，匹配分数变得更加准确和可靠，并且最终性能显著提高。我们在三个基准数据集上评估了我们的模型，TACoS，Charades-STA和DiDeMo。实验结果表明，我们的模型优于国家的最先进的方法，具有较高的检测速度。本文的主要贡献如下：• 我们提出了一个基于递归神经网络的再学习模型，用于语言驱动的节奏活动定位，该模型动态观察以给定语言查询为条件的视频帧序列，并最终输出时间边界。• 为了弥合视觉和语义信息之间的语义鸿沟，我们进一步引入了中级语义，将概念引入模型中，并提出以语义匹配的方式将视觉和语义信息关联起来。• 我们的方法在三个基准数据集上实现了最先进的性能，并且比以前的最先进的工作快6倍2. 相关工作在这一节中，我们简要回顾了时间动作检测和时间动作建议生成。时间动作检测时间动作检测的目的是在一个长的未修剪的动作视频，受到了极大的关注。文献中的视频动作检测方法可以大致分为三类。第一类是采用时间注释以超学习方式训练模型。其中一些作品采用两阶段的提案分类方式[20，7，3，19，28]，首先生成时间视频提案，然后对每个提案的动作类别进行然而，这些方法中的大多数依赖于外部提案生成或336全局上下文提取FFFLSTM语义概念提取FFF终止位置嵌入级联奖励FFF损失人穿上一双鞋FFF状态值跳跃思维FFF视频观察剂动作空间图2.提出的SM-RL模型的框架。在前向传递中，句子查询由skip-thoughts [13]编码，并进一步映射到Es。视频帧的全局上下文特征与语义概念特征相连接。当前观察到的帧位置被嵌入并与视频表示级联。LSTM顺序地总结来自历史观察帧的信息，并对视频的时间信息进行编码。隐藏状态ht与Es连接以输出动作和状态值。动作输出用于从动作空间中采样动作，以便选择下一个观察位置loct+1。状态值由候选检测dt、匹配分数mt和二进制预测指示符pt组成。然后根据状态值计算奖励和损失函数。智能体采取终止动作以在时间步长T停止观察过程，并根据候选检测输出最终的时间边界。带有F的矩形表示完全连接的层。在多个时间尺度上滑动窗口，导致大规模视频处理在计算上不可行其他一些作品遵循更快的端到端可训练的R-CNN架构，例如[9，6，10，25，5]。尽管这些方法在某种程度上更有效，但时间信息在视频特征中没有得到充分利用。第二类是基于弱监督学习，其中只有视频级别的动作标签可用于训练，而没有时间注释。未修剪-净[24]使用时间softmax函数学习预剪切视频片段上的注意力权重，并对注意力权重进行阈值化以生成动作建议。 Nguyen等人[16]建议结合时间类激活地图和类不可知的关注目标行动的时间本地化。第三类使用强化学习来学习观察策略。Yeung等人 [26]将模型模拟为一个智能体，它学习一种策略，用于顺序地形成和细化关于动作实例的假设我们的检测过程类似于上述第三类，但我们专注于本地化的句子描述活动，而不是在单词级别描述的动作。时间动作提议生成时间动作提议生成的目标是提取语义上重要的（例如，人的动作）从未修剪的视频中分割出来。在[20，28，4]中，问题被公式化为二元分类问题（即，，行动与背景）。Heilbron等人 [4]提出使用字典学习来生成类独立的提案。赵等人[28]使用一个动作分类器来获得二进制ac。视频片段的动作性概率，然后找到那些具有大多数高动作性片段的连续时间区域作为建议。Shou等人。 [20]引入了一个多阶段框架来分类视频片段的内容是否是动作。Gao等人。 [10]利用时间边界回归进行基于剪辑级单元的动作。Shyamal等人。 [3]利用一种新的架构SST在单次通过中运行视频，而不使用重叠的时间滑动窗口。与这些从视频中提取任意动作片段的工作不同，我们的目标是定位具有特定句子描述的活动。3. 方法给定长的未修剪视频v={v1，v2，.，v N}，其中v i（i = 1，2，...， N）是第i个框架，也是句子查询S，语言驱动的时态活动的目标局部化是识别句子所涉及的视觉内容的时间边界，即（t开始，t结束）。受人类决策过程的启发，我们将模型描述为与环境交互的智能体（即，长视频）并采取一系列动作来优化目标（即，，使活动局部化）。同时，也探讨了历史经验，以辅助当前的决策。如图2所示，我们将代理基于一个递归神经网络，该网络总结了来自输入视频和句子查询的历史观察要定位一个活动，首先要理解句子的整体含义。在本文中，我们使用skip-thoughts [13]对句子进行编码，因为skip-337Σ˜CNN˜在大型文档语料库上训练thoughts，其可以产生鲁棒的通用句子表示，并且在跨模态任务中表现良好。在观察模块中，提取全局上下文特征来表示图像的全局信息，而预测语义概念特征则集中于区域信息，并在视频和句子之间架起桥梁。因此，我们将全局上下文特征与语义概念特征连接起来，以实现它们的互补性。视频帧的定位在网络中起着重要的因此，我们将位置信息与视频表示相结合。然后，观察模块Eo的最终输出被输入到LSTM中以整合视觉信息。强化学习中的决策过程由一系列动作组成。在每个动作之后，获得状态值，并且根据当前状态值将奖励分配给代理。在我们的框架中，代理相结合的信息，从历史观察ht与嵌入的句子查询Es从动作空间采样动作，并输出三个状态值（候选检测dt，匹配分数mt，和二进制预测指标pt）。最后，代理执行采样动作以确定下一个观察帧loct+1的位置。智能体的目标是通过最大化累积的奖励来找到最精确的定位结果。因此，在对所有选定的帧进行检查之后，代理根据候选检测的精度接收奖励。3.1. 语义概念学习TACoS为每个视频片段提供属性注释，包括动作、蔬菜、厨房物品等。在此基础上直接建立语义概念词表。Charades-STA和DiDeMo只提供句子，不提供致敬信息我们使用NLP工具箱来选择名词、形容词、动词和数字作为语义概念。由于语义概念词汇量从而得到包含K个语义概念的词汇表。一个简单的方法是将语义概念学习公式化为基于多标签分类的模型。基于多标签分类的模型以VGG-16 [21]网络的fc-7中的ex-video特征作为输入，我们训练CNN网络进行多标签分类。我们使用的CNN是一个2层全连接网络。第一层的大小是4094。第二层的大小是K，每个对应于特定语义概念的预测概率。给一个视频框架，其真实语义概念的多热表示可以通过优化以下目标来学习模型K−yi，jyi，jL= log（1+e）（1）j=1其中yi，j= 1或0表示视频帧Vi是否包含第j个语义概念。 y i，j表示v i包含由多标签CNN的第二层生成的第j个概念的概率。更快的基于R-CNN的模型我们发现，预测的语义概念在上述多标签分类基础模型的准确性方面并不令人满意。我们认为可能有两个原因。首先，语义概念通常存在于局部区域而不是全局图像。全局图像包括许多概念无关的内容，这些内容可能是相当嘈杂的。第二，所使用的数据集相对较小，语义概念的数量不平衡，因此训练的模型是有偏差的。为了处理这两个问题，我们使用Faster R-CNN结合Visual Genome数据集[22]来预测语义概念。特别是，为了获得区域视觉特征，我们使用Faster R-CNN来检测区域并输出其相应的特征。为了克服我们实验数据集的局限性，我们使用Visual Genome数据集[22]训练模型，这是一个包含非常多样化内容的大型数据集，可以覆盖我们实验数据集中出现的大多数实例数据集对每个图像都有非常丰富的区域级注释，所以我们可以用它们来训练模型。此外，最近的一些工作已经证明了该数据集对于一般跨模态数据分析的有用性，例如。，图像字幕[23]和VQA [1]。所以，我们遵循[1]使用更快的R-CNN与ResNet。101 在 ImageNet 上进行预训练 [18] ，然后在 VisualGenome [22]数据集上对模型进行微调。Faster R-CNN的输出框建议用于生成一组图像特征，并使用IoU阈值对每个对象类应用选择任何类别检测概率超过置信阈值的所有区域。为了预测区域i的语义概念，我们将来自区域i的均值池化卷积特征与地面实况对象类的学习嵌入连接。我们将其输入到每个语义概念的softmax函数中。在测试阶段，我们可以通过总结所有区域中包含的语义概念来获得每个视频帧的语义概念。3.2. SM-RL模型在获得视频帧的语义概念特征后，我们详细介绍了所提出的语义匹配增强学习（SM-RL）模型，如图2.在每个时间步t，我们使用skip-thoughts [13]对句子查询进行编码，其中输出是进一步的em。由多标签CNN预测的tor是yi∈[0，1]K. 的bed到Es后面是全连接（FC）层338n一个sigmoid函数从VGG-16网络的fc 7中提取视频帧的全局上下文特征[21]。然后，我们将语义概念特征与全局上下文特征连接起来，作为如果观察到的视频帧与句子查询相关，则Mt倾向于接近1，否则接近0然后，训练目标是最小化标准交叉熵损失：视频帧，并且其进一步由FC层嵌入L（m;θ）=−θ（r）logP（r|m;θ）然后是sigmoid函数。当前位置在视频序列中，帧位置被归一化为[0，1]，并且它CLS TM i我我我M（五）使用FC层和sigmoid函数进行编码。然后，视频表示和位置信息被连接并进一步嵌入，作为LSTM的视觉输入，即Eo。特别地，Eo编码视频的内容和内容的位置两者。LSTM的另一个输入是先前的隐藏状态ht-1，它总结了所有历史观察到的帧的信息。然后，我们将隐藏状态ht与Es连接起来，以联合输出动作和状态值。状态和动作空间在每一步中，智能体根据当前信息决定要执行的动作。动作是选择代理选择接下来观察的视频帧的时间位置loct+1此位置不受约束，并且代理可以围绕视频向前和向后跳过。位置被公式化为l〇ct+1=fl（ht||Es;θl），其中fl是一个全连通层，使得智能体的决策是其过去观察、它们的时间位置和句子的函数查询. 在训练阶段，位置从其中ri=1或0表示第i个视频帧是否与句子查询相关。3.3. 位置回归损失这项工作的目标是输出时间边界的视频剪辑相关的语言查询。为了获得更精确的预测，我们使用反向传播在每个时间步训练dt和mt边界回归损失随着句子的时间注释，我们能够使用标准的反向传播来训练候选检测数据由于我们希望在每个时间步的候选检测与在每个时间步的基本事实、候选检测都包含在损失函数中，而不管候选检测是否作为预测发出假设存在一组候选检测D={d t|t=1，…，T}在T个时间步长内由代理产生，并且注释是（gstart，gend）用于句子查询。损失函数定义为高斯分布，loct+1p（· |fl（ht||Es;θl）），其中fl（ht||Es;θl）表示分布的平均值，L（D）=ω1公司简介（mt）+ω2Lloc（dt，（g开始，g结束））δ是一个常数。在测试阶段，tt（六）MAP估计用于推断下一个观测位置。在每个时间步有三个状态值：候选检测dt、匹配分数mt和二进制预测指示符pt，以指示dt是否应该作为预测发出。候选检测dt是（tstart，tend）∈[0，1]2，其中tstart和tend是归一化的开始，结束时间的句子查询，mt是跨模态匹配分数，所述匹配分数指示所述给定句子查询与所述观察到的视频帧的跨模态相似性tstart、tend、mt和pt计算如下：（tstar t，ten d）=fs e（ht||Es;θd）（2）mt=fm（ht||Es;θm）（3）pt=fp（ht||Es;θp）（4）在训练阶段，fp用于参数化从其中采样pt的伯努利分布在测试阶段，使用MAP估计。注意，上述的fl，f se和f m都被设计为一个完全连接的层，然后是一个sigmoid函数。分类损失Lcls（mt）是标准的交叉熵损失。本地化损失被定义为L2回归损失，即L loc=（t start，tend）-（g start，g end）。ω1和ω2是控制这两个损失函数平衡的两个方程式中的帧级回归损失(6)我们用L2型回归损失直接回归开始时间和结束时间。在本节中，我们将回归问题转化在ht和Es的级联之后，我们将级联的向量输入到一个全连接层中，然后是一个sigmoid函数，其中输出节点的数量是一个训练样本中的帧的数量我们将全连接层的每个输出表示为pij，其指示每个帧属于预测视频剪辑的概率我们尝试了几种损失函数，发现简单的二进制S形交叉熵损失效果最好。因此，方程中的位置回归损失。(6)可以重写为语义匹配如上所述，我们使用m ttonM指示给定句子查询和观察到的视频帧的跨模态相似性，其起到即时响应的作用。L锁定=1[xlog（pij）]+（1−xij）log（1−pij）]I j在本地化中扮演重要角色。因为我们想让代理人找到（七）IJ339.不Ni=1Σ其中j是训练样本中的第j帧，M是输入帧的总数，xi=[xi1，xi2，.，是第i个训练样本的标签向量。xij=1或0表示帧是否与句子查询相关。Pij表示帧与查询相关的概率在检测阶段，我们将概率最高连续时间区域作为检测结果。3.4. 奖励由于预测指标pt和观测位置loct+1是不可微的，无法使用反向传播进行训练，因此我们使用强化学习来解决它们。由于我们的目标是找到句子所描述的活动的最准确位置，因此奖励函数应该引导智能体在最后一个时间步找到具有高召回率和高精度的检测因此，我们制定奖励函数来鼓励真阳性，同时抑制假阳性和假阴性：对. 我们将视频分为[11]，即8，395用于训练，1，065用于验证，1，004用于测试。我们使用固定尺度的滑动窗口来收集训练视频样本，这些样本是我们框架的输入。对于滑动窗口剪辑，如果它满足两个约束，我们将其作为正训练样本进行对齐：1）滑动窗口剪辑和地面实况时间间隔的IoU（交集大于并集）大于0。五、2)滑动窗口剪辑和地面实况时间间隔的nIoL（在长度上不相交）小于0。二、我们还收集了与任何句子注释都没有交集的否定样本TACoS的训练样本长度固定为400帧，连续视频片段的重叠度为40%。我们通过为每连续16帧随机选择一帧来进一步对视频片段进行下采样。因此，代理每次以25帧的序列处理视频数据。对于Charades-STA数据集，训练样本的长度为252帧，并且连续视频剪辑的重叠也被设置为40%。我们对r=RFN，FNNTP RTP+NFP RFP，TP和FP（八）252帧到21帧，使得代理以21帧的序列处理视频数据对于DiDeMo数据集，其中FN（假阴性）表示当视频中存在地面实况视频剪辑时模型不发出任何预测，并且将负奖励RFN分配给代理。NTP是TP（真阳性）预测的数量，其中发出预测并且预测与地面实况之间的IoU大于阈值。R-TP是分配给TP预测的积极奖励。NFP是FP（假阳性）预测的数量。有两种FP预测。1)输入视频不包含任何与句子查询相关的视频剪辑，但模型会发出预测。2)存在用于句子查询的相关视频剪辑，并且模型确实发出预测，但是IoU小于阈值。应该注意的是，所有奖励都在第T个（最终）时间步长分配，而奖励在中间时间步长为零，这使得模型具有较高的整体检测性能。4. 实验4.1. 训练数据我们在三个基准数据集上评估了我们的方法，TACoS [17] ， Charades-STA [8] 和 DiDeMo [11] 。TACoS由17，344个剪辑句子对组成。遵循与Gao等人相同的train/val/test分割策略。[8]，我们将数据集分为50% 用于训练， 25% 用于验证， 25% 用于测试。Charades-STA数据集中有19，509个剪辑句子对。我们像[8]中一样将数据集分割为训练集中的13，898个剪辑句子对和测试集中的4，233个剪辑句子对迪德莫数据集包含10，464个视频和40，543个剪辑句子我们将训练样本固定为320帧，并且连续视频剪辑的重叠也设置为40%。然后我们将320帧下采样为20帧。4.2. 实验设置TACoS、Charades-STA和DiDeMo的语义概念词汇表的大小分别为71、60和85个rem。在基于Faster R-CNN的语义学习模型中，IoU阈值对于区域建议抑制被设置为0.7，对于对象类抑制被设置为0.3。对于递归神经网络，我们使用3层LSTM网络，每层有1024个隐藏单元。代理观察每个序列的固定数量的帧，在我们的实验中通常为6。我们用256个批量训练模型，包括128个阳性样本和 128 个阴性样本。学习率被指定为0.002。高斯分布的标准方差δ被设置为0。08，用于训练阶段中的观察位置loct+1由方程式(6)，w1和w2都被设置为1。通过交叉验证确定超参数。我们将在4.4节中分析几个重要超参数的影响。在测试过程中，任何候选检测重叠或交叉序列边界合并一个简单的联合规则。为了公平比较，我们在TACoS和Charades-STA上采用与[8]相同的评估指标，计算“R @ n，IoU =m”，这意味着前n个结果中至少有一个结果的假设总共有N个句子，整体性能是所有句子的平均值R（n，m）=1Nr（n，m，si），其中r（n，m，s i）是句子查询si的召回率。对于DiDeMo数据集，340玉米饼Charades-STA方法R@1 R@1 R@1 R@5 R@5 R@5IoU=0.5 IoU=0.3 IoU=0.1 IoU=0.5 IoU=0.3IoU=0.1先生R@1 R@1 R@5 R@5IoU=0.5 IoU=0.7 IoU=0.5 IoU=0.7先生随机0.831.813.283.577.0315.095.278.513.0337.1214.0615.68[第15话]14.6219.5224.2224.8834.9747.4227.61-----CTRL [8]13.3018.3224.3225.4236.6948.7327.80 23.638.8958.9229.5230.24RL（b）11.7617.7022.4222.6133.2445.1025.47 19.785.6055.6525.0726.53RL（f）12.7918.5323.8724.5635.3047.6427.15 21.187.3356.0127.8528.09SM-RL（attr+b）13.5018.8323.7224.0134.1946.5626.80 21.007.6357.2528.0628.49SM-RL（attr+f）14.0119.0223.9624.5536.4247.1427.51 22.548.5658.9529.7429.95SM-RL（attr*+b）14.2019.7925.1725.3836.6948.2228.24 23.569.5260.1732.5331.45SM-RL（attr*+f）15.9520.2526.5127.8438.4750.0129.8424.3611.1761.2532.0832.22表1.TACoS和Charades-STA上不同方法的比较我们使用 Rank@1 、 Rank@5 和平均交集大于并集（mIoU）来测量性能，如4.3. 实验结果如表1所示，我们将结果报告为R @{1，5}，其中IoU∈ {0} 。 1 ， 0 。 3 ， 0 。对于 TACoS 数据集， R@{1，5}，IoU∈ {0}。5，0。7}的Charades-STA数据集。我们还计算上述的平均值mR评价指标顶行意味着我们从测试滑动窗口中随机选择n个窗口，并使用IoU=m评估R@n。第二行和第三行显示了先前方法ACRN [15]和CTRL [8]的实验结果。图4-9显示了我们模型的不同变体的实验结果。“RL” meansthat we di- rectly “SM-RL” means that we use the法通过帧级回归损失训练的模型的性能优于使用L2形式损失训练的模型。特别地，“SM-RL（attr*+f）”模型表现最好，并且比最先进的方法CTRL高出多达2。在R@1时为65%，IoU = 0。5在TACoS数据集上。在TACoS数据集上，平均性能mR超过CTRL 2。04%，1。Charades-STA数据集上的98%。我们进一步将我们的方法与DiDeMo数据集上的MCN [11]进行了比较。如表2所示，我们的方法始终优于MCN。方法等级@1等级@5Miou[第11话]28.1078.2141.08SM-RL（attr*+b）29.6479.3842.17SM-RL（attr*+f）31.0680.4543.94表2.我们的方法和DiDeMo上的MCN之间的比较匹配强化学习模型，语义概念到框架中。 “b” means that the location isregressed with the模型使用帧级回归损失进行训练。 “attr*” means thatthe semantic concepts are learned with the Faster R-CNNbased从表1中可以观察到，在该任务中直接应用“RL（b）”或“RL（f）”时，性能相对较差，性能低于CTRL [8]和ACRN [15]。当我们用多标签分类模型学习的语义概念进一步增强模型时，即 “SM-RL（attr+b）”和“SM-RL（attr+f）"，性能变得与CTRL相当，其中我们的方法在一些评估指标上优于CTRL，例如R@1，IoU = 0。5，R@1，IoU = 0。3，并且R@5，IoU = 0。5，R@5，IoU = 0。7在Charades-STA数据集上。特别地，当使用基于Faster R-CNN的模型（即“SM-RL（attr*+b）”和“SM-RL（attr*+f）"）学习语义概念时，性能进一步增加并超过现有技术水平。表3.检测速度的比较。此外，所提出的模型使用所有视频帧的一小部分（小于8%）我们将我们模型的检测速度与最先进的方法CTRL [8]进行了比较。这两种方法都在单个Titan XGPU上进行了测试。比较结果示于表3中。从表中可以看出，我们的方法是比CTRL快6倍，显示了在实际应用中应用的潜在能力。4.4. 消融研究4.4.1语义概念学习模型如表1所示，语义概念显著提高了性能。这是因为视觉特征被中级语义概念增强了。视觉信息和语言信息之间的语义鸿沟此外，基于Faster R-CNN的语义概念学习模型表现更好，方法平均运行时间（每分钟视频）CTRL [8]202毫秒我们32Ms341地面实况预测观察序列2240 2336 24002440 2512 2608电话96120216287346 374电话疑问A：人在水槽里洗韭菜疑问B：人穿上一双鞋图3.我们提出的方法的观察政策和预测的例子与基于多标签的语义概念学习模型相比，这是因为与单一多标签分类模型相比，Faster R-CNN可以处理更准确的感兴趣区域，并且特征更细粒度。4.4.2不同损失函数如表1所示，使用帧级回归损失训练的模型始终优于常规的L2形式回归损失。可能的原因是当训练具有帧级回归损失的模型时，等式中的fse（2）被建模为具有25、21或20个输出节点的全连接层，而不是直接回归起点和终点的仅2个节点因此，二进制S形交叉熵损失迫使模型从先前的视频摘要中编码更多信息，从而导致更准确的位置估计。4.4.3超参数分析当训练所提出的模型时，我们改变观察的数量，w1和w2在等式中。(6)，以及loct的高斯分布的标准方差δ。实验是在TACoS数据集上用我们的SM-RL（attr*+f）模型进行的表4中的相应结果表明，当观测数设置为1时，精度显著降低。然而，当该值大于4时，该模型非常稳健。如表5所示，当δ = 0时，结果达到最佳。08.如表6所示，当w1 = 1和w2 = 1时，结果达到最佳。观察12468R@1，IoU=0.54.268.4515.5815.9515.20表4.观测次数的性能比较δ00.040.080.120.16R@1，IoU=0.59.579.3615.9510.168.93表5.参数δ的性能比较。w1123w21231312R@1，IoU=0.515.95 9.48 7.52 7.33 12.45 8.36 13.12表6.w1和w2的性能比较。4.4.4结果可视化如图3所示，我们展示了我们的模型学习的观察策略的两个典型示例。左例的句子查询是“the person washesthe leeks in the sink”。请注意，当智能体接近活动的结束时间时，它会后退一步以完善其假设。然而，预测比地面实况稍长，因为这种活动的开始位置很难确定。该模型从人将韭菜放入水槽的时间输出预测，而地面实况则从人开始清洗它的时间开始注释此活动。可能的原因是未能很好地捕捉图像细节，以及对现实生活中活动的定义模糊不清。右边的例子说明了句子查询“person put on a pair of shoes”的观察策略。对于这个句子查询，智能体后退两步来细化它的开始时间和结束时间。很明显，预测比左边的预测准确得多，因为它更容易验证此活动的开始和结束位置。5. 结论和未来工作本文研究了一个很少被研究和挑战的问题，即语言驱动的时态活动定位问题。为了解决这个问题，我们提出了一个语义强化学习（SM-RL）模型的时间活动定位。在三个基准数据集上的实验结果表明，我们的方法比最先进的方法具有更高的速度。目前，我们将LSTM的隐藏状态和句子嵌入与一个简单的连接相关联。在未来，我们希望应用门控融合单元来关联多模态数据。6. 确认本工作得到国家重点研究发展计划（ 2016YFB1001000 ）、国家自然科学基金（61525306 ，61633021， 61721004， 61420106015，61806194 ）、首都科技大学（ 2016 ）、北京大学（2016）、北京大学（2017）联合资助科技领军人才培养项目（Z181100006318030）、北京市科技攻关项目（Z181100008918010）。342引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第6077-6086页[2] S Buch ， V Escorcia ， B Ghanem ， L Fei-Fei 和 JCNiebles。端到端、单流、未修剪视频中的时间动作英国机器视觉会议（BMVC），2017年。[3] Shyamal Buch、Victor Escorcia、Chuanqi Shen、BernardGhanem和Juan Carlos Niebles。单流临时行动建议。在IEEE计算机视觉和模式识别会议论文集（CVPR）中，第6373-6382页[4] Fabian Caba Heilbron ， Juan Carlos Niebles 和 BernardGhanem。快速的时间活动建议，用于在未经修剪的视频中有效地检测人类行为。在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，第1914-1923页，2016年[5] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ， BryanSey-bold ， David A Ross ， Jia Deng ， and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在计算机视觉和模式识别（CVPR）IEEE会议论文集，第1130- 1139页[6] Xiyang Dai ， Bharat Singh ， Guyue Zhang ， Larry SDavis，and Yan Qiu Chen.用于视频中的活动局部化的时间上下文网络。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第5727-5736页，2017年。[7] Victor Escorcia ， Fabian Caba Heilbron ， Juan CarlosNiebles和Bernard Ghanem。Daps：用于行动理解的深度行动建议。欧洲计算机视觉会议论文集（ECCV），第768-784页，2016年[8] Jiyang Gao ， Chen Sun ， Zhenheng Yang ， and RamNevatia. Tall：通过语言查询的时间活动定位。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第5277-5285页[9] Jiyang Gao，Zhenheng Yang，and Ram Nevatia.用于时间动作检测的级联边界回归。2017年英国机器视觉会议（BMVC）的开幕式上。[10] Jiyang Gao，Zhenheng Yang，Chen Sun，Kan Chen，and Ram Nevatia.Turn Tap：用于时间行动建议的时间单位回归网络。在IEEE国际计算机视觉会议（ICCV）的会议记录中，第3648-3656页[11] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化。在IEEE计算机视觉国际会议（ICCV）的会议中，第5803-5812页[12] 炎黄、齐午、梁王。学习图像和句子匹配的语义概念和顺序在Pro-IEEE计算机视觉和模式识别会议（CVPR）的会议，第6163-6171页，2018年。[13] Ryan Kiros 、 Yukun Zhu 、 Ruslan R Salakhutdinov 、Richard Zemel 、 Raquel Urtasun 、 Antonio Torralba 和Sanja Fidler。跳过思维向量。神经信息处理系统进展（NIPS），第3294-3302页，2015年[14] 林天威，赵旭，郑寿。单次拍摄的节奏动作检测。在ACM多媒体会议（ACM MM）的会议记录中，第988-996页[15] Meng Liu，Xiang Wang，Ligiang Nie，Xiangnan He，Bao-quan Chen，and Tat-Seng Chua.视频中的注意时刻检索。在第41届国际ACM SIGIR信息检索研究与开发上，第15-24页[16] Phuc Nguyen 、 Ting Liu 、 Gautam Prasad 和 BohyungHan。基于稀疏时间池网络的弱监督动作定位。在IEEE计算机视觉和模式识别会议（CVPR）集，第6752

下载后可阅读完整内容，剩余1页未读，立即下载