没有合适的资源?快使用搜索试试~ 我知道了~
用于检索视频刘炳斌1[0000 - 0002 - 6621 - 0356],杨小威1,2[0000 - 0003 - 0529 - 0628],周德华1[0000 - 0002 - 0670 - 459X],黄德安1[0000 - 0002 - 6945 - 7768],李飞飞1、 2,胡安·卡洛斯·尼布尔斯1、2[0000−0001−8225−9793]1斯坦福大学,斯坦福CA 94305,美国2Google Cloud AI,Mountain View CA 94043,USA抽象。计算机视觉中的一个主要挑战是将活动扩展到复杂活动的长尾,而不需要为新动作收集大量数据。 使用自然语言描述的视频检索的任务旨在通过对复杂活动的丰富、不受约束的监督来解决这个问题。然而,虽然这个公式提供了利用活动描述中的底层组成结构的希望,现有的方法通常不显式地建模组成推理。在这项工作中,我们介绍了一种方法,明确和动态推理组成的自然语言描述活动的视频。我们采用模块化神经网络方法,给定自然语言查询,提取语义结构以组装组合神经网络布局和相应的网络模块。我们表明,这种方法是能够实现国家的最先进的结果的DiDeMo视频检索数据集。关键词:视频检索,动作识别,模块化网络1介绍计算机视觉的基本目标是理解在动态视觉世界中随着时间发生的丰富、多样和复杂的活动。虽然在活动识别方面已经取得了重大进展,但它通常限于每个特定数据集具有固定数量的动作类的约束设置[1,6,22,25,26,28,33,51,66]。将这些识别模型扩展到复杂活动的长尾仍然是这种范式中的一个开放问题,因为它需要为新的动作类收集大量数据,并且没有明确地利用活动之间的相似性。为了解决这个问题,一个自然的解决方案是用自然语言描述复杂的活动[5,7,39,44,59]。这允许监督标签包含关于活动的丰富、不受约束的信息,并激励诸如作为视频检索[16,55,47,52]。这个公式也给了在活动描述中利用底层结构的希望,以便跨活动重用学习的我们使用的方法赋予模型越来越多的组成结构。例如,像“女孩”这样的复杂概念2刘碧、杨松、周毅、黄德、李菲菲、尼布尔斯。Fig. 1.给定自然语言查询和视频作为输入,时间模块化网络(TMN)使用查询的底层语言结构来动态地组装对应的模块化神经网络,该模块化神经网络在视频上进行组合推理以产生查询-视频对应性得分。在车道上骑自行车然后摔倒滑板,在车道上下山)。在这项工作中,我们专注于自然语言视频检索任务。给定自然语言描述形式的输入,目标是检索最佳匹配视频语言描述和视觉外观的多样性使其成为超出预定义动作类别的分类的具有挑战性的任务。现有的视频检索方法通常使用递归神经网络[9,14,16,61,63]或时空卷积[21,25,54]来学习语言和视频虽然简单且有效,但这些方法未能捕获并且更重要地,未能利用概念的固有组成结构,并且未能适当地关联每个子概念以进行有效推理。我们认为,明确建模的组成结构是复杂的视频理解所需的通用性和可扩展性的关键为此,我们引入了一个动态的合成方法推理复杂的自然语言描述的活动在视频中。我们从最近使用组合模型的视觉问答中获得的成功中汲取灵感[2,3,17,18,24,58]。给定自然语言查询和视频,我们的方法显式地利用查询的底层语言结构来动态地(并且分层地)组装对应的模块化网络以推理视频,并且输出查询和视频之间的对应关系(图1)。①的人。更具体地说,我们使用自然语言解析器从描述中提取结构。使用这种结构,我们构建了一个层次化的布局,相应的神经网络模块组装的基础上基于时态模块网络的组合活动检索3由于模块在不同的查询中被重用,我们可以跨这些查询及其相应的视频共同学习模块参数,以实现有效的学习和扩展到不同的概念。我们的贡献如下:• 我们提出了一个新的模型,称为时间模块化网络,明确使用自然语言的时间推理的视频中的组合性。• 我们证明,通过利用这个额外的结构,我们的模型是能够在DiDeMo [16]上实现最先进的结果,DiDeMo是一个用于在视频中本地化自由形式查询的多样化数据集2相关工作关于视频中的活动识别问题,有大量的工作[1,9,6,21,22,25,26,35,37,43,45,51,53,54,56,57]。然而,这些研究中的大多数都在本节中,我们重点关注讨论通过零射击,组合和基于自然语言的方法来应对扩展挑战的工作。零射击动作识别。零射击方法试图避免对每个感兴趣的类的训练示例这与我们的工作有关,一个流行的方向是利用视觉线索以外的链接来识别大量的新类,给定的已知类的数量较少。[20,29,30]绘制动作和对象之间的链接。[65]使用属性,如每个动词的持续时间和动态,并预测看不见的动词联合从这些属性和语义嵌入。[41]采用了类似的方法,但使用一组更简单的动作来描述更复杂的元动作。我们的方法是相关的零拍设置的意义上说,它可以扩展到以前看不见的描述,通过利用语言结构组成的网络,其基础模块也可以被看作是一个零拍模型检测视觉概念的基础上的话。组合动作识别。用于组合动作识别的方法已经采取了使用一组原子动作或对象来定义动作的方法。这包括将动作解释为身体片段上基于部分的模型的姿势序列[19,31,34],或由一组动作基元组成组合动作识别方法特别适用于教学视频,具有自然组合的明确定义的指令序列[38,40,42,67]。例如,Rohrbach等人[40]应用以手为中心的姿势估计技术来识别细粒度的活动,然后使用该细粒度的活动来组成复杂的烹饪活动。通过自然语言进行组合。 对复杂概念进行建模的补充方式是在无约束自然语言的更高级别,其本质上是组合的。与动作识别相关,一个自然的4刘碧、杨松、周毅、黄德、李菲菲、尼布尔斯。设置为视频检索[1,6,16,22,25,26,28,33,51,66]。虽然这些作品中的大多数使用递归神经网络进行语言编码[14,61,63],但最近使用了更明确的组合和分层推理,例如在图像中的视觉问答设置中(VQA [4])。这些建立在以前的工作有关语言结构的视觉场景的图像[48,49]。[60]使用了一个两层堆叠的注意力网络,并证明了这种分层结构允许第一层关注分散的对象,然后由第二层聚合。[32]共享类似的结构,但是基于自然语言的词-短语-句子结构定义层次结构,并且独立地计算每个级别的注意力以避免错误传播。Xiao [58]更紧密地遵循解析的语言结构,并在不同节点处为约束注意力添加了两种类型的结构损失。我们的工作建立在这些方向上使用基于自然语言的显式组合推理,并扩展到视频域的检索任务。利用语言结构的想法自然指向自然语言处理中的相关工作,例如递归神经网络[49,50]。虽然这些工作奠定了树结构推理的基础,但我们的工作在两个关键方面与它们不同首先,我们的工作使用由特定查询参数化的实例相关第二,如前所述,我们的工作集中在视频领域的适应,这仍然是未开发的。特别是,[49]致力于语义分割,[50]学习组合聚合的语义特征,这些特征与我们的设置相当不同。模块化神经网络最近,已经有通过动态神经网络布局对组合性进行建模的图像问答方法。[3]提出了模块化神经网络,它使用自然语言解析器输出的布局组成可重用模块为了克服固定解析器的局限性,[2]重新组装模块的子集以获得候选布局列表,并使用强化学习从中选择最佳布局。[17]进一步探索更宽的布局空间,同时仍然使用部件作为“扩展部件”,以便在初始化学习阶段进行升级学习最后,[24]学习一个程序生成器来预测网络布局。然而,这些工作在图像问题回答上进行,其中查询和模块具有有限变化的结构,并且图像通常来自合成数据集,例如CLEVR [23])。对于更现实的设置,[18]将组合模块化网络应用于具有自由形式查询的真实世界图像,但作为权衡,它只使用固定的三元组结构。相比之下,我们的工作适应模块化的方法,视频域,并与自然语言的视频检索工程。为了处理复杂活动的自然语言描述的多样性,我们利用网络结构的语言解析器,并引入适合处理视频的不同活动描述的模块化网络组件。据我们所知,我们的工作是第一个探索动态模块化网络的自由形式,基于语言的推理视频。基于时态模块网络的组合活动检索53时态模块化网络在这项工作中,我们解决自然语言视频检索任务。给定输入句子,目标是检索最佳对应视频。我们的主要观察是,在自然语言描述中存在一个底层结构,该结构在相应视频的组成理解中起着至关重要的作用。基于这种直觉,我们提出了时间模块化网络(TMN),一种新的框架,以自然语言描述和视频作为输入,并输出分数指示子视频和描述之间的对应关系的视频中我们的方法使用动态组装的神经模块化网络来显式地对活动的多样和复杂的自然语言描述的组成结构进行建模,这与以前的工作相反,语言和视觉嵌入是分开进行的。节中3.1中,我们首先描述了我们如何利用自然语言解析将不同的描述转换成与组合推理兼容的树结构。节中3.2,然后我们介绍如何,对于任何给定的描述,我们可以使用这些树结构来动态地组装相应的模块化神经网络的视频。组装的网络显式地模拟自然语言描述中的组合性,并且我们将这些称为时态模块化网络(TMN)。最后,在第3.3我们解释了我们如何共同学习TMN的模块组件,给出描述和相应的视频对。3.1将短语转换为组成结构给定一个复杂活动的自然语言描述,我们需要首先将这个描述分解成一个组合结构。虽然存在模型约束形式的组合活动描述和结构的方法,我们的目标是使推理丰富和不受约束的自然语言描述的活动。因此,我们使用一个自然语言解析器提取结构从任意的描述。自然语言具有单词-短语-句子层次结构形式的固有结构,并且自然语言解析器通过解析树将其形式化。特别地,我们使用Stanford Parser [27],一种概率上下文无关语法解析器,来获得描述中的单词之间的语法关系,并获得具有词性(POS)标签的初始解析树。选区解析器相对于依赖解析器的选择来自事实上,依赖分析器被设计为对句法结构是不变的,而选区分析器捕获表示我们期望的语言组合性的句法结构[48]。顺序事件,例如,没有清楚地呈现在依赖关系解析树中。对于包括两个顺序动作“骑”和“摔倒”的描述6刘碧、杨松、周毅、黄德、李菲菲、尼布尔斯。图二.时间模块化网络架构。网络的组成布局由从自然语言解析器提取的结构确定(第2节)。 第3.1节)。网络中的基本模块(黄色)基于特定于节点的字嵌入,直接在视频的帧级视觉编码的时间序列上进行推理。组合模块(绿色)根据特定于节点的更高级别短语嵌入组合来自子节点的信息。顶级组合模块的输出用于根据设置产生与视频与查询的匹配的强度相对应的分数,或者视频内的时间建议的分数。参见第3.2的双曲余切值。虽然解析器提供了一个初始的组成结构,但有些POS标签既不表示也不涉及视觉概念,例如DT(限定词)和RP(小品词)。因此,我们从解析树中丢弃这些元素。我们进一步合并时态或复数不同但属于同一词类的标签。例如,VBZ(动词,第三人称单数现在时)和VBD(动词,过去式)合并为VB(动词,基本形式)。表1指定了POS标签映射。在合并和丢弃之后,出现在树中的POS标签的总数从36减少到8。然后,结果树中的节点可以分为两种类型:对应于描述中单个单词的基节点,以及组合对应于短语(单词序列)的节点并组合其子节点。3.2通过视频我们在SEC中描述了。3.1我们如何使用自然语言分析从复杂活动的任意描述中获得固有的组合结构。接下来的挑战是我们如何使用这种结构在视频中执行组合推理我们的关键见解是,我们可以利用这种语言结构来模块化相应的视频理解网络,用于对活动的结构进行建模。基于时态模块网络的组合活动检索7表1:从由自然语言解析器输出的那些到经处理的合成树中的那些的词性(POS)标签映射。列出对应于每个映射标签的原始POS标签映射标记描述原始标签CC并列连词CCFW外国单词FW在介词或从属结合在JJ形容词JJ,JJR,JJSNN名词NN、NNS、NNP、NNPS、PRPRB副词RB、RBR、RBS到到到VB动词VB、VBD、VBG、VBN、VBP、VBZ我们的模块化方法,我们称之为时间模块化网络(TMN),原因与视频配对的自然语言描述与动态组装的模块化网络。使用一组神经网络模块来恢复在所述Dedescription的核心中的节点,以用于对所述组件进行恢复。完整的网络按照树结构连接这些可组合的模块(图1)。2)的情况。我们使用两种类型的模块,即基本模块和组合模块,分别对应于所描述的结构中的两种类型的节点节中3.1.较低级别的基本模块直接对视频功能进行推理,而较高级别的组合模块则对子模块的输出进行操作直观地说,基本模块用于检测所描述的原子视觉概念并且组合模块学习逐渐组合从其子模块流出的视觉信息。我们的模块化设计允许我们共享每种类型模块的参数。下面,我们更详细地描述基本模块和组合模块,它们如何在时间视频数据上操作,以及如何获得查询之间的对应分数(即,自然语言描述)和用于视频内检索的视频的部分。基本模块。基本模块对应于组合树中的基本节点(图11)。2)的情况。每个基本模块将视频的分段级视觉编码的时间序列Min∈RDv×n以及对应于该模块的单个词的词嵌入vw∈RDw这里,Dv是视觉编码的维度,Dw是词嵌入的维度,并且η是时间序列的长度。直观地说,我们希望模块对视频中单词的语义存在进行编码。因此,基本模块首先基于单词嵌入和视觉编码产生时间注意力向量[60],然后通过多层感知器传递时间注意力特征图。输出特征图M_out可以是任意维度,但是我们选择它与输入维度相同,8刘碧、杨松、周毅、黄德、李菲菲、尼布尔斯。并正式计算为:hatt=tanh(WvMin(Wwvw+bw))∈Rk×nsega=softmax(Wahatt+ba)∈RnMatt=a⊙Min∈RDv×nMout= MLP(Matt)∈RDv×n(一)其中k是视觉编码和词向量映射到的公共嵌入空间的维数,Wv∈Rk×Dw和Ww∈Rk×Dv分别是视觉编码和词向量的嵌入矩阵。 表示矩阵-向量加法,其中向量被添加到在rix处的 矩阵 的每 个列 。Wa∈R1×kmap有一个长度为lengthn的向量,该向量的长度为序列的p或al,然后用softmax对该向量进行归一化以产生时间注意力权重。bw和ba是偏置项。⊙表示矩阵向量的多个子集,其中多个子集将矩阵的列与向量的值最后,使关注特征图M att通过多层处理器以在输出Mut期间进行操作。组合模块。组合模块对应于组合树的组合节点,其功能是组合子特征图以在组合层次结构中向上传递信息。基于解析的组合树的灵活结构意味着组合模块可以具有可变的arity(即,儿童数量)。这与先前的模块化网络方法形成对比,其中模块的arity是固定的[3,24]。或者其中期望子节点的数量在预定义的限制内[48]。为了处理这一点,组合模 块迭代 地组合相 邻的子 特征图 。给定 一对子 特征映射 Ma,Mb∈RDv×n,组合模块计算注意力向量a∈Rn,该注意力向量a ∈ Rn由在每个时间段处组合Ma与Mb时的模块的c或r ∈ p的编码参数化形式上,具有C个孩子的组合模块的输出迭代地计算为:∗M1=M1M c*=a·M(c−1)*+(1−a)·M c,1cCMout=M C=a·M(C−1)*+(1−a)·M C(二)HereM c是child的映射,并且M c*是在chil 1到c上聚合的映射。 输出特征图是来自最后一个孩子的聚合特征图,即 M输出= M C。这种迭代公式使我们能够处理一个可变的模块arity。由特征图和组合特征图计算对两个子特征图Ma,Mb∈RDv×n的组合加权的注意向量a∈Rn基于时态模块网络的组合活动检索9重量i=12将m 〇dule的hp=Wp vp+bp∈RDvh1,h2=hTMa,hTMb∈Rnp p(3)hweight=softmax([h1,h2],dim=1)∈Rn×2a,1−a=h01重量∈Rn其中Wp∈RDv×Dp和bp∈RDv是用于将短语编码vp嵌入到具有视觉编码的公共嵌入空间的在实践中,我们使用词袋表示,其中通过对短语中的词向量求平均来获得短语编码。h1,h2∈Rn表示短语编码与子特征映射Ma和Mb的每个维度之间的亲和度得分,然后将其堆叠成Rn×2矩阵并按维度归一化为h权重。最后,注意力向量a和1−a,取自h权重的两列,提供了每个时间段的Ma和Mb查询分数。 最高层合并模块的输出特征图用于通过两个完全连接的层计算视频的部分与查询我们正在解决的检索任务是视频内设置,其中的目标是本地化视频内的最佳因此,我们希望输出可变长度的每个子视频(时间提议)的分数。假定输入视频具有时间长度η,则网络将首先针对每个时间片段回归η个对应性得分,然后将连续片段的得分组合为η。为所有可能的子视频产生ni = n(n +1)分数。子视频与最大得分被预测为用于视频内检索的最佳匹配注意当组合分数时,TMN使用总和而不是平均值,以避免输出分散的片段并鼓励更长的子视频,这与[15]的精神相似,并且对等级-5的准确性给出了显著的增强。此外,分数可以取负值;因此,较长的子视频并不总是更有利的。该评分方案可以容易地将视频检索任务推广到视频间设置,其中目标是从一组候选视频中检索最佳匹配视频。在这种情况下,可以简单地将视频的对应性分数选择为所有子视频中的最大分数3.3培训我们的目标是学习基础和组合模块的参数,以及根处的评分层,这些参数可以在给定的自然语言查询和相应的视频对的情况下联合学习训练是在查询-视频对的小批量上执行的,其中小批量中的一个示例是正确的对,其余的是不正确的。在每个批次中,视频间否定示例鼓励模块区分各种场景语义,而视频内否定鼓励模块专注于学习时间概念。,h10刘碧、杨松、周毅、黄德、李菲菲、尼布尔斯。该网络使用排名损失函数进行端到端训练,该函数定义为Lrank=max(0,si−s*+b)(4)i∈N其中N是所有可能的负片段的集合,si是负片段i的得分,s*是地面实况片段的预测得分,并且b是余量。虽然也可以使用二进制交叉熵(BCE)损失来训练模型,但是排名损失对于我们的视频内设置更有效。例如,具有不相关内容的视频间负片的评分应低于包含最佳匹配视频片段但由于时间上不紧而未被选择为最佳匹配的视频内负片,这是BCE损失未能捕获的细微差别4实验我们评估我们的方法组成推理的复杂活动的任务内的视频检索。给定输入的自然语言描述,目标是定位最佳对应的子视频。我们认为,明确建模的组成结构是这项任务成功的关键特别地,我们表明,在视频内检索设置下,所提出的时间模块化网络可以在DiDeMo数据集上实现最先进的结果[16]。这里,视频内意味着检索在单个视频内,其中给定输入查询-视频对,期望网络在时间上定位视频内的我们使用这种设置,因为短视频(这里,25到30秒长)中的主题和场景通常是不变的,这确保了网络必须真正学会执行时间推理,而不是依赖于其他信息,如可能包含强先验的对象或场景[20,29,30],使任务更具挑战性。4.1实现细节我们通过如Secs中所述的分段级视觉编码的时间序列来表示视频。4.2.斯坦福解析器[27]用于获得组合结构的初始解析树。对于作为基本模块输入的一部分的词向量,我们使用在Common Crawl(420亿个令牌)上预训练的300维GloVe [36]向量。对于组合模块,使用词袋模型来生成对应短语的固定大小表示我们在所有实验中使用Adam优化器[8],初始学习率为5e-6,权重衰减从5e-5到3e-7不等。4.2数据集我们使用DiDeMo [16]数据集,该数据集由26,892个视频组成,每个视频25秒或30秒,从YFCC100M [5]中随机选择。训练集中有33,005个视频-查询对,验证集中有4180个,测试集中有4021个。一个视频可能会出现在多个查询-视频对中,不同的查询匹配基于时态模块网络的组合活动检索11到不同的子视频。DiDeMo特别适合视频内设置,因为它希望提供与视频部分时间对齐的引用表达式,而不是[7,39,59,62],其中描述处于视频级别。对于视频内检索,DiDeMo中的每个视频被分成6个片段,每个片段长5秒,任务是选择最匹配查询的子视频。每个子视频包含一个或多个连续片段。每个查询总共有21个可能的候选,对应于6个单片段子视频、5个两片段子视频等。性能通过预测置信度的秩-1准确度(秩@1)和秩-5准确度(秩@5)来测量,预测置信度是其中最佳匹配分别被排名为前1或前5的示例的百分比,以及时间精度的段级平均交集(miou)。定量结果。表2示出了将TMN与时刻上下文网络(MCN)(在[16]中引入的最先进的方法)进行为了公平比较,我们使用与[16]提供的相同的RGB,流量和融合特征这些特征从VGG [46]fc 7中提取,并在帧上进行平均合并,以产生每个片段的4096-d向量因此,视频由6个特征向量的时间序列 我们不与[16]中的时间端点特征进行比较,因为这些特征直接对应于数据集先验,并且不像在能力上那样反映模型的时间或所有时间。可以看到,TMN在所有模态中均优于MCN[16],在 1级和5级准确度上有显著改善,在平均IoU上的性能相当与使用LSTM进行语言编码并基于语言和视觉嵌入之间的距离输出匹配分数的MCN相比,TMN中的显式组合建模对于所有类型特征的性能增益至关重要有趣的是,虽然MCN在RGB特征上具有明显较低的性能,但TMN能够很大地弥合与光流特征的性能差距由于光流在RGB上提供附加的运动信息,因此即使当特征包含较弱的运动信息时,其也获得了与在时间视频上一样高的TMN的存储能力以进行组合。BotR GB和FLOWF EAT UR ES ( “FUSED“ ) 的 组 合 为 Bot R GB 和 FLOWFEATUR ES(“FUSED“)的组合影响了TMN的预期性能。此外,当基本模块和组合模块顺序地应用于每个单词时,网络的功能类似于递归神经网络。因此,TMN的性能增益展示了适当的组成结构的重要性。定性结果组成网络的一个优点是它的可解释性。图3可视化了由每个组合模块生成的时间注意力中的层次模式,这意味着网络学习正确地聚集信息图4提供了更多示例输出。可以看出,TMN的优势是最明显的任务,依赖于时间维度。12刘碧、杨松、周毅、黄德、李菲菲、尼布尔斯。表 2 : 使 用 RGB 、 流 和 融 合 ( RGB+ 流 ) 特 征 , TMN 优 于 MCN 。RGBfeatr上的特征信息获得在局部化中显示TMN的时间推理能力而不依赖于特征 模型等级@1 等级@5 平均IoURGBMCNTMN13.1018.7144.8272.9725.1330.14流MCNTMN18.3519.9056.2575.1431.4631.95保险丝 MCNTMN19.8822.9262.3976.0833.5135.17图三.在查询-视频对上评估的TMN的定性示例。基本节点和组合节点的注意力图是可视化的,其中颜色条表示注意力权重,深蓝色表示更高的权重。基本节点的注意力图示出了单个单词的激活,而组合节点中的注意力图示出了来自儿童的信息如何被聚合,以及模块如何具体地在一个模块中采取短语编码的策略(“针对第一个”)。消融研究我们进行消融研究以研究模块设计、网络结构和损耗函数的变化:• 基本模块的类型:我们试验了两种类型的基本模块:每个POS标签有一个基本模块的POS设置,以及在所有标签之间共享单个基本模块的Single设置。POS设置可以通过使每个模块更专业化来简化对TMN的学习,而POS设置可以通过使每个模块更专业化来简化对TMN的学习。单个设置允许TMN从更大量的数据中学习,并且可以帮助捕获跨POS标签存在的模式。例如,单个共享模块可以类似地由具有不同P0S标签但出现在类似上下文中的词来参数化。此外,使用单个模块显示出更稳健,因为它提供了对基于时态模块网络的组合活动检索13见图4。TMN的示例输出,其中TMN能够识别时间变化,例如“切换”和“切换/重新”,还包括与“then”相关的组合。解析器错误,有时会错误地将名词标记分配给单数形式的动词。根据我们的实验结果选择单一设置。•合并模块中的注意事项:除了具有合并模块之外基于短语编码选择性地处理不同的时间段,我们还考虑了最大池化作为组合多个子特征图的简化替代方案,其中输出特征图是从所有子特征图逐元素最大池化的。这受到[58]中的父子约束的启发,其中结构损失用于惩罚组合特征图偏离子特征图的并集,这基本上近似于最大池层。形式上,组合特征图被定义为使得. . n},j ∈ {1. . .Dv},Mout= maxMc(五)i、jc∈Ci、j其中C是子集合,并且M。是第c个子的特征图。• 一个适当的组成网络结构的影响:我们比较了三个网络结构.第一个没有合成树。由于TMN在去掉组成结构时类似于香草RNN,因此MCN[16]和TMN之间的性能差距对应于组成结构的增益。另外两个结构来自依赖分析器和选区分析器。我们发现,这两个解析器的结构都能够优于MCN,证明了组合推理的重要性。此外,性能之间的差距14刘碧、杨松、周毅、黄德、李菲菲、尼布尔斯。两种解析结构显示了适当结构的优点• 损失函数的选择:我们用排序损失和二进制交叉熵(BCE)损失来训练TMN。排名损失超过BCE损失的性能增益验证了我们的假设,即视频内设置对时间定位提出了额外的要求,这更好地应对相对排名而不是绝对分数。表3:TMN组件有效性的消融研究:第12行&:组成结构的有效性第34&、&56行:排序损失相对于BCE损失的优势。第3 5、4 6行:适当的组成结构的重要性。表3示出了消融结果,其中max pool和combineattention分析了组合模块中的注意力的效果,const和dep分别指代由选区解析器和依赖解析器给出的结构,并且秩损失和BCE损失比较损失函数的选择。5结论在这项工作中,我们介绍了时间模块化网络(TMN),通过动态组装模块化网络的视频时间推理的合成方法我们在视频内检索设置下在DiDeMo数据集[16]上证明了我们相信我们的工作是第一步,突出了利用神经网络的动态组合性来应对将视频理解扩展到复杂活动的大空间未来的工作包括探索更丰富的模块,可以有效地处理不同的结构和更强的推理活动的共同模式之间的权衡。6确认我们要感谢斯坦福大学视觉实验室的成员以及Google的Lu Jiang、MeiHan和Jia Li,感谢他们的讨论和支持。我们还要感谢匿名审稿人,他们的建议和意见有助于改进本文。#ID模型等级@1 等级@5 平均IoU1MCN [16](即无树结构)19.8862.3933.512const + max pool + rank loss21.8975.6934.243dep+组合注意力+BCE损失20.4175.3832.864dep+组合注意力+秩损失21.6775.9833.945const+组合注意力+BCE损失21.6075.8134.406const+组合注意力+秩损失22.9276.0835.17基于时态模块网络的组合活动检索15引用1. Abu-El-Haija,S.,Kothari,N.,李,J.,Natsev,P.,Toderici,G.,Varadarajan,B.,Vijayanarasimhan,S.:Youtube-8 m:大规模视频分类基准。arXiv预印本arXiv:1609.08675(2016)2. Andreas,J.,Rohrbach,M.,Darrell,T.,Klein,D.:学习构建神经网络进行问答。arXiv预印本arXiv:1601.01705(2016)3. Andreas,J.,Rohrbach,M.,Darrell,T.,Klein,D.:神经模块网络。见:CVPR(2016)4. Antol,S.,阿格拉瓦尔,A.,卢,J,Mitchell,M. Batra,D.,Zitnick,C.L.,Parikh,D.:VQA:可视化问答。In:ICCV(2015)5. B. 地方检察官托米Shamma,G.F.B.E.K.N.D.P.D.B.L.L.:Yfcc100m:多媒体研究中的新ACM通信59(2),pp. 64-73(2016)6. Caba Heilbron , F. , Escorcia , V. 加 尼 姆 湾 Carlos Niebles , J. :Activitynet:人类活动理解的大规模视频基准。参见:CVPR(2015)7. Chen,D.L. Dolan,W.B.:收集高度并行的数据进行释义评估。In:Proceedings of the 49th Annual Meeting of the Association forComputationalLinguisics:HumanLanguageTec hnologies-第1卷。pp. 190-200 HLT’11,A ss o ci a t i o n for C o m u t a t i o n a l L i n g u i s t ic s,S t ro ud s b urg,PA,U S A(2011),http://dl.acm.org/citation.cfm? 2002472.20024978. 迪德里克山口Kingma,J.L.B.:亚当:随机优化的一种方法载于:ICLR(2015)9. Donahue , J. , 洛 杉矶 的 亨 德 里克 斯 Guadarrama , S., Rohrbach , M.,Venugopalan,S.,Saenko,K.达雷尔,T.:用于视觉识别和描述的长期递归卷积网络。参见:CVPR(2015)10. Feng,X.,中国科学院,Perona,P.:基于Movelet码字序列的人体动作识 别 。 In : Proceedings. 第 一 届 三 维 数 据 国 际 研 讨 会ProcessingVisualization的ndTransmission.pp.七一七(2002年)的报告。https://doi.org/10.1109/TDPVT.2002.102414811. Frome,A.,科罗拉多州科拉多Shlens,J.,Bengio,S.,迪恩J Mikolov,T.,等:Devise:一个深度视觉语义嵌入模型。在:NIPS(2013)12. Gaidon,A. Harchaoui,Z. Schmid,C.:动作的时间局部化。IEEETPAMI35(11),278213. 古,C.,孙角,澳-地Vijayanarasimhan,S.,Pantofaru角地方检察官罗斯Toderici,G.,李,Y.,Ricco,S.,Sukthankar河施密德角Malik,J.:AVA : 时 空 局 部 原 子 视 觉 动 作 的 视 频 数 据 集 CoRR abs/1705.08421(2017),http://arxiv.org/abs/1705.0842114. Guadarrama,S.,Krishnamoorthy,N.Malkarnenkar,G.,Venugopalan,S.,穆尼河,Darrell,T.,Saenko,K.:Youtube2text:使用语义层次和零触发识别来识别和描述任意活动。In:ICCV(2013)15. 汉,W.,Khorrami,P.Paine,T.L.,Ramachandran,P.,Babaeizadeh,M.,施,H.,李杰,Yan,S.,Huang,T.S.:用于视频对象检测的Seq-nms。arXiv预印本arXiv:1602.08465(2016)16. 洛杉矶的亨德里克斯Wang,O.,Shechtman,E.,Sivic,J.,Darrell,T.,Russell,B.C.:用自然语言定位视频中的时刻。In:ICCV(2017)17. 胡河Andreas,J.,Rohrbach,M.,Darrell,T.,Saenko,K.:学习推理:用于可视问答的端到端模块网络。In:ICCV(2017)18. 胡河Rohrbach,M.,Andreas,J.,Darrell,T.,Saenko,K.:使用组合模块网络对引用表达式中的关系进行建模在:CVPR(2017)16刘碧、杨松、周毅、黄德、李菲菲、尼布尔斯。19. Ik izler,N., 结果表明,D. A. :使用非常规示例对比较性人类学进行筛选。IJCV(2008)20. Jain,M.,van Gemert,J.C.,Mensink,T.Snoek,C.G.:Objects2action:对动作进行分类和定位,而无需任何视频示例。In:ICCV(2015)21. Ji,S.,徐伟,杨,M.,Yu,K.:用于人类听觉识别的3D卷积神经网络。TPAMI35(1),22122. Jiang,Y.G.,刘杰,Roshan Zamir,A.,Toderici,G.,拉普捷夫岛Shah , M. , Suk-thankar , R. : THUMOS 挑 战 : 大 量 类 的 动 作 识 别http://crcv.ucf.edu/THUMOS14/(2014)23. Johnson,J.,Hariharan,B.,范德马滕湖,Fei-Fei,L. Zitnick,C.L.,Girshick,R.:Clevr:用于组合语言和基本视觉关系的诊断数据集。 In:CVPR. pp. 1988- 1997年。IEEE(2017)24. Johnson,J.,Hariharan,B.,范德马滕湖,Hoffman,J.,Fei-Fei,L.Zitnick,C.L.,Girshick,R.B.:推理和执行程序的视觉推理。In:ICCV(2017)25. Karpathy,A.,Toderici,G.,Shetty,S.,Leung,T.,Sukthankar河李菲菲:用卷积神经网络进行大规模视频分类在:CVPR(2014)26. 凯 , W. , 卡 雷 拉 , J. , 西 蒙 尼 扬 , K. , 张 , B. , 希 利 尔 角Vijayanarasimhan,S.,Viola,F.,Green,T.,退后TNatsev,P.,等:人体动作视频数据集。arXiv预印本arXiv:1705.06950(2017)27. Klein,D.,Manning,C.D.:准确的非词汇化语法分析。第41届计算语言学协会年会论文集-第1卷。pp.423-430AssociationforComputationalLinguistics(2003)28. Kuehne,H.,Jhuang,H. Garrote,E.,波焦,T.,塞尔,T.:HMDB:一个用于人体运动识别的大型视频数据库。In:ICCV(2011)29. Li,L.J.,Su,H.,Fei-Fei,L. Xing,E.P.:对象库:用于场景分类&语义特征稀疏化的高级图像表示。NIPS(2010)30. Li,L.J.,Su,H.,Lim,Y.,李菲菲:对象作为场景分类的属性。In:ECCV. pp. 57比69 02TheDog(2010)31. 利略岛尼布尔斯,JC Soto,A.:用于rgb-d视频中人类活动识别的身体姿势和原子动作的稀疏组合。图像和视觉计算(2017)32. 卢,J,杨杰,Batra,D.,Parikh,D.:层次问题-图像共注意视觉问答。在:NIPS(2016)33. 蒙福特,M. Zhou,B.,(1991年),中国地质大学,Bargal,S.A.,Andonian , A. , Yan , T. , Ramakrishnan , K. , 布 朗 湖 范 , Q. ,Gutfruend,D.,冯德里克角等:Moments in Time数据集:一百万个视频用于事件理解。arXiv预印本arXiv:1801.03150(2018)34. 尼布尔斯,JC Chen,C.W.,李菲菲:建模用于活动分类的可分解运动段的时间结构。In:ECCV(2010)35. 彭,X.Schmid,C.:用于动作检测的多区域双流r-cnnIn:ECCV(2016)36. Pennington,J.索赫尔河曼宁,C.:Glove:单词表示的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功