没有合适的资源?快使用搜索试试~ 我知道了~
基于知识蒸馏的视频字幕模型的对象交互建模
10870基于知识蒸馏潘博晓1,蔡浩业1,黄德安1,李贯辉2,阿德里安·盖东2,埃桑·阿德利1,胡安·卡洛斯·尼布尔斯11斯坦福大学2丰田研究所{bxpan,hcaiaa,dahuang,eadeli,jniebles}@ cs.stanford.edu{kuan.lee,adrien.gaidon}@tri.global“一只猫跳进了一个盒子里。”图1:如何从视频输入中理解和描述场景?我们认为,一个详细的了解时空对象的相互作用是至关重要的这项任务。在本文中,我们提出了一个时空图模型来明确地捕捉这些信息的视频字幕。黄色框表示Faster R-CNN [12]的对象提案红色箭头表示有向的时间边缘(为清楚起见,仅显示最相关的边缘),而蓝色线表示无向的空间连接。来自MSVD的视频样本[3],标题为“一只最好用彩色观看摘要视频字幕是一项具有挑战性的任务,需要对视觉场景有深刻的理解。现有技术的方法使用场景级或对象级信息生成字幕,但不显式地对对象交互进行建模。因此,他们往往无法做出直观的预测,并且对虚假的相关性很敏感。在本文中,我们提出了一种新的时空图模型的视频字幕,利用对象在空间和时间的相互作用。我们的模型建立可解释的链接,并能够提供明确的视觉基础。为了避免由于对象数目的变化而导致的性能不稳定,本文进一步提出了一种对象感知的知识表示机制,利用局部对象信息对全局场景特征进行规则化我们证明了我们的方法的有效性,通过两个基准测试的广泛实验,显示我们的方法产生有竞争力的性能与可解释的预测。1. 介绍场景是复杂的,这不仅是因为涉及的实体集不同,而且还因为它们之间的复杂交互。考虑图中所示的场景。1.一、为了为了理解“能够忽略“电视”和“床”也是至关重要的,视频字幕的任务[13,37]通过从视频输入生成文本描述来接近场景理解。然而,当前的视频字幕方法无法捕捉这些交互。当前的方法不是对高级语义实体之间的相关性进行建模,而是直接在原始像素上建立连接,并依赖于分层深度神经网络结构来捕获更高级别的关系[19,39]。有些作品尝试在对象特征上操作,但它们要么忽略了跨对象交互[49],要么忽略了对象随时间的变化[27,51]。尽管在直接建模局部对象特征方面做出了努力,但它们之间的连接是不可解释的[27,51],因此对虚假相关性敏感。另一方面,已经探索了通过视频时空图[34,43]建模对象关系,以通过利用图的关系建模性质来显式地构建高级实体之间的链接具体来说,节点表示这些实体,例如身体关节[47],对象/人[8,43,45]和动作[34],而边编码实体之间的关系。虽然时空10871图模型已经在分类任务上取得了巨大的成功[8,17,43,45],但是关系建模的效果仍然不清楚,因为该模型通过利用其它线索(例如,背景)。 据我们所知,我们是第一个明确的时空对象关系模型的视频字幕,并通过大量的实验显示图形化建模的效果为了提供局部对象特征所缺少的全局上下文,以前的工作要么通过特征连接[43]或池化[49],或将场景特征作为图中的单独节点添加[8,11,34]。然而,因为视频包含可变数量的对象,所以学习的对象表示通常是有噪声的。因此,它导致次优性能。为了解决这个问题,我们引入了一个双分支网络结构,其中对象分支捕获对象交互作为特权信息,然后通过在它们的语言逻辑之间执行知识蒸馏[18]将其与以往对特征施加硬约束的方法相比,我们提出的方法对logits应用软正则化,从而使学习的特征更具鲁棒性。我们将这种机制称为“对象感知知识蒸馏”。在测试过程中,只使用场景分支,它利用已经嵌入的对象信息来平衡提取的特征。作为一个额外的效果,这种方法还能够节省在测试时运行对象检测的成本。在本文中,我们提出了一种新的方法来解决视频字幕利用时空的相互作用和对象的转换。具体来说,我们首先将输入视频表示为时空图,其中节点表示对象,边缘测量它们之间的相关性。为了建立可解释的和有意义的连接,我们设计的邻接矩阵,明确纳入先验知识的空间布局以及时间变换。随后,我们执行图卷积[22]来更新图表示。然后,将更新后的表示注入到另一个场景分支中,在那里我们直接对全局帧序列进行建模,通过提出的对象感知知识蒸馏机制将其作为特权对象信息。之后,通过trans-former网络进行语言解码[35]以获得最终的文本描述。我们在两个具有挑战性的视频字幕数据集上进行实验,即MSR-VTT[46]和MSVD [3]。我们的模型在MSVD的多个评估指标和MSR-VTT的竞争结果请注意,尽管我们提出的模型对下游任务是不可知的,但我们在这项工作中只关注视频字幕因此,它在其他领域的应用是留给未来的工作。综上所述,我们的主要贡献如下。(一)我们设计了一种新颖的时空图网络,通过利用对象交互来实现视频字幕。据我们所知,这是第一次时空对象交互被明确地用于视频字幕并且以可解释的方式。(2)我们提出了一个对象感知的知识提取机制,以解决在以前的时空图模型中存在的噪声特征学习的问题。实验结果表明,我们的方法在MSVD [3]和MSR-VTT[46]上的竞争结果上实现了对最新技术的显著提升。2. 相关工作一般视频分类 时空推理是视频理解的主要研究课题之一。随着深度卷积神经网络(CNN)在图像识别上的成功[24],在时空域中相应地提出了许多深度架构。C3d[33]和I3D [2]通过执行3D卷积来构建分层时空理解。双流网络[10]通过融合额外的光流分支来接收额外的运动信息另一方面,TSN [41]通过稀疏帧采样利用了相邻视频帧之间存在巨大冗余的事实。虽然认为以前的方法无法捕获长期依赖性,但最近的几项工作[9,42,44,50]试图对更广泛的时间范围进行建模具体来说,TRN[50]通过考虑多级采样频率扩展了TSN。非局部网络[42]明确地在特征之间创建SlowFast网络[9]通过创建具有不同时间分辨率的两条路径来利用多个时间尺度。或者,长期特征库[44]直接存储长期特征,然后将其与短期特征相关联。然而,所有这些模型都直接在原始像素上进行推理,这通常无法通过简单地收集数据偏差来将其预测与视觉证据联系起来。相比之下,我们建议在更高级别的实体上建立关系模型,在我们的情况下,这些实体是场景中的对象。时空图虽然图形场景表示的思想已经在图像域中被广泛探索[20,23,48],但其对视频的扩展仅最近引起了注意。在早期的尝试中,ST-GCN [47]对人体关节坐标进行建模以执行动作分类。后来的作品直接建模场景中的对象。然后使用所得到的表示来执行各种下游任务,例如动作分类[17,43,45]、动作定位[11,28]、关系预测[34]和凝视预测[8]。所有这些工作的目的是简单的分类或本地化任务,捕捉对象的相互作用可能不那么重要。因此,时空图的效果仍然不清楚。在这项工作中,我们的目标是更艰巨的任务,10872场景分支一猫跳成一框测试输入视频Transformer对象分支蒸馏火车图2:拟议的两处框架概览。在训练过程中,对象分支通过所提出的时空图模型捕获时空对象交互信息,而场景分支提供对象分支所然后,通过对齐来自两个分支的语言逻辑,将对象级信息提取到场景特征表示中为了清楚起见,我们将箭头从对象分支Transformer下拉到输出句子,但它也是使用语言损失进行训练的在测试时,句子生成只需要场景分支的视频字幕,并通过广泛的实验和消融研究显示我们的基于图的方法虽然以前的方法遭受的噪声特征学习问题,我们解决了它通过提出的对象感知的知识蒸馏机制。知识蒸馏。知识蒸馏首先在[18]中提出,其中通过最小化它们的logits分布之间的KL偏离来执行从大模型到小模型的蒸馏。后来,洛佩斯-帕兹等人。[26]概括蒸馏以包含特权信息,这是在训练期间可用但在测试期间不可访问的一些附加信息。这种方法的一个应用是将额外模态视为特权信息[14]。在我们的例子中,我们创新地把对象相互作用看作是特权信息。我们在训练期间利用这些信息,将其提取到场景分支中,而在测试期间只执行场景分支。视频字幕。视频字幕的早期工作主要集中在基于模板的语言模型[13,31,32]。受到编码器-解码器架构的成功的启发,Venugopalan等人。[38]通过全局汇集所有帧特征将其扩展到视频字幕接下来的工作则试图通过引入注意机制来利用时间模式[6,37]。最近,Peietal. [30]提出了MARN,它在为单个视频生成描述时会处理所有语义相似的视频。 Wang等人[39] Houet al.[19]提供了在实际句子之前预测POS信息的想法。递归神经网络(Recurrent作为大多数模型的语言解码器,Transformer [35]也被证明是强大的[4,51,52]。因为它更快,更容易训练,我们在我们的模型中使用Transformer作为语言解码器。虽然大多数先前的工作直接在全局帧或视频特征上操作,但是已经有一些尝试尝试对局部对象特征进行建模。Zhou等[51]和Maet al. [27]两者都使用空间池来聚集对象特征。Zhang等人[49]建议使用GRU来执行对象跟踪和建模对象轨迹。然而,他们要么忽略时间[27,51]或空间[49]对象的相互作用。相反,我们通过我们提出的时空图模型的空间和时间对象的相互作用联合。此外,我们的方法能够将先验知识纳入邻接矩阵,这比完全学习的注意力机制提供了更好的可解释性。3. 方法我们提出的两个分支网络架构的概述如图所示。二、在训练过程中,给定一个描述动态场景的视频,我们的目标是将其浓缩成一个完全捕捉时空对象交互的表示。这是通过建议的时空图网络,它作为对象分支。然后,通过对象感知的知识提取机制,将这些交互信息提取到另一个场景分支中。在测试时,只保留场景分支以生成文本描述。在下文中,我们将详细描述每个部分。10873不G23不不不G....不11吨吨IJ蒂季特蒂季特3.1. 特征表示给定RGB帧序列{x1,x2,. - 是的- 是的,x T},从中提取两类特征:场景特征和对象特征。场景特征。我们遵循[30]中的过程,其中我们首先提取2D帧特征序列F2D={f1 , f2 , . - 是 的- 是 的 ,f T} 使 用 ResNet-101[16],其中每个f t∈步骤,它无法模拟对象随时间的变化。在图中的示例中。2,没有办法告诉猫在做什么与盒子与任何单一的框架。为此,我们建议通过计算它们的成对余弦特征相似度来连接每个相邻帧对中的所有语义相似的对象:exp cos(oi,oj)Rd2D。我们还提取了一组3D剪辑特征F=G时间=10不电话+1、(二)三维tijDNt+1exp cos(oi,oj){v1,v2,. - 是的- 是的,v L},其中v l∈ R3D.j=1不电话+1对象特征。我们运行更快的R-CNN [12]每个帧得到一组对象特征Fo={o1,o2,. . .,oj,. . .其中,Nt表示帧t中的对象的数量,并且j是每个帧内的对象索引。frame. 每个oj的维数d2D与F2D相同.3.2. 时空图对象在空间和时间域中具有完全不同的行为。一方面,不同的对象在空间上相互作用。而另一方面,相同的对象变换(形状、位置、姿势等)。tem-其中G time表示G time∈RNt×Nt+1的第(i,j)个元素,cos(oi,o j)度量两个特征向量之间的余弦相似性。时空图上的卷积。 在我们按照上面的过程得到拓扑图结构之后,下一步是基于此图结构更新节点特征。 我们采用图卷积(GCN)[22]为此。为了将原始GCN扩展到我们的时空域,我们首先将视频的所有空间和时间图合并为单个时空图Gst:多孔地 为了捕捉这两种类型的相关性,空间1时间10的情况。- 是的- 是的0我们将图分解为两个部分:空间100G空间时间2. - 是的- 是的0图和时间图。一个独特的无定向温泉-为每个帧实例化一个tial图,GSt1000G空间. - 是的-是的0n∈R N×N,对于时间步长t,矩阵由G空间表示。对于时间图,为了不使模型被噪声信息淹没,我们仅计算相邻帧对之间的时间边缘,而不是以完全连接的方式。-是的-是的 .000. . G空间(三)其中每个G空间和G时间是空间和节奏,t t[11,43]。请注意,时间图仍然以这种方式连接所有时间步长。从t到t+1的结果时间图表示为G时间,这是沿着时间流方向的有向图空间图。空间图的目标是捕捉空间相关对象之间的 以图中所示的场景为例。2为例。在物体探测器的帮助下,我们知道有一只我们在上面定义的所有邻接矩阵。 请注意,0由方程式3是零值矩阵,其形状由相邻的空间和时间matri ces. N是视频中对象的总数,即,N=t=1Nt.在这一点上,可以通过标准更新图图卷积,其正式定义如下:H(1+ 1)=ReLU(H(1)+Λ-1GstΛ-1H(1)W(1)),(4)场景,但我们如何才能得到一个线索,是否猫是间-22和盒子一起表演解决这一问题的关键在于物体的相对空间位置。基于彼此靠近的对象更有可能相关的观察结果,我们通过使用它们的标准化交集(IoU)值连接对象来显式地将这些信息合并到空间图中G空间=expσtij,(1)其中W(l)∈Rd模l×d模el是层的权矩阵L. Λ是对角阶矩阵,其中Λii=jst我们遵循[47]添加剩余连接并使用ReLU作为激活函数。 GCN已实施通过对输入张量H(l)执行1×1×1卷积,然后将所得张量乘以Λ-1GstΛ-1。H(l)∈RN×d模型 这是一部tijΣNtj=1 经验σtij2 2莱耶湖特别地,H(0) 是堆叠的对象特征:其中G空间是G空间∈RNt×Nt的第(i,j)个元素,H(0)=stack(Fo)Wo∈RN×D模型 、(五)它测量第i个和第n个之间的空间连通性第j个对象。我们采用Softmax函数作为类似于[43,45]的归一化函数。σtij表示两个对象之间的IoU。时间图。而空间图具有同时捕获对象之间的交互的其中stack()沿第一轴堆叠Fo中的所有对象特征,Wo∈Rd2D×d模型是变换矩阵。然后,我们对更新后的GG=10874OHNl(Nl为图的卷积层数),得到最终的目标特征为F ′∈ RT×d模型。108753DO3DO3.3. 场景分支类似于以前的工作[8,11,34,43,49,51],我们还通过单独的场景分支直接对帧序列进行建模该分支提供了可能从局部对象特征中缺失的附加全局上下文信息,并且当视频没有检测到或检测到很少的对象时尤其关键。为了突出我们提出的时空图的效果,并将性能与场景建模的进展隔离开来具体地,对于每16个连续的非重叠帧,我们提取一个3D特征。对语言logit进行软正则化,语言logit本质上是对齐语言逻辑的方式可以被认为是两个分支的后期融合,而不是像直接特征合并那样的早期融合具体地,我们遵循[18]来最小化来自两个分支的单词概率分布之间的KL分歧。令Po(x)是来自对象分支的跨词汇V的概率分布(前Softmax log-its),并且Ps(x)是来自场景分支的分布。我们尽量减少差异-然后,我们沿着时间维度复制3D特征16次(因为每个3D特征跨越16个时间步长并提供上下文),并对与2D特征相对应的T切片进行采样。随后,我们将2D耕作损失:L蒸馏=−Σx∈VPs(x)log.ΣPo(x)Ps(x).(七)and 3D features to the same dimension dmodel, then con-catenate them together and project again to dmodel:Fs=[F2DW2D;F′W3D]Wfuse∈RT×d模型,(6)其中W2D∈Rd2D×d模型,W3D∈Rd3D×d模型,W保险丝∈R2D模型×D模型 是变换矩阵。“表示在所述以上[;]表示沿着信道维度的级联3.4. 语言解码器请注意,我们没有通过最小化特征之间的L2距离来执行蒸馏[14],因为它本质上是对特征施加硬约束,并且我们将通过实验表明它会产生较差的结果。3.6. 培训我们冻结场景和对象特征提取器,只训练模型的其余部分。总损失函数由三部分组成,即:L=Lo lang+λslLs lang+λdLdistill,(8)在训练过程中,我们传入场景特征Fs和对象特征F′来执行语言解码。在测试其中λslλd是折衷的超参数。时间,仅使用Fs来生成预测句子。同样,由于我们的工作集中在视觉编码组件上,我们使语言解码器尽可能简单。我们直接采用TVT架构[4]。具体地说,编码器采用特征的时间序列(Fs或F′)并产生嵌入。解码器接收该嵌入和前一个字编码以生成下一个字。为了明 确 我 们 的 命 名 , 我 们 将 原 始 的 编 码 器 - 解 码 器Transformer结构表示为我们的语言解码器。有关语言解码器的详细信息,请参阅[4请注意,我们为两个分支使用了两个独立的Transformer,并同时训练它们我们采用标准的训练过程,以尽量减少语言的交叉熵损失Lolang和Lslang的对象和场景分支,分别。3.5.面向对象的知识提取通过特征级联[43]或池化[49]合并两个分支,或者添加场景特征作为单独的图节点[8,11,34]的问题是视频(甚至同一视频中的帧)包含可变数量的对象,这使得学习的特征非常嘈杂。这是因为通过合并或添加额外的节点,它对来自两个本质上不同的空间的特征施加了硬约束。相比之下,我们只应用4. 实验和结果我们在两个具有挑战性的基准数据集上评估我们提出的 模型 :Microsoft Research-Video to Text (MSR-VTT ) [46] 和 Microsoft Video Description Corpus(MSVD)[3]。为了进行全面的评估,我们报告了四个常用指标的数字:BLEU@4、METEOR、ROUGE-L和CIDER。4.1. 数据集MSR-VTT。MSR-VTT是一种广泛使用的大规模视频字幕基准数据集。它由10000个视频片段组成,每个视频片段都有20个英语句子的人工注释。 这些视频涵盖了20个类别,涵盖了体育、游戏、烹饪等。我们遵循以前工作中的标准数据分割方案[30,39,49]:训练集中有6513个视频片段,验证中有497个,测试中有2990个。MSVD。MSVD是另一个流行的视频描述基准,它由从YouTube上收集的1970个视频片段组成它支持多语言的描述,通过注释,ING每个视频剪辑与句子从多种语言。按照标准做法[30,39,49],我们只选择那些英文字幕,之后我们每个视频大约有40个描述,分别有1200,100,670个片段用于训练,验证和测试F108764.2. 评估指标在我们的实验中,我们评估了所有四种常用的视频字幕指标的方法,即BLEU@4 [29],ROUGE-L [25],METEOR [1]和CIDER[36]第30段。BLEU@4测量地面实况和生成的句子之间的4-gram精度ROUGE-L计算比较句子之间的最长公共子序列(LCS)另一方面,METEOR使用基于uni-grams的加权F分数和惩罚函数来惩罚不正确的词序,并且据称它具有更好的解释能力。最后,CIDEr采用了一种基于投票的方法,因此被认为对不正确的注释更鲁棒.我们遵循标准做法来使用Microsoft COCO评估服务器[5]。4.3. 实现细节特征提取器。对于场景特征,我们按照[30]提取2D和3D特征来编码场景信息。我们使用ImageNet [7]预训练的ResNet-101 [16]来提取每帧的2D场景特征具体来说,我们传入一个大小为224×224的中心裁剪帧补丁,并从平均池化层获取输出,以获得平坦化的F2D,其中d2D=2048。 我们还使用Kinet-ics [21]预训练的I3 D[2]进行3D场景特征提取,其中,输入是由16个连续帧组成的视频段,并且我们从最后的全局平均池化层获取输出以获得具有d3D=1024的F3D。为了提取对象特征,我们首先应用Faster-RCNN(with ResNeXt-101 + FPN骨干)[12]在Visual Genome[23]上进行预训练,为每帧生成对象边界框。我们将检测的置信度阈值设置为0。五、给定输出边界框,我们应用RoIAlign [15]来提取相应区域的特征。具体来说,我们首先将边界框从ResNeXt-101的最后一个卷积层投影到特征图上,然后应用RoIAlign [15]来裁剪和重新缩放投影边 界 框 到 相 同 的 空 间 维 度 。 这 为 每 个 对 象 生 成7×7×2048个特征,然后将其最大合并为1×1×2048。超参数。对于特征提取,我们对Fs和FO都均匀地采样10个帧(即,T=10)。我们将每帧中的最大对象数设置为5。具体来说,如果有更多,我们采取5个最有信心的检测,如果有更少,则进行零填充。对于时空图,我们堆叠3个图卷积层,其输入和输出通道数均为d 模 型=512。在我们的语言解码器中,Transformer编码器和解码器都有2层,8个注意头,1024个隐藏维度大小,和0.3的丢弃比。对于损失函数中的权衡超参数,我们将λsl和λd分别设置为1和4。所有超-在验证集上调整参数。其他细节。我们采用Adam,固定学习率为1×10−4,不使用梯度裁剪。我们使用批量大小64训练模型50个epoch,并尽早应用停下来寻找表现最好的模型。在测试过程中,我们使用贪婪解码来生成预测句子。所有的实验都在两个TITAN X GPU上进行4.4. 实验结果与现有方法的比较。 我们首先将我们的方法与早期的方法进行比较,包括RecNet[40],它在传统的编码器-解码器框架之上添加了一个重建器,以从生成的字幕中重建视觉特征,以及PickNet[6],它通过最大化拾取策略动态地关注帧我们还比较了几个最近的作品,实现强大的性能。MARN[30]密集地关注训练集中的所有类似视频,以获得更广泛的背景。OA-BTG[49]通过跟踪相同的对象来构建对象轨迹。穿越时间。虽然这些工作通常集中在编码方面,但Wanget al. [39] Houet al. [19]着重于语言解码部分,都提出先预测词性结构,再用它来指导句子生成。请注意,在所有这些方法中,我们使用与MARN[30]相同的场景特征,即,ResNet-101和I3 D,因此我们的方法与MARN最具可比性。我们还遵循标准实践[30],不与基于强化学习(RL)的方法进行比较[39]。MSR-VTT和MSVD的定量结果分别见表1和表2。在MSVD上,我们提出的方法在4个度量中的3个度量上的性能大大优于所有比较方法而在MSR-VTT上,我们的模型的性能并不出色。我们总结了以下原因:(1)MSR-VTT包含大部分的动画,对象检测器通常无法检测到这些动画,因此使得我们提出的时空图更难以捕获其中的对象交互;(2)最近的两种方法,即,Wang等人[39] Houet al. [19]两者都直接优化了解码部分,与专注于编码部分的方法相比,这通常更容易在语言度量上表现良好,例如我们的方法;(3)采用了更先进的特征(Wang等的IRv 2 + I3 D光流)。[39]和Hou等人的IRv2+C3D。[19]这是不公平的,直接与他们比较。尽管如此,我们的方法证明了对其他基线的明显提升,包括最具可比性的MARN [30],以及我们自己的基线,即,我们的(场景),其中只使用场景分支。这表明了我们提出的方法的有效性。消融研究。在高水平上,我们提出的方法由两个主要组成部分组成:时空图和对象感知的知识提取。空间-10877表1:与其他方法对MSR-VTT(%)的比较。“-”表示号码不可用。第一部分包括优化语言解码的方法,而第二部分是针对那些专注于视觉编码的方法。方法蓝色@4流星ROUGE-L苹果酒Wang等人[39]第三十九届42.028.261.648.7Hou等人[19个]42.329.762.849.1RecNet [40]39.126.659.342.7PickNet [6]41.327.759.844.1OA-BTG [49]41.428.2-46.9MARN [30]40.428.160.747.1我们的(仅限场景)37.227.359.144.6我们40.528.360.947.1表2:与其他方法对MSVD(%)的比较。方法蓝色@4流星ROUGE-L苹果酒Wang等人[39]第三十九届52.534.171.388.7Hou等人[19个]52.836.171.887.8RecNet [40]52.334.169.880.3PickNet [6]52.333.369.676.5OA-BTG [49]56.936.2-90.6MARN [30]48.635.171.992.2我们52.236.973.993.0时间图还包含两个较低级别的子组件,即空间图和时间图。我们评估了几种变体的性能,以验证每个组件的有效性。我们首先评估(1)仅场景分支,其中仅使用场景分支,(2)两个分支+ Concat,其中使用两个分支,但两个分支的融合是通过在传递到Transformers之前直接连接特征来完成的,以及(3)两个分支+ L2,最大限度地减少了L2之间的距离蒸馏功能。这是为了显示两个高级别组成部分的有效性为了为了测试不同类型的图连接,我们评估(4)仅计算空间图G空间同时将G时间设置为全0的仅空间图,(5)仅类似地仅构造时间图G时间并将G空间设置为全0的仅时间图,以及(6)以均匀权重密集连接所有对象的密集图(即,Gst设置为全1)。(6)也是Wang等人提出的方法。[43]。请注意,我们还比较了空间注意力的方法在马等。[27] Zhouet al.[51],其本质上等同于Spatial Graph Only,因为关注对象聚合仅在空间上发生,并且时间建模通过将空间关注对象特征序列传递到语言解码器中来完成MSVD的消融研究结果如表3所示。我们首先研究了两个高级别COM的效果表3:MSVD的消融研究(%)。方法蓝色@4流星ROUGE-L苹果酒仅场景分支45.834.371.086.0两个分支+Concat45.534.170.779.3两个分支+L246.133.770.680.3仅空间图形50.836.172.991.8仅时间图50.736.173.192.1稠密图51.435.972.891.3我们的完整模型52.236.973.993.0ponents。“Two Branch + Concat”和“Two Branch + L2”的性能都一旦使对象分支通过logit对齐(即“我们的完整模型”)来正则化场景分支的学习 然后我们分析了每个子图所起的作用。“仅空间图”和“仅时间图”实现了类似的结果,但都不如“我们的完整模型”。这验证了两个子图都捕获了重要且不同的信息。最后,我们想看看先验知识在创建图时有多大影响我们看到“密集图”和“我们的完整模型”之间有很大的性能差距定性分析为了验证在从对象分支提取知识之后,我们的模型确实可以具体地,我们绘制“场景分支”和“我们的完整模型”进行比较。我们还比较了“我们的完整模型”和Wang等人生成的标题[39 ]第39段。我们将它们合并到图中。3 .第三章。我们首先观察到,“我们的完整模型”能够比“场景分支”更好地关注关键区域。在左上角的视频中,“我们的全模型”将大部分注意力集中在男子的面部以及划桨上,而“仅场景分支”很少关注这些关键部位。同样,在右上角的示例中,“我们的完整模型”始终将其注意力保持在正在运行的人群上,而“仅场景分支”的注意力大多是分散的。这进一步证明了我们提出的时空图,以及对象感知的知识蒸馏机制,赋予模型更好的视觉接地能力。然后,我们比较了标题从[39 ]第39段。来自“我们的完整模型”的标题10878GT:一个穿黑衬衫的男人示范如何打乒乓球GT:一群男人正在跑道上奔跑Wang等人[39]:有一个人在谈论乒乓球王等人。[39]:有一个人在跑道我们的:一个穿黑衬衫的人在谈论乒乓球我们的:一场比赛正在跑道上进行GT:一个女人正在展示如何用土豆做小篮子GT:人们在跳舞和唱歌Wang等人[39]:一个人正在准备一个食谱王等。[39]一个男人在唱歌我们的:一个女人在展示如何做土豆沙拉我们的:一群人在唱歌跳舞图3:来自MSR-VTT的4个视频的定性结果。(1)对于每个视频,第一行显示其RGB帧,而第二行和第三行分别是我们的“仅场景分支”和“我们的完整模型”变体的显着性图具体来说,红色表示注意力得分高,而蓝色则相反。我们还提出了地面真理(GT),预测的句子,从王等人。[39]和Wanget al. [39 ]第39段。例如,我们的模型能够预测非常细粒度的细节,例如它还能够为更大规模的语义概念 打 下 基 础 , 例 如 , “race” (which indicates there ismore than one person) for the top-right-corner video and“a group of people” for the bottom-right-corner5. 结论在本文中,我们提出了一种新的时空图网络的视频字幕显式地利用时空对象的相互作用,这是至关重要的场景un-time理解和描述。此外,我们设计了一个两个分支的框架,提出了一个对象感知的知识蒸馏机制,它解决了噪声特征学习的问题,目前在以前的时空图模型。我们证明了我们的方法在两个基准视频字幕数据集的有效性。致谢丰田研究所(TRI)提供资金以协助作者进行研究,但本文仅反映其作者的意见和结论我们感谢我们的 匿 名 评 论 员 Andrey Kurenkov , Chien-Yi Chang 和Ranjay Krishna提供了有用的评论和讨论。我们的完整模我们的完整模仅场景分支仅场景分支RGB帧RGB帧10879引用[1] Satanjeev Banerjee和Alon Lavie。Meteor:一个自动的评估指标,与人类的判断有更好的相关性. 在acl机器翻译和/或摘要的内在和外在评估措施研讨会集,第65-72页,2005年[2] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页[3] David L Chen和William B Dolan。为释义评估收集高度平行的数据 在计算语言学协会第49届年会的会议记录中:人类语言技术-第1卷,第190-200页。计算语言学协会,2011年。[4] Ming Chen,Yingming Li,Zhongfei Zhang,and SiyuHuang.用于视频字幕的双视图Transformer网络。在亚洲机器学习会议上,第847-862页,2018年。[5] XinleiChen , Hao Fang , Tsung-Yi Lin , RamakrishnaVedan-tam , SaurabhGupta , PiotrDol la´r , andCL awrenceZitnick. Microsoft coco字幕:数据收集和评估服务器。arXiv预印本arXiv:1504.00325,2015。[6] Yangyu Chen , Shuhui Wang , Weigang Zhang , andQingming Huang.少即是多:为视频字幕挑选信息帧。在欧洲计算机视觉会议(ECCV)的会议记录中,第358-373页[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[8] Fan Lifeng , Wenguan Wang , Siyuan Huang , XinyuTang,and Song-Chun Zhu.通过时空图推理理解人类注视通信。arXiv预印本arXiv:1909.02144,2019。[9] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络arXiv预印本arXiv:1812.03982,2018。[10] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。在IEEE计算机视觉和模式识别会议论文集,第1933-1941页,2016年。[11] Pallabi Ghosh , Yi Yao , Larry S Davis 和 AjayDivakaran。用于动作分割的堆叠时空图卷积网络。arXiv预印本arXiv:1811.10575,2018。[12] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。[13] Sergio Guadarrama 、 Niveda Krishnamoorthy 、 GirishMalkar-nenkar 、 Subhashini Venugopalan 、 RaymondMooney、Trevor Darrell和Kate Saenko。Youtube2text:使用语义层次和零触发识别来识别和描述任意活动。在Proceedings of the IEEE international conference oncomputer vision,第2712-2719页,2013年。[14] Saurabh Gupta,Judy Hoffman,and Jitendra Malik.监督转移的交叉模态提取在IEEE计算机视觉和模式识别会议论文集,第2827-2836页[15] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[17] Roei Herzig,Elad Levi,Huijuan Xu,Eli Brosh,AmirGloberson,and Trevor Darrell.用时空动作图网络对碰撞进行分类。arXiv预印本arXiv:1812.01233,2018。[18] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。[19] 侯静怡、吴心晓、赵问天、罗杰波、贾云德。视频字幕的联合句法表示学习和视觉线索翻译。在IEEE国际计算机视觉会议(ICCV)上,2019年10月。[20] Justin Johnson,Ranjay Krishna,Michael Stark,Li-JiaLi,David Shamma,Michael Bernstein,and Li Fei-Fei.使用场景图进行图像检索在Proceedings of the IEEEconference on computer vision and pattern recognition,pages 3668[21] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan,Fabio Viola,Tim Green,Trevor Back,Paul Natsev,etal. 人 体 运 动 视 频 数 据 集
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功