基于grounding的视频描述模型及其在视觉理解中的应用

115 浏览量更新于2023-10-19 收藏 12.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

w/o grounding supervision: A man is standing in a gym .[42]: A man is seen speaking to the camera while holding a piece of exercise equipment.GT: A man in a room holds a bike and talks to the camera.w/o grounding supervision: A group of people are in a river.[42]: A large group of people are seen riding down a river and looking off into the distance.GT: Several people are on a raft in the water.165780基于 grounding 的视频描述0Luowei Zhou 1, 2, Yannis Kalantidis 1, Xinlei Chen 1, Jason J. Corso 2, Marcus Rohrbach 101 Facebook AI，2 密歇根大学0github.com/facebookresearch/grounded-video-description0摘要0由于视频和语言方面的大量变异，视频描述是视觉和语言理解中最具挑战性的问题之一。因此，模型通常会绕过识别的困难，生成基于先验的合理句子，但不一定与视频相关。在这项工作中，我们通过在视频的一帧中为句子中的每个名词短语注释相应的边界框，将句子明确地与视频中的证据联系起来。我们的数据集ActivityNet-Entities通过为每个名词短语提供158k个边界框注释来增强具有挑战性的ActivityNetCaptions数据集。这使得可以使用这些数据来训练视频描述模型，并且重要的是，评估这些模型对所描述的视频的基础性或“真实性”。为了生成基于 grounding的字幕，我们提出了一种能够利用这些边界框注释的新型视频描述模型。我们在我们的数据集上展示了我们模型的有效性，同时还展示了它如何应用于Flickr30kEntities数据集上的图像描述。我们在视频描述、视频段落描述和图像描述方面取得了最先进的性能，并展示了我们生成的句子在视频中更好地基于 grounding。01. 引言0图像和视频描述模型通常没有很好的 grounding[14]，这可能会增加它们的偏见[9]并导致物体的臆想[24]，即模型提到了图像或视频中不存在的物体，例如因为它们在训练过程中可能出现在类似的上下文中。这使得模型的可信度和可靠性降低，这对于我们希望这些模型最终能够帮助有需要的人们来说是很重要的[2, 27]。此外，基于 grounding的模型可以帮助解释模型对人类的决策，并允许人类对其进行诊断[20]。虽然研究人员已经开始发现和研究图像描述的这些问题[14, 9, 24,20]，但这些问题在视频描述中更加突出。01 我们使用“描述”而不是“字幕”，因为“字幕”通常用来指视频中的语音转录，而不是描述内容。0一个男人站在一个房间里，对着摄像机说话，同时还拿着一辆自行车。0一群人正在一艘漂流在河上的筏子上。0图1：我们的模型在我们的ActivityNet-Entities数据集的两个片段上生成的基于单词级 grounding的视频描述。我们还提供了我们的模型在没有明确边界框监督的情况下生成的描述，以及由[42]生成的描述和地面真实描述（GT）进行比较。0由于视觉和语言方面的增加的困难和多样性，对于视频描述的需求也越来越高。图1说明了这个问题。一个视频描述方法（没有基于监督的grounding）生成了句子“一个站在健身房里的男人”，这个句子正确地提到了“一个男人”，但是臆想了“健身房”，这在视频中是看不见的。虽然视频中有一个男人，但模型是否看了男人的边界框来说这个词并不清楚[9,24]。对于图2中的句子“A man [...] is playing thepiano”，重要的是要理解在图像“Aman”中指的是哪个“男人”，以确定模型是否正确地基于图像进行grounding。这种理解对于许多应用程序非常重要，例如在构建负责任的系统时，生成下一个句子或回答盲人的后续问题时：例如回答“他在看着我吗？”需要理解模型所说的图像中的哪个人。我们的研究目标是构建这样的基于grounding的系统。作为这个方向的一个重要步骤，我们收集了这样的grounded 数据集。65790我们提出了ActivityNet-Entities（简称ANet-Entities），它将句子中的名词短语与视频帧中的边界框进行关联或链接。它基于ActivityNetCaptions[10]，这是一个最大的视频描述基准之一。在注释对象或名词短语时，我们特别注释与句子中所指实例相对应的边界框，而不是同一对象类别的所有实例，例如，在图2中，对于视频描述中的名词短语“theman”，我们只注释坐在那里的男人，而不是站着的男人或女人，尽管它们都属于“person”对象类别。我们注意到注释是稀疏的，即我们仅为每个名词短语注释视频的单个帧。ANet-Entities共有51.8k个带有157.8k个标记边界框的注释视频段/句子，更多细节可以在第3节中找到。我们的新数据集使我们能够引入一种新颖的基于基础的视频描述模型，该模型学习联合生成单词并改进描述中生成的对象的基础。与可能也利用区域特征但不惩罚基础的无监督方法相比，我们探索了这种显式监督如何使描述生成受益。我们的贡献有三个方面。首先，我们收集了大规模的ActivityNet-Entities数据集，它将视频描述与名词短语的边界框关联起来。我们的数据集既可以教授模型在生成单词时明确依赖于视频帧中的相应证据，又可以评估模型在基础生成的单词或短语上的基础情况。其次，我们提出了一种基于基础的视频描述框架，该框架能够从ActivityNet-Entities的边界框监督中学习，并且我们证明了它在生成基于基础的视频描述方面优于基线和先前的工作。第三，我们展示了所提出模型在图像字幕生成中的适用性，再次展示了在生成的字幕和Flickr30kEntities[22]数据集上的基础质量的改进。02. 相关工作0视频和图像描述。自动生成字幕的早期工作主要包括基于模板的方法[5, 12,18]，其中首先生成预定义的带有插槽的模板，然后用检测到的视觉证据填充。尽管这些方法往往导致良好的基础方法，但它们受到基于模板的性质的限制。最近，神经网络和注意力机制开始在主要的字幕基准中占据主导地位。视觉注意力通常以时间注意力[34]（或图像领域的空间注意力[32]），语义注意力[13, 35, 36,41]或两者[19]的形式出现。最近在目标检测[23,7]方面取得的前所未有的成功使得社区重新关注细粒度的检测。0在将其纳入端到端网络中时，将细粒度的视觉线索与之结合[16, 26, 1, 15]。基于对象检测器[16, 38, 1, 15, 5,12]的描述方法分为两个阶段解决字幕问题。首先，它们使用现成的或经过微调的对象检测器提出对象建议/检测，作为视觉识别的重要组成部分。然后，在第二阶段，它们要么动态地关注对象区域[16, 38,1]，要么将区域分类为标签并填入预定义/生成的句子模板[15, 5,12]。然而，直接从现成的检测器生成建议会导致建议偏向源数据集中的类别（即对象检测）而不是目标数据集中的内容（即描述）。一种解决方案是专门为数据集微调检测器[15]，但这需要获得详尽的对象注释，特别是对于视频来说很难获得。我们不是微调通用检测器，而是将现成的对象分类知识转移到我们的模型中，然后通过稀疏的框注释微调这个表示作为我们生成模型的一部分。[26]专注于共指消解和人物识别，提出了一个可以指代特定角色实例并在视频剪辑之间进行视觉共指消解的框架。然而，他们的方法仅限于识别人物角色，而我们研究更一般的对象基础。注意力监督。随着细粒度基础成为下一代视觉语言系统的潜在激励，它能带来多大的好处仍然是一个未解之谜。一方面，对于VQA[4,39]，作者指出注意模型不会关注与人类相同的区域，添加注意力监督几乎没有帮助性能。另一方面，发现对特征图注意力进行监督[14,37]是有益的。我们在初步实验中注意到，直接通过监督引导区域注意力[15]并不一定会改善自动句子度量指标。我们假设这可能是由于缺乏对象上下文信息，因此我们在我们的注意力模型中引入了基于自我注意力[28]的上下文编码，允许在采样的视频帧中的所有区域之间进行信息传递。03. ActivityNet-Entities数据集0为了训练和测试能够进行显式基于定位的视频描述的模型，需要语言和定位监督。尽管Flickr30k Entities[22]包含了图像的此类注释，但是没有针对视频的大规模描述数据集存在对象定位注释。大规模的ActivityNetCaptions数据集[10]包含了ActivityNet [3]中约20k个视频的密集语言注释，但缺乏定位注释。利用来自ActivityNetCaptions数据集[10]的语言注释，我们收集了实体级别的边界框注释，并创建了ActivityNet-Entities（ANet-Entities）数据集2，这是一个丰富的数据集，可用于具有显式定位的视频描述。ActivityNet-Entities是我们所知的最大的此类注释数据集，包含15k个视频和超过158k个注释的边界框。在涉及视频的情况下，区域级别的注释面临着许多独特的挑战。视频包含的信息超过了单个帧可以容纳的范围，视频描述也反映了这一点。它们可能引用出现在不相交帧集中的对象，以及多个人和动作。为了更加精确和产生更细粒度的注释，我们注释名词短语（NP）（如下所定义），而不仅仅是简单的对象标签。此外，理想情况下，每个帧都应具有密集的区域注释，但是在这种情况下，注释成本即使对于小型数据集也是不可行的。因此，在实践中，视频数据集通常以区域级别稀疏注释[6]。为了追求规模而不是密度，我们选择尽可能稀疏地注释片段，并仅在每个片段内的一个帧中注释每个名词短语。名词短语。根据[22]，我们将名词短语定义为短小的非递归短语，它们指代图像中的特定区域，并能够被包含在边界框内。它们可以包含单个实例或一组实例，并且可能包括形容词、限定词、代词或介词。为了更加细致，我们进一步鼓励标注者将复杂的名词短语分解为最简单的形式（例如，“穿着白衬衫的男人带着一颗心”可以分解为三个名词短语：“那个男人”，“一件白衬衫”和“一颗心”）。65800一个穿着条纹衬衫的男人正在街上弹钢琴，人们在看着他。0图2：我们数据集中的一个带注释的示例。虚线框（“people”）表示一组对象。0ActivityNetCaptions数据集[10]，我们收集了实体级别的边界框注释，并创建了ActivityNet-Entities（ANet-Entities）数据集2，这是一个丰富的数据集，可用于具有显式定位的视频描述。ActivityNet-Entities是我们所知的最大的此类注释数据集，包含15k个视频和超过158k个注释的边界框。在涉及视频的情况下，区域级别的注释面临着许多独特的挑战。视频包含的信息超过了单个帧可以容纳的范围，视频描述也反映了这一点。它们可能引用出现在不相交帧集中的对象，以及多个人和动作。为了更加精确和产生更细粒度的注释，我们注释名词短语（NP）（如下所定义），而不仅仅是简单的对象标签。此外，理想情况下，每个帧都应具有密集的区域注释，但是在这种情况下，注释成本即使对于小型数据集也是不可行的。因此，在实践中，视频数据集通常以区域级别稀疏注释[6]。为了追求规模而不是密度，我们选择尽可能稀疏地注释片段，并仅在每个片段内的一个帧中注释每个名词短语。名词短语。根据[22]，我们将名词短语定义为短小的非递归短语，它们指代图像中的特定区域，并能够被包含在边界框内。它们可以包含单个实例或一组实例，并且可能包括形容词、限定词、代词或介词。为了更加细致，我们进一步鼓励标注者将复杂的名词短语分解为最简单的形式（例如，“穿着白衬衫的男人带着一颗心”可以分解为三个名词短语：“那个男人”，“一件白衬衫”和“一颗心”）。0ActivityNet-Entities可在https://github.com/facebookresearch/ActivityNet-Entities上找到。0数据集领域 # 视频/图像 # 句子 # 对象 # 边界框0Flickr30k Entities [22] 图像32k 160k 480 276k0MPII-MD [26] 视频 � 1k � 1k 4 2.6k YouCook2 [40] 视频 2k 15k 67 135k ActivityNetHumans [33] 视频 5.3k 30k 1 63k ActivityNet-Entities（我们的）视频 15k 52k 432158k –train 10k 35k 432 105k –val 2.5k 8.6k 427 26.5k –test 2.5k 8.5k 421 26.1k0表1：具有名词短语或单词级定位注释的视频描述数据集的比较。我们的ActivityNet-Entities和ActivityNet Humans[33]数据集都基于ActivityNet [3]，但ActivityNetHumans仅在一小部分视频中为人提供边界框。YouCook2仅限于烹饪，并且仅对val和test分割进行了框注释。03.1. 注释过程0我们从每个视频段中均匀采样了10帧，并将它们与相应的句子一起呈现给标注者。我们要求标注者从描述视频段的句子中识别出所有具体的名词短语，然后在视频的一个帧中为它们绘制边界框，其中目标名词短语可以清晰地观察到。我们还提供了进一步的说明，包括解决句子内的共指的指导方针，即框可能对应于句子中的多个名词短语（例如，一个框可以同时指代“那个男人”和“他”），或者何时使用多实例框（例如，“人群”，“一群人”或“七只猫”）。图2显示了一个带注释的示例。值得注意的是，最终注释的10％涉及多实例框。我们对标注者进行了培训，并通过每天的检查和反馈进行了严格的质量控制。所有注释都在第二轮中进行了验证。有关提供给标注者的完整指令列表，验证过程以及注释界面的屏幕截图，请参见附录。03.2. 数据集统计和分析0由于ActivityNetCaptions数据集的测试集注释不公开，我们只对训练（train）和验证（val）集中的片段进行注释。这使得ActivityNet-Entities中注释的视频总数达到14,281个。就片段而言，我们得到了大约52k个至少有一个NP注释的视频片段和总共158k个NP边界框。遵守原始协议，我们将ActivityNetCaptions数据集中的相应拆分作为我们的训练集。我们进一步将原始验证集随机均匀地分成我们的验证集和我们的测试集。我们使用所有可用的边界框来训练我们的模型，即包括多实例框。完整的统计数据和与其他相关数据集的比较可以在表1中找到。从名词短语到对象标签。虽然我们fc6fc7𝜷t+1Kspatio-temporal feature Kdds𝛂tKxN mexpandhAt-1hAtglobal videofeaturesegment positionalencodingythAthLt-1hLttemporalattentiondall regionshAthLt65810语言LSTM0softmax0FC0(a) 基于地面的模块0分类损失0自注意力0注意力0注意力LSTM0地面损失0注意力损失0FC0语言生成模块（c）的语言生成模块0(b) 区域注意力模块0图3：所提出的框架由三个部分组成：基于地面的模块（a），区域注意力模块（b）和语言生成模块（c）。首先，使用基于地面的区域编码表示区域建议。然后，语言模型动态地关注区域编码以生成每个单词。对注意力权重（attn-loss），地面权重（grd-loss）和区域分类概率（cls-loss）施加损失。为了清晰起见，省略了时间注意力的细节。0在这项工作中，我们选择注释名词短语，将句子生成建模为一个单词级任务。我们遵循[15]中的约定，确定对象类别列表，并将盒子的NP标签转换为单词对象标签。首先，我们使用Stanford Parser[17]从NP注释中选择所有名词和代词。计算这些词在训练和验证集中的频率，并使用阈值确定每个词是否为对象类别。对于ANet-Entities，我们将频率阈值设置为50，产生432个对象类别。4.带有基于地面监督的描述0在本节中，我们描述了所提出的基于地面的视频描述框架（见图3）。该框架由三个模块组成：基于地面的模块，区域注意力和语言生成。基于地面的模块从视频中检测视觉线索，区域注意力动态地关注视觉线索，形成对视觉内容的高级印象，并将其输入语言生成模块进行解码。我们提供了三种选项来整合对象级监督：区域分类，对象地面化（定位）和监督注意力。04.1. 概述0我们将问题定义为语言和地面任务的联合优化。整体损失函数由四个部分组成：0L = L sent + λ α L attn + λ c L cls + λ β L grd，(1)其中Lsent表示教师强制语言生成的交叉熵损失，通常用于语言生成任务（详见第4.2节）。Lattn对应于交叉熵区域注意力损失，该损失在第4.3节中介绍。L cls和L grd是交叉熵损失，用于...0分别对应于区域分类和监督对象地面化（定位）的基于地面的模块（第4.4节）。这三个与地面相关的损失由系数λα，λc和λβ加权，我们在数据集验证集上选择了这些系数。我们将输入视频（片段）表示为V，目标/生成的句子描述（单词）表示为S。我们从每个视频中均匀采样F帧作为{v1，v2，...，vF}，并定义在采样帧f上的Nf个对象区域。因此，我们可以组装一组区域R = [R1，...，RF] = [r1，r2，...，rN] ∈Rd×N来表示视频，其中N =�Ff=1Nf是区域的总数。我们在这里重载符号，并使用ri（i∈{1，2，...，N}）来表示区域特征嵌入，如图3中的fc6所示。我们使用独热向量表示S中的单词，进一步编码为单词嵌入yt ∈ Re，其中t ∈{1，2，...，T}，T表示句子长度，e是嵌入大小。04.2. 语言生成模块0对于语言生成，我们从[15]中改编了用于视频输入的语言模型，即扩展它以包含时间信息。该模型由两个LSTM组成：第一个用于将全局视频特征和单词嵌入 y t 编码为隐藏状态h t A ∈ R m，其中 m是维度，第二个用于语言生成（见图3c）。语言模型根据隐藏状态动态地关注视频帧或区域以生成单词。我们将对视频帧的注意力称为时间注意力，对区域的注意力称为区域注意力。时间注意力接收一系列逐帧特征向量，并通过隐藏状态确定每个帧在生成描述时的重要性。65820我们部署了一个与[42]中类似的模块，只是将自注意力上下文编码器替换为双向GRU（Bi-GRU），这样可以获得更好的结果。我们使用交叉熵损失 L sent 进行训练。04.3. 区域注意力模块0与在帧级别上工作的时间注意力不同，区域注意力[1，15]侧重于视频中更细粒度的细节，即对象区域[23]。我们将区域编码表示为 ˜ R = [˜ r 1，˜ r 2，...，˜ r N]，更多细节在等式5中定义。在生成标题的时间 t，区域 i上的注意力权重定义为：0α t i = w � α tanh ( W r ˜ r i + W h h t A )，α t := Softmax ( α t )，(2)0其中 W r ∈ R m × d，W h ∈ R m × m，w α ∈ R m，αt = [ α t 1，α t 2，...，α t N ]。然后将区域注意力编码 ˜Rα t与时间注意力编码一起输入到语言LSTM中。监督注意力。我们希望鼓励语言模型在生成可视化可定位单词时关注正确的区域。由于这有效地帮助语言模型学习关注正确的区域，我们称之为注意力监督。将正/负区域的指示符表示为 γ t =[ γ t 1，γ t 2，...，γ t N ]，其中 γ t i = 1 表示区域 r i与GT框 r GT 的IoU大于0.5，否则为0。我们将 α t 回归到γ t，因此对象词 s t 的注意力损失可以定义为：0L attn = -0i =1 γ t i log α t i . (3)04.4. 区域定位模块0假设我们有一组可视化可定位的对象类别标签 { c 1，c2，...，c K }，简称为对象类别，其中 K是类别总数。给定一组来自所有采样帧的对象区域，定位模块估计每个区域的类别概率分布。我们将一组对象分类器定义为 W c = [ w 1，w 2，...，w K ] ∈ R d ×K，可学习的标量偏置定义为 B = [ b 1，b 2，...，b K]。因此，估计所有区域（嵌入）R的类别概率的一种简单方法是通过点积：M s ( R ) =Softmax ( W � c R + B � � )，(4)0其中 � 是一个全为1的向量，W � c R之后是一个ReLU和Dropout层，M s是区域-类别相似性矩阵，捕捉了区域和物体类别之间的相似性。为了清晰起见，除非另有说明，我们在第4节中省略了线性嵌入层之后的ReLU和Dropout层。Softmax运算符沿着M s的物体类别维度应用，以确保每个区域的类别概率之和为1。我们从一个在通用源数据集上预训练的现成检测器中转移检测知识，即。0我们将来自VisualGenome（VG）[11]的对象分类器添加到我们的模型中。根据嵌入空间中它们之间的距离（glove向量[21]），我们为每个K个对象类别找到最近的邻居。然后，我们使用检测器的最后一个线性层的相应分类器（权重和偏置）初始化 W c和B。另一方面，我们将区域的空间和时间配置表示为一个5维元组，包括4个值用于归一化的空间位置和1个值用于归一化的帧索引。然后，将5维特征投影到一个 d s = 300维的位置嵌入中，用于所有的区域 M l ∈ R 300 ×N。最后，将三个组件合并在一起，并投影到一个较低维度空间（m维）：˜ R = W g [ R | M s ( R ) | M l ]，(5)0其中[∙|∙]表示按行连接，Wg∈Rm×(d+K+ds)是嵌入权重。我们将˜R命名为基于地面的区域编码，对应于图3a的右侧部分。为了进一步建模区域之间的关系，我们在˜R上部署了一个自注意力层[28,42]。最终的区域编码被馈送到区域注意力模块（见图3b）。到目前为止，对象分类器在没有关于语义上下文的先验知识的情况下区分类别，即语言模型捕捉到的信息。为了融入语义，我们将类别概率条件化为来自AttentionLSTM的句子编码。一种内存高效的方法是将注意力权重αt作为这种语义先验，如下所示：0Mt s (R, αt) = Softmax(W � c R + B � � + � αt �),(6)，其中区域注意力权重αt由公式2确定。请注意，这里的Softmax运算符逐行应用，以确保区域上的概率总和为1。为了学习一个合理的对象分类器，我们可以在Ms(R)上部署一个区域分类任务，或者在Mt s(R,αt)上部署一个句子条件的基于地面的任务，使用第3节中的单词级基于地面的注释。接下来，我们将分别描述它们。区域分类。我们首先将正样本区域定义为与任意真实边界框（GT）的IoU超过0.5的区域。如果一个区域与多个GT框匹配，则IoU最大的那个是最终匹配的GT框。然后，我们将正样本区域（例如区域i）分类为与GT框中的类别标签（例如类别cj）相同的类别标签。因此，归一化的类别概率分布为Ms[:,i]，类别cj的交叉熵损失为：0L cls = -log Ms[j,i]. (7)0最终的L cls是所有正样本区域上的损失的平均值。对象基于地面。给定时间步t+1的可视化可基于的单词st+1和所有先前单词的编码，我们的目标是将st+1定位在视频中的一个位置。N5.2. Implementation Details3https://github.com/ranjaykrishna/densevid eval65830假设st+1对应于类别cj，我们将回归区域Mt s [j,:] = βt+1= [βt+11, βt+12, ...,βt+1N]的置信度分数到指示符γt，如第4.3节所定义。单词st+1的基于地面的损失定义为：0L grd = -0i=1 γtilog βt+1i. (8)0请注意，L attn或Lgrd上的最终损失是所有可视化可基于的单词的损失的平均值。注意监督和基于地面的监督之间的区别在于，在后者的任务中，目标对象cj事先是已知的，而注意模块不知道在场景中寻找哪个对象。05.实验0数据集。我们在新收集的ActivityNet-Entities数据集上进行大多数实验和消融研究，该数据集是基于视频描述的，给定了一组时间段（即使用来自[10]的真实事件和视频段落描述[30]）。我们还展示了我们的框架可以轻松应用于图像描述，并在Flickr30kEntities数据集[22]上进行评估。请注意，我们没有将我们的方法应用于COCO字幕，因为COCO字幕中的单词与COCO中的对象注释没有完全匹配（仅限于80个）。我们使用第3.2节中描述的相同过程将NP转换为对象标签。由于Flickr30kEntities包含更多的标题，至少出现100次的标签被视为对象标签，结果为480个对象类别[15]。预处理。对于ANet-Entities，我们截断超过20个单词的标题，并建立一个至少出现3次的单词词汇表。对于Flickr30kEntities，由于标题通常较短且是一个较大的语料库，我们截断超过16个单词的标题，并基于至少出现5次的单词建立一个词汇表。05.1. 比较的方法和指标0比较的方法。ActivityNet Captions上最先进的视频描述方法包括MaskedTransformer和Bi-LSTM+TempoAttn[42]。我们使用原始设置在我们的数据集上重新训练模型。为了公平比较，我们对于我们的时间注意力模块使用了与这项工作完全相同的逐帧特征。对于视频段落描述，我们将我们的方法与SotA方法MFT[30]进行比较，并使用作者提供的评估脚本[30]。对于图像字幕，我们将我们的方法与两种SotA方法Neural Baby Talk (NBT) [15]和BUTD[1]进行比较。为了公平比较，我们为基线BUTD和我们的方法提供了相同的区域提议和特征，即在Visual Genome上预训练的FasterR-CNN。NBT是专门针对每个数据集进行调整的（例如，检测器微调），因此我们保持与论文中相同的特征，即在ImageNet上预训练的ResNet。我们的所有实验都进行了三次，并报告了平均分数。评估指标。为了衡量对象定位和注意力的正确性，我们首先根据[25,40]计算GT句子的定位准确性（表中的Grd.和Attn.）。给定一个未见过的视频，我们将GT句子输入模型，并在每个注释对象词处测量定位准确性。我们将具有最高注意权重（αi）或定位权重（βj）的区域与GT框进行比较。如果IoU大于0.5，则认为对象词被正确定位。我们还研究了生成句子的注意力准确性，表中分别用F1 all和F1 loc表示。在F1all中，如果对象词被正确预测并且正确定位，则认为区域预测是正确的。我们还计算了F1loc，它只考虑正确预测的对象词。详细信息请参见附录。由于注释的稀疏性，即每个对象只在一个帧中进行注释，因此在计算所有定位准确性时，我们只考虑GT框所在帧中的提议。对于区域分类任务，我们计算了正样本的top-1分类准确性（表中的Cls.）。对于所有指标，我们对对象类别的分数进行平均。为了评估句子质量，我们使用标准的语言评估指标，包括Bleu@1、Bleu@4、METEOR、CIDEr和SPICE，以及官方的评估脚本3。我们还进行了人工评估来判断句子质量。0保持与论文中相同的特征，即在ImageNet上预训练的ResNet。我们的所有实验都进行了三次，并报告了平均分数。评估指标。为了衡量对象定位和注意力的正确性，我们首先根据[25,40]计算GT句子的定位准确性（表中的Grd.和Attn.）。给定一个未见过的视频，我们将GT句子输入模型，并在每个注释对象词处测量定位准确性。我们将具有最高注意权重（αi）或定位权重（βj）的区域与GT框进行比较。如果IoU大于0.5，则认为对象词被正确定位。我们还研究了生成句子的注意力准确性，表中分别用F1 all和F1 loc表示。在F1all中，如果对象词被正确预测并且正确定位，则认为区域预测是正确的。我们还计算了F1loc，它只考虑正确预测的对象词。详细信息请参见附录。由于注释的稀疏性，即每个对象只在一个帧中进行注释，因此在计算所有定位准确性时，我们只考虑GT框所在帧中的提议。对于区域分类任务，我们计算了正样本的top-1分类准确性（表中的Cls.）。对于所有指标，我们对对象类别的分数进行平均。为了评估句子质量，我们使用标准的语言评估指标，包括Bleu@1、Bleu@4、METEOR、CIDEr和SPICE，以及官方的评估脚本3。我们还进行了人工评估来判断句子质量。0区域提议和特征。我们每个视频段（在ANet-Entities中表示一个事件）均匀采样10帧，并提取区域特征。对于每一帧，我们使用带有ResNeXt-101骨干网络的FasterR-CNN检测器[23]进行区域提议和特征提取（fc6）。检测器在VisualGenome上进行了预训练[11]。更多模型和训练细节请参见附录。特征图和注意力。时间特征图本质上是来自[42,31]的逐帧外观和运动特征的堆叠。空间特征图是来自ResNet-101[15,8]模型的conv4层输出。注意，对时间或空间特征图进行平均池化可以得到全局特征。在视频描述中，我们使用段的位置信息（即段的总数、段的索引、开始时间和结束时间）来增强全局特征，这在经验上是重要的。超参数。实验中的系数λα∈{0.05, 0.1, 0.5}，λβ∈{0.05, 0.1, 0.5}和λc∈{0.1,0.5,1}根据模型验证的结果而变化。当λα和λβ都不为零时，我们设置λα=λβ，考虑到两个损失具有类似的功能。区域编码大小d=2048，词嵌入大小e=512。65840方法 λα λβ λc B@1 B@4 M C S Attn. Grd. F1 all F1 loc Cls.0无监督（无自注意力）0 0 0 23.2 2.28 10.9 45.6 15.0 14.9 21.3 3.70 12.7 6.89 无监督 0 0 0 23.0 2.27 10.7 44.6 13.8 2.42 19.7 0.28 1.136.06 有监督（注意力）0.05 0 0 23.7 2.56 11.1 47.0 14.9 34.0 37.5 6.72 22.7 0.42 有监督（Grounding）0 0.5 0 23.5 2.50 11.0 46.8 14.731.9 43.2 6.04 21.2 0.07 有监督（分类）0 0 0.1 23.3 2.43 10.9 45.7 14.1 2.59 25.8 0.35 1.43 14.9 有监督（注意力+Grounding）0.5 0.5 023.8 2.44 11.1 46.1 14.8 35.1 40.6 6.79 23.0 0 有监督（注意力+分类）0.05 0 0.1 23.9 2.59 11.2 47.5 15.1 34.5 41.6 7.11 24.1 14.2有监督（Grounding+分类）0 0.05 0.1 23.8 2.59 11.1 47.5 15.0 27.1 45.7 4.79 17.6 13.8 有监督（注意力+Grounding+分类）0.1 0.1 0.123.8 2.57 11.1 46.9 15.0 35.7 44.9 7.10 23.8 12.20表2：在ANet-Entities验证集上的结果。“无自注意力”表示未使用区域特征编码的自注意力。注释：B@1 - Bleu@1，B@4- Bleu@4，M - METEOR，C - CIDEr，S - SPICE。注意力和Grounding是GT句子的对象定位准确性。F1 all和F1loc是生成句子的对象定位准确性。Cls.是分类准确性。所有准确性以%表示。每个指标的前两个最高分数以粗体显示。0方法 B@1 B@4 M C S 注意力 Grounding F1 all F1 loc Cls.0Masked Transformer [42] 22.9 2.41 10.6 46.1 13.7 – – – – – Bi-LSTM+TempoAttn [42] 22.8 2.17 10.242.2 11.8 – – – – –0我们的无监督（无自注意力）23.1 2.16 10.8 44.9 14.9 16.1 22.3 3.73 11.7 6.41我们的有监督（注意力+分类）23.6 2.35 11.0 45.5 14.7 34.7 43.5 7.59 25.0 14.50（a）在ANet-Entities测试集上的结果。0有监督 vs. 无监督 vs. [42]0判断判断方法 % ∆ % ∆0关于相等 34.9 38.90其他更好 29.3 6.5 27.5 6.1 GVD更好 35.8 33.60（b）句子的人工评估。0表3：（a）在ANet-Entities测试集上的结果。每个指标的最高分数以粗体显示。（b）句子质量的人工评估。我们展示了我们的有监督方法与我们的无监督基线以及Masked Transformer [42]的结果。0对于所有方法，RNN编码大小m =1024。语言模块中的其他超参数与[15]中相同。我们使用2层6头Transformer编码器作为自注意力模块[42]。05.3.在ActivityNet-Entities上的结果05.3.1 视频事件描述0尽管密集视频描述[11]进一步需要在时间轴上定位段以描述，但本文我们关注语言生成部分，并假设事件的时间边界已知。我们将此任务命名为视频事件描述。我们在ActivityNet-Entities数据集的验证集和测试集上的结果分别显示在表2和表3a中。给定所选的区域提议集，验证集/测试集上的定位上限分别为82.5%/83.4%。总体而言，具有某种形式的grounding supervision的方法比没有groundingsupervision的方法表现更好。此外，结合多个损失，即更强的supervision，可以提高性能。在验证集上，有监督方法的最佳变体（即Sup.Attn.+Cls.）在所有指标上相对于无监督方法的最佳变体（即Unsup. (w/oSelfAttn)）提高了1-13%。在测试集上，Bleu@1、METEOR、CIDEr和SPICE的差距很小（在±2%之内），但有监督方法在Bleu@4上相对提高了8.8%。表3a中的结果显示，添加boxsupervision显著提高了定位准确性，从22.3%提高到了0因此，我们的监督模型可以更好地定位所提到的对象，这可以被视为它们在解释或证明自己的描述能力方面的改进。关注准确性在GT和生成的句子上也有很大提高，这意味着监督模型在语言生成过程中学会了关注更相关的对象。然而，仅仅使用groundingloss在分类准确性方面失败（见表2），因此在这种情况下需要使用分类损失。相反，仅使用分类损失可以隐式地学习grounding并保持公平的grounding准确性。0与现有方法的比较。我们将我们最好的模型（Sup.Attn.+Cls.）称为GVD（基于视觉的描述），并展示它在ActivityNet

下载后可阅读完整内容，剩余1页未读，立即下载