动词语义角色驱动的精准图像字幕生成方法

100 浏览量更新于2024-06-17 收藏 1.47MB PDF 举报

"基于动词语义角色的图像字幕生成技术着重于提高图像描述的可控性和准确性，通过利用动词的语义角色来指导模型生成更符合人类预期的字幕。这种技术旨在模拟人类对图像描述的控制能力，不仅关注客观内容或描述模式的控制，还强调了事件的兼容性和样本适用性两大关键特征。" 在当前的图像字幕生成领域，类人可控图像字幕的研究已经成为一个热门话题。传统的图像描述方法往往忽视了对生成结果的精确控制，而基于动词语义角色的CIC方法则填补了这一空白。动词语义角色（VSR）是指在句子中动词与相关名词或短语之间的关系，例如在“一个人在操场上读书”这个句子中，“read”这个动词的语义角色包括Arg0（执行动作的人）和Arg1（被阅读的对象）。在控制信号（CS）的使用上，有三种主要类型：内容控制信号、结构控制信号和动词专用语义角色。内容控制信号关注描述内容的精准性，例如指定描述的人物年龄或行为；结构控制信号则调整句子的结构，如句子长度或成分的排列；动词专用语义角色则针对特定动词设定控制信号，确保生成的字幕与动词的意义相匹配。如摘要中所示，通过示例比较了不同模型（如SCT和LaBERT）与采用VSR的框架在生成字幕时的差异。SCT模型使用视觉区域作为控制信号，可能导致字幕质量下降；LaBERT模型根据长度级别控制字幕，但在某些场景下可能不适应图像内容。相比之下，采用VSR的框架能更好地捕捉到事件的兼容性和样本适用性，生成的字幕更符合预期。动词特定语义角色的优势在于，它可以确保生成的字幕在描述事件时保持一致性，避免出现像“冲浪板在他的手在天空中”这样的不合理描述。同时，通过明确指定各个语义角色，如“Arg0，Arg1”，可以确保生成的字幕更加准确地反映了图像中的实际情境，如“一个男人坐在操场旁边的长凳上”。基于动词语义角色的图像字幕生成是通过深入理解语言的结构和语义，提升模型生成图像描述的能力，使得生成的字幕既具有人类可理解的逻辑，又具备高度的可控性，这对于自然语言处理和计算机视觉的交叉应用具有重大意义。

16848

Entities [16]和Flickr30K Entities [45]）证明，我们的框

架可以实现比几个强基线更好的可控性此外，我们的

框架还可以实现多样化的图像字幕，并实现质量和多

样性之间更好的权衡。

总之，我们在本文中做出了三个贡献

我们提出了一个新的CIC控制信号：动词特定的

语义角色（VSR）。据我们所知，VSR是第一个

同时考虑事件兼容和样本适用

要求

的控制信号2。

我们可以自动学习类似人类的动词特定语义结

构，大量的可视化实例证明了这些模式的合理

性。

我们在两个测试基准上实现了最先进的可控性，

并通过使用不同的动词、语义角色或结构来生成

多样化的字幕。

相关工作

可控图像字幕。与传统的图像字幕[61，66，9，25，

13]相比，CIC是一项更具挑战性的任务，需要考虑额

外的约束。早期的CIC 作品大多是程式化的图像字

幕，制约是句子的语言风格。根据并行训练样本的要

求，现有的解决方案可以分为两种类型：使用并行风

格化图像字幕数据的模型[40，11，52，1]或不[22，

41]。随后，社区逐渐将重点转移到控制句子的描述内

容[16，75，27，10，76，46，34]或结构[20，19，

73，74]。在本文中，我们提出了一种新的控制信号

VSR，这是第一个控制信号，同时考虑事件兼容和样

本适合的要求。

不同的和独特的图像字幕。多样化的图像字幕，

即

，

用多样的语言和丰富的表达来描述图像内容，是图像

的基本属性

of human-like人类captioning字幕models模型.除了将不

同的控制信号馈送到CIC模型之外，其他不同的字幕

方法可以粗略地分为四种类型：1）基于GAN的[17，

50，31]：它们使用一个控制器来迫使生成器生成人类

无法区分的字幕。

基于VAE [63，7]：通过从学习的潜在空间中采样来

获得多样性。3)基于RL [38]：他们将多样性视为RL训

练阶段的额外奖励。4)基于BS [60]：他们通过优化多

样性增强目标来解码一系列不同的帽子。

同时，独特的图像字幕是另一个密切的研究方向

[18，58，36，35，62]，其目的是生成-

当使用从GT字幕中提取的控制信号时，现有的控制信号总是能

够满足这两个要求并生成合理的字幕。然而，在更一般的设置中

（

例如

，构造控制信号而不带GT字幕），VSR的形式更加人性化，

与现有的所有控制信号形式相比，更容易构造满足这两种要求的信

号，这是VSR的主要优点

为个人图像提供区别性和独特的字幕。不幸的是，由

于不同和独特的字幕的主观性质，有效的评估仍然是

一个开放的问题，并提出了几个新的指标，如SPICE-

U [65] ， CIDErBtw [62] ， self-CIDEr [64]，单词回忆

[56]，mBLEU [50]。在本文中，我们可以很容易地生

成不同的字幕，在词汇层面和句法层面。图像中的语

义角色。受语义角色的

标签任务[6]在NLP中，已经提出了

要在图像中标记Activity中每个对象的角色，请执行以

下操作：

视觉语义角色标记（

VSRL

）

，也称为位置识别，是

动作识别和人-物交互的概括，其目的是用一组特定于

动词的动作

框架

标记图像[71]。具体地说，每个动作

框架描述了动词捕获的活动的细节，它由一组固定的

动词特定的语义角色及其相应的值组成。值是活动中

涉及的实体或对象，语义角色对对象如何参与活动进

行分类。当前的VSRL方法[23，71，39，32，70，

55，15]通常首先学习一个独立的动作分类器，然后通

过RNN或GNN对角色相互依赖进行建模。

接地语义角色标记（

GSRL

）

，也称为接地情景识

别，建立在VSRL任务的基础上，它不仅要求模型标记

一组帧，还要求模型定位图像中的每个角色 - 值对

[47，53，68，23]。在本文中，我们使用GSRL模型作

为桥梁连接的控制信号（VSR）和相关区域。据我们

所知，我们是第一个从语言学家开发的动词词典中受

益的字幕工作。

该方法

对于类人可控的图像字幕，我们首先提出了动词特

定的语义角色（VSR）作为控制信号，用于生成定制

的字幕。如图3所示，我们将控制信号VSR正式表示

为：

VSR

{

，

...

，

}

，

（

）

其中

是捕捉图像中显著活动的范围的动词（

例

如

， ride），

是动词

的语义角色

（

例如

，

是

角色

s i

中感兴趣的实体

的数量

。例如，对于 VSR

{

ride

，

Arg 0

，

Arg 1

，

Loc

，

}

，我们希望生成一个标题

，它不仅关注

于描述骑行活动，

也包含一个实体，分别扮演Arg0

骑手

和Arg1

战马的角色

，以

及两个实体，扮演骑手的角色。因此，VSR可以有效

地控制整个句子和每个角色所携带的信息量，

即

，细

节的层次

它便于自动或人工构造VSR对于动词，它们可以通

过具有预定义动词词汇的现成动作识别网络来准确预

测。对于动词特有的语义角色，

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

动词语义角色驱动的精准图像字幕生成方法

电信设备-基于事件本体的动词语义信息提取方法.zip

词义消歧和语义角色标注.rar

毕业设计：基于Self-Attention的汉语语义角色标注.zip

基于成分结构的语义角色标注和基于依存结构的语义角色标注有什么区别

无句法依赖的语义角色标注，给我详细说说

试分析句子中动词的语义角色，1.你好烦吗？2.新浪体育提供最快速最全面最专业的体育新闻和赛事报道

语义角色标注有几种方式

语义角色标注可以设置那些辅助任务

基于动词论元结构的中文事件抽取方法的效率

基于动词论元结构的中文事件抽取方法引言700字

最新资源