词性引导的高效多样化图像字幕生成

波束搜索

4 浏览量更新于2024-06-20 收藏 881KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇论文探讨了一种新的方法来生成图像字幕，该方法结合了词性引导和快速的计算策略，以实现高准确性和多样性。作者通过预测图像的有意义的词性摘要，然后基于这些摘要生成字幕，解决了传统波束搜索在计算效率和多样性上的问题。使用词性作为摘要可以引导字幕生成过程，使得系统能够产生不同风格的字幕，比如含有更多或更少形容词的描述。" 1. 图像字幕生成挑战图像字幕生成是一项复杂的任务，需要将视觉信息转化为自然语言描述。由于每张图片可以有多种合适的描述方式，这一过程存在模糊性。传统的解决方法是采用波束搜索，但这种方法计算成本高，且可能产生过于泛化的字幕。 2. 波束搜索的局限性波束搜索虽然能够处理多解问题，但它需要遍历大量可能的字幕序列，导致计算效率低下。此外，由于仅考虑最高概率路径，它往往倾向于生成常见的、通用的字幕，缺乏多样性。 3. 词性引导的解决方案论文提出的新方法引入了词性引导的概念，预测图像的词性摘要，以此作为生成字幕的基础。这种摘要驱动的方法可以更高效地探索字幕序列空间，因为它允许系统以窄波束进行搜索，同时保持准确性。 4. 系统特点 - 准确性：通过词性引导，系统能更精确地生成与图像内容相符的字幕。 - 速度：由于每个波束较窄，计算速度显著提高，相比波束搜索和多样波束搜索，能更快地生成字幕。 - 多样性：词性摘要的多样性使得系统能够根据摘要内容生成不同风格的字幕，避免产生过于单一的描述。 5. 评估与比较论文通过标准字幕度量和用户研究进行评估，证明了方法的有效性。对比波束搜索和多样波束搜索，该方法在mBleu-4分数上表现出更高的多样性，同时具有更低的相互重叠和不同的n元语法，显示了更丰富的语言结构。 6. 结论词性引导的图像字幕生成方法不仅提高了生成字幕的准确性，而且在保持速度的同时增加了多样性，克服了波束搜索和变分自编码器（VAE）、生成对抗网络（GAN）等方法的局限性。这种方法强调了利用语言先验（如词性）的重要性，为图像字幕生成领域提供了新的思路和优化方向。

资源详情

资源推荐

10697

（

）

（

）

（

）

展开

Top-1

与LSTM基线相比，TEOR和SPICE得分大幅下降。在

选项卡中。4、我们比较了GAN [25]和我们基于POS的

方法，后者更准确。

VAE

。 Wang

等人

[32]建议使用具有加法高斯潜在空间

（AG-CVAE）的条件变分自动编码器而不是GAN来

生成不同的用他们的方法获得的多样性是由于从学习

的潜在空间中采样。他们证明了在传统的LSTM基线

的准确性的改进。由于波束搜索的计算复杂性，与从

VAE采样的字幕数量相比，他们为LSTM基线使用了

更少的波束，即它们保证了计算时间相等。与AG相比

波束搜索

我们的POS

. .

CVAE [32]并表明我们获得了更高的best-1标题

日

图1：波束搜索和POS采样示意图，

扩展最佳

个

字幕（

，

. . .

（

）从单词posi-

准确度（

Tab.3

）和我们最好的

字幕精度（

我我我

至10）优于AG-CVAE（图（3）第三章。注意，Tab中

的最佳-k得分。图3和图3表示给定相同数量的采样字

幕（20或100）的

第

k个排名字幕

。参见第

、注意事项及其他细节。

最大化训练集D上的可能性，

即

，

对于所有方法。为了公平起见，我们使用相同的排名

程序（

即

，由[7]提出并使用的共识重新排序

公

司

简介

最大

log

（

其中

（

）

（

，

）

。

在[32]中）对所有方法的采样字幕进行排名。

（I

，

y）

∈D

（一

）

背景

问题设置和符号。不同的captioning的目标是生成k

个

序列

，

. . .

，

，给定图像。为了可读性，我

们去掉了上标，只关注一个序列y。我们讨论和开发的

方法将对许多这样的序列y进行采样

，

并对它们进行排

序，以获得最佳的 -k-y1

，

. . .

，

. 单个帽 y

（

，

. . .

，

）由一系列的字y

组成

，

∈ {1

，

. . .

，

}

，其精确地描述给定图像

。对于每

个字幕

，单词

，

∈ {1

，

. . .

，

}

是从固定词汇表

中获得的，

即

，

∈ Y 。此外，我们假设词性

（

POS

）的可用性

句子y的标记。更具体地，POS标签器提供标签序列t

（

，

. . .

，

），其中

∈ T

是词y i的POS标记。集

合

T包含12个通用的POS标签

（

NOUN

）、代词（

PRON

）等

。

为了训练我们的模型，我们使用数据集D

{（

，

）}，它包含由图像

、句子

和对应的

POS

标签

序列

组成的元组（

，

）。

因为它是不可行的，以注释的

。

5M字幕

联合概率分布的因式分解强制执行单词的时间排序。

因此，在

第

i个时间步（或词位置）处的词y

仅取决于所

有相邻词y

。该概率模型使用具有时间（或掩蔽）卷

积的递归神经网络或前馈网络来表示。特别是后者，

即

，时间卷积（temporalconvolution）最近已经被用于

不同视觉和语言任务，以代替经典的递归神经网络，

例如

，[3、9、4]。

在训练过程中，我们学习最佳参数

。然后，对于

测试图像I，条件逐词后验

概率

∈

（

，

）

依次

从

1到

。考虑到这些后验，波束搜索是适用的

这是我们的底线。图图1示出了波束搜索

其中从字位置

到

的波束宽度为

。这里，波束搜索

维护按可能性排序的最佳

（不完整）字幕。它扩展了

最好的-

标题在每一个词grecery从开始到结束的句

子。

更具体地，对于从词位置

的波束搜索

，

我们

首先

生成后验

∈

（

，

）

基于

包含

，

∈

，

. . .

，

}。然后，我们通过扩展

MSCOCO与POS标签，我们使用自动的一部分-

个条目

在列表中使用计算后验

演讲者

（

，

）。我们称之为的时间

（

）

经典图像字幕。经典技术将联合概率模型p

（y|

（

1）把所有的词转化为条件句的乘积。他们通过以下

方式学习模型参数θθ

单个扩展top-k操作复杂度是相同的

从一个大小为的数组中获取排序后的前

个

值，

|.|

所有扩展top-

操作的时间复杂度为

（

~ 2

|Y|

log

）。

有关POS标签和自动POS标签器的详细信息，请参阅

https://www.nltk.org/book/ch05.html

展开

Top-k

展开

Top-k

展开

Top-k

展开

Top-1

展开

Top-1

将

kxk

大小的数组合并到新的

top-k

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

词性引导的高效多样化图像字幕生成

图像字幕

字幕制作软件

Image_Captioning:为您的图像生成字幕！

多风格图像字幕生成网络

图像字幕生成：提高标题多样性和质量的视觉释义方法

深度强化学习决策框架的图像字幕生成模型

基于抽象场景图的细粒度控制下的图像字幕生成

COCO格式图像字幕数据集制作

制作、、、、自制图像字幕数据集

对可控图像生成的研究工作可以分成哪几个方面？

图像生成和图像重建任务有什么不同

GAN在图像生成中的应用

图像生成目前效果最好的模型

循环一致性能避免始终生成一样的图像吗

VAE在医学图像生成上的应用

详细介绍stable diffusion图像生成模型

为训练深度ocr 图像,生成文本图像

传统图像风格迁移相较于快速图像风格迁移的优点

图像生成FID评价指标

最新资源