序列级探索提升字幕任务召回率的新方法

PDF格式 | 674KB | 更新于2025-01-16 | 115 浏览量 | 举报

本研究聚焦于序列级探索在字幕任务中的应用，特别是针对模型的召回率优化。序列级学习目标在字幕生成任务中已被广泛应用，旨在通过奖励模型生成的完整句子质量来提升模型性能。然而，现有方法主要关注的是精准度，即生成的字幕集的准确性，这在实验中表现为模型往往在召回率上表现欠佳。研究者指出，字幕任务的独特性在于其序列结构以及存在多个潜在正确字幕的特性。输入的图像或视频需要转化为具有丰富信息的描述性句子，这使得单一的单词级监督（如交叉熵损失）无法充分捕捉到这一复杂性。传统的序列级学习目标虽然缓解了训练和测试阶段的不一致性，但仍然存在优化偏向于精准度的问题，导致模型可能在生成多样化字幕（召回率）上表现不足。为解决这个问题，研究者提出在当前序列级学习目标中引入序列级探索项。这一策略旨在引导模型在训练过程中更全面地探索可能的正确字幕，而不仅仅是追求最高的精准度得分。通过这种方法，新的学习目标同时考虑了生成字幕的精确度和召回率，旨在提高模型的整体性能。实验结果在视频和图像字幕数据集上验证了这一方法的有效性。实验数据表明，改进后的训练目标使得模型在保持良好精准度的同时，显著提升了召回率，从而更好地适应了字幕任务的复杂性和多样性需求。总结来说，这项工作对字幕任务的学习目标进行了深入探讨，强调了召回率优化的重要性，并通过引入序列级探索来改进模型在生成多样性和全面性方面的表现。这对于提升字幕生成系统的实用性和自然度具有重要意义。

10892

˜˜

′

δ[y

∈

Y]和p（y

∈

）

∈Y

[

′

∈

]

在

∈

]

中

理论和实证方面。从理论上讲，我们表明，目前的目

标函数的序列级训练是等效的优化广义精度与宽松的

集隶属函数的预测字幕。从经验上讲，我们表明，由

当前序列级学习训练的模型倾向于为相同的输入生成

很少的不同标题，并且在召回相关指标上没有获得高

分。

3.1.

理论局限性

我们首先放松了标准中的集成员函数

项p（y∈Y）可以解释为句子y在集合Y

中

的机会。

请注意， δ[y∈Y]是0-1，表示字幕模型是否认为句子

y是正确的。相应地，

如果

∈

，则

（

∈

）

只能取值

于

或

，

∈

它不超过

[

，

的整个范围，

一种可能性如果我们再次将0-1隶属函数δ[y∈Y]放宽为

实值置信度，则p（y

∈

Y）可以覆盖概率的整个范围

，

1]在放松之后，p（y

∈

Y）实际上是来自字幕模型

的字幕y的概率因此，通过使用松弛集，

用于字幕任务的标准精度测量。然后

我们表明，当前序列级学习的目标-

函数，我们将

（

∈

）

[

∈

]

′

∈

[

′

∈

ing实际上是通过重新优化广义精度

在字幕任务的上下文中的宽松的集合隶属函数。

其中p

（y

），这是来自字幕的概率

产品型号：

假设所有可能的句子的空间是

（

∈

）

∈

]

→p（y|

（

3）

，输入（图像/视频）

是Y，并且由

′

∈Y

′

∈

]

字幕模式为

。精度

定义

为：

（

，

）

∈

]

∈

]

∈

]

∈

]

∈

]

将等式（1）中

的

δ[y∈Y]和p（y∈Y）替换为（2），

（3）分别得到了

字幕任务：

GP（Y

，

）

（y

，

Y）p

（y

（

）

y∈Y

我们可以使用广义精度GP来重写字幕的原始序列级学

习目标

y∈Y

′

∈Y

′

∈

]

任务设（y

，

Y）为奖励，原目标为

最大化期望收益：

（

∈<

）

y∈Y

∈

]

（

∈

）

（

）

J（θ）

i=1

（

y|x

）

（

，

）

（

）

在等式（1）的求和中，它包含两项：

[

∈

]

通过比较等式（5）和等式（4）中定义的广义精度度

量，我们可以看到它们正好是

相

同：

项，δ函数检查字幕y是否长到地面实况语句集Y。在

p（y ∈ Y）项中，δ函数检查字幕y是否属于

预测句子

集

。

J（θ）

（y

，

Y）p

（y|x

）

i=1y∈Y

（

六

）

对于δ[y∈Y]项，我们放松了二元值δ

函数转换为实值函数（y

，

Y），输出为

（

，

）

i=1

范围[0

，

1]：

δ[y∈Y]→δ（y

，

Y）

（

2）

这意味着序列级学习目标仅优化由字幕模型预测的字

幕的精度侧。然而，由于存在多个正确的

（y

，

Y）表示集合Y中每个个体y的似然性，是一个松

弛的集合隶属函数。对于k（y

，

Y）的一个自然选择

是使用由其最大值归一化的评估度量。由于字幕任务

中的所有当前评估指标都是有界的，因此可以对其进

行适当的归一化。为了简单起见，我们假设我们正在

处理已经被归一化的评估度量f（y

，

Y）

对于相同的输入

，这意味着在训练字幕模型时还应该

考虑召回侧。相反，原来的目标完全忽略了问题的召

回方面。

3.2.

经验结果的局限性

作为对上述理论分析的补充，我们还测量了模型的

剩余12页未读，继续阅读

cpongm

粉丝: 6

序列级探索提升字幕任务召回率的新方法

基于KERL模型实现用户行为序列推荐任务.zip

基于PSO-XGBoost算法的交叉验证多变量时间序列预测模型优化研究,基于PSO-XGBoost算法的交叉验证多变量时间序列预测模型优化研究,基于粒子群优化算法优化XGBoost的（PSO-XGBo

序列召回推荐模型资料说明：掌握经典的推荐系统序列召回算法/模型

lstm模型的评价指标有没有召回率

时间序列预测任务的模型

粒子群优化时间序列预测模型cnn-lstm python

怎么优化时间序列ARIMA模型

如何设计一个深度学习模型来优化时间序列数据的分类任务？请结合《深度学习驱动的时间序列分类技术》给出具体的实施步骤和代码示例。

matlab编写时间序列模型

在工业工程领域中，如何利用深度学习技术优化时间序列分类任务的性能？

最新资源