强化学习优化字幕生成模型：缓解瓶颈，提高区分度

71 浏览量更新于2023-10-15 收藏 1022KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1124切换到区别性图像字幕通过缓解强化学习的瓶颈Ukyo Honda1，2Taro Watanabe3Yuji Matsumoto21CyberAgent，Inc.2理研3奈良科学技术研究所本田ukyo@cyberagent.co.jptaro@is.naist.jpyuji. riken.jp摘要鉴别力是图像帽的理想特征：字幕应该描述输入图像的特征细节。然而，最近的高性能字幕模型，这是用强化学习（RL）训练，往往会产生过于通用的字幕，尽管他们在各种其他标准的高性能。首先，我们调查了出乎意料的低区分度的原因，并表明RL具有根深蒂固的副作用，TransformerRL：一群停在水中的船+wFT：许多小船在晚上系在乙醚上。TransformerRL：一群停在水中的船+wFT：停靠在码头的船只的黑白照片TransformerRL：一群停在水中的船系在码头的一排小船TransformerRL：一群停在水中的船+wFT：一个身体水上有船将所述输出字限制为高频字。有限的词汇表是区分度的严重瓶颈，因为模型难以描述其词汇表之外的细节。然后，基于这种识别的瓶颈，我们彻底重铸歧视性的图像字幕作为一个更简单的任务，鼓励低频字生成。通过长尾分类和去偏方法的提示，我们提出了一些方法，可以轻松地将现成的RL模型切换到具有区分性的模型，只需对参数进行单次微调。大量的实验表明，我们的方法显着提高了现成的RL模型的区分度，甚至优于以前的区分度感知方法，具有更小的计算成本。详细的分析和人工评价也验证了我们的方法在不牺牲字幕整体质量的情况下提高了区分度。11. 介绍图像字幕是计算机视觉和自然语言处理的交叉点，它将图像中的信息转化为自然语言的描述。生成的字幕可用于各种下游任务：帮助视障用户[19]，图像和视频上的视觉问题回答[16，31]，视觉对话[68]和新闻生成[79]。1 代码将在 https://github.com/ukyh/switchdisccaption.git上提供图1. MS COCO验证集中的标题示例。Transformer RL是一个使用RL训练的Transformer字幕模型，wFT是我们的微调方法。Transformer RL为四个图像生成完全相同的标题。带下划线的单词表示Transformer RL未提及的特征信息，蓝色单词表示从未出现在模型输出中的信息。更多示例见附录2对于那些下游任务，标题应该是有区别的：标题应该描述输入图像的特征和重要细节[51]。然而，当前的字幕模型往往会生成过于通用的字幕[12，11，64，66]。特别是，使用标准强化学习（RL）[50]训练的模型，这是当前图像captioning [55]中事实上的标准训练方法，尽管在各种其他标准[39，62]中具有显着优势，但在区分性方面表现不佳。例如，使用RL训练的高性能Trans-former[57]字幕模型为图1所示的四个不同图像生成了相同的字幕，忽略了每个图像的其他显著细节为了解决字幕过于通用的问题，人们对区分性图像字幕进行了大量的研究，区分性图像字幕也被称为区别性图像字幕或描述性图像字幕。以前的研究已经创建了关于区分性的新RL奖励或新的模型架构来增强区分性。这些方法提高了识别率;然而，他们的模型附带了额外的计算，1125⟨⟩SL··1TSs从头开始重新训练，并没有揭示现有模型而不是创建或支付这些计算成本，我们首先分析的原因，出乎意料的低区分度的现成的RL模型，即。，预训练的，ex-perimentRL模型，探索如何提高他们的辨别力。我们的第一个贡献是识别RL中一个根深蒂固的副作用，它将输出单词限制为高频单词。有限的词汇表是区分性的严重瓶颈，因为模型很难描述超出其词汇表的细节。有了这个瓶颈的识别，现在我们可以通过简单地鼓励低频词的生成来直接解决瓶颈。这种任务放松使我们能够引入长尾分类和去偏的方法，区分图像字幕的第一次。我们的第二个贡献是我们有效和高效的方法，该方法将任何现成的RL模型切换到具有区分性的模型，仅对参数进行单次微调。不像以前的方法，我们的方法不需要任何区别性奖励，新的模型架构，或从头开始重新训练。大量的实验表明，增加输出中的低频词显著提高了现成RL模型的区分度，甚至比以前的区分度感知模型具有更小的计算成本。这些结果验证了RL模型的词汇量有限是其低区分度的主要原因。详细的分析和人性化的评价也表明，我们的方法在不牺牲整体质量的情况下，提高了我们相信，我们对低区分度的原因的新发现和实际解决方案，它将显着影响未来的研究区分图像字幕。2. 鉴别性与强化学习的目前，RL是图像字幕中使用的模型的事实上的标准训练方法，因为它显著提高了各种评估指标的性能[55]。然而，它并没有改善区分性，甚至可能降低区分性[39，62]。在这一节中，我们将检查意外低区分度的原因。2.1. 图像字幕我们提供了一个简短的概述标准RL算法中使用的图像字幕。[48][50他们的目标是通过最小化负预期奖励来直接优化不可微的测试时间度量LR L（θ）=−Ews<$pθ（ws|I）[r（w）]，（1）图2. MS COCO训练图像序列中单词的相对频率每个图像采样5个序列这些单词（9，486个唯一单词，不包括词汇表外标记unk）按其在地面实况字幕中的频率进行排序，并分为200个bin。我们显示前10个箱子和其余的总和。GT是训练图像的真实字幕，CE是用CE损失训练的字幕模型的输出，RL是用RL训练的字幕模型的输出。在这里，我们使用了Transformer模型。其中ws=（ws，...，w（s）是从策略pθ采样的序列，I是输入图像，r（）是奖励函数。为了计算（θ）的梯度，[48]将REIN-FORCE算法[69]应用于文本生成。该算法近似梯度如下：<$θLR L（θ）<$−（r（w）−b）<$θlogpθ（w|I）的第10条。（二）这里，b是降低梯度方差的基线奖励通常，奖励函数r（）是CIDEr [59]，基线奖励b是用贪婪解码采样的序列的奖励[50]。2.2. RL限制词汇尽管其有效性，RL已被发现不能提高区分度，并且在某种程度上减少了输出字幕中唯一n-gram的数量[39，62]。由于强化学习与这两种负效应之间的关系并不明显，因此它只是被认为是一种奇怪的情况。我们首次阐明RL和有限的词汇量之间的关系，结合最近的两项研究结果。（1）RL已被证明使输出分布峰值[8，30]。RL对来自策略pθ的序列进行采样（参见等式1）。①①）。通常，pθ是用文本生成模型初始化的，该文本生成模型利用基于真实文本的交叉熵（CE）然而，在文本生成中，初始化的pθ输出峰值分布，因此，RL仅对峰值处的单词进行采样和奖励，从而形成更多的峰值分布[8]。那么，pθ在哪里趋于峰值呢？1126·∈ W W∈不CE不θˆ不<不1Tt下载后可阅读完整内容，剩余1页未读，立即下载

基于深度学习的数据生成模型综述.pdf 深度学习是一种模仿人脑工作方式的机器学习技术，它在数据生成模型中扮演着核心角色。数据生成模型，特别是基于深度学习的模型，能够学习高维数据的潜在特征分布，并生成与真实数据相似的新数据。这在数据分析和数据... 基于强化学习的机器人认知情感交互模型.pdf 为了深入了解并应用强化学习构建机器人认知情感交互模型，我们首先要理解以下几个关键概念：强化学习、PAD情感空间、以及机器人认知情感计算。强化学习是一种让机器通过与环境互动来学习最优行为策略的方法。它的... 基于深度学习的文本生成模型研究这两个部分通过交替训练来提高模型的生成能力。最著名的GAN模型之一是文本生成领域的SeqGAN。基于RNN的模型则通过序列到序列的方式，将一个序列映射到另一个序列。其中最常见的是基于长短时记忆网络（LSTM）或门控... 生成模型表示推断学习生成模型是一种用于推断学习的模型，它通过学习样本与标签的联合概率分布P(X, Y)来生成新的符合样本分布的数据。在有监督学习任务中，生成模型可以根据贝叶斯公式从联合概率分布P(X,Y)中推断出条件概率分布P(Y|X)，... 除了变分自编码器 (VAE)还有哪些生成模型 1. 生成对抗网络 (GAN)：GAN 通过训练生成器和判别器来学习数据分布，生成器尝试生成真实数据的伪造版本，判别器则尝试区分真实数据和伪造数据。GAN 可以生成非常逼真的新样本，广泛应用于图像、视频、语音等领域。 ... mysql 索引区分度 MySQL索引区分度是指索引中不重复值的比例，也可以理解为索引的唯一性。...总之，MySQL索引区分度是衡量索引对查询优化能力的重要指标，通过合理地选择和设计索引，可以提高数据库的性能和响应速度。如果我有两条类似正弦曲线的散点图波形，现在想用扩散学习模型去生成第三条散点图（与前两条尽可能相似），该怎么写程序？其中，扩散学习模型是一种基于生成对抗网络（GAN）的序列生成模型，可以用于生成与给定数据相似的新数据。具体实现方法如下： 1. 准备数据集：将两条正弦曲线的散点图波形作为输入数据，并将其拆分成序列，每个... 对抗学习pytorch 对抗学习（Adversarial Learning）是一种机器学习的方法，旨在通过训练一个生成模型和一个判别模型来使它们相互对抗并提高性能。在PyTorch中，可以使用以下步骤进行对抗学习： 1. 首先，定义生成模型（Generator）... std::string 区分大小写 std::string不区分大小写。根据引用中的代码，bool operator()(std::string const & a, std::string const & b) const，这段代码是一个函数对象，用于比较两个字符串a和b是否相等。根据引用中的代码，str_iless(std:... 强化学习基本框架1000字与传统的监督学习不同，强化学习的模型是通过尝试不断优化状态与行为之间的关联，从而找到一个最优的行为策略。 2. 强化学习的基本元素强化学习的基本元素包括环境、状态、动作、回报和策略。环境是指学习系统所... 目前利用生成模型检测异常的模型有哪些？利用生成模型检测异常的模型有很多，以下是一些常见的模型： 1. 自编码器（Autoencoder）：自编码器是一种无监督的神经网络模型，其目的是将输入数据压缩成一个低维度的表示，然后再将其解码回原始空间。如果输入... 如何计算问卷题目的区分度问卷题目的区分度是指该题目能否有效地区分出不同被试之间的差异程度，通常用于评估问卷的信度和效度。计算问卷题目的区分度可以使用以下公式： D = (H - L) / N 其中，D表示题目的区分度，H表示得分最高的20%被... 查看mysql索引区分度在MySQL中，索引区分度是指索引列中不同值的数量与总行数的比例。它用于衡量索引的选择性，即索引对于过滤数据的效果。索引区分度越高，表示索引列中的不同值越多，索引的选择性越好，查询时可以更快地定位到所需的... KeyATM主题模型的建模方法和步骤是什么 KeyATM主题模型的建模方法和步骤如下： 1. 收集数据：收集需要建模的文本数据，例如新闻文章、社交媒体帖子等。...7. 不断迭代：根据应用结果和评估指标，不断迭代优化主题模型，提高模型的准确性和效果。检测模型: yunet.onnx 识别模型:face_recognizer_fast.onn 检测模型yunet.onnx是一种基于深度学习技术开发的人脸检测模型。具体来说，它通过分析图像中的像素值以及特征点信息，在图像中定位人脸并提取出其特征信息。在进行人脸检测时，它可以有效地应对人脸不同角度、不同... python代码实现训练面部识别模型以区分真实面部图像和生成的面部图像 4. 优化器：选择Adam或SGD等优化器，用于优化模型参数，提高模型的准确率。 5. 训练模型：将预处理好的数据集输入模型，进行训练，调整模型参数，直到达到预期的准确率。 6. 模型测试：将测试集输入训练好的模型，... IRT区分度的R语言代码好的，以下是IRT区分度的R...其中，`simdata()`函数用于生成模拟数据，`mirt()`函数用于拟合IRT模型，`model@coef[, 2]`表示提取出模型中所有题目的难度参数，`^2`表示对难度参数进行平方运算，得到的结果即为区分度。图像生成什么模型比较好 PixelRNN/CNN是基于序列模型的生成模型，可以学习到一张图像的像素之间的依赖关系，并用这些关系来生成新的图像。PixelRNN适用于生成序列图像，如手写数字和字符，而PixelCNN适用于生成高分辨率的图像。以上这些... 区分度可以使用matlab实现吗可以使用 Matlab 实现区分度分析。区分度指标是一种用于评估考试题目难度的指标，它是基于考生答题情况和题目难度之间的关系来计算的。如果一个题目的区分度越高，说明它越能区分得分较高的考生和得分较低的考生。在... python区分度分析代码以下是一个简单的Python代码示例，用于执行区分度分析： ```python def discrimination_analysis(item_bank, student_responses): """ 计算每个试题的区分度 :param item_bank: 试题库，包含每个试题的得分和...

cpongm 粉丝: 5 资源: 2万+ 上传资源快速赚钱我的内容管理展开我的资源快来上传第一个资源我的收益登录查看自己的收益我的积分登录查看自己的积分我的C币登录后查看C币余额我的收藏我的下载下载帮助最新资源掌握数学建模：层次分析法详细案例解析 JSP项目实战：广告分类系统v2.0完整教程如何在没有蓝牙的PC上启用并使用手机蓝牙 SpringBoot与微信小程序打造游戏助手完整教程高效管理短期借款的Excel明细表模板兄弟1608/1618/1619系列复印机维修手册深度学习模型Sora开源，革新随机噪声处理控制率算法实现案例集：LQR、H无穷与神经网络.zip Java开发的HTML浏览器源码发布 Android闹钟程序源码分析与实践指南 H3C S12500R升级指南：兼容性、空间及版本过渡注意事项 Android仿微信导航页开门效果实现教程深度研究文本相似度：BERT、SentenceBERT、SimCSE模型分析 Java开发的zip压缩包查看程序源码解析 H3C S12500S系列升级指南及注意事项全球海陆掩膜数据解析与应用资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈