没有合适的资源?快使用搜索试试~ 我知道了~
基于组件的图像字幕模块比较分析
⃝可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 7(2021)121www.elsevier.com/locate/icte基于组件的图像字幕各模块的比较分析Seoung-Ho Choia,Seoung-Yeon Job,Sung Hoon Jungc,a韩国汉城02876韩城大学电子信息工程系b韩国汉城02876韩城大学计算机工程系c韩国汉城02876韩城大学机械电子工程系接收日期:2020年3月25日;接收日期:2020年7月4日;接受日期:2020年8月24日2020年9月4日网上发售摘要图像字幕是使用图像和字幕的训练数据来生成新字幕的任务。由于现有的深度学习是一个黑箱模型,因此分析对每个模块的影响对于理解模型至关重要。本文分析了这五个模块的影响,并使用两个数据集,根据三个损失和两个优化做了比较分析。通过大量的实验,确定了每个模块的最佳组成部分,作为改进方法。c2021韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:图像字幕;比较分析1. 介绍图像字幕[1],如体育评论[2],视频故事[3]和视频字幕[4]是一种使用描述图像的图像和字幕数据训练模型的方法[1图像字幕是一个相对困难的问题,因为它需要两种不同数据类型的多模态处理,即字幕数据的自然语言处理和从图像中有效提取信息的计算机视觉[5]。在图像字幕研究中,主要研究了使用注意概念[1,6例如,语义注意[7]和文本引导注意[6]提高了注意的准确性[9]。此外,为了表示图像字幕中对象之间的关系,S。Herdade等人。[10]从对象检测器中提取特征,并获取对象部分上的边界框。它们从获取的盒子中获取外观和几何特征,并通过对象关系转换器Transformer生成包含对象间管道的字幕数据。他们试图在标题数据中表达可以从图像中获得的确切信息[11]。此外,为了更精确地生成字幕,可以测量对象的频率并反映在图像字幕中[12]。为了有效地反映∗ 通讯作者。电子邮件地址: shjung@hansung.ac.krS.H. Jung)。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2020.08.004对象,在图像字幕模型中提出了密集层,以提高图像字幕生成性能[13]。最近它已经成为一项可以反映信息的研究更精确地对对象进行研究[14],例如:对比学习[15]和对象与标题之间的关系[16]。因此,有必要对图像字幕模型进行分析,以更有效地反映图像信息,从而产生更生动的字幕。分析各个模块对图像字幕的影响是非常重要的。然而,现有的研究还没有涉及到图像字幕的各个模块的比较分析。此外,现有的研究大多没有帮助分析哪个图像字幕模块可以提高整体性能[2通过观察,我们认为,对各模块的影响进行定量和定性分析是必然的。本文从定量和定性的角度分析了顺序模块、词嵌入模块、初始种子模块、注意模块和搜索模块五个模块的影响每个模块的组成部分如下。顺序模块由三个部分组成,特征提取以创建输入图像的特征向量,顺序模块的模型结构,以及顺序模块的内部单元类型。我们采用Resnet 50 [17]和Vgg 16 [18]进行特征提取,Vanilla-RNN [19]和双向RNN [20]作为模型结构,GRU [21]和LSTM [22]作为顺序模块的内部单元类型。2405-9595/2021韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。122S.- H. Choi,S.Y.乔和S. H.Jung/ICT Express 7(2021)121Fig. 1. 对图像字幕的各个模块进行了组成对比分析。(For对本图图例中所指颜色的解释,读者可参考本文的网络版为了观察注意力的影响[23],我们分析了在注意力模块中使用和不使用注意力。嵌入模块有两个组件,Keras嵌入和Glove [24]。在搜索模块中,我们使用了梁和贪婪搜索作为组件。一般来说,RNN的权重初始化对性能有很大的影响。在此基础上,分析了种子模块中正态分布和均匀分布三种权重初始化方法的效果。此外,我们还比较分析了优化方法和学习损失对这五个模块的影响。为了进行对比分析,针对三种不同的损耗和两种优化方法进行了模型元件对比实验。我们使用Flickr 8 K数据集和MS COCO 2014版本数据集对每个模块的组件进行了比较分析。我们分析了哪些组件有影响的图像字幕与五个措施。通过对各个模块的组成部分进行对比分析,了解各个模块的作用,为图像字幕的研究提供依据。本文的组织结构如下。在第二节中,我们描述了图像字幕中每个模块的组成部分的比较分析。第3节解释了所提出的方法的实验第四部分是结论和未来的研究。2. 基于组件的图像字幕比较分析图像字幕已经被提出并研究为通过CNN和RNN的组合输入视觉信息来生成文本的方法[1]。在图像字幕中,需要准确地识别图像对象之间的语义关系和对象的属性,并生成语义准确的文本。图1显示了按每个模块的组成部分应用比较分析的位置。图中的绿色、黄色、灰色、红色和蓝色方框。1分别表示顺序模块、词嵌入模块、注意模块、搜索模块和初始种子模块。Image caption- ing结合CNN对图像和LSTM表1顺序模块(a)LSTM和(b)GRU,(i)Vanilla-RNN和(ii)双向RNN的比较。型号BLEU-1 BLEU-2 BLEU-3 BLEU-4 Accc2009年12月31日至2009年12月31日b二2006年12月31日b二用于在顺序模块中生成输入图像的字幕。我们采用Vgg 16 [18]和ResNet 50 [17]进行特征提取,并在顺序模块中使用Vanilla-RNN [19]和双向RNN [20]。双向RNN通过在接收输入信息时提取前向和后向信息来反映两条信息。为了更好地反映序列模块中的输入信息,在我们的实验中使用了LSTM [22]或GRU单元[21]而不是基本的RNN单元图像字幕中的注意机制[23]已经以各种方式进行了研究。注意力的优势可以被看作是专注于输入。然而,如果在图像字幕中不正确地聚焦注意力,则图像字幕的性能可能较低。注意之后,需要一个搜索模块对生成的字幕进行关联分析。在自然语言处理领域中使用通过从所生成的字幕解析来评估所生成的句子关系。我们可以使用梁[25],对搜索模块的贪婪搜索。Beam搜索[25]通过基于最佳优先搜索技术限制要记住的节点数量来提高效率。贪婪搜索[26]使用树结构计算最高优先级。该搜索算法的优点是找到连续输入之间的关系,并分析单词之间的关系。词嵌入模块用于将文本信息转换为向量值,以便文本信息可以反映在模型中并由计算机计算。Glove [24]是两个嵌入向量的点积,这两个向量是整个语料库同时出现的概率。研究了初始种子模块,以比较和分析图像字幕的序列模型的初始种子值[27]。这是因为从良好的起始位置学习序列模型可以可靠地预测收敛。基于以上对各模块组成部分的描述,现将各模块组成部分的对比分析描述如下。我们用三种方法来分析时序模块。在第一种方法中,我们测试了两个模型,VanillaRNN与ResNet50和双向RNN与ResNet50,是否可以稳定地训练序列信息的RNN效果的观点。在第二种方法中,我们分析了两种模型的特征提取效果,ResNet 50的Vanilla-RNN在第三种方法中,我们测试了序列模型的LSTM和GRU单元的长时间依赖性的影响S.- H. Choi,S.Y.乔和S. H.Jung/ICT Express 7(2021)121123图二. 根据特征提取的比较分析,(i)Vgg 16和(ii)ResNet 50。表2根据嵌入模块进行对比分析。(a)嵌入,(b)手套,(i)Vanilla-RNN和(ii)双向RNN。型号BLEU-1 BLEU-2 BLEU-3 BLEU-4 Accc2009年12月31日至2009年12月31日b二2006年12月31日b二分析了文本信息嵌入性能的度量模型。我们通过Glove和Keras嵌入测试了嵌入。为了保证序贯模型训练的可靠收敛性,对序贯模型的初始种子模块进行了分析。初始种子使用正常、均匀、he和lecun初始化方法进行测试。我们试图从顺序模块的角度来分析注意模块。进行了比较分析,有和没有注意。为了分析生成句子的各个关系的评价,我们使用搜索模块通过束搜索和贪婪搜索对生成的字幕进行了测试。在Ubuntu 18.04中使用Keras和python3进行了实验。在epoch 5上获得了每个模块的影响的实验结果,并且评估措施为BLEU-1,2,3,4和准确性。3. 实验结果表1是顺序模块的实验结果。表1示出了香草-RNN在使用GRU细胞时比在使用GRU细胞时增加10.1%的BLEU平均得分。表3注意力模块的比较,(a)非注意力和(b)注意力,(a)非注意力,(b)注意力,(i)Vanilla-RNN,和(ii)双向RNN。型号BLEU-1 BLEU-2 BLEU-3 BLEU-4 Accc2009年12月31日至2009年12月31日b二2006年12月31日b二表4生成字幕相关性分析的搜索方法比较(a)贪婪搜索,(b)波束搜索,(i)Vanilla-RNN,(ii)具有注意力的Vanilla-RNN,(iii)双向RNN,以及(iv)具有注意力的双向RNN。模型BLEU-1BLEU-2BLEU-3BLEU-4一我0.61230.37740.18840.0911BII0.63050.3930.20170.0935一我0.58720.36260.19390.1041BII0.63180.40070.21720.106一III0.640.39990.21510.1054BIII0.64610.40960.23490.1176一IV0.60160.36840.19190.0977BIV0.62030.39110.21620.1153LSTM细胞相反,当使用GRU单元时,双向RNN比使用LSTM单元时下降了约58.6%。此外,当使用LSTM单元时,双向RNN表现出比Vanilla-RNN好约12.8%的性能。相比之下,Vanilla-RNN在使用GRU细胞时表现出约57.5%的高性能。从以上结果来看,具有较少存储器门的GRU对于Vanilla-RNN比LSTM显示出更好对于双向RNN,具有较大内存门的LSTM比GRU表现更好。我们认为GRU在像Vanilla-RNN这样的单向处理时是有利的。这是因为GRU比LSTM提取相对重要的信息。然而,当像双向RNN这样在两个方向上处理时,LSTM显示出更好的结果,因为提取了更详细的信息。图图2示出了所生成的字幕的定性分析的实验结果。如图2所示,ResNet50表现出比Vgg 16更好的性能。这是因为 ResNet50 使 用 批 量 归 一 化 更 有 效 地 获 得 功 能 。 在Vanilla-RNN和双向RNN的两种情况下,使用注意力几乎等同于提高性能和降低性能。当在Vanilla-RNN中使用双向时,除了(c)-(ii)的一种情况外,性能得到了改善与Vanilla-RNN相比,具有注意力的双向RNN具有更好和更差的性能。Vanilla-除了(b)-(ii)的一种情况之外,具有双向的RNN具有比双向RNN更好的性能。从这些结果中,我们可以得出结论,双向Vanilla-RNN和ResNet 50的组合对于顺序模块是最好的。在表2中,Keras嵌入优于预先训练的Glove。Keras嵌入在Vanilla-RNN和双向RNN上的性能分别比手套这表明训练嵌入124S.- H. Choi,S.Y.乔和S. H.Jung/ICT Express 7(2021)121图三. 通过MSE值比较种子模块中的组件和损失的错误。(a)随机,(b)he,(c)lecun,(A)normal,(B)Uniform,(i)Vgg 16,(ii)ResNet 50,蓝色条)CNN with Vanilla-RNN,橙色条)CNN withBi-directional RNN,灰色条)CNN with attention Vanilla-RNN,和黄色条)CNN with attention Bi-directional RNN。(For为了解释该图图例中对颜色的引用,读者可以参考这篇文章的WEB版本)。表5损失对使用Vanilla RNN和ResNet50进行优化的影响,(i)Adam,(ii)Nadam,(a)交叉熵,(b)铰链,(c)焦点损失。模型损失ACC一我0.82720.8145一II0.80510.8186B我0.99990.6729BII0.99990.6729C我190.87580.8140CII180.3900.8146对于大型数据集来说,比预先训练的嵌入更好。似乎在预训练嵌入中学习的信息会导致混乱,导致性能相当低。然而,当字幕数据与预训练的Glove中实际学习的数据相似时,可以确认模型可以快速训练。图3显示了根据初始seed模块的组件的效果,这些组件由三种方法组成:随机、he和lecun,具有正态分布和均匀分布。即随机正规,随机均匀,他正规,他均匀,lecun正规,lecun均匀。该分析使用两个模型进行,Vgg 16和ResNet 50。图3的图表显示了六种方法在四种模型上的准确 性 , 即 , CNN with Vanilla-RNN , CNN with Bi-directional RNN,CNN with attention Vanilla-RNN,CNNwith attention Bi-directional RNN 。 如 图 3 所 示 ,可 以 确认,当同时应用均匀和随机时,性能最佳。当使用Vgg 16时,根据种子方法的不同,性能没有显著差异。另一方面,可以看出,根据ResNet50中的种子方法,性能差异很大。特别是,具有Vanilla-RNN的CNN和具有注意力的CNN使用随机和均匀的种子方法的双向此外,最好使用Random而不是he或lecun。我们在表3中通过对Vgg 16和ResNet 50的结果进行平均来显示注意力模块的性能。注意力Vanilla-RNN比非注意力Vanilla-RNN提高了约8.6%。与Vanilla-RNN相比,双向RNN下降了约4.6%正如你可以看到从根据实验结果,注意力的效果不清楚,因为它取决于方法的改善或恶化。表4显示了搜索模块中搜索方法的比较。平均而言,波束搜索显示出比贪婪搜索稍好的结果,但它并不大。这似乎是因为波束搜索反映了整体趋势。然而,当反映某些特征时,贪婪搜索可能更好。表5显示了三种损失,交叉熵,铰链,焦点,对两种优化方法的影响在大多数实验中,可以看出,通过负校正的学习更稳定。交叉熵损失在损失和准确性方面表现出最好的性能。需要更多的研究和分析,为什么焦点损失的损失很大,为什么铰链损失的准确性很低。此外,对于MS-COCO 2014数据集,实验结果如下。表6是使用ResNet 50和Vanilla RNN在MS-COCO 2014数据集上使用两种优化方法的实验结果。我们只在表6所示的实验条件下进行实验,因为这是使用Flickr 8k数据集的实验中最好的实验条件。如表6所示,Adam和Nadam优化方法之间的性能非常相似。对各模块进行了定量比较分析。首先,大多数双向LSTM在顺序模块中的性能得到了提高。与无注意力相比,有注意力的双向RNN得到了改进。在大多数情况下,ResNet50在特征提取方面表现出比Vgg16更高的性能。其次,在种子模块,随机均匀双向RNN表现出最好的性能。第三,与Glove相比,嵌入模块中的Keras嵌入大大提高了双向RNN的性能。第四,在注意模块中使用Vanilla-RNN的注意比使用双向RNN的注意提高了性能。第五,双向波束搜索和贪婪搜索提高了搜索模块的性能。交叉熵损失的使用比铰链损失的使用更稳定。优化分析表明,使用那达慕比使用亚当更稳定的训练。使用MS-COCO 2014数据集的分析显示与使用Flickr 8 k数据集的分析相似。因此,在每个地点找到一种有效的方法似乎很重要。通过每个模块中良好组件的组合来优化结构似乎很重要。根据我们的分析,可以通过调整良好组件的组合来创建新模型,以创建最佳结构。然而,新模型的性能分析必须通过工作来获得广义性能,因为组合并不能保证模型的整体性能4. 结论分析了图像字幕模块的作用。对序贯模型的影响分析表明,S.- H. Choi,S.Y.乔和S. H.Jung/ICT Express 7(2021)121125表6优化特征提取的效果分析,(i)Adam,(ii)Nadam,ResNet50与Vanilla RNN。双向RNN略优于Vanilla-RNN。这是因为字幕信息的交互式反映在上下文中得到了很好的训练。注意力的影响分析表明,注意力Vanilla-RNN是有益的性能,因为它专注于输入单词相对于要预测的单词的部分。它是一个搜索模块,用于评估生成的结果之间的相关性,波束搜索模块的性能优于贪婪搜索模块。在分析对嵌入的影响时,Keras嵌入表现出比预训练的Glove更好的性能。对特征提取的对比分析表明,ResNet50在图像字幕和特征提取方面均优于Vgg16。在序列模型的种子方法的情况下,可以看出,随机均匀的种子值有效地反映了序列信息。竞合利益作者声明,他们没有已知的可能影响本文所报告工作确认本研究得到了韩城大学的资助。引用[1] O. Vinyals,A. Toshev,S. Bengio,D. Erhan,Show and tell:Aneural image caption generator,in:CVPR,2015.[2] H. Yu,S.程湾,澳-地Ni,M.王健,张建,X. Yang,Fine- grainedvideo captioning for sports narrative,in:CVPR,2018。[3] J. Li,Y. Wong,Q.扎诺湾Kankanhalli,视频stroytelling,2019,arXiv:/1807. 09418对2.[4] L. Zhou,Y. Kalantidls,X. Chen,J. Coarso,M. Rohrbach,接地视频描述,在:CVPR,2019。[5] J. Yu,J. Li,Z.于角,澳-地黄,图像字幕的多视图视觉表示的多模式传输,IEEE Trans.Circuits System。Video Technol. 15(8)(2015).[6] J. Mun,M.乔湾,巴西-地Han,图像字幕的文本引导注意力模型,在:AAAI,2017年。4.30e−155 5.54e−206[7] Q. 你 H 金 , Z. Wang , C. Fang , J. Luo , Image captioning withsemantic attention,in:CVPR,2016.[8] L. Gao,M. Fan,J. Song,X. Liu,X. Xu,H. T. Shen,Deliberateattention networks for image captioning,AAAI,2019。[9] C. Liu,J. Mao,F. Sha,A. Yuille,神经图像字幕的注意力正确性,在:CVPR,2017年。[10] S. Herdade , A. Kappeler , K. Boakye , J. Soares , Imagecaptioning:Transforming objects into words,NIPS,2019年。[11] Q. Wang,中国山核桃A. Chan,像人类一样描述:关于图像字幕的多样性,CVPR,2019。[12] J. Wang,P.S.马德亚斯塔湖特殊,对象计数!将明确的检测带回图像字幕中,在:ACL Anthology,2018年。[13] J. Johnson,A.卡帕西湖Fei-Fei,DenseCap:用于密集字幕的完全卷积本地化网络,在:CVPR,2016年。[14] Z. Hossain,F. Sohel,M.F. Shiratuddin,H.拉加,深度学习图像字幕的全面调查,2018,arXiv:1810。04020对2.[15] B. Dai,D. Lin,图像字幕的对比学习,在:NIPS,2017。[16] Y. 丰 湖 , 澳 - 地 马 , W 。 Liu , J. Luo , Unsupervised imagecaptioning,2018,arXiv:1811. 10787.[17] K.他,X。Zhang,S. Ren,J. Sun,Deep residual learning for imagerecognition,2015,arXiv:/1512. 03385对1。[18] K. Simonyan,A. Zisserman,Very deep convolutional networks forlarge-scale image recognition,2015,arXiv:/1409。1556对6。[19] H. Sak,Andrew,F. Beaufays,用于大规模声学建模的长短期记忆递归神经网络架构,Interspeech,2014。[20] M. Schuster,K.李明,双向递归神经网络,IEEETrans. 信号处理。11(45)(1997)2673[21] J. Chung,C.库尔塞尔湾周,Y。Bengio,Empirical evaluation ofgated recurrent neural networks on sequence modeling , 2014 ,arXiv:/1412. 三五五五。[22] S.胡志华,长时记忆与短时记忆的关系,国立成功大学,硕士论文。8(9)(1997)1735-1780。[23] T.金,M.- O. 休,S。 儿子,K。- W. 帕克湾,澳-地T. Zhang,GLAC Net:Glocal attention cascading networks for multi-image cuestory generation,2019,arXiv:/1805. 10973对3。[24] 彭 宁 顿 河 索 彻 角 Manning , Glove : Global vectors for wordrepresentation,in:EMNLP,2014.[25] S. Wiseman,A. Rush,Sequence-to-sequence learning as beam searchoptimization,2016,arXiv:/1606. 02960对2.[26] S. Yan , Y. Xie , F. Wu , J. Smith , Image captioning via ahierarchical attention mechanism and policy gradient optimization ,2019,arXiv:/1811。05253对2.[27] Y. 勒 昆 湖 博 图 湾 Orr , K. Muller , Efficient Back-Prop , in :NeuralNetworks:Tricks of the Trade,Springer,1998 b.优化器损失1 epoch花费时间BLEU-1BLEU-2BLEU-3BLEU-4III0.3900.32171.87172.8830.06250.08333.75e−1555.03e−2069.10e−2329.78e−232
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功