图像描述算法：从编码器-解码器到注意力机制

版权申诉

149 浏览量更新于2024-06-27 1 收藏 1.07MB DOCX 举报

"基于显著性特征提取的图像描述算法探讨" 图像描述技术是计算机视觉与自然语言处理领域的交叉研究热点，其目标是使计算机能够识别图像中的物体，理解物体属性及它们之间的关系，并用人类可理解的语言准确表达图像内容。这项技术在智能交互、图像检索、视觉问答等领域有着广泛的应用。编码器-解码器框架是实现图像描述的主流方法，起源于机器翻译领域。其中，编码器负责从图像中提取关键信息，解码器则将这些信息转化为自然语言描述。NIC模型（Neural Image Caption）是首个采用此框架的模型，利用CNN作为编码器捕获图像的整体视觉特征，生成全局视觉向量；然后，结合LSTM作为解码器生成描述文字，LSTM在每个时间步接收全局视觉向量，并逐步生成单词序列。文献中提出的g-LSTM模型进一步改进了NIC模型，它不仅在LSTM的输入端使用全局视觉向量，还在LSTM的门控机制中加入全局视觉向量，旨在使生成的描述更贴近图像内容。另一研究则通过多标签分类将图像的多个高层属性编码为0-1向量，这种向量可以更丰富地表示图像特征，替代全局视觉向量，也取得了较好的效果。尽管这类模型取得了一定的成功，但仍存在两个主要问题：一是全局视觉向量在解码过程开始时一次性输入，使得解码器需要自行解析所有信息，增加了计算复杂性；二是LSTM在生成每个单词时，会不断接受新输入并遗忘部分信息，可能导致后期的描述偏离图像实际内容，丧失视觉信息的指导。为解决这些问题，研究者引入了注意力机制，特别是空间注意力机制。在预测单词时，空间注意力模型能根据LSTM的隐藏状态动态调整各局部视觉特征的权重，通过加权求和得到与当前生成单词最相关的视觉信息，这样可以确保在描述过程中始终关注到图像的关键部分，从而提高描述的准确性与连贯性。基于显著性特征提取的图像描述算法是通过深度学习模型，尤其是CNN和LSTM的组合，以及注意力机制的运用，努力提升计算机生成图像描述的质量和真实性。未来的研究可能继续探索更高效的特征表示方法，优化注意力机制，以及引入更多的上下文信息，以实现更加精准、自然的图像描述。

步骤 1. 视觉特征提取. 本文选用在 ImageNet 数据集上预训练过的 Inception-V4 模型

作为特征提取器, 用来对输入图像提特征, 从而得到一个包含有多个特征向量的局部视觉向

量集合, 以及一个全局视觉向量.

步骤 2. 全局显著性视觉特征提取. GE 会从局部视觉向量集合中提取出各个向量上包

含的显著性视觉特征, 然后将整幅图像上的显著性视觉信息编码进一个和单个局部视觉向

量维度相同的特征向量中, 本文将该特征向量称为全局显著性视觉向量.

步骤 3. 即时显著性视觉特征提取. IE 根据解码器当前的隐含层状态, 动态决定从全局

显著性视觉向量中获取哪些视觉特征, 同时决定视觉特征在当前步预测单词时的参与比例,

从而向语言模型提供对预测本时刻单词最有用的显著性视觉特征.

步骤 4. 单词预测. 本文选用单层 LSTM 网络作为语言模型, 其需要凭借显著性视觉

特征和上文的语义特征, 预测本时刻的输出单词. 如果输出单词不是句子终止符号, 则转到

步骤 3, 否则完成预测.

1.2 本文的主要贡献

1)提出了全局显著性特征提取器. 本文的全局显著性特征提取器有三方面的作用: 首

先, 全局显著性特征提取器会从各个局部视觉向量中提取并整合显著性视觉特征, 这个操作

会为局部视觉向量的每一维都生成一个权重, 能够有效克服空间注意力模型对特征选择不

准确的问题; 其次, 全局显著性特征提取器不需要使用自上而下的语义信息, 所以对于单幅

图像其只需要提取一次显著性视觉特征就可以用来生成任意长度和任意数量的句子; 最后,

全局显著性特征提取器只输出一条全局显著性视觉向量, 能够显著减少解码器端提取视觉

信息时的计算量.

2)提出了即时显著性特征提取器. 本文的即时显著性特征提取器有两方面的作用: 首

先即时显著性特征提取器能够根据解码器当前的隐含层状态, 动态决定从全局显著性视觉

向量中获取哪些视觉特征, 并有效控制视觉特征在语言模型预测单词时的参与比例, 该比例

可以为 0, 避免了空间注意力模型强制向语言模型输入视觉特征的问题; 其次即时显著性特

征提取器的计算量明显小于空间注意力模型, 执行速度要优于空间注意力模型.

3)提出由全局显著性特征提取器和即时显著性特征提取器组成的 SFEM, 使用 SFEM

能够大幅提高编码器−解码器模型生成图像描述的准确性, 并且相比于广泛使用的空间注意

力模型, SFEM 在生成图像描述的准确性和时间性能两方面都具有明显的优势.

4)将全局显著性特征提取器和即时显著性特征提取器分别与空间注意力模型组合使用,

实验结果表明本文的全局显著性特征提取器和即时显著性特征提取器单独使用时也能提升

空间注意力模型生成图像描述的准确性.

2. 基于显著性特征提取的图像描述模型

剩余17页未读，继续阅读

罗伯特之技术屋

粉丝: 4510
资源: 1万+

图像描述算法：从编码器-解码器到注意力机制

强化智能图像识别：算法与应用探索

Matlab项目全套源码：Gabor特征提取程序实操指南

全面解析Lena图像边缘检测算法及其MATLAB实现

基于深度学习与显著性的数字图像构图优化.docx

基于DCT块特征与背景先验的JPEG图像显著性检测算法.docx

基于图像边缘检测的图像识别算法.docx

基于Sift特征区域的遥感图像水印算法.docx

一种基于尺度不变特征变换SIFT的图像水印算法.docx

图像增强算法.docx

基于LBP层次特征的表情识别算法.docx

最新资源