基于注意力反馈的深度图像标注模型提升图像识别性能

需积分: 0 11 浏览量更新于2024-08-05 收藏 745KB PDF 举报

本文主要探讨了"基于注意力反馈机制的深度图像标注模型"，由邓远远和沈炜两位研究人员提出。该模型针对图像标注这一复杂的计算机视觉任务，创新地运用了深度学习中的编码器-解码器架构。编码器部分采用经典的卷积神经网络（Convolutional Neural Network，CNN），具体来说，他们选择了VGG-16网络，用于高效地提取图像特征，这些特征能够捕捉图像的局部和全局信息。解码器的设计是本文的核心亮点。作者提出了一种堆叠式自上而下的注意力信息处理方式，这意味着网络的每一层都能接收到来自上一层的注意力信息，这样增强了模型对图像细节的敏感性和理解能力。通过这种方式，模型能够动态地聚焦于图像的关键部分，提高标注语句与图像内容的对应性，从而生成更贴近真实场景的标注。在实验阶段，研究者们在Flickr8k、Flickr30k和MSCOCO等常用的数据集上进行了测试。结果显示，相较于传统的图像识别模型，基于注意力反馈机制的深度图像标注模型在识别精度方面有了显著提升，提升了大约5%至9%，这表明了注意力机制对于图像标注任务的有效性。关键词包括卷积神经网络（CNN）、深度学习、图像识别以及注意力机制，这些都是构建该模型时不可或缺的技术基础。这篇文章不仅展示了深度学习在图像标注领域的应用潜力，也为未来的图像理解和自然语言生成提供了新的思考方向。这篇论文提供了一个有效的深度学习方法，通过注意力机制优化了图像标注过程，提高了模型的性能，并为图像处理和自然语言处理的交叉研究开辟了新的途径。

浙

江理工大学学报

，

２

０１９

，

４１

（

２

）

：

２

０８

－

２

１６

Ｊｏｕｒｎａｌ

ｏｆ

Ｚｈｅ

ｊ

ｉａｎ

ｇ

Ｓｃｉ

－

Ｔ

ｅｃｈ

Ｕｎｉｖｅｒｓｉｔ

ｙ

ＤＯＩ

：

１０．３９６９

／

ｊ

．ｉｓｓｎ．１６７３－３８５１

（

ｎ

）

．２０１９．０２．０１１

收

稿日期

：

２

０１８－０９－０８

网

络出版日期

：

２

０１８－１２－２８

作

者简介

：

邓远远

（

１

９９２－

）

，

男

，

河

南安阳人

，

硕士研究生

，

主要从事图像识别方面的研究

。

通信作者

：

沈

炜

，

Ｅ

－

ｍ

ａｉｌ

：

１２０２５９５６５

＠

ｑｑ

．ｃｏｍ

基于注意力反馈机制的深度图像标注模型

邓

远远

，

沈

炜

（

浙江理工大学信息学院

，

杭

州

３１００１８

）

摘

要

：

针对图像标注任务提出了一种基于注意力反馈机制的深度图像标注模型

。

该模型采用编码器

－

解

码器

框架

；

编码器采用

Ｖ

ＧＧ

－

１

６

的网络结构

，

以提取图像的特征信息

；

在解码器部分设计了一种堆叠方式自上而下的处理

注意力信息

，

使网络的每一层都可以获得额外的特征信息

。

然后从生成的标注语句中提取特征

，

将关注特征和图像

的关注区域结合

，

增强和图像关注区域的匹配性

，

使生成的标注语句近似真实语境

。

在

Ｆｌｉｃｋｒ８ｋ

、

Ｆｌｉｃｋｒ３０ｋ

和

ＭＳＣＯＣＯ

等数据集进行实验

，

实

验结果显示

，

所提出模型的识别率比经典图像识别模型高

５％

～

９％

。

关键词

：

卷积神经网络

；

深度学习

；

图像识别

；

注意力机制

中图分类号

：

Ｔ

Ｐ１８１

文献标志码

：

Ａ

文章编号

：

１６７３

－

３

８５１

（

２０１９

）

０３

－

０

２０８

－

０

９

Ｄ

ｅ

ｐ

ｔｈ

ｉｍａ

ｇ

ｅ

ｃａ

ｐ

ｔｉｏｎ

ｍｏｄｅｌ

ｂａｓｅｄ

ｏｎ

ａｔｔｅｎｔｉｏｎ

ｆｅｅｄｂａｃｋ

ｍｅｃｈａｎｉｓｍ

Ｄ

ＥＮＧ

Ｙ

ｕａｎ

ｙ

ｕａｎ

，

Ｓ

ＨＥＮ

Ｗ

ｅｉ

（

Ｓ

ｃｈｏｏｌ

ｏｆ

Ｉｎｆｏｒｍａｔｉｏｎ

Ｓｃｉｅｎｃｅ

ａｎｄ

Ｔｅｃｈｎｏｌｏ

ｇｙ

，

Ｚｈｅ

ｊ

ｉａｎ

ｇ

Ｓｃｉ

－

Ｔ

ｅｃｈ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｈａｎ

ｇ

ｚｈｏｕ

３１００１８

，

Ｃｈｉｎａ

）

Ａ

ｂｓｔｒａｃｔ

：

Ａ

ｄｅ

ｐ

ｔｈ

ｉｍａ

ｇ

ｅ

ｃａ

ｐ

ｔｉｏｎ

ｍｏｄｅｌ

ｂａｓｅｄ

ｏｎ

ａｔｔｅｎｔｉｏｎ

ｆｅｅｄｂａｃｋ

ｍｅｃｈａｎｉｓｍ

ｉｓ

ｐ

ｒｏ

ｐ

ｏｓｅｄ

ｆｏｒ

ｉｍａ

ｇ

ｅ

ｃａ

ｐ

ｔｉｏｎ

ｔａｓｋｓ．Ｔｈｅ

ｍｏｄｅｌ

ｕｓｅｓ

ｔｈｅ

ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒ

ｆｒａｍｅｗｏｒｋ．Ｔｈｅ

ｅｎｃｏｄｅｒ

ａｄｏ

ｐ

ｔｓ

ｔｈｅ

ＶＧＧ－１６

ｎｅｔｗｏｒｋ

ｓｔｒｕｃｔｕｒｅ

ｔｏ

ｅｘｔｒａｃｔ

ｔｈｅ

ｆｅａｔｕｒｅ

ｉｎｆｏｒｍａｔｉｏｎ

ｏｆ

ｉｍａ

ｇ

ｅｓ．Ａ

ｓｔａｃｋｉｎ

ｇ

ｍｅｔｈｏｄ

ｉｓ

ｄｅｓｉ

ｇ

ｎｅｄ

ｉｎ

ｔｈｅ

ｄｅｃｏｄｅｒ

ｐ

ａｒｔ

ｔｏ

ｈａｎｄｌｅ

ｔｈｅ

ａｔｔｅｎｔｉｏｎ

ｉｎｆｏｒｍａｔｉｏｎ

ｆｒｏｍ

ｔｏ

ｐ

ｔｏ

ｂｏｔｔｏｍ

，

ｓｏ

ｔｈａｔ

ａｄｄｉｔｉｏｎａｌ

ｆｅａｔｕｒｅ

ｉｎｆｏｒｍａｔｉｏｎ

ｉｓ

ａｖａｉｌａｂｌｅ

ｆｏｒ

ｅａｃｈ

ｌａ

ｙ

ｅｒ

ｏｆ

ｎｅｔｗｏｒｋ．Ｔｈｅｎ

，

ｔｈｅ

ｆｅａｔｕｒｅ

ｉｓ

ｅｘｔｒａｃｔｅｄ

ｆｒｏｍ

ｔｈｅ

ｇ

ｅｎｅｒａｔｅｄ

ａｎｎｏｔａｔｉｏｎ

ｓｔａｔｅｍｅｎｔ

，

ａｎｄ

ｔｈｅ

ａｔｔｅｎｔｉｏｎ

ｆｅａｔｕｒｅ

ｉｓ

ｃｏｍｂｉｎｅｄ

ｗｉｔｈ

ｔｈｅ

ａｔｔｅｎｔｉｏｎ

ａｒｅａ

ｏｆ

ｔｈｅ

ｉｍａ

ｇ

ｅ

ｔｏ

ｅｎｈａｎｃｅ

ｔｈｅ

ｍａｔｃｈｉｎ

ｇ

ｗｉｔｈ

ｔｈｅ

ｉｍａ

ｇ

ｅ

ａｔｔｅｎｔｉｏｎ

ａｒｅａ

，

ｓｏ

ｔｈａｔ

ｔｈｅ

ｇ

ｅｎｅｒａｔｅｄ

ａｎｎｏｔａｔｉｏｎ

ｓｔａｔｅｍｅｎｔ

ａ

ｐｐ

ｒｏｘｉｍａｔｅｓ

ｔｈｅ

ｒｅａｌ

ｃｏｎｔｅｘｔ．Ｅｘ

ｐ

ｅｒｉｍｅｎｔｓ

ｗｅｒｅ

ｃａｒｒｉｅｄ

ｏｕｔ

ｏｎ

ｄａｔａ

ｓｅｔｓ

ｓｕｃｈ

ａｓ

Ｆｌｉｃｋｒ８ｋ

，

Ｆｌｉｃｋｒ３０ｋａｎｄ

ＭＳＣＯＣＯ．Ｔｈｅ

ｅｘ

ｐ

ｅｒｉｍｅｎｔａｌ

ｒｅｓｕｌｔｓ

ｓｈｏｗ

ｔｈａｔ

ｔｈｅ

ｒｅｃｏ

ｇ

ｎｉｔｉｏｎ

ｒａｔｅ

ｏｆ

ｔｈｅ

ｐ

ｒｏ

ｐ

ｏｓｅｄ

ｍｏｄｅｌ

ｉｓ

５％

～

９％ｈｉ

ｇ

ｈｅｒ

ｔｈａｎ

ｔｈａｔ

ｏｆ

ｔｈｅ

ｃｌａｓｓｉｃａｌ

ｉｍａ

ｇ

ｅ

ｒｅｃｏ

ｇ

ｎｉｔｉｏｎ

ｍｏｄｅｌ．

Ｋｅ

ｙ

ｗｏｒｄｓ

：

ｃｏｎｖｏｌｕｔｉｏｎａｌ

ｎｅｕｒａｌ

ｎｅｔｗｏｒｋ

；

ｄｅｅ

ｐ

ｌｅａｒｎｉｎ

ｇ

；

ｉｍａ

ｇ

ｅ

ｒｅｃｏ

ｇ

ｎｉｔｉｏｎ

；

ａｔｔｅｎｔｉｏｎ

ｍｅｃｈａｎｉｓｍ

０

引

言

随

着移动互联网技术应用的快速发展

，

图像已

成为传递信息的重要媒介

。

有效地管理和识别所需

要的图像是一个重要并且具有现实意义的研究课

题

，

如通过图像标注任务为医生提出建议

，

减少医生

的工作量

［

１

－

２

］

。

图

像标注任务不仅需要识别出图像中有哪

些目标

，

还需要理解图像中目标之间的关系

，

生

成一段近似真实语境的标注语句

。

Ｂ

ｅｒｎａｒｄｉ

等

［

３

］

下载后可阅读完整内容，剩余8页未读，立即下载

林书尼

粉丝: 28
资源: 315

基于注意力反馈的深度图像标注模型提升图像识别性能

基于深度学习的结构化图像标注研究.pdf

基于注意力机制图卷积神经网络的图像检索方法与流程.pdf

RNN注意力机制：提升性能的突破性策略

【深度解读YOLOv8】：在目标检测中占据领导地位的深度学习模型

【深度学习模型管理指南】：实战导出代码与数据的关键步骤

【CNN可视化技术】：揭秘模型是如何看和理解图像的

YOLOv8网络架构深度分析：一步到位理解与调整，性能优化无压力

【从图像到标签】：构建高效图像识别系统的10大策略

【医学图像处理新篇章】：CBAM在医学图像分析中的应用挑战与机遇

【云端数据标注平台搭建】：Crystalmarker云服务与部署秘籍

最新资源