结构视觉表示的图像字幕生成:场景图_captioner框架

需积分: 19 0 下载量 166 浏览量 更新于2024-08-12 收藏 2.1MB PDF 举报
"场景图字幕:基于结构视觉表示的图像字幕" 这篇研究论文"Scenegraphcaptioner:基于结构视觉表示的图像字幕"由Ning Xu, An-An Liu, Jing Liu, Weizhi Nie和Yuting Su共同撰写,他们均来自天津大学电气与信息工程学院。该论文在2018年5月16日提交,经过修订后于11月26日接受,并于12月14日在线发布。主要关键词包括:图像字幕、场景图、结构表示和注意力机制。 文章摘要指出,尽管深度神经网络在图像字幕生成任务上已经取得了显著的成果,但它们并没有显式地利用图像中的结构视觉和文本知识。为此,作者们提出了一个名为Scene Graph Captioner (SGC)的框架,该框架旨在通过显式建模对象、物体属性以及物体间的关系来捕获视觉场景的全面结构语义。 首先,他们开发了一种方法,通过在大规模的对象、属性和关系数据集上学习独立模块来生成场景图。然后,SGC框架将高阶图形信息和视觉注意力信息融入到深度模型中,这样做可以更精确地理解和描述图像内容。通过这种方式,SGC不仅考虑了单个物体和其属性,还考虑了物体间的相互作用,从而生成更具有结构性和语义性的图像字幕。 这种结构化的方法有助于提高图像描述的准确性和完整性,使得生成的字幕不仅能反映图像的表面特征,还能理解并表达出图像的内在逻辑和上下文。在图像理解领域,这样的进展对于提升机器的视觉认知能力,以及在视觉问答、图像检索和辅助视觉障碍人士理解图像等方面都有重要的应用潜力。