融合语义主题的图像自动标注:一种新方法

0 下载量 60 浏览量 更新于2024-08-27 收藏 770KB PDF 举报
"融合语义主题的图像自动标注" 在计算机视觉和图像处理领域,图像自动标注是一项关键任务,旨在为图像赋予适当的文本描述,以填补视觉信息与人类理解之间的“语义鸿沟”。该文提出了一种创新方法,将语义主题融合到概率潜语义分析(PLSA)中,以提升图像的自动标注和检索效果。 首先,作者介绍了问题背景,即由于图像的视觉特征和人类语言之间的差异,图像自动标注面临着挑战。为解决这一问题,他们采用了“视觉词袋”(visual bag-of-words)的表示方法,这是一种常用的图像特征编码技术,通过将图像的视觉特征转换为向量形式,模拟文本处理中的词汇分布。 接下来,该文提出了一种概率模型,该模型能从视觉模态和文本模态中捕获潜在的语义主题。这种主题模型有助于揭示图像内在的抽象概念,从而增强标注的准确性。为了融合这两种模态的主题,作者设计了一种自适应不对称学习策略。这一策略允许模型根据视觉词分布的熵值动态调整每个图像文档在不同模态上的主题权重,使得视觉和文本信息能够更有效地结合。 融合后的概率模型能够适当关联视觉和文本模态的信息,从而更好地预测未知图像的语义标注。实验部分,研究者在通用的Corel图像数据集上对比了所提方法与其他前沿图像标注方法,结果显示,融合语义主题的方法在标注和检索性能上具有显著优势。 该研究为图像自动标注提供了一个新的视角,通过融合语义主题,不仅增强了模型的表达能力,也提高了对图像内容理解的准确性。这种方法对于图像检索、内容理解以及多媒体信息处理等领域具有重要的理论与应用价值。