深度学习驱动的图像-文本匹配:跨模态投影损失新方法

0 下载量 130 浏览量 更新于2024-06-20 收藏 801KB PDF 举报
"本文主要探讨了跨模态投影匹配(CMPM)和跨模态投影分类(CMPC)损失在图像-文本匹配中的应用,这两种损失函数被用来学习具有判别性的图像和文本嵌入。作者指出,虽然深度学习方法在图文匹配任务上取得了进步,尤其是在联合嵌入式学习和相似性学习网络方面,但在挖掘有用信息和选择合适边距方面仍存在挑战。为此,他们提出的新方法通过CMPM损失最小化投影兼容性分布与匹配分布的KL散度,而CMPC损失则旨在通过改进的norm-softmax损失强化类别特征的紧凑性。实验结果显示,这种方法在多个数据集上表现出优越性,适用于双向图像和文本检索、自然语言对象检索、图像字幕生成以及视觉问题回答等应用场景。" 在深度学习领域,图像-文本匹配是一个关键的研究方向,因为其在各种实际应用中具有重要意义。传统的深度学习方法如联合嵌入学习,旨在在一个共享的潜在空间中学习图像和文本的表示,使得它们能够在该空间内进行有效匹配。而双向排序损失由于其稳定性和性能优势,已经成为交叉模态匹配的常用手段。 然而,当前的方法在处理三元组采样和设置合适的边缘(margin)时面临困难。针对这个问题,文章中提出的CMPM损失和CMPC损失提供了一个新的解决方案。CMPM损失通过Kullback-Leibler (KL)散度来最小化投影兼容性分布与匹配分布的差异,这有助于优化样本间的相似性度量。另一方面,CMPC损失利用改进的norm-softmax损失,旨在提升不同类别特征的区分度和紧凑性,从而增强模型的分类能力。 通过这些创新的损失函数,该方法不仅提高了图像和文本的匹配精度,还增强了模型的泛化能力。实验结果验证了这种方法在多个标准数据集上的优越表现,证明了其在图像-文本匹配任务中的有效性和实用性。因此,这种基于跨模态投影匹配和分类的深度学习方法为图文信息检索、自然语言理解和计算机视觉等领域提供了新的研究思路和工具。