深度学习驱动的图像-文本匹配：跨模态投影损失新方法

130 浏览量更新于2024-06-20 收藏 801KB PDF 举报

"本文主要探讨了跨模态投影匹配（CMPM）和跨模态投影分类（CMPC）损失在图像-文本匹配中的应用，这两种损失函数被用来学习具有判别性的图像和文本嵌入。作者指出，虽然深度学习方法在图文匹配任务上取得了进步，尤其是在联合嵌入式学习和相似性学习网络方面，但在挖掘有用信息和选择合适边距方面仍存在挑战。为此，他们提出的新方法通过CMPM损失最小化投影兼容性分布与匹配分布的KL散度，而CMPC损失则旨在通过改进的norm-softmax损失强化类别特征的紧凑性。实验结果显示，这种方法在多个数据集上表现出优越性，适用于双向图像和文本检索、自然语言对象检索、图像字幕生成以及视觉问题回答等应用场景。" 在深度学习领域，图像-文本匹配是一个关键的研究方向，因为其在各种实际应用中具有重要意义。传统的深度学习方法如联合嵌入学习，旨在在一个共享的潜在空间中学习图像和文本的表示，使得它们能够在该空间内进行有效匹配。而双向排序损失由于其稳定性和性能优势，已经成为交叉模态匹配的常用手段。然而，当前的方法在处理三元组采样和设置合适的边缘（margin）时面临困难。针对这个问题，文章中提出的CMPM损失和CMPC损失提供了一个新的解决方案。CMPM损失通过Kullback-Leibler (KL)散度来最小化投影兼容性分布与匹配分布的差异，这有助于优化样本间的相似性度量。另一方面，CMPC损失利用改进的norm-softmax损失，旨在提升不同类别特征的区分度和紧凑性，从而增强模型的分类能力。通过这些创新的损失函数，该方法不仅提高了图像和文本的匹配精度，还增强了模型的泛化能力。实验结果验证了这种方法在多个标准数据集上的优越表现，证明了其在图像-文本匹配任务中的有效性和实用性。因此，这种基于跨模态投影匹配和分类的深度学习方法为图文信息检索、自然语言理解和计算机视觉等领域提供了新的研究思路和工具。

Y. Zhang和H. 陆

改进以生成更多区分性特征。Wen等人[41]提出了中心损失来辅助用

于人脸识别的softmax损失，其中样本与相应的类中心之间的距离被最

小化以提高类内紧凑性。Liu等开发了L-softmax [20]，其将角度裕度引

入softmax损失以进一步提高特征可分性，并通过添加分类权重的归一

化将其细化为A-softmax [19]。值得注意的是，A/L-softmax通过结合角

度裕度来施加特征区分度，以在人脸识别中取得显着的效果。然而，

角度和权重的强烈限制使得模型在实际应用中难以收敛[36，3，38]，

特别是当训练数据具有太多主题时。Ranjan等人[27]提出对特征进行

归一化，以加强验证信号并更好地对困难样本进行建模。Wang等人

[37]通过对特征和分类权重进行归一化来修改softmax损失，这以更容

易的实现来实现性能改进。

另一方面，深度度量学习通过学习一般的距离度量而获得越来越

多的普及，在一般的距离度量下，相关样本之间的距离小于不相关样

本之间的距离Hadsell等人[5]提出了对比损失，以最小化相似点之间的

距离，并限制不相似点之间的距离小于一个余量。Schroff等人[29]设

计了三重损失，以鼓励匹配的人脸对和不匹配的人脸对之间的相对距

离约束，并且在[8]中已经证明对于匹配来自不同相机的最近，四重损

失[2]向三重损失添加了该算法还引入了自适应间隔来计算距离惩罚和

选择负样本。

不幸的是，在应用上述损失函数时存在两个主要挑战：采样有用

的数据单元（即，正和负对、三联体或四联体）并确定适当的边界。

生成所有可能的三元组将导致繁重的计算和较慢的收敛[29]，而对最

难的负数进行采样可能会导致网络收敛到糟糕的局部最优值[29，

31]。[29]建议在线从小批量中选择半硬阴性样本，而这种策略需要大

批量来选择有用的阴性样本。Song等人[31]优化了原始三重态损失的

平滑上限，并利用了小批量内的所有阴性样品，Sohn

等

.[30]提出了N

对损失的形式，多类softmax损失的要求，精心挑选的冒名顶替的例

子。为了避免高度敏感的参数，开发了直方图损失[34]来估计小批量

中所有阳性和阴性对的相似性分布，然后最小化随机阴性对比随机阳

性对具有更高相似性的概率，在这种情况下，优选大批量以实现更好

的性能。然而，用于学习嵌入以保持样本的关联关系的这些修改是专

门针对单模态应用设计的，并且可能不容易适应跨模态匹配问题。

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习驱动的图像-文本匹配：跨模态投影损失新方法

基于深度学习网络的神经元自适应投影分类方法.pdf

计算机视觉与深度学习实战-以MATLAB和Python为工具_基于块匹配的全景图像拼接_项目开发案例教程.pdf

基于深度学习图像特征匹配的双目测距方法.docx

介绍图像模板匹配方法分类

基于特征匹配的彩色图像拼接方法研究现状

如何在ENVI中对遥感图像应用特定的投影方法进行几何校正，例如横轴墨卡托投影和高斯-克吕格投影？请详细描述操作步骤和注意事项。

在DROID-SLAM系统中，深度学习是如何与传统的SLAM技术相结合，实现高精度和高鲁棒性的SLAM技术的？

基于子空间学习的方法的定义

深度学习CT投影域CT重建

在ENVI中进行遥感图像处理时，如何选择和应用横轴墨卡托投影和高斯-克吕格投影进行几何校正？请结合实例说明操作流程。

最新资源