无监督多模态图平滑矩阵分解哈希法提升跨模态检索性能

0 下载量 54 浏览量 更新于2024-08-26 收藏 973KB PDF 举报
本文主要探讨了一种解决无监督跨模态检索中的量化损失问题的新方法——多模态图正则化平滑矩阵分解散列(Unsupervised Cross-modal Retrieval via Multi-modal Graph Regularized Smooth Matrix Factorization Hashing)。在传统的跨模态检索技术中,为了简化计算并实现高效搜索,通常会将离散的哈希码(hash codes)放松为连续的表示,这可能导致信息丢失,即所谓的量化损失(quantization loss)。针对这一挑战,研究者提出了一种融合多模态数据结构(Multi-modal graph)与平滑矩阵分解(Smooth Matrix Factorization)的策略。 首先,文章构建了一个多模态图模型,该模型能够捕捉不同模态数据之间的复杂关系,如语义相似性和视觉特征之间的关联。这有助于提高哈希码生成过程中的表征精度,减少信息压缩带来的误差。通过在图上进行学习,算法能够更好地理解和整合不同模态的数据特征,增强它们之间的映射一致性。 其次,平滑矩阵分解被应用于这个框架中,它强调了在保持数据局部一致性的前提下,尽可能地减小模态间数据的潜在差异。这种技术有助于生成既具有可扩展性又保持较高查询效率的哈希码,同时保持了原始数据的内在结构。 该方法是一种无监督学习方法,无需预先标记的训练样本,可以自动学习不同模态数据之间的内在联系。它通过优化一个联合目标函数,其中包括模态图的正则化项和哈希码的平滑约束,实现了对量化损失的有效缓解。通过这种方式,无监督的多模态检索性能得到了显著提升,能够在没有标签的情况下找到最相关的数据,适用于诸如图像与文本、语音与视频等跨模态信息检索的场景。 总结来说,这篇文章贡献了一个创新的哈希方法,它结合了多模态图模型和平滑矩阵分解,旨在解决无监督跨模态检索中的量化损失问题,从而提高了检索的准确性和效率。这项工作对于推动跨模态信息处理领域的研究和实际应用具有重要意义。