深度跨模态汉明哈希:提升异质性下高效检索

0 下载量 200 浏览量 更新于2024-06-20 收藏 1.05MB PDF 举报
跨模态汉明散列是一种创新的深度跨模态哈希方法,由Yue Cao、Bin Liu、Mingsheng Long和Jianmin Wang在清华大学软件学院和中国大数据软件国家工程实验室共同提出。他们针对大规模、高维跨模态数据检索的需求,旨在提高计算效率和检索质量。传统的跨模态检索通常依赖于深度学习来减少不同模态间的信息差距,如图像和文本,但依然面临异质性带来的挑战。 该工作的主要创新在于引入了汉明空间检索的概念,这是一种利用散列查找而非线性扫描技术,能够在给定汉明半径内快速找到相关数据项的方法。然而,当前的跨模态散列方法在汉明空间检索中的效果有限,因为它们往往无法有效集中相关项到较小的汉明球内,而且不同模态间的散列码由于模态差异导致的汉明距离较大。 跨模态汉明哈希(CMHH)通过设计基于指数分布的成对焦点损失函数,对那些汉明距离超过预设阈值的不匹配模态对施加显著惩罚。这种设计使得CMHH能够生成更为紧凑和高度集中的哈希码,从而支持高效的汉明空间检索。作者在NUS-WIDE、MIRFlickr-25K和IAPRTC-12等多个基准数据集上进行了大量实验,结果显示CMHH不仅能生成高质量的哈希码,还实现了最先进的跨模态检索性能,无论是通过哈希查找还是线性扫描。 总结来说,跨模态汉明散列是一项突破性的技术,它通过深度学习和优化的哈希策略,解决了跨模态数据检索中的异质性和效率问题,为大规模跨模态数据处理提供了强大的工具。这不仅有助于提升搜索引擎和社交媒体中信息检索的效率,也为多媒体内容的理解和组织奠定了坚实的基础。