自监督预训练方法提升细粒度图像检索性能

PDF格式 | 1.06MB | 更新于2025-01-16 | 14 浏览量 | 0 下载量 举报
收藏
"基于草图的细粒度图像检索的预训练自监督方法" 本文探讨了细粒度图像检索(Fine-Grained Sketch-Based Image Retrieval, FG-SBIR)领域的一个新策略,即利用自监督学习来替代传统的ImageNet预训练方法。作者提出了一种称为"拼图游戏"的自监督预训练技术,该技术涉及重新组合随机打乱的图像部分。此方法的关键在于混合模态表达和高效的置换矩阵推理。 在拼图任务设计中,第一个关键点是采用混合模态表达,即将草图和真实图像结合,以增强模型对不同模态的理解。第二个关键点是优化框架中的置换矩阵推理,通过Sinkhorn迭代来实现,这比传统的分类器公式更为有效,可以更好地模拟真实的拼图自我监督。 实验结果证明,这种自监督预训练策略在四个产品级别的FG-SBIR基准测试中显著优于基于ImageNet预训练的传统方法。不仅如此,该策略还提高了跨类别的泛化能力,无论是在预训练/微调还是微调/测试阶段都有所体现。 传统的FG-SBIR方法通常依赖于ImageNet预训练权重的微调,因为收集实例级草图-照片对的成本高昂。然而,ImageNet的数据规模对于当代深度CNN来说可能不足以直接从头开始训练。因此,作者提出的自监督学习方法旨在消除对ImageNet预训练的依赖,同时通过混合域拼图求解器提升FG-SBIR的准确性和泛化性能。 这项工作为FG-SBIR领域提供了新的视角,即如何利用自监督学习来改进模型的初始化,并提高在细粒度图像检索任务上的表现。通过创新的预训练策略,研究人员可能能够开发出更加高效且适应性强的模型,这对于推动FG-SBIR技术的发展具有重要意义。

相关推荐