虚拟属性驱动的文本-图像行人检索新方法

PDF格式 | 1.39MB | 更新于2024-06-28 | 34 浏览量 | 举报

"基于虚拟属性学习的文本-图像行人检索方法"是一篇关注于解决文本-图像行人检索领域中的核心问题的研究论文。行人检索是指从大规模的行人数据库中找到与给定文本描述相匹配的图像，这是一个既具有挑战性又具有实际应用价值的任务。它面临的主要挑战包括细粒度的检索精准度和不同模态（文本和图像）之间的异构性。传统的解决策略是依赖有监督的属性学习，通过提取行人图像中的属性特征，然后关联到相应的文本描述。然而，获取属性标签往往困难，这限制了此类方法在实际场景中的效果。文章针对这一问题提出了一个新的解决方案：基于虚拟属性学习的方法，无需依赖实际属性标签，就能实现无监督的细粒度跨模态语义关联。首先，论文提出了一种语义引导的属性解耦方法，利用行人身份标签作为隐含的监督信号，引导模型在保持属性不变性的前提下，分离并学习与文本相关的属性特征。这种方法利用了行人身份信息作为桥梁，有效地解决了属性标签不足的问题。其次，作者构建了一个基于语义推理的特征学习模块，通过图模型在属性之间建立联系，促进信息的交流和共享。这种图模型能够在属性间进行交互，从而增强了特征的跨模态识别性能，提高了检索精度。为了验证方法的有效性，论文在公开的文本-图像行人检索数据集CUHK-PEDES和跨模态检索数据集Flickr30k上进行了实验，与现有的相关方法进行了对比。实验结果显示，基于虚拟属性学习的方法在细粒度检索任务中表现出了显著的优势，证明了其在无标签属性学习情况下依然能够取得良好的性能。这篇研究不仅关注于行人检索技术的提升，还探索了无监督学习在跨模态信息处理中的潜力，对于推动文本-图像行人检索领域的研究具有重要意义。它将有助于提高行人搜索的效率和准确性，特别是在没有充足属性标注的情况下，为实际应用提供了新的可能。"