CIRR:预训练模型驱动的现实生活中组合图像检索

1 下载量 98 浏览量 更新于2025-01-16 收藏 13.84MB PDF 举报
"预训练模型用于现实生活图像检索" 在计算机视觉和自然语言处理领域,预训练模型已经成为理解和处理跨模态任务的关键工具。本文聚焦于一个特定的应用——组合图像检索,这是一种结合图像和文本描述来查找最匹配图像的检索任务。传统的方法通常局限于单一模态的查询,例如基于内容或文本的检索,而组合图像检索则要求模型能够理解并整合视觉和语言两种信息。 CIRR(ComposeImageRetrievalonReal-lifeimages)数据集是为此任务专门构建的,它包含超过36,000对开放领域的图像和与之相关的修改文本描述。这一数据集旨在推动研究者在丰富和多样化的图像及语言环境中进行深度视觉推理的研究。CIRR数据集的开放性意味着它可以促进模型在复杂场景下的泛化能力,超越以往局限于特定领域的如时尚产品检索等应用场景。 为了解决这一挑战,作者提出了CIRPLANT模型,这是一个基于Transformer架构的模型,能够利用预训练的视觉和语言(V&L)模型的知识,对自然语言描述进行理解和应用,以调整视觉特征。通过这种方式,CIRPLANT能够在检索过程中捕捉到输入文本对图像特征的修改。检索过程则是通过对修改后的特征进行最近邻搜索来实现的。 实验结果表明,尽管CIRPLANT的架构相对简单,但其在开放领域图像上的表现超越了现有的方法,并且在传统狭窄领域的数据集(如时尚)上也达到了最先进的准确率。这一成就强调了预训练模型在跨模态任务中的价值,尤其是在处理复杂和多样化的输入时。 论文中还展示了CIRR数据集的一个实例,显示了如何使用预训练模型来处理双模态查询,例如将一只狗的图像与描述其行为和外观的文本相结合,来寻找匹配的结果。这种直观的例子展示了组合图像检索在实际生活中的潜力,比如在搜索引擎、社交媒体和电子商务平台的应用。 这项工作为预训练模型在组合图像检索任务中的应用提供了新的视角,同时也为未来的研究提供了丰富的资源。通过公开CIRR数据集、代码和预训练模型,研究者们现在有了更多的机会去探索和改进这种双模态检索方法,进一步推动跨模态理解的发展。