CIRR：预训练模型驱动的现实生活中组合图像检索

98 浏览量更新于2025-01-16 收藏 13.84MB PDF 举报

"预训练模型用于现实生活图像检索" 在计算机视觉和自然语言处理领域，预训练模型已经成为理解和处理跨模态任务的关键工具。本文聚焦于一个特定的应用——组合图像检索，这是一种结合图像和文本描述来查找最匹配图像的检索任务。传统的方法通常局限于单一模态的查询，例如基于内容或文本的检索，而组合图像检索则要求模型能够理解并整合视觉和语言两种信息。 CIRR（ComposeImageRetrievalonReal-lifeimages）数据集是为此任务专门构建的，它包含超过36,000对开放领域的图像和与之相关的修改文本描述。这一数据集旨在推动研究者在丰富和多样化的图像及语言环境中进行深度视觉推理的研究。CIRR数据集的开放性意味着它可以促进模型在复杂场景下的泛化能力，超越以往局限于特定领域的如时尚产品检索等应用场景。为了解决这一挑战，作者提出了CIRPLANT模型，这是一个基于Transformer架构的模型，能够利用预训练的视觉和语言（V&L）模型的知识，对自然语言描述进行理解和应用，以调整视觉特征。通过这种方式，CIRPLANT能够在检索过程中捕捉到输入文本对图像特征的修改。检索过程则是通过对修改后的特征进行最近邻搜索来实现的。实验结果表明，尽管CIRPLANT的架构相对简单，但其在开放领域图像上的表现超越了现有的方法，并且在传统狭窄领域的数据集（如时尚）上也达到了最先进的准确率。这一成就强调了预训练模型在跨模态任务中的价值，尤其是在处理复杂和多样化的输入时。论文中还展示了CIRR数据集的一个实例，显示了如何使用预训练模型来处理双模态查询，例如将一只狗的图像与描述其行为和外观的文本相结合，来寻找匹配的结果。这种直观的例子展示了组合图像检索在实际生活中的潜力，比如在搜索引擎、社交媒体和电子商务平台的应用。这项工作为预训练模型在组合图像检索任务中的应用提供了新的视角，同时也为未来的研究提供了丰富的资源。通过公开CIRR数据集、代码和预训练模型，研究者们现在有了更多的机会去探索和改进这种双模态检索方法，进一步推动跨模态理解的发展。

2125

使用预训练的视觉和语言模型对现实生活图像进行图像

检索

ZheyuanLiu1CristianRodriguez-Opazo2DamienTeney2,3StephenGould1

1澳大利亚国立大学2阿德莱德大学机器学习澳大利亚研究所3Idiap研究所

{zheyuan.liu,stephen.gould}@anu.edu.au

cristian.rodriguezopazo@adelaide.edu.au,damien.teney@idiap.ch

摘要

我们扩展了组合图像检索的任务，其中输入查询由图像和如

何修改图像的简短文本描述组成。现有的方法只适用于非复

杂图像，限于狭窄的领域，如时尚产品，从而限制了对丰富

图像和语言环境中深入视觉推理的研究范围。为了解决这个

问题，我们收集了ComposeImageRetrievalonReal-life

images

(CIRR)数据集，该数据集包含超过36,000对众包、开放领域

图像和人工生成的修改文本。为了将当前方法扩展到开放领

域，我们提出了基于transformer的CIRPLANT模型，该模

型利用丰富的预训练视觉和语言（V&L）知识，根据自然语

言调整视觉特征。然后通过修改后的特征进行最近邻查找来

进行检索。我们证明，通过相对简单的架构，CIRPLANT在

开放领域图像上优于现有方法，同时在时尚等现有狭窄数据

集上达到了最先进的准确性。随着CIRR的发布，我们相信这

项工作将激发对组合图像检索的进一步研究。我们的数据集

、代码和预训练模型可在https://cuberick-orion.github.io

/CIRR/上获得。

1.引言

我们研究了组合图像检索的任务，即从大型语料库中找到与

用户提供的图像-语言对最匹配的图像。与传统的基于内容[3

8]或基于文本[24,

42]的图像检索不同，组合图像检索涉及到视觉和文本两种

模态来指定用户的意图。对于人类来说，双模态查询的优势

是明显的：一些概念和属性在视觉上更简洁地描述，而其他

概念和属性则更适合在文本中描述。

参考图像目标图像#1目标图像#2

修改文本1：“成为一只与它的小狗一样的品种狗奔跑”

修改文本2：“地板上有两只相同品种的狗”

图1.

从提出的CIRR数据集中进行组合图像检索的示例。输入由参考图像

和修改文本组成，模型必须找到一个接近的匹配。一个主要的挑战

是视觉方面的内在歧义和不完全规定性。我们的数据集包括具有丰

富上下文的开放领域图像，以便促进对这种挑战的研究。

通过语言。通过交叉参考这两种模态，参考图像可以捕捉场

景的大致意思，而文本可以指定更细节的细节。挑战在于知

道哪些信息是重要的（通常是场景中的一个感兴趣的对象）

以及可以忽略哪些信息（例如，背景和其他无关的对象）。

然而，现有的数据集在充分研究这个问题方面还不够。考虑

图1中的例子。现实生活中的图像通常包含各种尺度上的丰

富对象交互。在每种情况下，为了能够快速识别出要保留或

更改的相关方面，并在其他地方付出较少的注意力（例如，

狗毛的颜色和背景对象），模型必须发展出深入的视觉推理

能力，并推断出视觉和语言上的隐含人类协议。然而，现有

的数据集仅限于诸如时尚产品[4,12,

13]或合成对象[40]等相对简单的图像内容的领域。我们认为

当前的数据集不足以探索上述独特的研究机会。受到这个问

题的启发，我们收集了ComposeIm-

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

CIRR：预训练模型驱动的现实生活中组合图像检索

facenet官方训练好的模型

Python-Oxford5kParis6k大规模图像检索基准

网络图片检索

Deep3DFaceReconstruction预训练模型解压指南

Cdiscount图像分类挑战：100类别数据集解析与模型训练

通用跨域检索：SnMpNet模型的语义邻域与混合预测

Product1M：大规模弱监督多模态产品检索与CAPTURE模型

迁移学习和预训练模型的使用

使用预训练模型进行迁移学习的方法

深度学习迁移学习指南：如何用预训练模型提升开发速度

最新资源