图像引导的零拍摄深度度量学习

153 浏览量更新于2023-10-16 收藏 978KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1063InDireCT：图像引导的零拍摄深度度量学习Konstantin Kobs Michael Steininger Andreas Hürz b u r gUniversityofWürzbur gAm Hubland，97074 Wuürzb ur g{kobs，steininger，hotho} @ informatik.uni-wuerzburg.de摘要常见的深度度量学习（DML）数据集仅指定一个相似性概念，例如，如果Cars196数据集中的两个图像显示相同的汽车模型，则它们被认为是相似的。我们认为，根据应用程序，图像检索系统的用户有不同的和不断变化的相似性概念，应尽可能容易地纳入。因此，我们提出了一种新的DML设置，即图像引导的零镜头深度度量学习（LanZ-DML），用户可以仅使用自然语言来控制对图像表示非常重要的属性，而无需训练数据为此，我们提出了InDireCT（在CLIP嵌入式Texts上使用维度缩减的图像表示InDireCT利用CLIP作为图像和文本的固定特征提取器，并将文本提示嵌入的变化转移到图像嵌入空间。在五个数据集和十三个相似性概念上进行的广泛实验表明，尽管在训练过程中看不到任何图像，但InDireCT的性能优于强基线，接近完全监督模型的分析表明，InDireCT学习专注于与所需相似性概念相关的图像区域，这使得它成为一种快速训练和易于使用的方法，可以仅使用自然语言创建自定义嵌入空间。1. 介绍深度度量学习（DML）是训练将输入项映射到低维流形的深度神经网络的任务在通常的DML设置中，需要训练示例，让模型学习哪些图像属性使图像对（dis）相似。例如，在Cars196数据集的设置中嵌入过程应抑制汽车颜色、方向或图像环境等因素其他图1.在InDireCT的训练期间（上半部分），所需相似性概念的不同方面（例如，汽车型号或颜色）以文本提示的形式被收集。CLIP在推理过程中（下半部分），将训练的降维应用于CLIP编码图像，以获得表示所需相似性概念的自定义图像数据集具有不同的图像属性以定义两个图像何时我们将这种对两个输入何时被视为相似的高级解释称为相似性概念。对于Cars196，相似性概念是“如果两个汽车图像显示相同的汽车模型，则它们相似”。在测试过程中，神经网络将这种学习到的相似性概念推广到新的看不见的类（例如，新车型）进行测量。通常情况下，人们有不同的相似性概念，1064STSTI →手头的任务或个人偏好。因此，期望能够快速适应变化的相似性概念。然而，需要大的标记训练数据集来训练新的相似性概念的模型，这对于用户来说是因此，我们的目标是零拍摄设置，不需要训练图像和标签。我们认为，用户往往可以表达所需的相似性概念使用的话，例如，当存在具有名称的分类方面将图像分类更具体地说，用户可以列出一组描述相似性概念的不同方面，例如：“一辆红色的车”，“一辆绿色的车”，……语言的使用简化了表达自定义相似性概念的过程，这简化了收集新标记数据集的问题。作为这项工作的第一个贡献，我们引入了一个新的任务，称为图像引导的零镜头深度Metric 学习（LanZ-DML）：给定一组图像I和使用文本S描述的期望相似性概念。仅使用文本输入S训练深度度量学习模型，使得所得模型可以嵌入图像Rn到n维嵌入向量，如果它们在相似性概念上被认为是相似的，则使图像为了优化，不允许训练图像或标签（因此是零拍摄）。我们的第二个贡献是InDireCT（在CLIP嵌入式Texts上使用维度还原的图像表示它利用对比图像预训练（CLIP）[26]模型作为图像和文本的静态通用特征提取器。我们假设，CLIP嵌入图像和文本编码类似的概念在嵌入空间的类似方向，图像描述可以集中在某些属性。例如，文本描述图1给出了InDireCT的概述在训练过程中，CLIP作为512维向量，例如，汽车颜色然后，我们通过对这些文本表示应用降维方法来提取嵌入空间中这些向量的最大变化，专注于变化的方面并抽象掉其他不相关的维度。学习降维是快速的，通常只需要几十个文本提示。此外，没有使用训练图像或标签，只有文本提示。在推理过程中，图像通过CLIP的固定对于两种模态，在类似的嵌入空间方向上，所得到的图像表示被聚焦在与文本提示所描述的相同的最后，可以使用较低维向量来找到与图像w.r.t.所需的相似性概念。对于我们的第三个贡献，我们提供了五个数据集和十三个相似性概念的实验证据，即图像嵌入应当变化的不同属性。我们表明，InDireCT一贯取得更好的性能检索相似的图像w.r.t.期望的相似性概念比零拍摄设置中的强基线更好，甚至接近完全监督的基线。我们还分析了改变嵌入大小、CLIP模型大小和文本提示数量的影响，并将InDireCT关注的图像区域可视化以创建图像表示。我们的定性分析表明，InDiReCT关注的像素是重要的，在确定所需的相似性概念。我们的代码是公开的。12. 相关工作深度度量学习（DML）旨在学习将输入项映射到低维向量的神经网络，使得相似项在嵌入空间中靠近在一起[22]。在这项工作中，我们专注于图像作为项目，可用于图像检索[33]，人脸识别[6]和图像聚类[11]。通常，该模型在图像上进行训练，组织成类，因此二进制相似性注释很容易用于每对数据点[11]。然后，测试使用一组不相交的图像类来测量模型的泛化能力，但数据在语义上与训练数据相似，例如。Cars196 [15]只显示汽车，人脸识别数据集[6]包含人脸。研究训练域之外的图像的DML泛化最近变得流行[20，28，19，8，7，32]。然而，所有提出的方法，以提高泛化性能的新数据集仍然使用训练图像。在我们的设置中，不允许训练图像，而只允许文本提示创建专门针对所需相似性概念的嵌入空间为此，我们使用固定的CLIP [26]模型来提取通用功能。使用CLIP嵌入的余弦相似性对图像的可能文本标签进行排名的能力在原始论文中执行零拍摄图像分类[26]。对于分类，在推理过程中需要知道类名，而在LanZ-DML中，我们创建了反映所需相似性概念的图像嵌入空间。因此，模型需要能够处理未知对象和特征的图像，例如，新车模型Baldrati等人使用CLIP来改变时尚图像嵌入使用文本提示[1]，例如。黑色连衣裙的形象与文本“is red”相结合图像编码器和训练的降维作为-总结CLIP1https://github.com/LSX-UniWue/InDiReCT1065∈∥ ∥不normvUU范数n我我我裙子在利用CLIP的类似属性时，我们只使用文本提示来训练转换，以专注于所需的相似性概念。图像检索也使用联合文本图像嵌入搜索使用文本的图像内容我们只在训练过程中使用文本，而不是在推理过程中。据我们所知，没有其他工作有一个可比的任务设置或方法，我们的论文。因此，我们的目标是识别变化最大的维度，以便学习保留这些方向的变换，同时将嵌入减少到r′维（类似于PCA [31]等降维技术为此，我们使用矩阵U Rr×r′来变换文本表示t i，并使用U r来重构它们。我们使用梯度下降优化U以最小化重建损失L：3. 方法我们现在介绍InDireCT，我们的语言方法tnorm=tiiti规范（一）trecon=t′iU乌鲁提乌n（三）图像上的引导零拍摄深度度量学习。它[26]一种是用一个固定的夹子[26]作为通用的fea。t′=tiU我（二）L= 1arccos（tnormtrecon）。（四）真正的提取器的图像和文本，它编码类似两种模式中的概念到类似的嵌入方向。CLIP由图像和文本编码器组成它在4亿个图像-文本对上进行了预训练，优化以嵌入图像和文本，使得相应图像和文本的嵌入向量相似性使用余弦相似性来测量，即，两个向量夹角的余弦由于训练任务，CLIP学习提取可以与语言相关/由语言表达的广泛图像特征直观地说，我们的目标是学习一种转换，该转换专注于CLIP提取的关于所需相似性概念的最图1显示了InDireCT3.1. 培训在训练阶段，创建n个不同的文本提示例如，如果目标图像显示汽车，并且我们希望通过颜色来区分它们，则我们创建文本列表S，例如“红色汽车”，“蓝色汽车”，“白色汽车”等。文本提示应该只在我们想要区分的概念上有所不同（这里是颜色描述）。请注意，训练文本提示中的方面是独立于推理数据选择的，因为推理标签在训练期间是未知的，我们也希望推广到当通过CLIP的文本编码器馈送所有文本时CLIP然后，我们最小化输入向量和重建向量之间的平均球面距离（等式（4））[12]。它是沿着超球面的表面的向量之间的距离，与向量角度线性缩放训练目标有效地最小化输入和重建之间的角度此外，低维嵌入投影t′i也被映射到单位超球面（等式（2））。这确保了重建仅使用r′维向量，保持余弦相似性作为低维空间中的相似性度量，同时保持文本嵌入的变化方向。由于仅使用多达几百个文本提示，并且仅必须优化矩阵U，因此L通常收敛得非常快。整个优化过程通常在普通笔记本电脑的CPU上不到一分钟就完成了3.2. 推理给定查询和参考图像，我们将它们通过CLIP{1，. . . ，m}）到单位超球面上的r′维：得到的r维向量2ti∈R1×r，其中i∈vnorm=vi我（五）′v范数U{1，. . .，n}在某些方向上变化。这是介绍阿罗夫河vi =i.（六）我通过改变文本提示中期望的相似性概念的方面。在这里，矢量的变化仅通过文本中颜色名称的变化来解释。由于CLIP将类似的概念编码为类似的嵌入维度，因此改变图像和文本中的相同方面应导致在类似方向上变化的嵌入。我们的目标是使用文本嵌入找到这些方向，并抑制图像嵌入空间中受不期望因素影响的给定n个文本表示ti∈ R1×r，其中i ∈ 1，. . . ，n，2对于CLIP的基本模型，r=512可以使用余弦/点乘积相似性来比较这些向量，以找到相似的所期望的相似性概念。由于变换学习抑制在文本提示中不变化的尺寸，因此这些尺寸也针对图像被抑制，例如，当用相似性概念“汽车颜色”训练时，CLIP嵌入空间中的汽车模型维度被抑制4. 实验我们现在使用InDireCT和其他基线进行多个实验。因为我们是在零机会学习中我i=11066NN∈∈∈∈我Lae我i=1JΣΣ我设置，我们无法访问标记的训练图像。不能在验证数据集上优化Hy- perparameters，因为不允许使用带标签的数据因此，我们定义提示和设置超参数的基础上常用的值或educated猜测。这类似于现实世界的场景，用户手头没有任何训练数据来验证和优化他们对系统的输入。我们使用PyTorch [23]实现InDireCT，并从（0，0. ①的人。然后我们使用Adam [13]优化U，学习率为0。01，直到其对于100次连续迭代没有改善损失L（等式（4））。我们将CLIP的向量减少我们为每个数据集和相似性概念训练模型并计算图像嵌入我们遵循DML的标准其他评价指标的结果见附录。4.1. 数据集和相似性概念我们用五个数据集和总共十三个相似性概念进行实验，如表1所示。对于每个数据集，我们定义一到四个相似性概念，例如。合成汽车[14]和汽车196 [15]数据集的“汽车模型”相似性概念可以表示为“如果两个汽车图像显示相同的汽车模型，则它们是相似的”。其他概念也可以相应地表述。给定相似性概念，数据集被分成不同数量的测试类（在“类计数”列中我们使用Cars196测试数据集中的98我们为每个相似性概念创建多个文本提示，方法是收集可能的方面并将其插入提示模板（在相应的列中列出）。不同的方面是从不同的来源收集的，例如在线汽车经销商网站（“汽车型号”和“制造商”），CSS2.1颜色名称（“汽车颜色”和“背景颜色”）或数据集的训练数据的标签（例如，鸟类）。这促进了文本提示可能与测试类标签不同，确保了真实的DML场景，其中train和test类通常是不相交的。关于数据集、相似性概念和提示的更多细节见附录。4.2. 基线InDireCT是第一种用于图像引导的零次深度度量学习的方法，即它可以基于期望的相似性概念有效地生成图像的专用嵌入空间。InDiReCT为Cars196数据集的相似性概念生成的嵌入的可视化可以在附录中找到由于InDireCT不使用任何训练图像，因此将其与完全监督的基线进行比较是不公平的。然而，我们仍然将InDireCTOracle 基线。我们在实验中使用以下方法来了解InDireCT的性能。随机基线对于这个基线，我们从单位超球体[5]中均匀地为每个图像采样r′维嵌入向量。此基线指示所有方法的性能下限。CLIP [26]此基线通过CLIP的图像编码器馈送所有图像由于CLIP提取的特征集广泛，它的性能应该已经相当不错了。然而，由于它不关注特定的维度，因此假设InDireCT在维度较少的更重要的是，CLIP不能基于期望的相似性概念来调整其嵌入，即，它总是为图像产生相同的嵌入。这种限制适用于所有不使用关于所需相似性概念的附加数据的嵌入方法。随机变换InDireCT优化了应用于CLIP图像嵌入的变换，以实现专门针对文本表达的相似性概念的嵌入。我们评估InDireCT的学习过程如何通过将U初始化用于测试来提高性能，即。从（0，0. ①的人。我们假设，平均而言，该基线应该比InDireCT和CLIP基线更差。主成分分析（PCA）[31]PCA是一种流行的降维技术，它可以找到解释数据中最大变化的正交方向。我们测试它作为一个可能的替代我们提出的方法。与我们的方法相反，PCA通过分析求解主成分，要求r′严格小于输入数据点的数量[24]。这并不适用于我们实验中的几乎所有场景，因为我们只使用了一些文本提示，同时希望将CLIP因此，我们只能在我们收集超过128个文本提示的数据集上应用PCA，即合成汽车和汽车196数据集的“汽车模型”相似性概念。线性自动编码器（LAE）LAE是PCA的替代方案，可证明跨越相同的子空间，同时能够使用梯度下降进行训练[25] 。形式上，我们优化了权矩阵 W1Rr×r′，W2Rr′×r和偏置向量b1R1×r′，b2R1×r与亚当（学习率0。01和100次迭代后提前停止），最小化损失函数L=n（（tnorm）j−（W2（W1t范数+b1）+b2）j）2. 图像矢量然后变换为v i′=W1vnorm+ b1.1067∥∥=Σ-日志。我不知道，1×r′∈表1.用于我们实验的数据集和相似性概念的详细信息数据集相似性概念类别计数提示模板方面（计数）[14]第十四话车模6“a photo of a [car沃尔沃S60，宝马X5 M，. （569）汽车颜色18“a [color name]橙色黑色（十八）背景颜色18“a car in front of a [color]橙色黑色（十八）汽车196 [15]车模98“a photo of a [car沃尔沃S60，宝马X5 M，. （569）制造商35“a特斯拉宝马（46）车型7“a photo of a [car敞篷车，SUV，.（七）[第29话]鸟类100“a photo of a [bird黑脚信天翁，生锈的黑鸟，... （100）[16]第十六话服装品类50“a夹克，高领衫，. （五十人）纹理7“a有花的有条纹的（七）织物6“a棉，皮革，. （六）配合3“a紧，松，传统（3）电影海报[3]流派25“a poster of a [genre]喜剧，动作，. （二十五）生产国69“a poster of a movie produced in美国，印度，. （69）非线性自动编码器（AE）虽然PCA和LAE是线性模型，但我们还测试了一个更强大的非线性自动编码器，它由一个具有512个隐藏单元和泄漏ReLU激活函数的双层编码器和解码器组成[17]。我们使用与LAE相同的损失函数和超参数，但增加了10−2的权重衰减，以减轻少数文本提示的过度拟合。OracleInDireCT仅使用文本提示来优化转换矩阵U，该矩阵将CLIP嵌入映射到更专门的、更低维的单位超球面。为了估计InDireCT理论上的性能，我们采用了一个Oracle，它直接在测试图像及其标签上优化U。为此，我们使用常见的DML损失函数Normalized SoftmaxLoss [33]。我们首先如等式（5）和（6）中那样计算单位长度的图像嵌入vi′，然后优化变换矩阵U以最小化不能够捕获期望的相似性概念。5. 结果我们在表2中报告了5次运行的评价指标的平均值和标准差。CLIP基线通常比随机基线获得更好的结果。由于嵌入在每次运行中保持不变，因此其性能的标准差为零，为了简洁起见，将其省略尽管CLIP基线使用四倍大的嵌入向量，但InDireCT几乎总是比CLIP表现得更好，并且在大多数数据集和相似性概念中实现了最佳性能。根据数据集和相似性概念，InDiReCT可以将CLIP的MAP@R分数提高在InDireCT中将学习矩阵切换为随机变换矩阵的性能通常比损失函数LOracle1mmi=1exp（v′c）jexp（vi′c剪辑.如第4.2节所述，PCA仅适用于两个数据集和相似性概念。在那里，Indirect其中，m是测试图像的数量，cliR，其中cli =1是第i个图像的标签的类的原型向量，其使用Adam与U联合优化（学习率为0。01，早停与耐心100）.请注意，在图像引导的Zero-Shot深度度量学习中，图像及其标签都不可用于训练。我们使用这种基线方法，以提供一个非常乐观的估计性能InDireCT可以实现给定的完美信息。归一化Softmax损失是一个基于分类的训练目标，因此图像嵌入是独立处理的。因此，损失不优化最佳最近邻性能，即，精密度@1。为了比较先知与其他模型相比，我们主要使用MAP@R。低（高）Oracle性能可用于识别无法（可以）使用InDireCT可靠表示的相似性概念，因为它们在CLIP嵌入中未被捕获（被捕获）如果InDireCT和PCA执行类似。训练线性自动编码器(LAE)在文本嵌入上的改进通常会提高CLIP的基线，但并没有达到比In-DireCT更好的性能。应用更复杂的非线性自动编码器的性能通常比CLIP基线差，并且还显示出更大的标准差，这可能是由于模型不能很好地处理少数数据点。这些结果表明，选择合适的降维技术可以提高性能，开辟新的研究方向。一般来说，InDireCT通过使用描述所需相似性概念的不同方面的文本提示来学习有用的嵌入函数。Oracle基线直接在图像数据集及其标签上进行优化。尽管如此， InDireCT 匹配或超过了 Cars196 、CUB200的Oracle基线的Prec@1性能，以及如第4.2节所述，这可能是由于归一化Softmax损失的基于分类的性质。对于MAP@R，Oracle是1068表2.我们的实验结果所有数值均以百分比表示，最好用粗体表示。随机夹子（512-dim.）间接随机的译PCALaeAEOracle车模MAP@R3.3 ±0.143.557.4±0.239.1 ±1.656.2 ±0.152.5 ±0.539.5 ±4.4100 ±0.0Prec@117.5 ±0.995.496.4 ±0.093.4 ±0.596.6±0.195.9 ±0.588.7 ±3.6100 ±0.0合成汽车汽车颜色MAP@R5.0 ±0.16.29.1±0.16.1 ±0.1-7.3 ±0.28.6 ±0.457.9 ±0.9Prec@117.5 ±0.827.631.4±0.526.3 ±1.3-29.4 ±0.930.2 ±1.379.3 ±0.8背景颜色MAP@R5.4 ±0.06.27.1±0.06.1 ±0.2-6.3 ±0.26.1 ±0.274.0 ±0.9Prec@119.4 ±1.127.028.3±0.326.6 ±1.1-28.3±0.721.6 ±1.388.0 ±0.4车模MAP@R0.1 ±0.023.537.4 ±0.019.2 ±0.337.5±0.133.2 ±0.220.0 ±5.841.8 ±0.0Prec@11.1 ±0.178.084.4±0.172.9 ±0.584.2 ±0.182.4 ±0.263.8 ±8.176.6±0.1中国人196制造商MAP@R0.5 ±0.024.433.6±0.121.2 ±0.4-24.2 ±0.418.0 ±2.251.4 ±0.0Prec@15.4 ±0.389.090.5±0.184.7 ±0.8-85.5 ±0.363.1 ±3.984.0±0.1车型MAP@R3.5 ±0.025.136.1±0.322.1 ±0.8-27.7 ±0.624.4 ±1.673.8 ±0.0Prec@117.3 ±0.491.190.7 ±0.288.3 ±0.5-89.1 ±0.463.2 ±3.189.1±0.0公司简介鸟类MAP@R0.1 ±0.018.026.5±0.015.2 ±0.3-18.8 ±0.215.1 ±1.934.1 ±0.0Prec@11.2 ±0.158.265.3±0.152.6 ±0.3-58.1 ±0.544.4 ±3.665.3±0.2服装品类MAP@R2.3 ±0.012.518.7±0.111.3 ±0.4-13.3 ±0.316.9 ±1.832.2 ±0.1Prec@111.1 ±0.445.250.9±0.243.0 ±0.6-45.5 ±0.544.5 ±2.455.8 ±0.6DeepFashion纹理MAP@RPrec@111.8 ±0.029.6 ±0.718.760.233.0±0.466.8±0.311.2 ±0.443.3 ±0.5--22.2 ±0.561.2 ±0.716.3 ±0.743.8 ±1.766.1 ±0.180.6 ±0.3织物MAP@R32.4 ±0.034.037.7±0.210.8 ±0.3-35.6 ±0.317.2 ±0.664.2 ±0.3Prec@149.4 ±0.664.566.1±0.642.6 ±0.7-65.1 ±0.644.7 ±1.977.8 ±0.4配合MAP@R51.8 ±0.053.353.9±0.411.1 ±1.0-53.4 ±0.316.1 ±1.882.0 ±0.1Prec@166.6 ±0.677.176.5 ±0.443.1 ±0.5-76.7 ±0.742.9 ±1.987.8 ± 0.6流派MAP@R4.1 ±0.011.414.9±0.09.1 ±0.3-8.4 ±0.19.8 ±2.419.6 ±0.1电影海报Prec@117.5 ±0.441.844.0±0.238.1 ±0.7-36.6 ±0.433.3 ±3.043.2±0.7生产国MAP@R44.6 ±0.049.351.3±0.148.9 ±0.4-47.7 ±0.249.4 ±0.758.1 ±0.0Prec@159.2 ±0.569.369.8±0.367.9 ±0.7-68.1 ±0.364.9 ±0.771.8 ±0.3所有数据集和相似性概念的最佳模型。即使比较是不公平的，我们将InDi-ReCT的性能与文献中的最先进的模型进行了比较，这些模型在请注意，只有Cars196军等人[10]达到94的Prec@1。8和79。Cars196和CUB200分别为2[27]，比InDireCT高出10到14个百分点。然而，经过训练的模型输出了1536维向量，是我们在实验中使用的嵌入维度的十倍以上。对于128维的嵌入，Jun et al.达到 90. 1（ Cars196 ）和 67。6（CUB200）Prec@1，仅比InDireCT高出约6和2个百分点。这些结果表明，尽管不使用任何训练图像，但即使与完全监督的方法相比，InDireCT也可以显示出强大的性能。6. 分析InDireCT 在输入中处理什么？我们希望可视化InDireCT用于输出特定嵌入的图像区域由于积极的实验结果，我们假设，对于一个给定的相似性概念，InDi-ReCT出席主观上更有用的区域比CLIP。因此，我们使用Kobs等人介绍的方法计算显着图。[14]并减去InDireCT的显着图图像汽车模型制造商汽车类型图2.来自Cars196数据集的示例图像和每个相似性概念与CLIP之间的InDi- ReCT更关注黄色区域，CLIP更关注蓝色区域。图像中的补丁模式是由于CLIP的Vision Transformer [4]创建的补丁。更多的例子在附录中。从CLIP我们选择Cars196及其相似性概念，并假设InDireCT比CLIP更关注代表所需相似性概念的区域为了增加在显着图中获得可见差异的机会，我们将InDireCT的嵌入维数减少到两个，从而只提取最重要的特征来嵌入给定图像。图2显示了两个示例图像（附录中有更多内容）。黄色区域表示InDireCT更加关注的图像区域1069×--∈××--而CLIP更关注蓝色区域。灰色区域显示出同样强烈的显著性。与CLIP相比，InDireCT在使用“汽车模型”相似性概念时更关注汽车的区域，这对任务很有用。有趣的是，对于“制造商”，InDireCT大多使用汽车的前部，通常可以找到制造商的徽标。此外，散热器格栅和头灯的设计往往是相对独特的制造商。对于其他嵌入尺寸的性能是否不同？虽然我们的实验将嵌入大小任意设置为128，但我们现在使用不同的目标嵌入维数r ′来测量Cars196数据集的性能。二，四，八，. .，256，512。我们在图3中绘制了所有方法和所有相似性概念的五次运行的MAP@R平均值和标准差。CLIP以其固定的512维绘制为参考线。当使用至少16个嵌入维度时，InDireCT匹配或超过CLIP学习的转换可能会选择、组合和加权CLIP更大的CLIP型号是否能提高性能？对于我们的实验，我们使用 CLIP 模型 “ViT-B/32”[26] ，即 VisionTransformer [4]，具有12层和大小为32的输入面片32像素。我们现在测试更大的CLIP模型作为具有CLIP的“ViT-B/16”和“ViT-L/14”版本的InDireCT中的特征提取器除了其他参数外，我们测试了所有三种ViT尺寸，以查看更大的CLIP版本是否会带来更好的性能[26]。使用具有相似性概念的通过这种分析，我们可以研究更大的模型是否可以提高这些相似性概念的性能。我们使用128个嵌入维度。图4显示了Oracle基础的性能-线随着模型的增大而增加，这意味着模型提取了更多有用的特征，这些特征可能会被InDireCT提取出来对于“汽车模型”相似性然而，在其他两个相似性概念上，我们找不到任何性能改进。由于Oracle基线得到了改进，我们可以得出结论，用于训练InDireCT的文本提示导致关注这些相似性概念的次优特征。其他文本提示可能会提高性能。更多的文本提示是否会提高性能？我们的最终分析仔细研究了如果我们使用不同数量的提示进行实验，InDi- ReCT的性能如何变化。我们使用Cars196数据集，并专注于“汽车模型”相似性概念。最初，我们使用来自在线汽车经销商的569个不同的汽车型号名称作为文本提示的基础（现在，我们从这些汽车型号名称中抽取不同大小的样本，并使用不同的样本进行五次实验图5显示了尺寸10、20、. . .，150。性能随着样本量的增加而增加，并且在大约90个提示时收敛到我们在主要实验中观察到的性能。这种行为是预期的，因为当使用更多提示时，学习的转换能够更好地捕获文本嵌入中对于较少的提示，InDireCT可以几乎完美地重建文本嵌入，因此不需要选择重要的维度。图5还显示，使用较大的提示集，性能的标准差往往会降低。总的来说，我们可以观察到更多（有用的）文本提示应该稳定和提高InDireCT的性能。7. 讨论使用自然语言，拟议的LanZ-DML设置提供了一个简单的接口，用于适应项目检索系统所需的相似性概念。使用原始CLIP嵌入或其他自/无监督方法无法实现这种自适应对于InDireCT，不需要收集和注释示例图像，这是耗时和繁琐的。使用文本提示来表达所需的相似性概念当然更简单，但将其应用限制在具有分类方面的相似性概念上然而，这是一个限制，也适用于流行的基于代理的DML损失函数，如归一化Softmax损失[33]或ProxyNCA [21]，即，使用类原型类型向量的损失函数。还应注意，文本提示的质量可能差异很大。在我们的实验中，我们通过选择plausi- ble提示模板而不对数据进行验证来遵守零拍摄设置。总的来说，我们在数据集和相似性概念上取得了良好的性能。然而，正如提示工程[26]所示，可能存在工作得更好的提示通常，利用数据集CLIP的特性例如，与其使用单个单词作为文本提示，短句通常效果更好[26]。因此，建议在实际场景中应用时测试不同的文本提示10700的情况。40的情况。20的情况。0车模64 128 256 512包埋尺寸0的情况。40的情况。20的情况。0制造商64 128 256 512包埋尺寸0的情况。60的情况。40的情况。20的情况。0车型64 128 256 512包埋尺寸随机剪辑InDireCT随机。译PCA LAE AE Oracle图3.在Cars196上，InDiReCT在嵌入尺寸为16及以上时优于其他零拍摄模型，而在64维时达到峰值1 .一、0车模1 .一、0汽车颜色1 .一、0背景颜色0的情况。50的情况。80的情况。60的情况。20的情况。80的情况。0ViT-B/32 ViT-B/16ViT-L/140的情况。0ViT-B/32 ViT-B/16ViT-L/140的情况。0ViT-B/32 ViT-B/16 ViT-L/14随机剪辑InDireCT随机。译PCALAEAEOracle图4.较大的CLIP模型提高了“汽车模型”的性能0的情况。350的情况。300的情况。25的提示MAP@RMAP@RMAP@R1071并使用训练的降维自适应地变换它们。这样做的缺点是，对于每次搜索，必须将变换矩阵应用于图像集合中的所有向量潜在地，现有的矢量搜索数据库[30，9]可以有效地结合变换来检索相关图像。8. 结论图5.不同数量的培训提示的InDireCT性能我们为每次运行采样不同的汽车型号名称。此外，在没有验证数据的情况下，调整嵌入维度的数量并不简单，当使用128维而不是64维向量用于Cars196数据集时，会导致次优性能，如我们的分析所示。由于我们使用CLIP作为固定的特征提取器，因此我们需要依赖其嵌入的有用性如果CLIP不能从图像和文本中提取与所需相似性概念相关的属性我们已经证明，InDireCT在很大程度上优于CLIP，因此文本提示有助于关注所需的相似性概念。然而，鉴于Oracle的结果，一些数据集和相似性概念（例如，合成汽车的颜色概念）可能会更好地工作。在某些情况下，较大的CLIP模型可以提高性能，如我们的分析所示。由于我们使用预训练的CLIP嵌入和少量的文本提示，因此训练降维很快。它还允许我们预先计算CLIP嵌入在本文中，我们介绍了一种无训练引导的零次深度度量学习（LanZ-DML），这种设置不允许训练数据和标签，而只允许文本来引导给定相似性概念的深度度量学习模型。我们提出的模型InDireCT是基于固定的CLIP嵌入文本提示描述一个给定的相似性概念的不同方面我们已经证明，InDireCT的性能优于强基线，并接近完全监督的方法。我们的分析表明，InDireCT侧重于图像区域，主观上是重要的期望的相似性概念。我们还研究了不同的超参数对模型性能的影响由于其简单的设计和快速的训练，InDiReCT可以为用户定制项目检索系统的相似性概念。可以促进基于相似性概念的变化方面来定义多个提示的需要，例如，通过直接从诸如“如果两辆车是相同的模型，则两辆车图像是相似的”的句子学习变换自动选择超参数和其他模态上LanZ-DML的开发方法例如音频或文本也是令人感兴趣的研究方向。1072引用[1] 阿尔贝托·巴尔德拉蒂，马尔科·贝尔蒂尼，提贝里奥·乌里奇奥，还有阿尔-贝托·德尔·宾博.基于对比学习和剪辑特征的时装条件图像检索。ACM Multimedia Asia，第1-5页。2021年。[2] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter：通用图像-文本表示学习。欧洲计算机视觉会议，第104-120页。Springer，2020年。[3] 朱伟达和郭鸿瑞。基于深度神经网络海报图像的电影类型分类。在社会，情感和主观属性的多模态理解研讨会的前，第39-45页[4] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[5] 玛莎格里亚 · 乔治从球面上选取一点。 Ann. Math.Statist，43：645[6] Junlin Hu，Jiwen Lu，and Yap-Peng Tan.用于野外人脸验证的判别式深度度量学习。在IEEE计算机视觉和模式识别会议论文集，第1875-1882页[7] 胡战轩，吴丹阳，聂飞平，王荣。深度度量学习中的泛化瓶颈。信息科学，581：249[8] Huai Mengdi ， Hongfei Xue ， Chenglin Miao ， LiuyiYao，Lu Su，Changyou Chen，and Aidong Zhang.深度度量学习：泛化分析和自适应算法。在IJCAI，第2535-2541页[9] Je f fJohnson，MatthijsDouze，andHer ve'Je'gou. 使用GPU进行十亿级相似性搜索IEEE Transactions on Big Data，7（3）：535[10] HeeJae Jun ， Byungsoo Ko ， Youngjoon Kim ， InsikKim，and Jongtack Kim.多个全局描述符的组合用于图像检索。arXiv预印本arXiv：1903.10663，2019。[11] MahmutKaya和HasanSakirBilge。深度度量学习：一项调查。对称，11（9）：1066，2019。[12] 莱曼·M·凯尔斯平面和球面三角学与表格。Kells，WillisF.詹姆斯·科恩平淡1940年，美国陆军研究所[13] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[14] Konstantin Kobs，Michael Steininger，Andrzej Dulny，and Andreas Hessels.不同的深度度量学习损失会导致相似的学习特征吗？IEEE/CVF计算机视觉国际会议论文集，第10644- 10654页，2021年[15] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。第四届IEEE 3D表示和识别国际研讨会，澳大利亚悉尼，2013年。[16] Ziwei Liu，Ping Luo，Shi Qiu，Xiaogang Wang，andXiaoou Tang. Deepfashion：通过丰富的注释实现强大的服装识别在 IEEE 计算机视觉和模式识别会议（CVPR），2016年6月。[17] Andrew L Maas，Awni Y Hannun，And

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

图像引导的零拍摄深度度量学习

最新资源