时尚为重点的视觉和语言表示学习——FashionViL框架的提出

170 浏览量更新于2023-11-30 收藏 1.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文FashionViL：时尚聚焦视觉与语言表征学习萧寒1、 2、于立成3、朱夏田1、 4、李章5、宋一哲1、 2、陶翔1、 2萨里大学视觉、语音和信号处理中心（CVSSP）iFlyTek-Surrey人工智能3Meta AI4萨里大学以人为本的人工智能研究所5复旦大学{小韩，夏天，朱，y.song，向天}@surrey.ac.uklichengyu@fb.comlizhangfd@fudan.edu.cn抽象的。大规模的视觉和语言（V+L）预训练已被证明是有效的，以促进各种下游V+L任务的表示学习。然而，当涉及到时尚领域时，现有的V+L方法是不够的，因为它们忽略了时尚V+L数据和下游任务的独特特征在这项工作中，我们提出了一个新的时尚为重点的V+L表示学习框架，被称为FashionViL。它包含两个新颖的特定于时尚的预训练任务，专门设计用于利用时尚V+L数据的两个内在属性首先，与V+L数据点仅包含单个图像-文本对的其他领域相比，时尚领域中可能存在多个图像因此，我们提出了一个多视图对比学习任务，用于将一个图像的视觉表示拉近到另一个图像+文本的组合多模态表示第二，时尚文本（例如，产品描述）通常包含丰富的细粒度概念（属性/名词短语）。为了利用这一点，引入了伪属性分类任务，以鼓励学习的单峰（视觉/文本）表示相同的概念是相邻的。此外，时尚V+L任务唯一包括不符合常见的单流或双流架构的任务（例如，文本引导图像检索）。因此，我们提出了一个灵活的，多功能的V+L模型架构，包括一个模态不可知的Transformer，使它可以灵活地适应任何下游任务。大量的实验表明，我们的FashionViL在五个下游任务中达到了新的技术水平代码可在https://github.com/BrandonHanx/mmf上获得。关键词：视觉与语言，表征学习，时尚。1介绍最近，视觉和语言（V+L）预训练受到越来越多的关注[34，57，43，55，8，37，50，31，33，66]。目的是学习多模式复制-arXiv：2207.08150v1 [cs.CV] 2022年7+v：mala2255获取更多论文2X. Han等人标题：吊带花卉分层长裙款式：象牙色日出描述：阳光烘烤的花朵落在一件浪漫的长裙的分层裙周围，领口有褶边装饰，腰部有可调节的领带带。描述：一名身穿黑色夹克的男子站在一家砖砌店面前。Fig. 1. 左和右分别是时尚数据集FACAD [70]和Flickr30k [48]的例子。可以看到，时尚数据往往有多个不同角度的图像，与结构化的标题和描述相关联，具有多个细粒度的属性（用颜色突出显示）从大规模的图像-文本对的呈现，以改善各种下游单峰或多峰任务。这些模型已被证明是非常有效的，这要归功于两个主要因素：（i）Web上有大量的图像-文本对，免费提供了丰富的训练数据（无需额外的注释），以及（ii）基于transformer的模型架构已被广泛用于学习多模态输入的上下文表示。在这项工作中，我们专注于时尚领域，V+L预训练似乎特别适合。首先，时尚V+L数据不仅数量多，而且质量高在线时尚购物越来越普遍;在电子商务网站上，每个产品详细信息页面（PDP）都包含产品图像和文本，两者都具有非常高的质量（即，通常由领域专家生成）。其次，在现实世界的应用中，有很多下游任务，比其他领域更多，从多模态产品理解[38，44]，跨模态检索[18]到文本引导的图像检索[67]。然而，当应用于时尚领域时，我们观察到现有的SOTA V+L预训练方法[18，79]与其他领域相比效果较差（参见第二节）。4）。我们认为，这是因为它们的设计并不是为了利用时尚V+L数据和下游任务的一些独特特征。特别是，在大多数现有的通用域V+L数据集（例如，，COCO [39]和Flickr 30 k [48]），每个数据点都是一个单一的图像-文本对，并且文本通常很简短（例如，如图1所示的图像标题）。相比之下，时尚数据集主要从电子商务网站上的PDP收集，因此具有两个特点：（i）通常有多个图像与给定文本相关联。一个例子如图所示1.一、服装（ii）由于文本作为产品说明，因此文本说明中有更多的细粒度概念。如图1所示，时尚文本更侧重于服装本身，使用非常详细的形容词和名词，在标题，款式和描述中描述其外观。为了证明这在统计上是正确的，我们计算了四个组合时尚数据集[52，23，70，60]和两个组合通用数据集[48，39]的比率。我们发现+v：mala2255获取更多论文FashionViL：以时尚为中心的V+L表示学习3时尚标题中82%的词是形容词或名词，而通用标题中这一比例仅为59%。现有的V+L模型中没有一个能够在时尚数据中利用这些特性时尚下游的任务也比通用领域的任务更加多样化，这对V+L预训练模型架构设计提出了挑战。更具体地，在通用V+L域中，现有模型是单流或双流的，这取决于预期的下游任务。例如，对图像和文本标记的级联进行操作的单流模型[34，55，8，31，28]适用于多模态融合任务，如VQA [2]，VCR [73]和RefCOCO [72]。相比之下，双流模型[43，57，29，50，56]通常是为有效的跨模态检索任务6而设计的。然而，在时尚领域，除了图像-文本融合和跨模态检索下游任务之外，还存在单流或双流架构都不适合的任务例如，文本引导的图像检索任务[62，67，21]不仅需要参考图像和修改文本的高质量融合，而且还需要融合的多模态表示和候选图像之间的有效匹配由于时尚下游任务的多样性，现有的模型，无论是单流或双流，不具有所需的灵活性和多功能性。为了克服现有模型的局限性，我们引入了一个新的时尚为重点的V+L表示学习框架，称为Fash-ionViL。提出了两个以时尚为中心的预训练任务，以充分利用时尚数据的特性。第一个任务是多视图对比学习（MVC）。给定具有多个图像/视图和一个文本描述的时尚数据项，我们假设每个模态（无论是单峰还是多模态）应该在语义上彼此相似，因为它们都指的是相同的产品。因此，除了常见的图像-文本匹配之外，我们建议最小化（a）其视图和文本之一的多模态表示与（b）其他视图之间的距离第二个任务是伪属性分类（PAC），旨在利用描述中丰富的细粒度时尚概念具体来说，我们从时尚数据集中提取这些常见的属性/名词短语，并构建一个伪属性集。然后，模型在预训练期间学习明确预测这些属性。PAC鼓励具有相同属性的时尚物品聚集在一起，以便学习的表示变得更具区分性。我们证明了（见第4.3节）这些新的预训练任务是有效的，并且是对传统预训练任务的补充，例如图像-文本对比学习（ITC）和掩蔽语言建模（MLM）。此外，设计了灵活和通用的模型架构，使预训练模型易于适应各种下游任务。新的设计保持了单流模型优越的融合能力和双流模型的可扩展性。最重要的是，它也迎合了时尚领域的独特任务，如文本引导的图像检索和服装补充项目6也可以应用单流模型，但它需要遍历每对查询和图库项，导致在大规模应用中检索速度不可接受。+v：mala2255获取更多论文4倍。Han等人检索具体来说，我们的模型包括一个图像编码器和一个模态无关的Transformer模块，它可以用作文本编码器或多模态融合编码器。因此，它可以容易地针对三种不同的下游用例进行微调：（i）用于联合表示学习的早期融合单流模式，例如，多模态分类;（ii）用于单峰表示学习的后期融合双流模式，例如，（iii）用于组合表示学习的早期融合双流架构，例如，文本引导的图像检索。（1）提出了一种新的针对时尚领域的V+L预训练框架，该框架通过两个新的V+L预训练任务，充分利用了时尚数据的特点（2）提出了一种灵活的体系结构设计，采用了共享的文本编码器和融合编码器，可以很容易地适应一组不同的时尚下游任务。（3）为了证明FashionViL的泛化，我们在5个时尚V+L任务上评估了我们的模型：图像到文本检索，文本到图像检索[52]，文本引导的图像检索[67]，（子）类别识别[52]和服装互补项检索[60]。实验表明，FashionViL实现了一个新的最先进的（SOTA），在每个下游任务的一致和显着的性能提升据我们所知，这是第一个能够同时解决5个不同时尚任务的作品2相关工作随着Transformer [61]的出现及其在NLP [10]和CV [13]中的成功，在将大规模V+L预训练应用于通用领域方面取得了巨大成功[34，8，33，50]。最近的一些研究开始关注电子商务领域，包括时尚[18，79，78，11，76]。现有的作品在两个主要方面有所不同：架构设计和预培训任务。模型架构。所有V+L预训练方法都使用图像和文本嵌入序列作为输入，用于通过CNN或Transformer架构对模态间和可选模态内交互进行建模，并输出情境化特征序列[6]。不同方面的架构设计有很多选择，包括单流早期融合[34，55，8，37]与双流后期融合[57，43，29，50，17]，或不同的视觉特征（例如，基于探测器的区域[75]与 ConvNet补丁[28]与线性投影[31，69]）。在许多情况下，设计是由预期的下游任务驱动的（例如，VQA需要早期融合以增强联合表示，而跨模态检索需要后期融合以加速推理）。也有努力通过检索和重新排序策略[56，19]或知识蒸馏[65，41]来缓解不同架构之间与他们不同的是，受模态不可知模型[1，71，64，63，35]的最新进展的启发，我们引入了一个统一的架构，可以在单流或双流模式之间轻松切换，因此不需要为不同的下游任务修改架构。培训前的任务。已经为V+L预训练提出了各种任务。Masked LanguageModeling（MLM）和Image-Text Matching（ITM）是+v：mala2255获取更多论文ITM MLM MPFCFe句子IE图像PACPAC国TE句话IE图像FashionViL：以时尚为中心的V+L表示学习5(b)联合表示学习（c）单峰表示学习MVCFeIE句话IE图像1图像2(a) （d）多视图多模态表示学习图二、概述了建议的FashionViL模型架构，包括图像编码器，文本编码器和融合编码器。文本编码器和融合编码器共享相同的参数。我们采用六个预训练任务来学习不同的表征BERT目标的直接对应物[10，34]。Masked Image Modeling（MIM）是MLM在视觉模态上的扩展，包括几个变体，如掩蔽区域分类[43，55]和掩蔽区域特征回归[8]。其他一些任务也被证明是有效的，例如预测对象标签[37，27]，顺序字幕生成[77，66]和图像-文本对比学习[33，50，36]。然而，这些任务中没有一个能够利用前面讨论的时尚数据的两个特性。因此，我们在这项工作中提出了两个以时尚为重点的预训练任务。3方法3.1模型概述FashionViL的模型架构如图2（a）所示，它由图像编码器（IE）和Transformer 模块组成，可用于文本编码器（ TE ）和融合编码器（FE）。具体来说，我们的图像编码器使用ConvNet作为其骨干，通过栅格化最终特征图的网格特征，将原始像素转换为一系列视觉嵌入。对于文本编码器，我们遵循 BERT [10] 将输入句子标记为WordPieces [68]。每个子单词标记模型设计的一个新颖之处在于TE和FE的共享Transformer，这使我们能够灵活地构建各种多模态模型架构，每种架构都适用于不同类型的下游任务。例如，图2（b）示出了早期融合模型架构，其中原始句子和计算的图像嵌入被联合馈送到多模态融合编码器中。请注意，当我们使用Transformer作为融合编码器时，我们将进一步将模态嵌入添加到视觉嵌入和单词嵌入中，帮助模型区分模态类型。这种架构[CLS]文本编码器（Transformer）融合编码器腮红荷叶边连衣裙图像编码器（ConvNe原始不同图像角度图像图像+v：mala2255获取更多论文.Σ给定一个图像-文本对，我们将其原始视觉输入表示为vi= v1，. . . ，vK，我，我，. . ，w i，其中下标i表示我J6倍。Han等人与许多以前的预训练工作中众所周知的单流模型完全相同[34，8，18]。然后在图2（c）中，我们示出了后期融合双流模型架构，其中我们应用可共享的Transformer作为文本编码器。来自图像编码器和文本编码器的输出与简单的点积交互以计算两种模态之间的相似性。这种架构已被广泛采用，用于高效的大规模跨模态检索[56，19]。此外，我们可以将这个共享的Transformer微调为更复杂的双流架构变体，如图2（d）所示。这里，一个流以早期融合方式操作，而另一个流是图像编码器。这种架构是需要一些时尚为重点的检索任务与多模态查询，例如。，文本引导的图像检索[62，67]。请注意，所有FE和上述三种架构中的TE实际上是同一个Transformer，区别仅在于其输入端。.cls1T ii数据集中的第i对。一个额外的特殊[CLS]令牌插入在文本序列的开始，以及模态连接时的多模态序列。当将模型应用于下游任务时，我们遵循常见的预训练+微调管道。3.2培训前任务我们首先介绍两个新的预训练任务。其次是我们框架中采用的其他常规预训练任务。多视图对比学习（MVC）。如可见于图1、每件时尚单品往往与多个视图相关联，以提供产品的全面概览。为了利用不同视图之间的互逆信息，我们建议在（a）原始视图v的视觉表示和（b）组成表示之间建立相关性。另一个视图D和文本W的图像。在只有一种观点的情况下，产品，我们通过随机裁剪或水平翻转给定视图来增强另一个视图。如图2（d）所示，原始视图的视觉表示由图像编码器提取，而组成表示以早期融合方式计算。因此，多模态输入[w;d]7和v之间的相似度可以计算为：s（[wi;di]，vj）=gθ（dav g|wi）Tgθ。（1）第一次见面。其中g表示将平均汇集特征投影到归一化低维潜在空间中的线性变换。接下来，我们应用两个对称的InfoNCE损失[46]来拉近共享潜在空间中匹配的组成表示和视觉表示exp（s（x，y）/τ）LInfoNCE（x，y）=−E（x，y）Blogy∈B、（二）exp（s（x，y）/τ）7.我们以15%的概率随机丢弃w中的一些单词和d中的补丁，其输入单词为wi=+v：mala2255获取更多论文M| | −MFashionViL：Fashion-Focused V+L RepresentationLearning1LMVC=2[LInfoNCE（[w;d]，v）+LInfoNCE（v，[w;d]）]，（3）其中，τ是可学习的项，并且B是包含位置样本y的，并且B组1.从一个小型实验室中提取的样品。伪属性分类（PAC）。如SEC所述。1，我们发现在时尚描述中存在大量的细粒度属性。我们建议从所有可用的文本信息中挖掘伪属性概念，包括标题，描述和元信息。具体来说，我们通过NLTK tagger [5]提取所有名词和形容词，只保留那些出现超过100次的名词和形容词，从而得到一个包含2，232个属性的列表。我们在图3中显示了前50个伪属性的直方图。据观察，所有这些都是真正高度相关的时尚领域。然后，我们探讨如何利用这些挖掘的概念。我们的目标是让我们的模型在预训练阶段学习明确识别这些伪属性。我们将此任务建模为多标签分类问题，称为伪属性分类（PAC）。如图2（c）所示，我们将PAC应用于视觉和文本模态，以便两个编码器都可以学习捕获细粒度的概念。由于这是一个弱监督学习设置，我们利用标签平滑来生成标签[25]，考虑到挖掘的标签可能是嘈杂的。我们使用A来表示整个2，232个伪属性集，并将a作为每个类的平滑软目标。例如，如果一个样本在位置0和1处有两个地面真值标签，则 0=1 = 0。5而ai= 0（i≠0， 1）.我们的目标如下：LPAC=−E（w，v）<$DEa<$A[alogPθ（a|w）+alogPθ（a|（五）]、（4）其中θ是可学习的参数，每对（w，v）都是从整个训练集D中采样的。屏蔽补丁特征分类（MPFC）。虽然朴素的掩蔽特征回归在V+L预训练中没有帮助[31，14]，但我们根据经验发现我们的掩蔽补丁建模版本在时尚领域是有效的。具体来说，我们忽略每个掩蔽补丁的特征重建，而是预测离线图像标记器给出的补丁标签。为此，我们首先训练一个离散的VAE [59，51，15]作为我们收集的具有perceputal损失的时尚图像的图像标记器[12]。我们还采用指数移动平均（EMA）来更新码本，这被证明对提高码字的利用率是有用的[59，12]。我们通过分块掩蔽策略随机将25%的补丁特征替换为零[4]8。由于现在我们为每个补丁提供了离散标签，因此可以训练模型来预测通过优化每个被掩蔽的片vm，给定剩余的片v|mLMP FC=−E（w，v）<$DlogPθ。vt|v\m，w\m，（5）其中v t是被掩蔽的补丁的估计目标标签。8在UNITER之后，我们对MLM/MPFC使用条件掩码，即每次仅掩蔽一种模态而保持另一种模态不变。+v：mala2255获取更多论文.Σ.Σ联系我们变换f和g：s（wi，vj）= f θ（wavg）Tg θvavg. ITC的损失是：8倍。Han等人100k75k50k25k0图三. 前50个伪属性的直方图图像-文本对比学习（ITC）。我们还使用ITC来鼓励两个单峰表示在潜在空间中接近。如图所示在图2（c）中，w和v的相似性是通过在用两个线性映射I j1LITC=2[LInfoNC E（w，v）+LInfoNC E（v，w）]。（六）Masked Language Modeling（MLM）在MLM中，我们以15%的概率随机屏蔽输入单词，并使用特殊令牌[MASK] 9替换属于屏蔽单词w m的所有子单词。MLM的目标是根据对其周围词的观察来预测这些被屏蔽的子词w\m和所有图像块v，通过最小化负对数似然：LMLM=−E（w，v）<$DlogPθwm|wm，v.（七）图像-文本匹配（ITM）。在ITM中，输入是一个图像-文本对，目标是一个二进制标签z 0，1，指示每个输入对是否匹配。根据[33]，我们从相似性矩阵中抽取硬负对s（wi，vj），然后生成包含50%负对的小批H我们在最后一层提取[CLS]的隐藏输出来表示两种模态的联合表示，然后将其馈送到FC层进行两类分类。我们对ITM应用交叉熵损失：LITM=−E（w，v）<$HlogPθ（z|w，v）。（八）4实验在本节中，我们将介绍我们的预训练数据集和5个实际的下游任务。我们使用MMF [54]和PyTorch [47]来实现。对于图像编码器，我们使用现成的ResNet50 [24]与以前的方法进行比较，其中大多数也使用ResNet50 。对于文本编码器和多模态融合编码器（使用共享的Transformer），我们使用BERT-base- uncased [55]作为初始化。我们使用4个RTX 3090 GPU进行预训练。补充文件中列出了超参数的详细信息。[9]在BERT和UNITER之后，我们将这15%分解为10%的随机词、10%的不变词和80%的[MASK]。+v：mala2255获取更多论文FashionViL：Fashion-Focused V+L RepresentationLearning表1. 用于预培训的数据集统计数据集[第52话]FACAD [60]第60话：我的世界#products #pairs #products #pairs #products #pairs总#产品#对火车60k260k164.5k847k77k172k72k72k373.5k1.35MVal7.5k32.5k18k94k13k30k14.5k14.5k53k17万4.1预训练数据集和下游任务预训练数据集。我们的预训练数据集由4个公共时尚相关数据集组成，即 FashionGen[52] ， FACAD[70] ， Fashion200K[23] 和PolyvoreOutfits [60]。总的来说，这些数据集为我们提供了373.5K的时尚产品用于预训练。由于每个产品可能包含来自不同角度的多个图像，我们手头上有大约135万个图像-文本对详细统计数字载于表1。跨模态检索图像到文本检索（ITR）是一个跨模态的检索任务。给定一个图像查询，我们的模型从一个大的候选池中找到最对齐的文本先前的时尚领域预训练工作[18，79]使用[CLS]令牌上的联合表示来预测匹配分数，由于每个查询项与早期融合模型中的所有图库项之间的穷举匹配，这导致了不切实际的时间复杂度[56，65，41，74，19]。虽然我们的模型架构之一可以做同样的事情（如图2（b）），但我们选择使用图2（b）中的双流后期融合模型2（c）计算余弦相似度，以获得更有效的检索[29，50]。文本到图像检索（TIR）是ITR的逆问题，其中查询模态和图库模态交换。TIR的架构与ITR相同。文本引导图像检索（TGIR）。TGIR是一种特殊类型的图像检索问题，其查询是多模态组合[20，62，67，21]。具体地说，给定一个查询图像和一个修改的句子，该模型需要检索另一个图像，该图像具有与查询图像相似的外观，但根据查询文本有一些外观变化。它在时尚中有许多实际应用，例如根据用户的参考服装和他/她的反馈检索另一件服装。为了处理多模态查询的唯一性，过去已经提出了几种有趣的融合方法，例如门控机制[62，53]，分层注意力[7]和风格-内容修改[32]。在这项工作中，我们遵循[42]简单地应用一个早期融合模型，用于编码查询图像的组成表示和修改后的文本，这是显示在图。2（d）.类别/子类别识别（CR/SCR）。（子）类别是描述产品的虚拟属性。(S)CR要求模型产生可靠的联合表示。根据以前的工作[18，79]，我们直接在[CLS]上添加一个线性层来预测这些任务的标签装备补充项目检索（OCIR）。OCIR旨在找到几个给定项目中视觉上兼容的项目以完成装备。这是一个非常实际的任务，因为人们经常购买与先前选择或购买的服装相匹配的服装。OCIR可以成为在线零售商的有用推荐功能[40，26]。为了完成这项任务，我们更换了CSA的骨干-+v：mala2255获取更多论文10倍。Han等人表2. FashionGen [ 52 ]上的跨模态检索结果与KaleidoBERT [ 79 ]中使用的协议。-e2 e：没有端到端培训，即，图像编码器是固定的。-PT：直接微调，无需多模态预训练方法VSE++[16个]ViLBERT维尔伯特[43][55]图像-BERT[49]时尚-BERT[18]奥斯卡[37个]卡雷多-BERT[79] -e2e-pt我们-PTR@14.5920.9719.2622.7623.9623.3927.9921.1358.8465.54ITR R@514.9940.4939.9041.8946.3144.6760.0946.8289.4691.34R@1024.1048.2146.0550.7752.1252.5568.3758.7195.8496.30R@14.6021.1222.6324.7826.7525.1033.8825.8357.1661.88TIR R@516.8937.2336.4845.2046.4849.1460.6051.5484.3487.32R@1028.9950.1148.5255.9055.7456.6868.5963.5391.9093.22是说15.6936.3635.4740.2241.8941.9253.2544.5979.5982.60Net [40]使用FashionViL的预训练图像编码器请注意，与上述所有多模态/跨模态任务不同，在此下游任务中仅使用预训练的图像编码器我们利用这个任务来评估我们的图像编码器的性能下提出的多模态预训练。4.2比较结果跨模态检索我们在Fash-ionGen [52]测试分割（不包括在预训练中）上评估跨模态检索，包括ITR和TIR。表2比较了以前的V+L预训练方法与我们的FashaionViL的性能因为以前的作品[18，79]是用单流架构设计的，所以它们只能在一个小的检索集上进行评估。例如，对于TIR，模型需要从给定文本查询10的101个图像中挑选最佳匹配的图像。召回（超过1K次检索）被报告为度量。ITR使用相同的设置为了进行公平比较，我们严格遵循相同的评价方案，报告了1K次检索的召回11。在表2中，我们将FashionViL及其两个变体与现有方法进行了比较。特别是，-e2 e和-pt分别表示我们的模型没有端到端训练（图像编码器是固定的）和多模态预训练。我们有以下观察结果：（1）即使使用固定的图像编码器并且没有预训练，FashionViL也已经达到了与现有方法相当的结果。这表明后期融合的性能可以与早期融合一样有效，用于这种细粒度的跨模态检索。(2)当我们解冻图像编码器进行端到端训练时，我们观察到R@1从21跳变。十三到五十八84，表明端到端训练非常有效，冗余的预处理可能是不必要的。(3)当我们进一步利用我们提出的多模态预训练时，我们的模型达到了表中2，其R@1是以前SOTA的两倍多请注意，我们用于此任务的模型架构是双流的。这意味着它可以应用于大规模的检索，与比较基线不同。10在101张图片中，1张图片与文本正面配对，其他100张图片随机配对，但与正面图片共享相同的子类别，增加了难度。[11]由于作者没有公布他们的1K检索集，我们报告了5个随机选择的1K检索集的5个实验的平均召回率。+v：mala2255获取更多论文∼FashionViL：Fashion-Focused V+L RepresentationLearning表3.Fa shionGen [ 52 ]上的跨模态检索结果，并进行了全面评价ITRTIR是说R@1R@5R@10R@1R@5R@1042.8871.5780.5551.3475.4284.7567.75表4.FashionIQ上的文本引导图像检索结果[67]图像编码器固定ResNet 152ResNet 50融合模块文本编码器[42]第四十二话(1)（二更）Ours角（三）我们（四）[62]第62话：我的世界GRU [9] GRU [9]GRU[9]BERT[55](5)（六）（七）（八）Ours角（九）我们（十）裙子R@10R@5014.3834.6617.4540.4120.9742.6422.6646.6023.6549.9326.2850.2524.4951.0127.1753.2528.4654.2433.4759.94衬衫R@10R@5013.6433.5617.5338.3117.6241.3218.7441.5621.9846.6121.6945.5318.9943.5722.2845.5822.3346.0725.1750.39托普蒂R@10R@5016.4438.3421.6445.3821.6746.4625.2950.2827.8455.0727.4356.2525.1954.0027.8457.1129.0257.9334.9860.79我一个25.1730.2031.7834.1937.5137.9136.2138.8739.6744.12因此，我们还报告了完整测试集（32 K图像-文本对）的评估结果，即，将每个查询项与完整测试集中的每个图库项进行比较结果见表3。我们鼓励未来的作品也遵循这样一个完整的评估协议来衡量性能。文本引导的图像检索。对于TGIR，我们将我们的FashionViL与之前的V+L预训练方法和Fash-ionIQ上的特定任务方法进行了比较[67]12。结果示于表4中。为了更全面的比较，我们使用两个不同的实现采用以前的方法，即。，用固定图像编码器训练[42]或端到端训练[62，7，32]。我们首先报告使用固定ResNet 152从第1列到第4列（C1-C4）的结果。CIRR采用OSCAR [37]作为融合模块，全局图像特征作为输入。我们发现FashionViL始终优于CIRR，在有或没有多模式预训练的情况下（C1与C3，C2与 C4）相对增益为10%-20%。这一改进表明，块级特征优于全局特征的组合多模态融合。通过我们提出的预训练，性能从31.78进一步提高到34.19（C3与 C4），表明我们的预训练在现成的固定图像编码器上也能很好地工作。然后，我们报告了端到端训练范式（C5-C10）下的结果我们发现，简单地用BERT（C5与 C8）取代GRU已经导致了4%的相对增益（从23.65到27.17），这表明了拥有更高质量文本编码器的重要性。此外，所有以前的工作都采用了后期交互之间的图像嵌入和修改的文本嵌入与精心设计的融合模块，例如。，TIRG [62].我们认为，这两种模态的早期融合应该导致更好的组合嵌入查询的目的。比较C9和C8，我们没有预训练的FashionViL已经优于TIRG+BERT，这表明我们的模型学习了更好的查询多模态嵌入。请注意，我们的文本编码器和融合编码器是共享的，因此FashionViL还保存了更多的训练参数12复制以前方法的细节见补充文件。+v：mala2255获取更多论文12倍。Han等人表5.FashionGen上的类别/子类别识别结果[52]方法时尚BERT ImageBERT OSCAR KaleidoBERT[18][49][37][79]我们-PTCRACC宏F91.2570.5090.7769.9091.7972.7095.0771.4097.0784.7297.4888.60SCRACC宏F85.2762.0080.1157.5084.2359.1088.0763.6091.4578.1392.2383.02是说77.7674.5776.9679.5487.8490.33表6.Po l y v o r e O u t f i t s 上的服装互补项检索结果 [60]方法类型感知SCE-Net CSA-Net ADDE-O[40][26]第二届世界卫生大会CSA-Net再现我们-PTR@103.664.415.936.182.694.385.83OCIR R@308.269.8512.3113.796.2910.5412.61R@5011.9813.8717.8518.609.1414.7717.49是说7.979.3812.0312.866.049.9011.98比TIRG+BERT。在预训练的帮助下，我们的FashionViL以11.2%的相对增益（C9与C10）。类别/子类别识别。在KaleidoBERT [79]之后，我们在FashionGen数据集[ 52 ]上评估了CR和SCR。图2（b）中模型架构的联合表示用于预测分类得分。结果示于表5中。再一次，端到端的学习和精心设计的特定于时尚的预训练任务帮助我们的FashionViL以显著的优势（分别为10.4%和3.2%）超越了前两个作品。此外，我们还模拟了一个新的任务-在补充文件中查看更多结果装备补充项目检索。除了前面提到的多模态和实例级下游任务之外，我们还在单峰服装级任务上检查了FashionViL，即，OCIR.我们将我们的模型与之前的特定于任务的方法[40，26]在Polyvore Outfits [60]13的不相交分割上进行比较。如表6所示，我们的多模态预训练使性能提高了21.0%，即使只调整了图像编码器4.3消融研究我们通过对上述五个下游任务的消融研究，分析了不同预训练任务和共享TE/FE策略的有效性。完整结果列于表7中。除了每个基准测试的标准指标外，我们还使用Meta-sum（所有基准测试的所有分数之和）作为全局指标。首先，我们在Line 0（L0）中建立一个没有任何多模态预训练的基线，即，图像/文本编码器用现成的ResNet 50或BERT初始化，其在仅视觉或仅语言域中进行预训练。13我们无法访问CSA-Net的数据分割，因此构建了Polyvore Out-fits [60]，并根据原始论文[40，26]自行复制了CSA-Net+v：mala2255获取更多论文FashionViL：Fashion-Focused V+L RepresentationLearning表7. 使用ITR、TIR、TGIR、SCR和OCIR作为下游任务对培训前任务进行评估。每个数字是一个特定下游任务的所有指标的平均值。Meta-sum代表每行中所有数字的总和三个灰色阴影表示共享TE和FE培训前任务ITRTIRTGIRSCROCIR元和(0)没有一62.5068.0939.6784.799.90265.04（一）MVC（仅使用增强图像）62.8568.5840.5084.869.53266.32(2)mPFC62.1068.1240.2286.3910.05266.88（三）MLM（仅掩码属性字）62.3267.9340.4685.8310.38266.92(4)传销62.1567.4340.2986.7210.38266.97(5)PAC63.1569.3040.6886.369.58269.07(6)MVC63.3068.3240.9485.9910.83269.38(7)国贸中心64.6370.6143.1386.2510.69275.31（八）ITC + MLM + MPFC64.2870.0243.3187.2111.12275.94（九）ITC + MLM + MPFC + ITM64.3770.4443.5687.1711.08276.62(10)ITC + MLM + MPFC + ITM + MVC64.8870.3443.9487.1211.56277.84(11)ITC + MLM + MPFC + ITM + MVC + PAC65.0070.6344.1287.6311.98279.36（十二）ITC + MLM + MPFC + ITM + MVC + PAC（不共享TE和FE）64.1669.1542.8786.2211.31273.71其次，我们通过每个预训练任务的独立表现来验证其有效性，即。，每次我们只选择一个任务进行预训练。我们展示了L2、L4、L5、L6和L7中的MPFC、MLM、PAC、MVC、ITC的结果从表7中可以清楚地看出，所有这些预训练任务都可以使下游任务受益。然而，我们发现，预训练任务往往对类似类型的下游任务更有帮助。例如，MPFC（L2）和MLM（L4）都专注于建模跨模态相互作用，因此它们为SCR带来更多增益，但对ITR和TIR的贡献相对较小。相比之下，由于ITC（L7）与ITR和TIR具有相同的目标，因此它显著提高了跨模态性能。对于TGIR，它不仅需要高质量的成分表征，而且需要高质量的单峰表征，因此5个预训练任务中的每一个都有积极的影响。第三，我们验证了所提出的PAC（L5）和MVC（L6）的有效性。对于PAC，我们实现了一个比较实验：MLM只对那些预定义的伪属性词（L3）。L3和L5之间的主要区别在于多标签监督是对每个掩码文本令牌还是对全局表示执行。L3导致比L5低得多的性能有趣的是，L3实现了与L4相当的结果，其中每个单词（包括伪属性以外的单词）也可以被屏蔽。这意味着仅仅屏蔽细粒度的单词与均匀地屏蔽所有单词一样有效，这表明最重要的文本线索在于那些细粒度的概念单词。验证了MVC的优越为此，我们增加了一项不使用多角度图像（L1）的消融研究，即用原始图像的增强版本替换采样的不同角度图像。通过对L1和L6的比较，我们证实了MVC的改进主要来自于从不同角度对图像的对比学习+v：mala2255获取更多论文14倍。Han等人见图4。从FashionViL学习的视觉/文本/关节表示的T-sne接下来，我们研究这些任务的不同组合的效果。当我们将MLM和MPFC添加到ITC（L 8）时，我们观察到Meta-sum的增益，而ITR和TIR的性能略有下降。这是预期的，因为不同的任务可能为相同的参数提供不同的更新方向，这导致一些任务掩盖了其他任务的效果然而，不同任务之间的小冲

下载后可阅读完整内容，剩余1页未读，立即下载