电子商务跨模态检索的改进方法

165 浏览量更新于2023-10-25 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

18051EI-CLIP：电子商务跨模态检索Haoyu Ma1*，Handong Zhao2，<$Zhe Lin2，Ajinkya Kale2，ZhangyangWang3，Tong Yu2，Jiuxiang Gu2，Sunav Choudhary2，Xiaohui Xie11加州大学欧文分校，2Adobe Research，3德克萨斯大学奥斯汀分校{haoyum3，xhx} @ uci.edu，{hazhao，zlin，akale，tyu，jigu，schoudha} @ adobe.com，atlaswang@utexas.edu摘要电子商务域名电子商务中的跨语言-图像模态检索是产品搜索、销售和营销服务的基本问题经过广泛努力柴油坦克斯泰尔·迪塞尔“diesel” “fuel”“garage” “gas”“pump” “diesel”T-DIEGO-CUTY标志T恤品牌：diesel成分：棉100%类别：T恤适合：放松清洗说明：机洗克服了一般领域中的跨模态检索问题。在电子商务中，一种常见的做法是采用预先训练好的模型，对电子商务数据进行微调。尽管它的简单性， perfor-mance是次优的，由于忽略了电子商务多模态数据的独特性。最近的一些努力[10，72]CanadaGoose加拿大鹅大鸟在飞行中关闭美丽的水湖。“goose” “canada”Canada Goose男式远征派克大衣品牌：加拿大鹅成分：[外壳] Arctic-Tech尼龙，[衬里]尼龙，天然郊狼毛皮类别：外套适合：宽松的拉链已经显示出对于具有用于处理产品图像的定制设计的通用方法的显著改进不幸的是，据我们所知，没有现有的方法已经解决了电子商务语言中的独特挑战。这项工作研究了杰出的一个，在那里它有一个特殊的意义实体，例如，“通过在因果推理范式中制定这种分布外微调过程，我们将这些特定实体的错误语义视为导致检索失败的混淆因素。为了纠正这些语义，使其与电子商务领域知识保持一致混淆实体选择模块和实体感知学习模块。我们的方法在电子商务基准Fashion-Gen上实现了具有竞争力的性能。特别是，在前1精度（R@1），我们观察到10.3%和10.5%的相对改善，在图像到文本和文本到图像检索的最接近的基线，分别。1. 介绍跨视觉和语言检索，作为多模态搜索系统的基本组成部分，已被广泛研究[13，18，24，27，32，38，41，43，69，70]。它*作者在Adobe Research实习期间完成的工作†通讯作者。图1.一般领域和电子商务领域之间的领域转换说明。在电子商务领域，具有强领域语义的标签实体的集合与标题/描述和图像相关联。将语言数据作为查询并检索相应的视觉数据，反之亦然。这一领域的一个关键挑战是如何在语义上对齐视觉和文本数据在电子商务产品的跨模态检索中，电子商务图像和电子商务语言都具有许多独特的特征。如图1、电子商务产品图像通常只包含一个简单的场景，有一两个前景对象和一个普通的背景。同时，电子商务语言通常由一组元数据（标签实体）组成[15，39]，包括产品标题/描述，品牌，类别，成分等。FashionBERT和KaleidoBERT[72]建议时尚领域的跨模态检索需要更多的细粒度特征（例如短袖和圆领）。感兴趣区域（ROI）[11]的方法检测具有重复的对象区域或与产品不相关的子区域的不令人满意的区域提议。为此，这些工作集中在细粒度表示学习的图像，通过基于补丁的方法。尽管取得了巨大的成功，但他们只关注图像的挑战，而语言部分18052[5 ]《易经》中的“五行”。在本文中，我们从语言部分改进了跨通道产品检索。具体来说，我们设计我们的模型与以下两个动机的独特的语言在电子商务中。动机1：在电子商务中，单词标记经常会产生特殊的含义，而[10，38，72]中的预训练语言模型部分尽管有大规模的预训练语料库，但仍有偏见。例如，预训练CLIP模型中的实体其他例子包括最近从因果推理的角度研究了多模态微调中的这种分布外问题[67]。Zhang等人将图像和语言之间的这种不受欢迎的虚假混淆表述为通过使用结构因果模型（SCM）图[36]建模，作者通过后门干预[36]进行硬干预以消除数据集偏倚。然而，当对混杂变量建模时，Zhang等人。遵循传统的BERT令牌词汇表，将每个实体视为一组（子）单词，以确定其他实体[10，72]。这忽略了电子商务中大量的特殊含义实体，如此外，这将不可避免地使不同的实体与共享的混淆（子）单词令牌（诸如 “Canada Goose“ 和 “GoldenGoose“）相互干扰为此，语言部分应该是实体感知的[31，47，71]，并与预训练语言模型中编码的特殊实体的传统含义相0.280.270.260.250.240.230.220.210.2文本转图像描述描述+品牌描述+季节描述+类别描述+成分描述+品牌+季节+猫。+补偿图2. Fashion-Gen上图像到文本和文本到图像任务的实证分析。我们通过连接不同的文本Meta数据来微调预训练的CLIP模型。报告了前1位准确度的结果同时，Meta数据的多样性导致了我们的动机2：Meta数据对跨模态检索的贡献是不均衡的。具体来说，以前的方法通常将所有元数据连接在一起以形成长句[10，24，38，41，43，72]。然而，这种简单的解决方案平等地对待每个Meta信息。在实践中，对于不同的图像/文本对，元数据（标签实体）可能有不同的贡献。有些元数据甚至可能有害去取回为了支持这一说法，我们使用简单而有效的CLIP模型对Fashion-Gen数据集进行了实证研究[38]。我们在Fashion-Gen数据集上对预训练的CLIP模型进行了微调，给出了不同的Meta实体连接。从图2中可以看出，给定产品描述（深蓝色），“品牌”（橙色）是唯一有帮助的元数据。添加更重要的是，如果我们连接所有的Meta数据（绿色），与在文本到图像和图像到文本任务中仅附加“品牌”相比，这两个性能都会下降为此，重要的是识别有益的元数据，同时丢弃其他元数据。作为动机，我们提出了一个基于干预的对比学习框架，称为EI-CLIP，用于电子商务产品检索问题，在因果学习范式中有两个特定的模块设计，即，动机-1的实体感知学习模块（EA-学习者）和动机-2的混淆实体选择模块（CE-选择器）。值得澄清的是，我们没有提出一个新的因果关系的方法，而是制定实体感知的电子商务跨模态检索问题的因果视图。具体而言，EA学习器学习每个信息混杂实体的单独表示，以更好地缓解分布外问题。然后，CE选择器旨在自动选择信息量最大的Meta数据组（例如，“品牌”在Fig. （2）从丰富的文本Meta数据出发。我们将主要贡献总结如下：• 据我们所知，这是应对电子商务特殊实体在语言形式上带来的挑战的开创性工作。以往的跨模态检索工作主要针对图像。• 我们是第一个制定的实体意识的检索任务的因果视图。我们认为，电子商务特殊实体在一般领域中学习的错误语义是导致检索失败的混杂因素• 在因果推理中配备后门调整[36]，我们提出了一个基于干预的对比学习框架（EI-CLIP），其中有两个新组件，即，CE选择器和EA学习器。• EI-CLIP在电子商务基准数据集Fashion-Gen上实现了具有竞争力的性能。特别是，在前1精度（R@1）中，我们观察到图像到文本和文本到图像的最接近基线分别有10.3%和10.5%的相对改善。2. 相关工作图像-文本匹配视觉语言表征学习有许多下游应用，包括图像-文本匹配。0.2680.2450.2570.240.2440.2510.2330.225 0.225零点0.2250.23818053i=1R··我我−我J--∈{}×年龄说明、可视问答、跨模态检索（图像-文本匹配）等。我们的工作与图像-文本匹配密切相关，其中的关键问题是如何在语义上对齐图像和文本。早期的工作从利用浅层模型开始，将整个图像和句子投影到潜在子空间中，然后在图像/句子级别对齐两个模态[13，19]。近十年来，深度模型（例如，图像卷积神经网络和句子长短期记忆网络[16]）已被广泛应用于提取更好的表示，然后通过典型相关性分析[41，55]，排名损失[9，20]，硬示例挖掘[3，8]等进行图像/句子级别对齐。为了实现细粒度的级别对齐，已引入注意力机制来对齐具有不同粒度级别的单词/区域令牌，例如单词级别[18，22，52]，短语/关系级别[24，49]等。最近，随着基于transformer的预训练[5，48]的巨大成功，已经提出了许多视觉语言预训练方法，例如VL-BERT[43]，ViL-BERT [32]，VideoBERT [ 44 ]，LXMERT[ 45 ]，Unicoder-Bert [46]，LXMERT [47]，LXMERT[48]，LXMERT [49]VL [23]，OSCAR [25]等。最近，随着视觉转换器的发展[7，29，33，46，56，62]，Rad- ford等人。[38]引入了一个简单而强大的多模式预训练框架（CLIP），该框架基于4亿图像-文本配对训练的对比学习[4，12，12，14，59- 61]语料库虽然没有专门设计单词/区域级对齐机制，但它在单词/区域标记级对齐方面显示出优于其他方法的我们的工作遵循CLIP框架。基于时尚的跨模态检索与一般的视觉语言领域相比，基于时尚的任务需要更多地关注任务特定的知识，例如细粒度信息[6，10，64，72]。FashionBERT [10]是时尚领域的第一个视觉语言提出了一种基于块的方法，以保留更多的原始像素级信息。然后将分割的非重复块与查询词令牌一起馈送到跨模态BERT模型进行联合学习。后来，Kaleido-BERT [72]进一步应用了不同尺度的几个自我监督任务，以更加关注图像-文本的一致性。然而，这些方法都只注重视觉部分，而忽略了电子商务语言的独特性。我们的工作旨在解决来自语言模态的挑战。多模态学习中的因果关系因果推理已在许多视觉和语言应用中成功探索，例如图像分类[2，30，58，63]，语义分割[65]，视频动作局部视觉中的文本识别[26，28，57]，以及语言中的文本分类[53]，文本问答[42]，命名实体识别[68这项工作的重点是多模态学习，其中一些现有的作品已经触及。Wang等人 [50，51]提出一种基于视觉常识区域卷积神经网络（VC R-CNN）来处理图像中对象之间的虚假相关性。尽管去混淆的VC R-CNN在许多多模态应用中显示出令人鼓舞的结果，但因果干预仅被考虑用于视觉领域。Zhang等人。 [67]研究了多模态预训练模型在应用于分布外微调任务时的虚假相关性。DeVLBert提出的核心思想是采用硬干预来后门调整[36]给定单词标记（在语言中）的对象标记在这项工作中，我们也对一个类似的问题感兴趣，这个问题的动机是将一个预先训练好的通用多模态模型适应于一个非分销的下游电子商务数据集的实际挑战。除了任务差异，即一般多模态表征学习（DeVLBert）与具体的跨模态检索（我们的），我们的工作旨在减轻偏见的特殊实体的语义，而以前的工作集中在对象之间的相关性。3. 方法3.1. 再访CLIPRadford等人[38]建议预定的对象类别对计算机视觉网络提供有限的监督。相反，直接从原始文本描述中学习图像是一种有效的方法，可以利用丰富的监督信息。[38]提出了CLIP（对比图像预训练）模型，该模型应用对比学习从4亿图像-文本对的数据集上从头开始学习视觉表示。具体地，给定一批图像-文本对（Ii，Ti）N，其中N是批量大小，图像编码器hI（）和文本编码器hT（）首先将图像和文本编码成多模态嵌入空间上的向量d在哪d是嵌入的维度。表示im- 年龄嵌入和文本嵌入分别为EI=hI（Ii）和ET=hT（Ti）。如图3（a），在训练期间，CLIP模型计算余弦相似性ETE I（i，j1，2，...，N）的所有NN个可能的配对。为了联合训练图像和文本编码器，CLIP最大化N个匹配对的相似性，同时最小化所有其他N2N个不匹配对的相似性。在实践中，CLIP优化了对称交叉熵损失在N×N相似性得分矩阵上。CLIP算法仅基于图像和文本的全局嵌入来计算相似度因此，它只学习单词标记和详细图像特征之间的对应关系。为此，需要足够大的数据集来在预训练过程中学习这种细粒度的对应关系CLIP构建了一个包含互联网上4亿个图像-文本对的数据集然而，该模型很容易偏向于18054牛仔般的慢跑夹克蓝色。整个过程中都在褪色和发须...牛仔般的慢跑夹克蓝色。在整个过程中逐渐消失...牛仔般的慢跑夹克蓝色。在整个过程中逐渐消失...牛仔般的慢跑夹克蓝色。整个过程中都在褪色和发须...牛仔般的慢跑夹克蓝色。在整个过程中逐渐消失...牛仔般的慢跑夹克蓝色。在整个过程中逐渐消失...品牌：品牌：品牌：季节：季节：季节：产品类别：产品类别：产品类别：文本编码器图像编码器图像编码器文本编码器||||||||ΣΣΣ对比学习实体1实体2......实体K对比学习E1AE2AE3A. . -是的EAN实体编码器混淆实体(a) CLIP（b）EI-CLIP图3.CLIP（a）和我们的EI-CLIP（b）在培训期间的比较CLIP（a）直接将所有实体附加到文本描述中，而我们的EI-CLIP则对它们进行单独编码。我们进一步应用CE-学习器自动选择显著混淆实体，并应用EA-学习器将实体信息引入描述中。更多详情请参见第3.3当从一般域中的这个大数据集学习时，边缘1。通常，偏向公共域是有益的。然而，当它适应其他领域的对比学习，这是具有挑战性的模型学习所有的领域特定的知识，如电子商务领域的知识。例如，单词然而，它是时尚领域的服装品牌。另一个例子是“金鹅”品牌在常识中，我们把它们当作两个独立的词考虑到微调示例的数量有限，模型很难学习到这些特殊词指的是品牌。因此，模型仍然保持其关于这些单词的常识知识。因此，需要一种方法来减轻CLIP中这些唯一词的错误3.2. 因果观在因果观中，我们将给定的文本Ti视为X，图像I i视为Y。对于CLIP，对比学习的目标是学习函数P（Y X）和函数P（X Y）。本文以P（Y X）的计算为例说明因果观点。我们将这些特殊实体的语义视为混淆因素Z，它可能影响X或Y。具体来说，我们定义z=g（a，b），这意味着实体a采用语义b。实体a通常维护几种语义，并且是文本X的一部分。例如，g（金鹅，1常识可能有偏见。例如，“香蕉是黄色的”是com-monsense，这是没有必要的香蕉可以是红色或绿色。CLIP中的其他偏倚情况在[1]中进行了讨论。意思是“golden goose“这个词当仅从P（Y X）学习时，混杂因素可能会在模型中引入虚假相关性。通常，根据贝叶斯规则，可能性可以写为[36]：P（Y |X）=P（Y，z|X）= P（Y |X，z）P（z|X），z z（一）其中，混淆因子z通过P（z X）引入训练集的偏差。由于CLIP是在一般领域中训练的，因此它很容易偏向于常识。给定文本X=“A T-shirt of golden goose“，大多数可能性在等式2中求和。1将被分配到P（YX，z=g（golden goose，因此，当适应时尚领域时，函数P（Y X）倾向于检索具有鹅毛色或金色的图像，而不是检索相应品牌的衣服为了调整混杂因素Z在其他领域的影响，我们用做演算干预X [50，67]。具体来说，我们切断了X和Z之间的依赖关系。根据微积分的定义，我们有P（Y|do（X））=P（Y |X，z）P（z）.（二）z与Eq相比。1，z不再受X的影响。Y的预测取决于训练集的先验P（z），这可以很容易地预先计算[50，67]。在时尚领域，先验P（z=g（golden goose，这样，一般领域中对常识的偏见就可以得到缓解.丹尼蓝。贯穿整个GM型慢跑夹克g褪色和晶须牛仔样慢跑夹克，g蓝色。褪色和晶须贯穿整个CC：柴油编号：SS 2014别名：Jacket材质：90%纯棉品牌SeasoategompG安全感知模块1号门............2号门......门KC类别：夹克季节：SS2014品牌：柴油E1I E2IE3IEINE1I E2IE3IEINE1DE2DE3DEDNE1TE2TE3TETNE1TE2TE3TETN18055我·|||联系我们我K··J我我我K我 k=1i，m我我我J我我KiJI∈∪我我KK我3.3. EI-CLIP：实施在电子商务领域，文本T i由两个部分组成：一个是文本描述T D，它将而不是多个（子）单词令牌。同时，利用文本编码器hT（）得到TD的嵌入：ED=hT（TD）.如[17，38]中所总结的，存在线性我我我记录产品的详细信息另一个是多模态嵌入中的实体集关系[34]。在TA={ak}K ，其中K是实体的总数，在这方面，我们通过i ik=1第k个实体。通常有一些MetaE T=E D+E A。在这种情况下，f（X，z）被参数化一个i 为ki i ij关于产品的数据（标签实体），例如品牌和Ej（ED+EA）。因此，Eq. 3可以重写为：我我类别，代表特定领域的知识。到为了解决这些具有挑战性的问题，我们提出了EI-CLIP，如图3（b）款。具体来说，我们设计了两个模块P（Y|do（X））SoftmaxEI. ED+EA（五）来实现P（Y do（X））。一个是语义感知学习模块（EA-Learner），另一个是混淆实体选择模块（CE-Learner）。EA-Learner该模块旨在明确捕获每个单独的实体信息，而无需担心通用和电子商务领域之间的混淆实体语义或由于共享（子）单词标记（第1节中的动机-1）而交织的实体表示。对比学习被形成为小批量内的分类任务。我们记为j1，2，...，N作为小批量中的索引。因此，方程中的预测P（Y X，z）2可以看作是一个分类器：P（Y X，z）= Softmax f j（X，z），其中f j（X，z）表示干预的分类头。[50][67][68][69]通过这种设计，CLIP的语言部分知道这些实体的唯一语义，并从预训练过程中编码的一般语义中解脱出来。由于存在K个具有特殊语义的实体，因此通常的做法是在原始字符串级别将所有实体与文本描述TD然而，如图2，这种朴素的方法不能很好地推广，因为并非所有的混杂实体组都是信息性的，并且一些混杂因素甚至是有害的。在第一节中使用动机2，CE选择器旨在选择重要的条目，其语义是唯一的，并且在时尚领域的图像检索中提供信息由于K个实体属于不同的组，例如品牌和猫，我们学习K个单独的实体编码器hA（·）。一旦得到所有实体的嵌入{h A（ak）}K、[54]，Eq. 2可以实现为：P（Y|do（X））|Softmax[Ez（fj（X，z））].（3）根据定义，我们有z=g（a，b）。因此，Ez（fj（X，z））在我们遵循门控机制[66]并设计门控网络Gk（）来确定每组实体的重要性并选择有用的混淆因素。具体地，选择因子wk可以被定义为wk=Gk（hA（ak））。我们实施当量3可以写成：Ez（fj（X，z））=<$fj（X，z）P（z）Gk（）具有MLP层和S形函数，以确保wk的值在（0，1）的范围内。我们进一步将它们融合到一个全局实体嵌入中zEA乘EA=Jwk·hA（ak）. 因此，对于多个实体，=P（X，z = g（a，b））.在TA={ak}K中，等式3的执行方式是：一KaB（四）在实践中，P（z=g（a，b））可以近似为计数。P（Y|do（X））Softmax[EI（ED+wk·hk（ai））]。（六）对于给定的实体a，训练集。为了简单起见，我们假设文本描述T中只有一个特殊实体a（即变量X）培训为了避免常识性偏见影响学习hA（·），我们解开hA（·）和预先训练的不II K Kh（·）manticsbB1B2，其中B1包含ai在一般域中，B2包含特殊语义在EI和ED+EA之间的损失，我们还计算了con-i-i-EI和ED之间的传递损失以及对比损失ij ii在时尚领域中，m是语义的索引在E I和EA simu之间。在集合B12.当bi，m∈B1，ai 指的是Gen-ji语义学然而，请注意，在我们的时尚检索问题中，一个i已经被标记为特殊实体，并分配给一个唯一的语义（例如，golden gooseas“brand”）。因此，概率P（z=g（ai，bi，m））为：0当bi，m∈B1.为此，我们只需要考虑bi，m∈B2的情况。由于语义是唯一的，我们从头开始训练一个实体编码器hANGSM（Normalized Weighted Geometric Mean）我我k=1在时尚领域。实体ai维护多个se-在训练期间。具体来说，除了对比K18056（·）来学习实体嵌入：EA=hA（ai）∈Rd.ai被作为一个整体处理，4. 实验4.1. 设置在FashionBERT [10]和Kaleido-BERT [72]之后，我们在Fashion-Gen数据集上评估了我们的方法[39]。有67，666件时装产品。每个产品都有一个文字说明和一到六个不同角度的图像详细地说，260，480和35，528个图像-文本对18057K·−−·×我·分别用于训练和测试。每个产品有4组实体。具体来说，它们是品牌，子类别，季节和成分。我们用B、C、S和P来表示它们。在所有产品中，共有570个品牌，122个子类别，10个季节，16，844种成分此外，我们在亚马逊评论的子集上创建了一个新的数据集[35]。它包含时尚领域的20，507个图像-文本对。我们使用14354对用于训练，6153对用于测试。我们只使用184个品牌作为特殊实体。这个数据集的文本描述比Fashion-Gen更简洁，更模糊，这使得它更具挑战性。我们从发布的预训练CLIP模型[38]开始，该模型应用ViT-B [7]作为视觉编码器fI（），应用Transformer [48]作为文本编码器fT（）。输入图像的大小调整为224224，输入文本描述由小写字节对编码（BPE）[40]表示，vocab大小为49，152实体编码器hA（）由一个嵌入层和一个MLP层实现嵌入维度d被设置为512。在[10，72]之后，应用具有权重衰减1e4的Adam优化器来微调预训练的CLIP模型。微调时期的总数设置为20。初始学习率设置为5e5，并应用余弦退火学习率衰减调度器。我们还为前1K步采取了热身策略。评估我们评估我们的方法在电子商务中的图像到文本给定一个模态中的查询，此任务需要从candidate rank集合中检索另一模态中的匹配项。给定文本描述（或图像），正候选是来自相同产品的相关联的地面实况图像（或文本描述）。对于负的候选，我们考虑两种设置。1)在[10，72]之后，我们从同一子类别的其他产品中随机抽取100张我们将这种采样策略称为“样本100”。2)我们还将整个产品集视为我们的候选集（表示为“完整候选日期”），这是一个更具挑战性的设置。它更符合实际的产品检索场景，在产品推荐领域被广泛采用 [21] 。我们使用 Rank@1 （ Top-1 准确度），Rank@5，Rank@10来评估这两个检索任务的性能。接下来[72]，SumR=（Rank@1+Rank@5+Rank@10）*100被视为模型的总体指标。4.2. EI-CLIP的有效性我们考虑了几个基线来验证EI-CLIP的有效性具体来说，这些模型是：① [38]发布的预训练的CLIP;②我们用图像Ii和每个产品的仅描述TD微调CLIP;③我们用图像Ii和描述T D的组合微调CLIP。以及原始字符串级别的所有实体;-将所有实体的权重wk设置为相等;表1.Fashion-Gen上的检索性能（完全候选）↑表示相对改善。图像到文本文本到图像SumRR@1R@5R@10R@1R@5R@10①9.424.533.510.726.835.8141②22.549.562.024.551.163.6273③23.351.564.625.753.966.5285④25.252.664.828.256.668.429625.754.5 66.8 28.4 57.1 69.410.3% 5.8% 3.1% 10.5% 5.9% 4.4%定量结果结果见表1。首先，预训练的CLIP模型①在时尚领域没有很因此，有必要进行微调，以缩小这一差距。其次，从②到③的改进表明，实体的信息是有益的检索。第三，③的性能明显优于③。这意味着我们的EA学习者可以更好地学习特定实体的语义（w.r.t. 动机-1）。此外，我们可以得到进一步的改善，在各级召回的检索与选择。经统计学处理，I2T的R@1相对改善10.3%（从23.3%到25.7%），T2I的R@1相对改善10.5%（从25.7%到28.4%）。从完整候选产品中检索正确产品更具挑战性，我们的进步是巨大的。这支持了CE选择器（w.r.t.动机-2）。对于门控机制，我们发现季节的学习w k大约小到0。05. 这也支持我们的方法可以自动选择重要的混杂因素，并删除有害的混杂因素。定性结果我们在图中给出了模型③（基线）的4.第一章在示例（a）和（b）中，品牌由多个单词组成。由于基线将它们分成几个标记，因此很难理解它们的语义。我们的方法可以识别这些词，并正确地检索图像。在示例（c）中，来自基线的结果类似于柴油工人的单位，但是查询需要“黑色”夹克。在示例（d）中，基线的前1个结果的颜色是金色的，但是查询要求鞋跟领是“金色的”。这些情况表明，微调后的模型仍然保持这些词的一般语义，不能学习领域知识。然而，我们可以正确地解决它们，并将这些单词作为品牌学习。此外，与示例（e）和（f）一样，我们的模型在“Gucci”和“Burberry”等品牌上的表现仍然我们假设，这些词在一般域中的数量有限，很难学好它们。我们的方法可以-18058品牌：开幕式。黑色针织羊毛，安哥拉羊毛和羊绒混纺无檐帽。标志针织白色在卷边。色调缝合。品牌：白色。短袖针织棉t恤在黑色。罗纹针织圆领领。正面印有徽标图案。蓝色文字在前面和后面的下摆。文字印在后面的白色。色调缝合。(a)（b）第（1）款Brand：Otherother/黑色长袖牛仔夹克。褪色，令人痛心，缝合细节，并在整个贴花。张开衣领。按钮关闭在前面。胸前的口袋。在腰部缝口袋。白色标志绣在前面下摆。可调按钮标签在后面下摆。银色的硬件。色调缝合。品牌：Golden Goose.低顶抛光皮革运动鞋在'光学'白色。整个过程都很痛苦。圆脚趾。花边关闭黑色。纺织标志补丁在舌头。两侧有穿孔细节。签名皮革明星贴花和标志邮票在外面的黑色。有衬垫的衣领。图案脚跟衣领具有标志邮票在金色色调。橡胶中底在白色。橡胶鞋底踩在黑色。色调缝合。（c）（d）Brand：Otherother/针织羊驼毛和羊毛混纺帽子在'午夜'海军。多色编织口音在冠和背部。色调缝合。品牌：Burberry。黑色粒面小牛皮手提包。双滚动进行处理具有按螺柱紧固件。可拆卸和可调肩带与挂绳扣紧固。标志邮票在金色调的脸。帆布面板具有签名'房子'检查双方的模式。主隔间上的压螺柱紧固件。补丁口袋，拉链口袋，皮革标志补丁在内部。色调织物衬里。保险杠螺柱（e）（f）图4.文本到图像结果的示例。对于每个示例，第一行是查询文本，第二行是微调CLIP（模型③）的前5个检索结果，第三行是EI-CLIP的前5个结果正确答案用红框标出还没有解决分配差距I2T和T2I的更多示例见补充说明。4.3. 与最先进的方法进行然后，我们比较我们的方法与以前的国家的最先进的作品Fashion-Gen。与[72]一样，FashionBERT [10]和Kaleido-BERT [72]已经击败了所有以前的多模态学习网络，包括 ImageBERT [37] ， OS-CAR [25] ，VLBEERT [43]和ViLBERT [32]。裕度因此，我们只关注我们的工作与FashionBERT和Kaleido-BERT的比较。我们遵循由于所有候选项都属于同一个子类别，因此我们在评估中丢弃类别实体。此外，我们还再现了以前的作品与实体。我们仍然在4.2节中评估模型②、③和，但使用不同的候选集。结果示于表二、首先，无论有无实体，经过微调的vanilla CLIP都比以前的方法有明显的改进。我们相信，对比学习有助于模型顺利地学习识别一种模态的输入与另一种模态的一堆输入的能力。第二，EI-CLIP仍然带来了一些进一步的改进，尽管它是相对边缘的。请注意，在此评估中，所有100个阴性样本都属于同一类别，使得类别实体无法区分地面实况和阴性候选。此外，这是一个更容易的评估，因为候选人的大小是小的。4.4. 亚马逊评论上的结果我们进一步评估我们的方法在亚马逊评论。由于只有品牌实体作为混杂因素，我们没有18059|表2. Fashion-Gen上的跨模态检索性能（样本100）。Fashion-BERT [10]和Kaleido-BERT [72]的SumR为251。36和319。52、分别标有“*”的方法是我们复制的结果。FBERT是Fashion-BERT的缩写。表4. 每种类型实体的消融研究方法FBERT*FBERT*夹片夹片EI-CLIP与实体？否是否是是的R@131.3735.3036.1139.1738.70I2tR@562.9768.4467.8171.2672.20R@1075.2082.3480.0083.6984.25R@124.0931.0635.3238.6140.06T2iR@554.7363.9565.9869.6971.99R@1069.4478.6877.8482.2382.90SumR317.8 359.8363.1384.7390.1不再需要CE选择器。我们进行了完整的候选检索，结果如表3所示。我们的方法在具有挑战性的Amazon数据集上仍然优于CLIP，表明EI-CLIP在另一个电子商务场景中具有很好的推广性。图像到文本我们的基线文本到图像28.425.722.118.632.832.6表3.亚马逊评论（完整候选人）上的表现。20406080100120批量14.510.420406080100120批量4.5. 消融研究由于不同的实体扮演不同的角色，我们然后探索每个属性对Fashion-Gen的贡献。如图2和表4，在原始字符串级别，不同的属性带来不同的改进。品牌可以带来显著的改善，而季节、子类别和组合只能带来轻微的改善，甚至损害性能。此外，所有属性的组合（实验（c））的性能甚至比仅单独使用品牌属性更差这表明朴素策略不能充分利用实体。我们假设，其他附加所有属性在一起可能会在原始文本中引入很多噪音，从而干扰自我注意模块的学习。Batch Size We also explore the influence of batch size, asit heavily affects the performance of contrastive learning [4,38]. 通常，较大的批处理大小会带来更好的性能，但它需要更大的GPU内存。我们将批量大小从16改变到128，并在图中绘制R@1的结果。五、在所有级别的批量大小，我们的EI-CLIP始终击败基线微调CLIP。此外，在小批量设置上的改进更加明显，因此对于GPU内存有限的用户来说更有利。图5.我们的（EI-CLIP）和基线（实验）的比较(c)第4.2节），不同批量。5. 限制一个潜在的限制是，我们只考虑从产品的Meta数据的实体的语义作为混杂因素。这一假设简化了网络的设计，并清楚地表明了我们的网络的好处。然而，在实践中，任何隐变量都可能是影响P（Y X）学习的混杂因素。此外，并不是所有的电子商务产品都像Fashion-Gen一样包含干净的Meta信息。处理一组嘈杂的Meta数据超出了本文的范围，但可能是一个潜在的挑战。6. 结论在本文中，我们首先指出，共同的知识的偏见限制了CLIP模型的泛化能力时为了解决这一问题，我们遵循因果干预理论，提出了EI-CLIP。具体地说，我们认为，从Meta数据的产品的实体作为混杂因素，并编码它们单独与独立的网络。大量实验表明，该方法具有更好的性能，并且更加关注电子商务领域中特定实体的语义。31.23030.73025.7252523.32019.32016.8151512.71010.010R@1R@1专家介绍图像到文本文本到图像SumRR@1R@5R@10R@1R@5R@10②22.549.562.024.551.163.6273③23.351.564.625.753.966.5285Str-B25.153.065.826.854.867.4293Str-C22.850.062.524.451.964.1276Str-S22.549.461.824.050.963.3272Str-P22.548.661.323.850.063.1269⑤25.754.566.828.457.169.4302Emb-B25.653.065.527.855.067.2294Emb-C23.350.363.024.951.464.3277Emb-S20.446.559.024.750.763.5264Emb-P22.249.461.824.551.163.6273图像到文本文本到图像SumRR@1R@5R@10R@1R@5R@10夹22.249.961.623.548.961.5267EI-CLIP25.954.265.323.749.461.628018060引用[1] Sandhini Agarwal，Gretchen Krueger，Jack Clark，AlecRad- ford，Jong Wook Kim，and Miles Brundage.评估剪辑：对更广泛的能力和下游影响进行定性。arXiv预印本arXiv：2108.02818，2021。4[2] Krzysztof Chalupka ， Pietro Perona ， and FrederickEberhardt.视觉因果特征学习。见Marina Meila和TomHeskes，编辑，UAI，第181-190页。北京大学出版社，2015. 3[3] 陈天朗，邓家军，罗杰波。用于图像-文本匹配的自适应在ECCV，第549-565页，2020年。3[4] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，第1597-1607页，2020年。三、八[5] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。ACL，2019年。二、三[6] Eric Dodds ， Jack Culpepper ， Simao Herdade ， YangZhang，and Kofi Boakye. 具有文本反馈的视觉搜索的模态无关注意力融合。 arXiv 预印本 arXiv ：2007.00145，2020。3[7] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器ICLR，2021年。三、六[8] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler 。 Vse++ ：用硬否定词改进视觉语义嵌入。BMVC，2017年。3[9] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio 、 Jeff Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov 。 Devise ：一个深度视

下载后可阅读完整内容，剩余1页未读，立即下载