大规模产品检索数据集：Product1M+弱监督多模态实例级检索模型

186 浏览量更新于2023-10-13 收藏 2.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11782Product1M：通过跨模态预训练Xunlin Zhan1†，Yangxin Wu1†，Xiao Dong1，Yunchao Wei2，Minlong Lu3，Yichi Zhang3，HangXu4，and Xiaodan Liang1 †1中山大学、2北京交通大学、3阿里巴巴集团、4华为诺亚{zhanxlin，wuyx29} @ mail2.sysu.edu.cn，{dx. icandoit，wychao1987，chromexbjxh，xdliang328} @ gmail.com，ymlml@zju.edu.cn，yichi. alibaba-inc.com摘要目前，顾客对电子商务的需求越来越多样化，这给产品检索行业带来了更多的复杂性。以前的方法要么经受单模态输入，要么执行监督图像级产品检索，因此无法适应存在大量弱注释多模态数据的现实生活场景。在本文中，我们研究了一个更现实的设置，旨在执行弱监督的多模态实例级产品检索细粒度的产品类别。为了促进这一研究，1. 介绍(a) 图像级检索在任务中，我们贡献了Product1M，这是用于真实世界实例级重构的最大的多模态化妆品数据集之一SK-II神仙水洁面乳四-件套sk2神仙水精华周小二专柜230ml美白抗衰老SK2 SKII氨基酸精华水泡沫洁面乳120gSK-II活颜修护精华霜trieval。值得注意的是，Product 1 M包含超过100万张图片-字幕对并且由两个样本类型组成，即，单一产品和多产品样品，其中包括各种化妆品品牌。除了极大的多样性之外，Product1M还具有几个吸引人的特性，包括细粒度的类别、复杂的组合和模糊的对应关系，这些特性很好地模拟了现实世界的场景。此外，我们提出了一种新的模型命名为跨模态对比产品Transformer（CAPTURE），它擅长捕捉多模态输入之间的潜在协同作用，通过一个混合流转换器在自我监督的方式。CAPTURE通过掩蔽多模态学习以及跨模态对比预训练生成有区别的实例特征，并且它优于几个SOTA跨模态基线。广泛的消融研究很好地证明了我们的模型的有效性和推广能力。数据集和代码可在https：//github.com/zhanxlin/Product1M网站。†同等贡献。通讯作者。(b) 多模态实例级检索图1.我们提出的任务执行多模态数据之间的实例级检索。在过去的二十年里，电子商务的商品种类高度丰富，网上消费者的需求多样化。一方面，在线商品具有日益多样化的类别，并且它们中的大部分被展示为产品组合，其中不同产品的多个实例存在于一个图像中。另一方面，在线客户或商家可能想要检索端口文件夹中的单个产品以进行价格比较[42]或在线商品推荐[34]。此外，随着多媒体产生的异构数据的不断加速积累，算法如何处理大规模和弱注释数据[45]以执行多模态检索仍然是一个问题。本文探讨了一个现实问题：在给定的实例集的情况下，如何进行实例级1的细粒度产品检索1实例级产品检索是指对产品组合图像中存在的所有单个产品进行检索11783数据集样本数量#类别实例数#obj/img监管不力多模态实例级检索[47]第四十七话30,000200367,93512.26CC[17]第十七话100,000---[22]第二十二话71,478353--CC服装检索[7]Product1M（我们的）20,2001,182,083-45820，20092,2001.02.83CCCCC表1.不同数据集之间的比较。'-'表示不适用。Product 1 M的#instances和#obj/img是斜体的，因为训练集没有实例标签，我们只计算val和测试集中的实例。Product1M是最大的多模态数据集之一，也是第一个专门为现实世界的实例级检索场景定制的数据集大规模弱注释多模态数据？我们在图1中比较了不同的检索范式。可以看出，图像级检索往往返回琐碎的结果，因为它不区分不同的实例，而多模态实例级检索更有利于在多模态数据中搜索各种产品。尽管这个问题具有普遍性和实用价值，但由于缺乏真实世界的数据集和明确的问题定义，它并没有得到很好的研究。在产品检索的文献中，模态内[32，1，31，30]和跨模态模态检索[43，12，48，4，44，8]采用单模态信息作为输入，例如，图像或一段文本，并且在分离的数据点之间执行匹配搜索不幸的是，这样的检索方案显着限制其使用在许多情况下，多模态信息存在于查询和目标。更重要的是，先前的工作集中在相对简单的情况下，即，图像级别2检索用于单一产品图像[24，13]，并且检索的实例级别性质未被探索。为了弥合这一差距，推进相关研究，我们收集了一个大规模的数据集，名为Product1M，提出了多模态实例级检索。Product 1 M包含超过100万个图像-字幕对，并且由两种类型的样本组成，即，单一产品和多产品样品。每个单一产品样本属于一个细粒度的类别，类别间的差异是微妙的。多产品样本具有很大的多样性，导致复杂的组合和模糊的对应关系，很好地模拟了现实世界的场景。据我们所知，Product1M是最大的多模态数据集之一，也是第一个专门为现实世界的多模态实例级检索场景量身定制的数据集。除了构建的数据集，我们还提出了一种新的自监督训练框架，从大规模弱注释数据中提取代表性的实例级特征。具体来说，我们首先训练一个多产品检测器从伪标签纳入一个简单而有效的数据增强计划。然后，捕获被提出通过几个借口任务捕捉图像和文本的潜在协同。我们展示了一些流行的跨模态预训练方法[27，25，6，38]2图像级产品检索是指识别单个产品图像中的特定产品实例。可能由于网络体系结构中的设计缺陷或不适当的借口任务而在多实例设置下有缺陷。相比之下，CAPTURE利用混合流架构，该混合流架构分别编码不同模态的数据此外，我们引入跨模态对比损失来执行CAPTURE以实现图像和文本之间的对齐，这避免了由不适当的借口任务引起的失配问题。至关重要的是，CAPTURE在所有主要指标方面都大大超过了SOTA跨模式基线。我们进一步进行了广泛的消融实验来证明CAPTURE的泛化能力，并探讨了我们提出的任务的几个关键因素。我们希望所提出的Product1M、CAPTURE和固体基线能够帮助推进未来对现实世界检索的研究。2. 相关工作模态内和跨模态检索。模态内检索[32，1]在基于关键字的Web文档检索[11]，基于内容的图像检索[29]和产品推荐[19，20]中得到了广泛的研究。交叉模态检索[43，12，48，4，44，8]作为在具有不同模态的大规模数据中进行有效索引和搜索的有希望的手段出现，并且被广泛用于搜索引擎[2，14]、电子商务[18，7]等。怎么-这些方法[30，26，7，47，46]通常受制于单模态输入，这使得它们难以应用于其中多模态信息存在于查询和目标两者中的许多现实世界场景。WSOD：Weakly Supervised Object Detection弱监督目标检测WSOD [39，36，50]通过从更便宜或免费提供的数据中学习，减少了对细粒度标签的过度依赖。PCL [39]迭代地生成建议聚类，以促进实例分类器的学习。从图像标签[36]和非结构化文本描述（如标题[50]）生成的伪标签也有利于提高WSOD的然而，WSOD通常依赖于预定义类的固定大小的集合，并且不容易适用于我们提出的任务，其中类标签不可用并且类别可以动态更新。11784PP12KNK（2a）val/test集的类别分布。(1a)（1b）（1c）（2b）图库集的类别分布。图2.产品1 M的特性和统计：（1a）单一产品的复杂组合;（1b）弱监督和模糊对应;（1c）现实场景中的困难;（2）Product 1 M的长尾类别分布。该行按降序显示每个类别的样本编号Product1M包含各种各样的类别，长尾类分布与现实世界的场景非常一致。跨模态自监督学习。现有的视觉语言预训练模型通常使用多层Transformer [41]架构，如BERT [9]来学习多模态数据上的图像-文本语义对齐。单流模型[25，37，6]在统一架构中对组合的多模态特征进行编码，而其他双流模型[27，38]则对不同模态的输入使用不同的编码器。这些方法是不是量身定制的实例级检索，我们展示，他们可能是有缺陷的，由于在网络架构和不适当的借口任务的设计缺陷。3. Product1M上的实例级检索3.1. 任务定义产品样本（I，C）是图像-文本对，其中I是产品图像并且C是标题。鉴于画廊单一产品样本集S ={Si|S1=（I1，C1）}和UT信息。Product1M分为train、val、test和gallery集。训练集包含1，132，830个样本，包括单产品和多产品样本，而在val和test集中仅存在多产品样本，其分别包含2，673和6，547个样本图库集具有458个类别的40，033个单一产品样本，其中392个出现在验证和测试集中，其余的作为干扰项，用于验证检索算法的鲁棒性出于评估的目的，图库、val和测试集中的样本使用类别标签进行注释，即，它们不参与训练过程，并且训练集中的样本不被注释。Product1M的统计数据见表1和图2。Product1M的更多可视化以及与相关数据集的比较可以在补充材料中找到。3.3.数据集特征多产品样本的集合P ={P，|PiSISi}，=（I，C）任务是检索和排列在查询样本P1中出现的单个产品，即，预测列表RETR i=多产品特性和复杂组合：多产品图片是电子商务网站中普遍存在的一种产品实例级查询图片[idi，idi，···，idi，···，idi]Pi∈ P，其中idi对应-对S.3.2. 数据集统计数据我们从电子商务网站收集了49个品牌的大量产品样本。然后，根据对应的产品类别将这些图文样本手动划分为单产品组和多产品组。以丰富的形式和布局组织，并且实例的数量可以很大。细粒度的单一产品样本数量过多、差异性大，导致不同产品组合图像中组合复杂。监督不力、对应模糊：我们考虑使用两种常见模态的数据，即，图像和文本，用于检索。与其他具有干净类la的数据集具有复杂组合的多产品特性弱监督与模糊对应现实世界场景萱儿美黛兰蔻圣诞面部护肤八件套滑雪旅行四件套水+面膜精细分类复杂背景：熙蕊斑兰蔻兰蔻斑兰蔻小黑全新立体塑料瓶精华眼霜面部紧致日霜+夜用小黑瓶眼部紧致霜两瓶水印遮挡：兰蔻黑瓶四-香港专柜兰蔻30ml立体塑颜肌底霜50ml+眼霜5ML+紧致面部紫色套装啫喱爽肤霜15ML+晚霜400晚霜30ml眼部15ml圣诞套装奶油15ml香港直邮兰蔻第二代小黑瓶肌底精华套装眼霜日霜保湿修护嫩肤skii sk2活肤清透爽肤水30ml爽肤水与仙女水检索如图2（1a）所示，产品可以是或-11785文本Transformer文本Transformer可视Transformer文本共变压器可视Transformer文本共变压器可视化协变器可视化协变器文本-视觉Transformer文本-视觉Transformer单一产品样品（TKT）（一）（$）（三）（I& G）（一）抓切×HQKVRR香港代购兰蔻水润边缘舒适三件套精华+水+啫喱复制粘贴×KQK VK VQ预先训练的RPN跨模态对比损失文本Transformer×��QKVQKV视觉Transformer阳性配对文本嵌入层图像嵌入层Box伪标签RPN损失高级[MASK]两件套Yeux青春活肤[MASK]霜15ML+精华50MLRPN视觉Transformer文本Transformer视觉交叉变换文本交叉转换前景遮罩文本-视觉协同转换器跨模态对比损失RPN头部Res50-FPN掩蔽语言建模掩蔽区域预测T1不是$T3不&…TNI1I$I3我&…I（(a)（b）（c）图3.我们的实例级检索管道的概述。(a)基于复制粘贴数据增强方案生成的伪标签预训练RPN。(b)利用CAPTURE通过混合流架构和多个借口任务捕获跨模态的潜在协同作用。（c）构造匹配的图像-文本样本的正对以用于跨模态对比学习。最好用彩色观看然而，商品标题的监督很弱，而且往往没有信息。我们在图2（1b）中显示了不同类型的挑战样品。一些样本包含缩写，即，几种产品的缩写形式，在它们的标题中。然而，类似“八件套”的缩写并不包含任何关于产品的具体信息。第二种类型的样本携带不相关的信息，其中标题中描述的商品可能不会出现在图像中，反之亦然。图像和标题之间的模糊对应关系的广泛分布使得实例级检索更具挑战性。与真实世界场景的一致性：我们在图2（1c）中显示了一些具有挑战性的样本。它们可能具有复杂的背景，其中包含不相关的对象、无定形水印或覆盖产品信息的显著杂乱。有些不同类别的产品，除了包装上的文字稍有不同外，外观可以几乎一样，例如，日霜vs晚霜。如图2（2a，2b）所示，Product1M的长尾分布与现实世界的场景非常一致。4. 方法如图3所示，我们的框架由基于增强的检测器和自监督多模态Transformer组成。在本节中，我们首先在4.1节和4.2节中阐述了RPN的培训过程和CAPTURE的架构设计。然后，我们在第4.3节和第4.4节中描述了两种使CAPTURE的自监督学习成为可能的借口任务。最后，我们在4.5节中说明了实例级检索的推理过程。4.1. 用于多产品检测的训练RPN简单地基于图像级特征的检索会导致检索结果被图像中占主导地位的产品淹没的不良情况。因此，在多产品图像中区分不同的产品并提取建议方面的特征是至关重要的。虽然许多预训练的检测器是可用的，但由于数据集之间的分布差异，它们是不可行的直接应用于多产品检测。因此，我们利用一个简单而有效的数据增强方案来训练区域建议网络（RPN）[35]，仅基于图3（a）所示的单个产品图像。我们首先使用GrabCut [28]来获得单个产品图像的前景掩模。使用来自Places365 [51]的真实世界背景图像，将复制粘贴增强[10]应用于这些前景蒙版和背景图像以生成合成图像。通过这种方式，我们能够训练出性能良好的多产品检测器。给定RPN的检测区域，我们利用RoIallign[15]来获得实例特征，然后将其馈送到CAPTURE以进行进一步的跨模态学习。有关合成图像和RPN训练的更多可视化和细节，请参阅补充材料。4.2. CAPTURE建筑设计在训练RPN之后，我们可以为图像中的不同产品不同于流行的单流或双流Transformer器架构，我们提出了CAPTURE，通过堆叠三种类型的层进行语义对齐和多个转换器的联合学习，将这11786ǁ ǁǁ ǁ−我 K（一）模态输入细节如图3（b）所示。具体来说，文本/视觉Transformer将em-假定为：exp（sim（x~i，x~j）/τ）文字或图像的铺垫，并负责内部-模态特征学习文本/视觉交叉转换器L（xi，xj）=−logΣ2N1、exp（sim（x~，x~）/τ）的目的是捕获和模型之间的文本和图像的模态间的关系交换的关键值对其中sim（u，v）=uTv/u v计算（u，v）对的余弦相似性，τ表示温度参数。多头注意力机制。在那之后，fea-文本和图像的图片被连接起来，并作为eter，1[k/=i] 是一个返回1 iff的二进制指示符函数查询、键和值输入到Co-Transformer，用于多模态特征的联合学习这三种类型的变压器分别堆叠L、K和H次我们在表4中验证了我们的架构设计的有效性。4.3. 基于Masked Multi-Modal Learning的我们利用几个借口任务，使捕获的自我监督学习。对于模态特征学习，我们采用两个掩蔽的多模态建模任务，即，掩蔽语言建模任务（MLM）和掩蔽区域预测任务（MRP），遵循标准BERT [9]和VisualBERT[25]。具体地，对于MLM和MRP，大约15%的文本和建议输入被屏蔽掉，并且剩余的输入用于重构被屏蔽的信息。MLM如BERT [9]中那样处理。对于MRP，该模型直接回归被掩蔽的特征，其由具有MSELoss的预训练RPN提取的特征监督。对于模态间关系建模，图像-文本匹配任务（ITM）在许多先前的方法中被广泛采用[25，6，27，38]。通常，要求模型预测文本是否是图像的对应描述，这被公式化为二元分类任务。为了生成负样本，图像或字幕被随机替换。我们认为，ITM可能是prob- lematic在实例级的图像-文本样本的细粒度的理解。我们假设的混乱源于不匹配的图像和字幕对替换后，这导致检测区域和文本之间的不一致我们在表3中进一步实验验证了这一声明。4.4. 跨模态对比损失除了模态内特征学习之外，期望CAPTURE生成多模态输入的连贯表示并学习它们之间的对应关系。为此，我们采用模态间对比学习[5，33]来实现图像和文本之间的对齐。对于N个图像-文本样本的小批量，总共有2N个数据点。我们将对应的图像-文本对视为N个正对，而另外2（N1）个不匹配的图像-文本对被视为负对。形式上，给定图像对（xi，xi）和它们的编码特征（x~i ，x~j ），该正对的跨模态对比度损失是com-i。基岛这种形式的对比损失促使不同情态的正对的编码特征相似，而对负对的编码特征具有区分性。我们发现在文本/视觉转换器中注入这种监督是有益的，关于跨模态对比损失的影响的进一步讨论可以在第5.3节中找到。4.5. 实例级检索对于单产品和多产品样本，通过预训练的RPN和标题提取的建议特征在推断期间，协变换器层分别输出HIMG和HXT作为视觉和语言输入的总体表示将这两个向量相乘以导出实例的关节表示此外，由于文本/视觉Transformer是监督跨模态对比损失，我们发现它有利于连接这一层的检索功能。结果特征然后作为我们的检索算法的输入在计算实例与图库集中的样本之间的余弦相似性矩阵之后，我们检索针对每个查询具有最高相似性的对应的单一产品样本。5. 实验5.1. 实现细节我们将RPN附加到在ImageNet上预训练的ResNet-50[16]主干，并遵循[35]中的训练计划。我们使用BERT[9]来初始化CAPTURE的语言Transformer。文本/视觉Transformer、文本/视觉交叉转换器和协同转换器的数量分别设置为L=4、K=4和H=4，总共12个转换器层。我们将CAPTURE和其他基线的隐藏状态大小设置为768，以进行公平的比较。我们分别在Co-Transformer和Text/Visual Transformer之后附加512-d全连接层，来自这两个层的特征的级联导致用于检索的1024-d特征向量，这对于其他基线也是相同的。句子的最大序列长度设置为 36 。我们在 4 个 RTX 2080 GPU上训练CAPTURE，总批次大小为128，持续10个epoch。我们使用Adam [21]优化器，初始学习率为1 e-4，并采用线性温度参数k=1[ki]11787方法mAP@10mAP@50mAP@100mAR@10mAR@50mAR@100前@10Pre@50Prec@100基于图像40.3536.7734.7617.2015.8615.4532.8030.5429.97基于文本61.5659.3858.4223.6522.0420.1356.1557.4757.45ViLBERT [27]70.1168.1968.2929.0525.5425.0264.6466.3566.60LXMERT [38]71.3767.8366.7329.8323.1523.8965.9764.7964.77剪辑 *[33]70.2569.2867.3029.4525.6125.6167.7768.0068.38[37]第三十七话72.0168.2267.7929.1525.5926.1665.2566.9266.64VisualBERT[25]72.2769.6068.2831.6926.3126.8367.3166.4866.62UNITER [6]74.6971.0270.9329.4725.8226.2070.1169.1568.95CAPTURE（我们的）79.3674.7974.6334.6930.0430.0873.9772.1273.86表2.与不同模态内和跨模态自我监督基线的比较τ设定为0.07。在推理时，CAPTURE将文本和建议式特征作为输入以生成实例特征。为了与其他基线进行公平比较，除非另有说明，否则我们在所有实验中采用相同的训练程序和评估方案，并且我们对表2中的基线使用相同的基于增强的RPN。更多细节可以在补充材料中找到。评估指标。我们采用 Precision （ Prec@N ）、 meanAverage Precision（mAP@N）和mean Average Re- call（mAR@N）作为我们的评价指标，其中Prec@N和mAP@N在检索文献中被广泛使用[49，3]。因为我们要彻底检索产品在许多情况下是不必要和不切实际的，我们报告了N=10，50，100的mAP，mAR和Prec。评估指标的详细信息可参见补充材料。5.2. 弱监督实例级检索我们将CAPTURE与几个模态内和跨模态基线进行比较，结果如表2所示。模态内方案。我们比较我们的方法，包括基于图像和基于文本的计划两个模态内的计划。对于基于图像的检索，我们堆叠了第4.2节中描述的Visual Transformer层，并采用相同的图像输入和借口任务，即，掩蔽区域预测作为捕获。对于基于文本的检索，我们堆叠文本Transformer层，仅使用文本输入和Masked LanguageModeling任务。我们进一步将这两个模型的深度加倍到24层，以保持与CAPTURE相同的参数数量。结果表明，这两种方法都是针对单一模态的数据，因此在处理多模态数据时存在着很大的滞后性，这说明多模态数据之间的关系建模是不可忽视的。我们在5.4节中提供了更多的实验结果来验证这一点。跨模态方案。我们将CAPTURE与表2中的几种流行的自监督跨模态预训练方法进行了比较，包括SOTA单流和双流视觉语言模型以及SOTA零触发分类模型，即CLIP [33].CLIP* 基线是指#蒙面ITMCTRConcatmAP/mAR/Prec1C72.1/ 28.9 /72.72CC71.9/ 28.5 /72.93CC70.2/ 27.1 /70.24CC73.3/ 29.1 /73.25CCC74.6/30.1/73.9表3.不同托词任务与跨情态对比损失的影响评价N= 100。“掩蔽”代表两个掩蔽的多模态借口任务，即，MLM和MRP。‘CTR’ stands for cross-modal contrastiveCLIP类架构，其使用单独的变换器对图像和文本进行编码，并且用对比对象进行训练。值得注意的是，CAPTURE在实例级检索的所有三个指标中都优于所有这些双流模型，即，ViLBERT [27]、LXMERT [38]和CLIP* 通常比单流差，这表明多模态特征的融合模式是关键因素之一。我们将CAPTURE的卓越性能归功于其混合流架构，并在第5.4节中研究了不同层类型的影响。5.3. 前置任务的影响与对比损失如表3所示，ITM将损害实例级检索的准确性（#1对#3），因为它产生失配样本，这可能不利于对多产品图像的细粒度理解。我们在文本/视觉转换层应用跨模态对比损失来对齐图像和文本的表示，这进一步有利于后续层的学习。包含对比损失鼓励我们的模型最大化正对的特征相似性，这将所有三个指标分别提高了1.2，0.2和0.5（#1 vs #4），并且我们发现当添加到更深层时几乎没有帮助。此外，在将来自文本/视觉Transformer的特征与来自用于检索的协同转换器的特征连接之后，它进一步将所有三个度量分别提高了1.3、1.0和0.7（#4对#5）。但是，我们发现这种连接操作会稍微降低性能11788没有对比损失的模型的性能（#1对#2），这表明改进主要来自对比损失而不是操作本身。模型Config深度mAP/mAR/Prec无交叉（六、零、六）1273.8/ 28.2 /71.5w/o-Co（6，6，0）1273.2/ 29.3 /72.8w/o-Txt/Vis（0、6、6）1269.3/ 25.4 /68.4捕捉-A（二、五、五）1272.8/ 29.0 /71.3捕获-B（五、二、五）1273.7 1999年1月至1999年7月，捕获-C（五，五，二）1273.8/ 29.5 /72.0CAPTURE-S（二，二，二）667.7/ 25.7 /68.3捕获-L（八，八，八）2474.7/ 30.9 /74.2捕获（四，四，四）1274.6/ 30.1 /73.9表4.不同层配置的性能评价N= 100。5.4. 层配置我们研究了Transformer层的配置将如何影响表中模型的性能4. 第一章 Config 列中的三元组分别代表 Text/VisualTransformer、Cross-Transformer和Co-Transformer层的编号。我们首先移除特定类型的层，同时保持结果网络的深度与捕获的深度相同，即，12层，为了公平的比较。“w/o-Cross”、“w/o-Co”和“w/o-Txt/Vis”是指从CAPTURE 中删除 Cross-Transformer 、 Co-Transformer和Text/Visual Transformer层后生成的模型。可以看出，这三种型号的性能都不如那一种的CAPTURE，这证明了其混合流架构的有效性。此外，在表4的第二组（CAPTURE-A、B、C）中，我们研究了三种层类型以不同比例的组合。结果表明，（4，4，4）配置实现了最佳性能。我们进一步探讨了一个较小的模型（CAPTURE-S）和一个较大的模型（CAPTURE-L ）的性能。可以看出，具有（ 4 ， 4 ， 4 ）配置的CAPTURE实现了准确度和参数之间的更好折衷。5.5. 零次实例级检索我们认为，基于检索的解决方案更好地推广到现实世界的情况下，类别集是不断更新的，大量的清洁标签是太昂贵的收集。与检测不同，我们的基于检索的框架不依赖于一个固定大小的集合的predefined类或细粒度框注释。为了强调这一点，我们进行了零射击检索实验，并在表5中报告了结果。我们从训练集中手动删除5/10/20个品牌，并在剩余样本上训练CAPTURE，以便不会将删除的类别处理为11789度量N= 10N= 505个品牌mAP@N63.3/ 64.5 /67.160.7/ 62.2 /64.4mAR@N23.2/ 24.7 /25.919.2/ 20.1 /20.9Prec@N56.5/ 57.1 /60.556.5 1999年12月31日至1999年12月31日10个品牌mAP@N56.8/ 58.2 /61.554.1/ 55.2 /57.1mAR@N19.6/ 20.5 /24.016.4/17.4 /18.4Prec@N50.2/ 51.9 /53.051.3 1999年12月31日至1999年12月31日表5.零炮检索的性能比较。按照LXMERT/UNITER/CAPTURE的顺序组织。方法mAP@100mAR@100精密度@100UNITER-单86.5680.8280.82LXMERT-单86.0580.5980.59捕捉-单88.2483.3383.33捕捉-自然70.3626.4666.53CAPTURE-1Inst60.0320.4358.42捕获74.6330.0873.86捕获子集73.3630.4472.41捕获-gt77.7937.4077.13表6.单一产品回收的消融研究以及检测性能对回收的影响注意，对于单一产品检索，度量 Prec@N 等效于mAR@N，因为图像中只有一个类别我们的模型在训练中。然后，我们评估CAPTURE对这些看不见的品牌的类。我们进一步比较了我们的模型与双流模型LXMERT和单流模型UNITER。可以看出，CAPTURE对于所有三个度量都实现了比LXMERT和UNITER更好的性能，这很好地证明了其通用化能力。我们还通过图中的t-SNE [40]5. 事实证明，由CAPTURE编码的特征更具区分性，从而有利于检索任务。5.6. 单品检索值得注意的是，CAPTURE既适用于单产品检索，也适用于多产品检索。事实上，它在这两个任务上表现出色，并且在单一产品检索中比其他基线实现了更好的性能。具体来说，对于图库集中的每个单一产品样本，我们将其作为查询挑选出来，并在图库集中的剩余样本中执行单一产品检索。我们比较了三种模型的性能，即，UNITER-单次、LXMERT-单次和CAPTURE-单次，见表6。可以看出，单产品检索的性能比多产品检索的性能高得多，因为当图像/文本中只有一个实例/实体时，难度大大降低。此外，我们注意到mAP@N42.6 / 43.3/44.436.7 / 37.3 /38.8mAR@N17.5 / 17.6/17.912.9 / 13.2 /13.5Prec@N32.2 / 32.4/34.032.9 / 33.1 /34.520个品牌11790法国兰蔻黑瓶肌底精华100+20ml面霜套装(a) UNITER（b）捕获图4.通过t-SNE可视化CAPTURE和UNITER生成的嵌入。属于同一类别的点具有相同的颜色。最好用彩色观看。“CAPTURE-single”的性能5.7. 检测性能对检索我们进行了几个实验，以探讨如何执行的检测器的性能将影响实例级检索。结果列于表6中。正如我们在第4.1节中所述，由于自然图像和商品图像之间为了验证这一点，我们用在Visual Genome [23]上预训练的Faster R-CNN [35] 替换 RPN ，并利用它来生成CAPTURE 的实例输入特征。结果模型，命名为'CAPTURE-natural' ，在所有三个指标上都劣于CAPTURE。对于由于实例识别的失败，该方案表现更进一步，为了探索CAP-TURE的上限，我们随机选择1，338个多产品图像，并手动标记这些图像的边界框对于'CAPTURE-subset'模型，我们简单地在这个注释的对于“CAPTURE-gt”模型，地面实况框及其对应的可以看出，这两个模型的性能差距表明检测器的性能可以在实例级检索中发挥重要作用。此外，它们之间的mAR差距相对较大，这表明检测中的假阴性会损害实例级检索的性能。6. 结论在本文中，我们提出了第一次努力扩展规范内/跨模态检索到一个更广义的兰蔻水凝边缘护肤套装兰蔻小白管空气感防晒隔离乳30ml粉红水玫瑰磨砂套装图5.生成的检索结果的可视化捕获.多产品查询图片在左侧。Cor-rect/不正确的检索图像在绿色/红色框中突出显示设置，即，弱监督的多模态实例级产品检索，在电子商务行业具有广泛的应用潜力。我们贡献了Product1M，这是最大的多模态检索数据集之一，也是第一个专门为实例级检索量身定制的数据集除此之外，我们提出了一种新的混合流转换器，名为CAPTURE，擅长捕捉不同模态的数据之间的潜在协同作用。此外，我们通过在多模态特征之间实施跨模态对比学习，克服了不适当的借口任务所引起的不匹配问题。大量的实验表明，我们的CAPTURE超越了SOTA跨模态预训练模型在所有的metrics由一个很大的利润。我们希望所提出的Product1M、CAPTURE和坚实的基线将刺激进一步的研究，使其成为一个更可靠、更灵活的检索系统。7. 确认本工作得到了国家重点研发项目（项目编号：2018AAA 0100300）、国家自然科学基金（项目编号：U19A2073和项目编号：61976233）、广东省基础与应用基础研究（区域联合基金-重点）项目（项目编号：2019 B1515120039）、广东省杰出青年基金（项目编号：2021 B1515020061）、深圳市基础研究项目（项目编号： RCYX 20200714114642083 、项目编号：JCYJ 20190807154211365）的部分支持。11791引用[1] Cong Bai，Ling Huang，Xiang Pan，Jianwei Zheng，and Shengyong Chen.用于大规模图像检索的深度卷积神经网络神经计算，303：60-67，2018。2[2] Stef anBüttcher ， CharlesLAClark e ， andGordonVCor-mack.信息检索：实现和评估搜索引擎。麻省理工学院出版社，2016年。2[3] 邓采，顾秀叶，王超奇。基于大规模内容的图像检索的深度哈希的再访。在arXiv：1711.06016，2017。6[4] Yue Cao ， Mingsheng Long ， Jianmin Wang ， QiangYang，and Philip S Yu.用于跨模态检索的深度视觉语义哈希。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集，第1445-1454页，2016年2[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。5[6] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter：通用图像-文本表示学习。在欧洲计算机视觉会议上，第104-120页。Springer，2020年。二三五六[7] CharlesCorbiere ， HediBen-Younes ， Ale xandreRame´ ，andCharles Ollion.利用弱注释数据进行时尚图像检索和标签预测。法律程序中IEEE计算机视觉研讨会国际会议，第2268-2274页，2017年。2[8] Cheng Deng ， Zhaojia Chen ， Xianglong Liu ， XinboGao，and Dacheng Tao.用于跨模态检索的基于三元组的深度哈希网络IEEE Transactions on Image Processing，27（8）：3893-3903，2018。2[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。三、五[10] Debidatta Dwibedi，Ishan Misra，and Martial Hebert.剪切、粘贴和学习：令人惊讶的简单合成，例如检测。在IEEE国际计算机视觉会议论文集，第1301-1310页，2017年。4[11] Faezeh Ensan和Ebrahim Bagheri。基于语义链接的文档检索模型。第十届ACM网络搜索和数据挖掘国际会议论文集，第181-190页，2017年。2[12] Fangxiang Feng，Xiaojie Wang，and Ruifan Li.具有对应自动编码器的跨模态检索。在Proceedings of the 22ndACM international conference on Multimedia ， pages 7-16，2014中。2[13] Xiaoling Gu，Yongkang Wong，Lidan Shou，Pai Peng，Gang Chen，and Mohan S Kankanhalli.多模态和多领域嵌入学习用于时尚检索和分析。IEEE Transactions onMultimedia，21（6）：1524-1537，2018。2[14] Donna Harman 等人信息检索：早年 Foundations andTrends® in Inf

下载后可阅读完整内容，剩余1页未读，立即下载