M5Product:电子商务中的自协调对比学习与多模态预训练

35 浏览量更新于2023-10-25 收藏 14.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Xiao Dong1†, Xunlin Zhan1,2†, Yangxin Wu1, Yunchao Wei3, Michael C. Kampffmeyer4, Xiaoyong Wei5,Minlong Lu6, Yaowei Wang5, Xiaodan Liang1,2?UiT The Arctic University of Norway PengCheng Laboratory Alibaba Group.{dongx55, zhanxlin, wuyx29}@mail2.sysu.edu.cn, {dx.icandoit,wychao1987,xdliang328}@gmail.com,ymlml@zju.edu.cn, michael.c.kampffmeyer@uit.no, cswei@scu.edu.cn, wangyw@pcl.ac.cn1 https://xiaodongsuper.github.io/M5Product_dataset/212520M5Product: 自协调对比学习用于电子商务0多模态预训练01 中山大学 2 中山大学深圳校区 3 北京交通大学0摘要0尽管多模态预训练具有潜力0学习高度区分性的特征表示，从互补的数据模态中，当前的进展受到了缺乏大规模多模态多样性数据集的限制。通过利用电子商务的自然适应性，不同的模态捕捉到互补的语义信息，我们贡献了一个大规模的多模态预训练数据集M5Product。该数据集包括5个0模态（图像、文本、表格、视频和音频），涵盖了6000多个类别和5000个属性，比最大的公开可用数据集大500倍，而且具有不完整的模态对和噪声，同时还具有长尾分布，类似于大多数现实世界问题。我们进一步提出了一种新的预训练框架S elf-harmonized C ontr A stive LE arning ( SCALE)，通过自适应特征融合机制将不同的模态集成到统一的模型中，其中每个模态的重要性直接从模态嵌入中学习，并影响多模态变压器模型中的模态间对比学习和掩码任务。我们评估了当前多模态预训练最先进的方法，并在M5Product数据集中面对大量模态时对它们学习无标签数据的能力进行了基准测试。我们在四个下游任务上进行了大量实验，并展示了我们的SCALE模型的优越性，为数据集规模和多样性的重要性提供了见解。数据集和代码可在1处获取。01. 引言0自监督学习推动了快速发展0计算机视觉和自然语言处理等领域的发展0† 同等贡献。 ? 通讯作者。0图像类别标题0表格0视频0音频0�0��0盲盒收纳梯子0透明显示防尘娃娃手工茉莉花娃娃亚克力盒子支架0商品：盲盒梯子收纳盒品牌：唐工匠材质：木材颜色：白色、浅灰色、深灰色适用人群：成人适用场景：学习0表格0文本图像0音频视频0图1. 我们的M5Product数据集包含各种各样的0展示电子商务产品的类别、描述、材料、属性和用途以及各种真实世界数据样本的图像、文本、表格、视频和音频的模态。0语言处理以及多模态表示学习的研究。特别是从理论[18]和实践[16,58]的角度来看，大规模具有多样性模态的数据集可以有效增强生成特征的区分能力，从而提高视觉语言任务的性能。然而，当前的进展严重受到这种大规模多模态多样性数据集的缺乏限制，最大的公共多模态数据集只包含文本和图像模态，没有类别信息[41]。0鉴于在线购物在日常生活中的普及，0以及其中自然发生的多模态信息212530在电子商务产品的广泛类别和多样性中，多模态预训练引起了越来越多的关注，并推动了下一代技术在多模态检索、多模态分类和聚类等几个下游任务中的发展。然而，即使在现有的产品数据集中（例如RPC结账[48]、DressRetrieval[9]和Product1M[55]），类别的数量也不足以稳健地验证下游任务的性能。0更重要的是，当前的研究社区0现有的研究主要集中在通用多模态和电子商务数据集中的两种模态（文本和图像），忽视了结构数据以及视频和音频模态提供的额外补充信息的重要性。例如，表格数据可以提供有关属性和特征的详细信息，如品牌、材料、属性和场景，而音频和视频可以传达不同的视角、尺度、可用性、卖点、特征和使用场景，这些信息仅通过图像或文本是不明显的。对这两种模态的关注部分是由于缺乏具有多样性模态的数据集以及在这些设置中平衡模态重要性方法的不足。特别是，存在两个关键挑战：1）模态交互：如何使用一种优雅的方法从单模态、双模态、三模态甚至多模态关系中学习共同的表示，以适应大量模态；2）模态噪声：如何在训练过程中减少模态噪声（缺失和不完整的模态）的影响。0为了解决模态多样性不足的问题0为了提供一个具有挑战性的真实世界场景，同时提供丰富的多样性和有限的规模，我们提出了一个非常大规模的电子商务多模态产品数据集M5Product，它是迄今为止最大和最多样化的多模态产品数据集之一。我们的M5Product数据集包含来自6232个类别的600多万个多模态样本，并且比现有数据集具有更复杂和多样化的模态。这使得M5Product可以用于更全面地评估多模态预训练模型的实际应用和泛化能力，并可以提高模态融合性能，促进多模态研究的新方向。图1显示了我们数据集的五种模态（图像、标题、视频、音频和规格（表格））。0为了进一步解决现有模态融合的局限性0为了处理多模态噪声并处理现有方法，我们提出了一个通用框架，该框架以五模态数据作为输入，如图2所示。该框架由一个简单高效的多模态五流预训练模型SCALE（自我和谐对比学习）组成，并在几个下游任务上进行评估，并与几个最新的视觉语言模型进行比较。0SCALE通过在对比学习模块和掩码任务中实施自我和谐策略，调整不同模态之间的对齐权重，提高了模态对齐的效果，以自适应地整合互补的模态信息。总之，我们的贡献如下：0• 我们提供了最大的五模态电子商务0数据集M5Product。通过其大规模、多样性、复杂的真实场景和多模态数量，M5Product为评估多模态预训练模型的泛化性能提供了一个全面的环境。0• 我们的自我和谐对比学习（SCALE）0框架学习自适应的模态交互，从而实现更有效的模态融合。我们将SCALE与一套全面的基线方法进行比较，并证明其在M5Product数据集上具有卓越的性能。0• 有趣的观察结果：1）在大规模和复杂的场景中，不同模态的互补增益增加。学习模态对齐0复杂场景中，不同模态的互补增益增加。学习模态对齐0权重使我们的SCALE框架能够有效地协调互补信息，以实现更好的性能。2）对于电子商务领域的多模态预训练模型，数据集的规模和多样性相对重要。鉴于大规模和多样化的产品，我们的SCALE框架比其他基线更好地推广到下游任务。02. 相关工作0多模态预训练数据集. 大多数多模态0预训练数据集是从社交网站（如Twitter和Facebook）收集的，仅限于为指定任务收集的两种模态。根据它们的模态组成，这些数据集可以分为四类，即音频/文本，视频/文本，图像/文本和其他。其中，LJ Speech [ 19 ] 和 SQuAD [ 25]是经典的音频/文本数据集，用于语音合成和音频问答，而大多数视频/文本数据集 [ 2 , 20 , 24 , 32 , 46 , 47 , 51 ,57 ]用于视频问答。然而，这些数据集通常只包含有限数量的样本，限制了它们在多模态预训练中的适用性。另一方面，图像/文本数据集 [ 1 , 4 , 8 , 17 , 22 , 23 , 29 , 34 , 41 , 43 ,48 , 53 ]往往更大，并且已被广泛用于预训练多模态模型。其中，CC3M [ 41 ]拥有超过300万个图像-文本对，是目前最广泛使用的预训练数据集，并且最近已扩展到CC 12M [ 5]，目前是最大的文本-图像跨模态数据集。除此之外，用于多模态检索任务的常用图像/文本数据集包括MS COCO [ 29]，Flickr30K [ 53 ]，INRIA-Websearch [ 22 ]和datasets. ”-” means not mentioned. Our M5Product is one of thelargest multi-modal datasets compared with existing datasets. Sixmodalities are separately denoted as: Image (I), Text (T), Video(V), Audio (A), Table (Tab) and 3D Image (3D).SQuAD [25]37,111--2A/TnoHowTo100M [32] 1,220,00012-2V/TnoCC 3M [41]3,300,000--2I/TnoCC 12M [5]12,423,374--2I/TnoCMU-MOSEI [54]23,5002-3T/V/AnoXMedia [36]12,00020-5I/T/V/A/3DnoRPC checkout [48]30,000200367,9352I/TyesDress Retrieval [9]20,20050⇠20,2002I/TyesProduct1M [55]1,182,08345892,2002I/TyesMEP-3M [6]3,012,959599-2I/TyesM5Product6,313,0676,232-5I/T/V/A/TabyesNUS-WIDE [8] with standard annotations. Other datasetsinclude CMU-MOSEI [54] and XMedia [36], where CMU-MOSEI mainly focuses on the emotional analysis and XMe-dia is utilized for cross-modal retrieval.eral E-commerce datasets. The Dress Retrieval [9], RPCcheckout [48] and Product1M [55] are typical E-commercemulti-modal datasets. The Dress Retrieval dataset contains20,200 samples from 50 clothing categories, RPC check-out offers 30,000 samples of small retail goods on simplebackgrounds and Product1M provides 1.18 million samplesfrom 458 cosmetics classes.Compared with these threecore data modalities (image, text, video, audio, and table data) only anddo not consider extracted feature representations such as OCR and Motionembeddings that are extracted from core modalities as separate modalities.4 https://pypi.org/project/moviepy/212540表1. 与其他广泛使用的多模态数据集的比较0数据集样本类别实例模态类型产品0除了上述数据集外，还存在一些0与其他多模态预训练数据集相比，我们的M5Product不仅在类别和数据规模上更大，而且包含了更多样的模态。表1提供了与其他多模态预训练数据集的详细比较。电子商务产品的多模态预训练。近年来，已经探索了几种视觉-文本多模态学习的视觉-语言预训练模型。它们可以粗略地分为两类：1）单流模型，其Transformer层在视觉和文本输入的连接上共同操作，例如VL-bert[42]、Image-BERT [37]、VideoBERT [44]、MMT[12]、HERO [26]、VisualBERT [27]和UNITER[7]。2）双流模型，其图像和文本输入不是连接的，例如ViLBERT [30]、LXMERT [45]、CLIP [38]和DALL-E [39]。0在电子商务领域，基于时尚的任务已经得到了广泛应用0在时尚领域，已经提出了FashionBERT [13]、MAAF[11]、Kaleido-BERT [59]、M6 [28]和CAPTURE[55]等方法。在电子商务场景中的所有现有研究都仅关注图像和文本模态，没有一种方法可以利用更多的模态。此外，0当建模多模态交互时，大多数方法默认为不同模态分配相同的贡献。具体来说，基于Transformer的方法通过连接从不同输入中提取的高级特征来组合这些特征，其中单模态Transformer0表2. E产品的不同模态特征。0模态 APP USA SPEC SELL PROD MATE CATE0图像 X0文本 X X X X0视频 X X X X0音频 X X X0表格 X X X X0通过遮蔽任务约束或构建不同模态之间的交互损失进行训练。这种方法0这限制了模型有效地优先考虑模态的能力，并且在模态数量增加时往往限制了性能的提升。0我们提出的基准填补了这一空白，通过利用所有0M5Product数据集的多样模态提供了一个强大的基准，用于电子商务领域及其他领域的多模态预训练研究。03. M5Product数据集0数据收集。该数据集是从一个流行的网站爬取的。0我们的电子商务网站2.0和每个电子商务产品的首页都会分析以收集由产品图片、标题、视频和规格（表格信息）组成的多模态信息3.0。我们会删除重复数据，并通过moviepy4工具从视频中提取音频信息并以mp3格式保存。对于产品规格，我们提取了5,679个产品属性和24,398,673个值，以粗略标记的方式构建了一个由电子商务商家标记的表格数据库。处理后，数据集包含6,313,067个样本。需要注意的是，作为一个真实的世界数据集，我们的M5Product不同于传统的多模态数据集，它不是一个完整的配对数据集，包含的样本只有一部分模态，并且呈现长尾分布（图3）。我们在表2中总结了数据集中不同模态传达的产品特征，其中APP、USA、SPEC、SELL、PROD、MATE和CATE分别表示外观、用途、规格、卖点、生产、材料和类别描述。定量分析：1）多样性：数据集包含超过6,000个类别，涵盖了各种各样的电子商务产品，如服装、化妆品和仪器。图1展示了模态和类别的多样性，我们在补充材料的E部分进一步提供了数据格式和收集过程的描述。最后，在F部分可以找到对类别和模态分布的定量分析。需要注意的是，大约5%的产品是单模态样本，例如只包含图片、标题、0与传统的多模态数据集不同，我们的M5Product不是一个完整的配对数据集，包含的样本只有一部分模态，并且呈现长尾分布（图3）。我们在表2中总结了数据集中不同模态传达的产品特征，其中APP、USA、SPEC、SELL、PROD、MATE和CATE分别表示外观、用途、规格、卖点、生产、材料和类别描述。定量分析：1）多样性：数据集包含超过6,000个类别，涵盖了各种各样的电子商务产品，如服装、化妆品和仪器。图1展示了模态和类别的多样性，我们在补充材料的E部分进一步提供了数据格式和收集过程的描述。最后，在F部分可以找到对类别和模态分布的定量分析。需要注意的是，大约5%的产品是单模态样本，例如只包含图片、标题、02 我们被授权访问和获取数据。我们进一步被授权共享数据集，详细的许可证在补充材料的A节中给出。3在这项工作中，我们专注于核心数据模态（图像、文本、视频、音频和表格数据），不考虑从核心模态中提取的特征表示，如OCR和运动嵌入，这些特征表示被视为单独的模态。4https://pypi.org/project/moviepy/……Design bracelet 18k emerald bracelet bracelet opening adjustable emerald one carat national inspection reviewSupor 50FH9070Q electric pressure cooker household 5L spherical kettle IH multifunctional intelligent high pressure rice cooker for 5-6 peopleGenuine bull electronic timer battery car electric car mobile phone charging automatic cut off/power switch socket 10ALED step lights, foot lights, corner lights, outdoor waterproof embedded aisle step lights, hotel stairs night lightsMoido fashion portable foldable underwear drying sterilization box, maternal and baby products UV ultraviolet sterilization dryerUkulele toy simulation children's small guitar beginners can play musical instruments boys and girls birthday gifts212550��0�� 0��0�� 0��0�� 0��0�� 0��0�� 0�� 0�� -�� 0��0�� 0�� 0�� -��0�� 0��-��0��-�� -��-��0��0�� 0��0��-��0��0��-��0��0��-�� 0��-0��0�� 0��-��0� �0图2.我们的M5产品基准的示意图。它由一个包含五种模态的电子商务数据集组成，这些数据集具有更多样化和复杂化的背景，是从真实世界的在线购物网站收集而来的。它还提出了一个SCALE模型，用于捕捉四个常见下游任务的最大模态互补信息：1）多模态检索，2）细粒度检索，3）多模态分类和4）多模态聚类。该基准验证了五种广泛使用的模态的模态多样性的有效性。0或表格属性。2）质量：我们进一步在表1中将我们的M5Product数据集与一些广泛使用的多模态预训练数据集进行了比较。更详细的与其他多模态数据集的比较可以在补充材料的H节中找到。与现有的多模态数据集相比，M5Product是第一个包含超过两种模态数据的极大规模的公共真实世界电子商务产品数据集。0此外，我们的数据集包含大量的内部数据。0即6,232个粗略类别的超过六百万个样本。这些丰富的数据将有助于自学习、弱监督学习、多模态检索、跨模态生成和细粒度识别等多个下游任务。附加分析。在补充材料中，我们在B节中提供了数据集收集的详细信息，在D节中详细说明了数据集如何划分为训练集和测试集，在C节中说明了如何获取注释。我们还提供了一个较小的划分，称为子集，用于展示较小数据集的性能差异。最后，我们进一步提供了有关数据集组成的更多见解（缺失模态、单模态数据分析等）。0补充材料的F节中提供了数据格式的详细信息。04.我们的方法论0如图2所示，我们的SCALE框架由一个自我协调对比学习模块和一个自我监督多模态变换器组成。0SCALE的自我协调对比学习模块和自我监督多模态变换器。在本节中，我们首先在第4.1节中提供SCALE的架构设计，然后在第4.2节中描述了五个遮蔽任务，这些任务使得SCALE的自我监督学习成为可能。最后，我们在第4.3节中介绍了SCALE的详细学习过程，并详细说明了如何实现多模态对齐。04.1. SCALE的架构设计0如图2所示，SCALE是一种典型的单一0流变压器架构。在底部部分，图像/文本/表格/视频/音频嵌入层和变压器旨在提取模态特征并生成令牌特征。具体而言，文本和表格编码器是用于编码产品的标题和表格信息的标准变压器。图像编码器取而代之的是使用bottom-up-attention[3]提取的建议作为输入，而从视频中采样的序数帧被馈送到视频编码器中。对于音频编码器，SCALE从音频中提取MFCC[33]特征。在经过单独的模态编码器处理后，不同模态的令牌特征被连接起来并馈送到联合共变换器（JCT）模块中，以捕捉不同模态之间的令牌关系。缺失模态。在训练时，利用缺失模态的零填充来利用所有可用的数据, f, d(1)i ) = � logexp⇣sim⇣f (0)i,f (1)i⌘/⌧⌘1Pm=0NPk=16⇣sim⇣f (m)i,f (1�m)k⌘/⌧⌘,(2)66Ltotal =S5Si,j LCLi,j(Si,jlogiti,j) + P3)212560SCALE。我们在补充材料的第I节中提供了SCALE从不完整样本中受益的实验证据。04.2. 通过遮蔽多模态任务的SCALE0与以前的工作类似，我们利用了几个预处理0任务（PRE）以促进SCALE在联合共变换器模块中的自我监督学习。对于图像和文本模态的模态特征学习，我们分别采用了遮蔽区域预测任务（MRP）和遮蔽语言建模任务（MLM），在JCT之后。根据表格、视频和音频模态的特点，我们进一步提出了遮蔽实体建模任务（MEM）、遮蔽帧预测任务（MFP）和遮蔽音频建模任务（MAM），遵循预测遮蔽令牌的类似策略。在所有遮蔽任务中，地面真实标签是遮蔽区域的特征。对于所有遮蔽任务，15%的输入被遮蔽，剩余的输入用于重构遮蔽信息。请注意，与MLM任务不同，其中15%的单词被遮蔽，MEM任务中的15%的实体（属性、品牌名称等）完全被遮蔽。这驱使我们的模型学习更好的表格表示以恢复被遮蔽的输入，这在第5.3节中有所说明。第i个模态的损失函数定义为：0L M i（�）= - E t msk � t log P �（t msk | t ¬ msk，M ¬0其中t ¬ msk表示遮蔽令牌tmsk周围的未遮蔽令牌，�表示网络参数，M i和M ¬i分别是第i个模态和其余模态。04.3. 自我和谐的跨模态对比0学习0自我和谐的跨模态对比学习0（SIMCL）是我们提出的SCALE框架的核心。它旨在通过自我和谐策略促进不同模态之间的语义对齐，以实现自适应的跨模态对比学习（IMCL）。对于一批次的模态样本D 2 R B �M �F，其中B，M和F分别表示批次大小，模态数量和嵌入维度，我们首先构建每个模态之间的对比损失。0给定N个数据样本{（d（0）0i，d（10我）} 0i = 1，每个0样本有两种模态（0）和（1），我们在对比学习中选择N个模态对作为正样本。对于每一对正样本（d（0）0i，d（10我），负样本是con-0通过配对d（0）0我和d（1）0i与其余的N-10从另一个模态中选择样本，从而得到2(N-1)个负样本对。对于模态对(d(0)0i )和它们的嵌入特征0ding特征(f(0)0i )，交叉模态对比损失0正样本0负样本0对比学习0互模态对比学习0互模态得分0图4. 我们SCALE框架的互模态对比学习模块。0每个模态对的互模态得分是：0LCL(d(0)01[k6=i]exp0其中sim是余弦相似度，�是温度参数，1[k6=i]是一个二进制指示函数，当k≠i时，1=1，否则为0。0在大多数先前的工作中，只考虑了两种模态0并且可以使用公式2。然而，当考虑到三模态数据或者具有三个以上模态的数据时，直接拟合损失函数是不合适的，因为它没有考虑到不同模态贡献的互补信息的差异。为了解决这个问题，我们定义了一种简单但有效的自我协调方法来建模模态间关系的互补过程。我们引入了一个模态对齐分数矩阵，用于编码模态间损失LCL和模态内损失LMi之间的关系。每个数据样本的对齐分数矩阵S由一个零矩阵初始化，并作为自由模型参数进行更新。为了获得每个模态组合的模态重要性分数，我们对S应用softmax函数。最后，将重要性分数相乘生成模态对齐分数S，即S = S ∙softmax(S)。学习过程如图4所示，说明了SIMCL充分利用了模态间关系。给定模态对齐分数S，选择三角部分S5加权模态间损失LCL，选择对角部分S\约束模态内损失LMi，从而得到加权损失：0SiLMi(Silogiti)0其中logit是损失logit。05. 实验0实现细节。我们使用BERT[10]来初始化我们提出的SCALE框架的文本转换器，I+Tab62.0044.53 / 45.9749.62 / 51.8948.28 / 50.3344.53 / 45.9730.89 / 34.0823.65 / 28.63I+V34.5720.57 / 36.2926.78 / 42.7226.41 / 41.3820.57 / 36.2914.71 / 26.5211.78 / 22.34I+A27.6715.73 / 35.6420.85 / 42.9620.72 / 41.7015.73 / 35.6411.16 / 27.029.47 / 22.78I+T79.5867.02 / 62.2069.85 / 66.9768.43 / 64.2167.02 / 62.2046.29 / 49.8534.29 / 42.36I+T+V80.3467.35 / 63.0570.29 / 67.3768.95 / 64.6267.35 / 63.0546.45 / 50.8534.33 / 43.02I+T+A79.7367.19 / 64.2170.15 / 68.2568.64 / 65.3567.19 / 64.2146.33 / 50.4233.32 / 42.93I+Tab+V63.0945.94 / 47.3351.32 / 53.3349.78 / 51.2845.94 / 47.3331.69 / 35.8124.12 / 30.05I+T+Tab82.8367.97 / 68.3070.34 / 72.6769.38 / 70.0767.97 / 68.3046.85 / 57.4434.36 / 50.59I+T+Tab+V84.3169.79 / 68.4072.30 / 72.9170.67 / 70.3169.79 / 68.4047.44 / 57.6034.78 / 51.47I+Tab+A+V63.5447.24 / 48.2452.07 / 53.8950.41 / 51.8947.24 / 48.2432.19 / 36.2924.47 / 30.74I+T+A+V80.3668.80 / 66.4370.84 / 71.1269.71 / 68.1668.80 / 66.4347.24 / 54.0334.57 / 47.53I+T+Tab+A84.3370.23 / 68.9772.59 / 73.0770.94 / 70.7770.23 / 68.9747.58 / 57.8935.33 / 51.60I+T+Tab+A+V85.5070.62 / 69.2573.02 / 74.0871.50 / 71.0270.62 / 69.2548.20 / 58.7635.35 / 52.05setBERT [10]47.7077.4276.3568.80VL-BERT [42]49.3178.1380.5171.91ViLBERT [30]49.1878.2480.5171.91VisualBERT [27]49.2078.4181.2372.39CLIP [38]49.3978.3581.7572.50UNITER [7]49.8778.5482.7173.58CAPTURE [ 38]50.3078.6983.0674.14BERT [10]55.8282.1187.3071.75CLIP [38]57.7382.6090.4976.48zed.fu-ingsizese-dthionain212570表3. 使用SCALE逐步添加更多模态后（预训练/微调）的性能提升，基于从预训练和微调阶段提取的特征的检索性能。0模态准确率 mAP@1 mAP@5 mAP@10 Prec@1 Prec@5 Prec@100文本 77.42 47.70 / 65.10 53.63 / 68.39 51.59 / 66.99 47.70 / 65.10 30.96 / 44.89 24.15 / 33.440+图像 79.58 51.47 / 67.02 56.16 / 69.85 54.41 / 68.43 51.47 / 67.02 33.41 / 46.29 25.55 / 34.290+表格 82.83 57.14 / 67.97 61.71 / 70.34 59.64 / 69.38 57.14 / 67.97 38.02 / 46.85 28.99 / 34.360+视频 84.31 58.57 / 69.79 63.15 / 72.30 61.02 / 70.67 58.57 / 69.79 39.26 / 47.44 29.56 / 34.780+音频 85.50 58.72 / 70.62 63.17 / 73.02 61.05 / 71.50 58.72 / 70.62 39.66 / 48.20 30.32 / 35.350文本 81.11 55.82 / 69.47 60.74 / 72.74 59.02 / 71.79 55.82 / 69.47 36.99 / 48.76 28.04 / 35.840+图像 83.68 59.81 / 71.51 64.13 / 74.51 62.18 / 73.21 59.81 / 71.51 38.97 / 49.27 30.15 / 36.720+表格 84.63 61.32 / 72.34 65.53 / 74.86 63.62 / 73.47 61.32 / 72.34 40.66 / 49.77 30.78 / 36.950+视频 84.90 62.65 / 72.59 65.67 / 75.05 63.87 / 73.62 62.65 / 72.59 41.18 / 49.96 31.01 / 37.040+音频 86.57 63.56 / 73.77 67.51 / 76.17 65.39 / 74.73 63.56 / 74.01 42.68 / 50.78 32.17 / 37.420表4. 我们的模型 SCALE在不同模态组合下的粗粒度和细粒度多模态检索和分类任务上的性能。在下文中，I，T，Tab，V和A分别表示图像、文本、表格、视频和音频模态。0模态组合准确率 mAP@1 mAP@5 mAP@10 Prec@1 Prec@5 Prec@100表5. 在子集（上）和整个数据集（下）上图像和文本模态的比较。0方法 mAP@1 准确率 NMI 纯度0基于图像 15.17 27.67 63.62 54.860我们的模型 SCALE 51.47 79.58 84.23 75.810基于图像 22.67 30.14 67.49 59.640我们的模型 SCALE 59.81 83.68 92.01 78.340剩余的transformer是随机初始化的。单模态编码器和多模态融合编码器都由6个transformer层组成，总共有12个transformer层。每个模态的transformer的隐藏状态大小为768，标题和表格的最大序列长度分别设置为36和64。使用与[30 ] 5相同的设置，我们利用在Visual Genome数据集[ 23]上预训练的Faster R-CNN [ 40 ]和ResNet101 [ 15]提取所选的10到36个边界框的区域特征。05 https://github.com/airsplay/py-bottom-up-attention0我们使用批大小为64的总批次大小，在Adam优化器[21]下进行了5个时期的SCALE训练，初始学习率为1e-4。有关我们模型的其他实现细节，请参见补充材料的第G节。基线。我们将SCALE与以下八种利用图像和文本模态以及两者的组合的替代预训练方法进行比较：Bert [10]0(基于文本的)，基于图像的，ViLBERT [30]，CLIP[38]，VL-BERT [42]，VisualBERT [27]，UNITER[7]和CAPTURE [56]。基于图像的和BERT[10]是基于MLM（掩蔽语言建模）或MRP（掩蔽区域预测）任务的12层变压器，使用图像或文本模态，为产品检索、分类和聚类任务提供了单模态基线。为了公平比较，所有基线都选择了相同的隐藏大小768。评估。我们考虑以下四个下游任务来评估学习到的表示：1）多模态检索：该任务旨在使用两个或多个模态的组合找到最相关的目标产品。如果两者都属于同一类别，则认为是匹配；2）细粒度多模态检索：在实例级别上进行检索，只考虑同一产品的样本（即颜色、型号、形状和风格）183.7768.45 / 70.92 / 69.3067.56 / 46.37 / 34.12M)tely12563 4 0.9650 0.9625 0.9600 0.9575 0.9550 0.9525 0.9500 0.9475 0.9450Modality Correlations212580匹配6；3）多模态分类：使用SCALE的联合共同转换器提取的多模态特征进行产品类别分类；4）多模态聚类：使用k-Means聚类和与分类设置中相同的特征进行产品类别聚类。对于产品检索，我们采用广泛使用的平均精度（mAP）和精确度（Prec）[14，31，49]指标来评估两个检索任务的检索准确性。对于产品分类和聚类，所有方法都使用分类精度（分类准确率）、归一化互信息（NMI）[52]和纯度指标进行评估。在所有实验中，模型都是在训练集上进行训练的。然后，将预训练模型应用于提取产品检索和聚类任务的画廊和测试集的模态特征。对于分类任务，我们在包含1,805个类别/类的分类子集上微调预训练模型，并利用微调模型提取分类测试集的特征。05.1. 模态多样性0为了检验我们提出的SCALE的性能0为了验证多种模态和数据集规模的好处，我们使用越来越多的模态对SCALE进行训练，并观察整个M5产品数据集和子集的分类和多模态检索性能的变化。具体而言，我们在SCALE的联合共同转换器(JCT)上进行了微调，提取了融合特征，用于分类任务，并在(粗)多模态检索任务的预训练和微调之后提取了融合特征。表3中的结果显示，随着添加模态，所有设置的性能都有所提高，说明互补模态信息对学习多模态特征表示的好处。还可以观察到，在整个数据集上，模态增益更大，支持有趣的观察1。0我们进一步提供了一系列广泛的模态结果0为了验证SCALE在利用我们的M5产品数据

下载后可阅读完整内容，剩余1页未读，立即下载