基于跨语言对齐的产品图片多语言语义源

113 浏览量更新于2023-11-29 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

41→基于跨语言对齐的产品图片多语言语义源SourabMangrulkar电子邮件：smangrul@amazon.com亚马逊天气-卡纳塔克邦，印度摘要AnkithMSankiths@amazon.com亚马逊天气-卡纳塔克邦，印度关键词VivekSembiumviveksem@amazon.com亚马逊天气-卡纳塔克邦，印度在网上零售商店不断增加的目录中，产品搜索是客户发现他们感兴趣的产品的主要手段表面不相关的产品可能会导致不良的客户体验，并在极端情况下损失的参与.随着NLP的最新进展，深度学习模型被用于在共享语义空间中表示查询和产品，以实现语义源。这些模型需要大量的人类注释（查询，产品，相关性）元组来提供有竞争力的结果，这是昂贵的生成。由于数据缺乏问题，这个问题在新兴市场/语言中变得更加突出当扩展到新的市场时，必须支持区域语言，以覆盖更广泛的客户群，并以良好的客户体验取悦他们最近，在自然语言处理领域，使用并行数据语料库来训练多语言模型的方法已经变得突出，但是它们的生成是昂贵的在这项工作中，我们使用产品图像作为它们之间的锚来学习跨语言的语义对齐这克服了并行数据语料库的必要性。我们使用来自已建立市场的人类注释数据将相关分类知识转移到新的/新兴的市场，以解决数据匮乏问题。我们在亚马逊数据集上进行的实验表明，我们在非英语市场的相关性分类任务上的ROC-AUC提升率为2.4%-3.65%，在语言无关检索任务上的Recall@k提升率为34.69%-51.67%，在语义邻域质量任务上的Precision @k提升率为6.25%-13.42%。我们的模型证明了相关性分类知识从数据丰富的市场到新市场的有效转移，在训练期间无法获得目标市场的人类注释相关性数据的零触发设置中，相关性分类任务的ROC-AUC提升了3.74%-6.25%。CCS概念• 信息系统多语言和跨语言检索;多媒体和多模态检索。两位作者都对本研究做出了同等的贡献。本作品在知识共享下许可署名-非商业性使用-禁止演绎国际4.0许可协议。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.3524204深度学习;多语言;多模态;语义源;电子商务ACM参考格式：Sourab Mangrulkar，Ankith M S和Vivek Sembium。2022年使用产品图像进行跨语言对齐的多语言语义源在网络会议2022（WWW '22同伴）的同伴程序，2022年4月25日至29日，虚拟活动，里昂，法国。ACM，美国纽约州纽约市，11页。https://doi.org/10.1145/3487553.35242041引言亚马逊、沃尔玛、阿里巴巴、eBay等电子商务公司在全球范围内越来越受欢迎，并正在成为生活方式的一个组成部分随着它们向新兴市场和新市场的扩展，越来越多讲不同语言和方言的客户使用它们。为了提供更流畅的客户体验并减少客户例如，Amazon.in（https：//amazon.in/）允许顾客用英语、印地语、马拉地语、泰卢固语、卡纳达语、泰米尔语、马拉雅拉姆语和孟加拉语购物。一个典型的电子商务产品搜索涉及两个主要组成部分。（1）采购系统：检索与客户的意图相关的产品（表示为查询），以及（2）排名系统：以与客户相关性的降序排列检索到的产品列表的优先级。这项工作的重点是第一个组成部分，即，采购相关产品的一个给定的查询。传统上，采购系统依赖于查询术语和产品标题/描述中的术语之间的语法匹配这种方法增加了客户的认知负荷，因为他们必须多次重新制定查询以发现相关产品。为了将语义结合到这些系统中，源系统可以利用包含查询、点击和购买数据的历史匿名用户会话日志。例如，如果许多客户搜索术语“payal”，但最终在同一会话中购买了“脚链”，则术语“payal”可以被添加到该产品的语义索引中。这种增强索引的方法虽然有用，但具有一些缺点：（1）由于缺乏对查询和产品之间的深层语义的理解，它不能很好地概括;例如，包含术语“anklet”但未被使用搜索查询“payal”的客户发现的产品在其语义索引中将不具有“payal”;（2）它可能导致查询和产品之间的噪声匹配，例如，在该会话中搜索“高露洁牙刷”但购买“高露洁牙膏”的顾客为了减轻这种噪声，需要大量的人类注释的相关性数据42WWW其产生是昂贵的由于缺乏相关的审计数据，这一问题在新兴/新市场中进一步加剧。维护特定于市场的模型会产生计算和运营开销。它还限制了多区域搜索，例如，在英语占主导地位的IN市场中搜索泰米尔语的客户。多语言模型为处理所有这些限制提供了一个可行的选择。最近，随着Transformer模型（如[ 7 ]）的引入，语言处理技术取得了重大进展，这些模型已被扩展为学习可用于处理多种语言的统一多语言模型。我们的方法来语义源是独立地表示查询和产品到一个n维语义空间，这样的实体（查询/产品）是彼此相关的语义空间中的邻居。通过结合所有语言数据将标准的多语言语言模型[7]应用于这种方法并不能实现市场和语言之间的深层语义知识最近用于训练多语言语义源模型的方法如[11]和[1]，分别需要人类注释的并行语料库和每个语言对的。[23]利用来自各种市场的客户行为数据来学习多语言表示。所有这些数据集要么生成成本高昂，要么对于新兴/新市场来说有限/不可用。然而，每个市场都有一个由（产品标题、描述、图像）元组组成的大型产品目录语料库。在本文中，我们提出了多语种用于跨语言产品检索的多模态语义搜索模型（M2S2），其中产品图像充当学习多语言语义对齐。我们工作的主要贡献是多方面的。（1）使用视觉模态的多语言对齐：据我们所知，我们是第一个利用产品图像（其本质上与语言无关）来学习电子商务产品检索的语言之间的对齐。(2)迁移学习：查询-产品相关性知识从高资源市场转移到低资源市场。（3）模型：我们增强了Siamese架构网络，以学习语言不可知的语义表示。(4)Zero-Shot学习：通过对产品图像进行多语言语义对齐，我们减少了人工注释相关数据的必要性，从而提高了跨市场的零镜头相关分类性能。我们进行了消融研究，以评估所提出的M2S2框架的主要组件的有效性2相关工作产品搜索：传统上，查询和文档之间的语法匹配已经完成，以检索给定查询的相关文档通过引入潜在语义模型，意图匹配可以在语义层次上进行，而语义层次上的语义匹配往往会失败。随着NLP的最新进展，深度学习模型正在用于语义源。这些包括基于嵌入的模型，例如深度语义搜索模型（DSSM）[12，25]，卷积深度语义搜索模型（CDSSM）[33]，多任务DNN [20]，句子BERT [30]和Col-BERT [13]。DSSM和CDSSM模型是潜在语义模型具有将查询和文档投影到公共低维空间中的深层结构，其中给定查询的文档的相关性被计算为它们的嵌入之间的余弦相似性BERT [7]基于Transformer [39]的编码器部分，在各种NLP应用中实现了最先进的性能[7]。Sentence-BERT（S-BERT）[30]是基于Siamese网络的BERT的修改，可用于BERT不可行的计算要求较高的任务。ColBERT [13]通过对查询和文档令牌嵌入执行延迟交互来提高S-BERT的性能罗伯塔[22]利用各种预训练技巧，并在BERT上实现了显着改进基于BERT的模型正在爆炸式地探索架构创新，改进培训方法，并利用更多的数据以及来自知识库的实体[4，10，17，29，31，44]。所有这些模型都可以以连体的方式使用，以获得基于嵌入的语义源模型。多语言搜索：M-BERT [7]是BERT的多语言变体，它在104种语言上进行了训练，并在多语言任务上表现出了竞争力[27] 。 XLM [15] 利用双语并行语料库以及掩码语言建模（MLM）和翻译语言建模（TLM）的组合进行跨语言表示。XLM-RoBERTa [5]将XLM方法与RoBERTa技巧相结合，在MLM任务中预训练100多种语言的模型。其他基于BERT的多语言变体包括[21，41]。[42]介绍了2个面向跨语言检索的预训练任务，即查询语言建模（QLM）和相关性排名（RR），以增强基于跨语言信息检索（CLIR）任务的多语言BERT模型的通用性。在[ 2 ]中提出了基于深度学习的不同语言的一对句子之间的语义相似性模型。[32]利用双语语料库并&在共享语义空间中表示查询文档以启用CLIR，但不会在语言不可知的语义空间中显式对齐查询/文档。在电子商务领域，基于Transformer体系结构的多语言模型在[ 11 ]中提出了基于查询翻译的方法，该方法需要每个语言对的并行语料库。[1]中提出的模型使用跨每个语言对的交叉列出的[23]提出了基于图形的多语言模型，利用来自所有市场的客户数据。然而，用于这些方法的数据对于新兴/新市场是有限的/不可用的。我们通过使用由产品和图像组成的丰富目录数据进行多语言对齐来克服这些限制多模态搜索：随着基于Transformer的模型的广泛采用，它们正在与卷积神经网络（CNN）一起积极探索，以共同学习视觉和文本表示[3，18，19，24，35，37]。VirTex [6]方法使用Image Captioning任务来联合训练CNN和Trans- former。ConVIRT [43]和CLIP [28]中概述的方法使用视觉和文本模态之间的双向对比损失进行表征学习。所有这些模型都利用了大量可用的图像以及相关的原始文本，而不是局限于由特定数量的预定义类组成的标记数据。这使得更广泛的采用和推广成为可能。基于跨语言对齐的产品图片多语言语义源WWW43（）下一页e∈R12n12M然而，所有这些模型都专注于利用原始文本来学习更好的视觉表示，并且是单语言的。使用视觉模态的多语言搜索：使用图像-文本数据的多语言模型仍然是一个活跃的研究领域。[34]方法使用来自不同市场的30亿个（图像，标题，相关性）元组来学习多语言嵌入。[36]中提出的Globetrotter模型使用视觉模态来学习多语言对齐。这一方法是我们赖以发展的灵感由于其无监督设置，它使用对比学习来训练图像模型。相反，我们使用了来自已建立市场的大量可用的客户行为数据，以在监督设置中预训练图像模型。3我们的方法在本节中，我们描述了我们提出的M2 S2框架-一个深度[9]的文件。我们还使用XLM-RoBERTa（XLM-R）[5]进行了实验，与M-BERT [27]相比，其结果更好实验结果表明，ViT作为图像编码器和XLM-RoBERTa作为文本编码器在所有任务上都实现了最佳性能（第4.4节）。预训练图像模型和跨语言对齐的细节分别在第3.3节和第3.4节中描述。为了解决查询-产品相关性分类（挑战2），我们利用来自不同市场的人类注释的相关性数据，我们在第3.5节中描述了我们的方法。为了进一步提高语义空间中的邻域质量，我们利用目录分类数据，我们在3.5节中对此进行了描述。3.1问题表述和符号我们制定跨语言检索问题如下。令L={l1，l2.. lz}是语言的集合，P ={p<$1，p<$2，.，p<$n}是集合使用图像作为跨语言锚的语言无关空间的乘积和Q ={qh1，qh2，.，qhm}是查询的集合，其中检索这包括两个挑战：（1）学习多语言且hi∈ L.设Dcls={（q<$1，p<$1，y1），..............（q<$z，p<$z，yz）}为对齐。(2)学习查询-产品相关性分类。11z z产品图像在本质上与语言无关，例如，从图人类注释的相关性数据，其中yi是相关性标签。让Dali<$n ={（p<$1，ima <$1），. （p<$n，ima <$en）}是用于se的数据1我们可以观察到，图像是相似的，但他们的产品名称是1nд1用不同的语言因此，我们可以使用图像作为隐含信号跨语言的Mantic对齐设Dcat ={（p1，ima <$1，cn1），.... （p<$1，ima <$en，cnn）}和Dqq ={（q<$1，cn1），. （q<$n，cnn）}表示-进行跨舌对齐。这不需要任何双语数据n1n或者市场上的普通产品，这是昂贵的。受Globetrotter框架[36]的启发，我们通过使用产品图像作为锚将类似产品映射到语言不可知的语义空间来学习没有双语语料库的对齐嵌入空间Globetrotter框架使用对比损失分别发送产品和查询目录数据，其中CNi表示产品分类中的相应类别。基于历史客户购买，令Dpp+和Dqq+分别为产品-产品和查询-查询正对首先，我们过滤（q<$i，p<$i，c<$i）元组，其中c<$i>θ阈值，其中c<$i表示我我我ico−дoccurдi用于在没有明确的监管相反，我们利用市场上大量可用的客户行为数据来生成（Image1，Image2，标签）元组，用于在监督设置中学习视觉对齐我们证明，它将提高性能相比，对比学习，这是经验发现，以调整不同的产品与相似的图像更接近，类似的产品与不同的图像更远。然后，我们将预训练的图像模型纳入globetrotter框架中，以学习多语言语义对齐。针对查询qii的会话中购买的数量。让这些数据是D滤波器，它可以表示为Q和P之间的二部图，其边由c<$is加权。接下来，我们应用基于i归一化点的主题共现方法从[16]到这个二分图的互信息（NPMI）得分生成Dpp+和Dqq+数据集。设B（xi;θ txt）为文本编码器，其将xi∈Q <$P映射到嵌入空间LA∈Rd。设I（ima <$ei;Θim <$e）是将ima <$ei映射到嵌入空间S∈Rd的图像编码器.给予任意查询qhi∈Q，我们的目标是找到K个最近的产品我们提出的模型M2S2不同于globetrotter模型，Pд1д2伊德克几个方面。 Globetrotter框架通过将其建模为基于检索的任务来关注机器翻译。这与我们的问题陈述完全不同，我们的问题陈述是为跨市场 / 语言 / 地区的给定查询寻找相关产品。Globetrotter框架仅利用包含（图像、产品）对的目录数据，在相关性分类的最终任务上表现不佳因此，globetrotter框架仅有助于解决挑战1（学习多语言对齐）。我们使用来自已建立市场的匿名和聚合的客户行为数据以及基于分类的硬底片来杠杆化年龄监督数据，以预训练图像编码器，以实现强大的视觉对准能力。由于视觉对齐是多语言对齐的关键组成部分，这大大提高了语言无关的检索性能（第4.4节）。我们使用Vision Transformer（ViT）[8，28]进行了实验，除了ResNet-50之外，它还显示了计算机视觉任务的最新结果i={p1，p2....，pk}在LA。3.2模型架构：图2说明了我们提出的针对相关性分类任务优化的M2S2检索模型。图1提供了我们使用图像作为锚点的跨语言对齐模型的概述。这些组成部分的详细说明如下。1) 文本编码器：我们在文本编码器中使用基于BERT的模型以在中间上下文嵌入空间中独立地表示查询和产品。文本编码器Bx1，Θtxt首先通过使用BERT模型的“cls”令牌输出来计算我们将其传递给预测头，该预测头包括具有非线性激活的隐藏层，然后是输出层。这提供了嵌入txt d。我们使用相同的一种用于接收请求和输出的文本编码器，它们之间的语言语义转换基于学习的模型，学习将查询和产品映射到WWWSourab Mangrulkar，Ankith M S和Vivek Sembium44Puma男子田径鞋��图像编码器��CHAIA细胞阶段，Chaussurede Piste文本编码器��相关性排名损失/QQ损失文本编码器文本编码器前馈前馈Nx Nx多头注意多头注意............CLS体育鞋...男人CLSPuma男士...鞋∈ []Ij以及-..经验（α/τ）对数α=...exp（α/τ）测井.exp（α/τ）测井−∈.我.1 2我我我Ij纪我朱伊格吉（βik/τ）我J查询3.4使用图像的多语言语义对齐图1说明了多语言语义对齐模型。我们通过优化以下文本到文本对比学习问题来学习跨语言的多语言语义对齐τ是超参数：��. .exp（βij/τ）xl=−αij对数exp其中βij=cosine（etxt，etxt）图1：使用产品图像作为语言我们没有平行语料库数据。为了得到用于对比学习的正对和负对，我们使用标量αij0， 1作为软标签。这些标量是使用产品图像的视觉模态这里的核心思想是通过视觉模态使用传递关系，其中来自不同语言的句子如果出现在相似的视觉模态中，则在语义上相似contexts. 设αx是乘积p<$i和cor的跨模态相似性我回答我是我的妻子。设αv为图像-图像i相似度我在图像ima_ei和ima_ej之间。计算αij：α=f（αx·αv·αx）其中f（x）=max（0，x-m）i jii i j j j1Mm为保证金（三）我们可以观察到，只有当图像-文本对之间的跨模态对齐高，并且图像-图像对之间的视觉模态对齐高时，αij才高视觉相似性和跨模态相似性通过优化以下损失来对比学习v=−vi jv其中vIj余弦（eim <$，eim <$）图2：M2S2检索模型2) 图像编码器：图像编码器I利用ResNet-50/VisionI jxm=−kiexp（αik/τ）XIIijexp（αx/τ）我XIIjexp（αx/τ）J（四）（五）Transformer（ViT）与预测头（如上所述其中αx=cosine（etxt，eim <$）以生成图像嵌入我的天。i j ijei∈R3.3预训练图像模型为了预训练我们的图像模型I，我们利用Dpp+和产品目录中可用的产品到类别映射信息来生成硬负样本Dpp。这些硬负乘积对具有在嵌入空间中更接近但具有显著的cni（乘积类别）失配的图像。我们对图像模型进行了多次迭代的预训练;在每次迭代中，如上所述挖掘硬底片，并优化损失率（公式①的人。θpos和θne是超参数。完整目标是所有上述损失的组合，其中λ是超参数：阿利登 =λxlxl +λvv +λxmxm（6）图像编码器I是一个至关重要的组件，因为它引导模型在与语言无关的空间中对齐以各种语言表达的产品标题。跨语言对齐的质量将取决于图像编码器的鲁棒性。 Globetrotter框架[36]使用等式4中指定的对比学习来学习视觉相似性。相反，我们使用第3.3节中的预训练图像模型I，它已经使用联系我们1 2min（0，y<$im<$−θpos）2+从客户行为数据进行监督我们初始化参数-图像模型I的参数，同时优化等式6。实验（ima <$ei，ima <$ei）∈Dpp+（imaдe，ima <$e）∈Dpp−max（0，y<$im<$−θne<$）2（一）结果表明，我们的图像模型在跨语言检索任务中优于globetrotter图像模型[36]（仅使用对比损失进行训练）（第4.4节）。产品标题/查询2（+Σ基于跨语言对齐的产品图片多语言语义源WWW45--我POS我内3.5查询-产品相关性我们的目标是学习文本编码器B，使得给定查询qhi，算法1：训练多语言多模态语义源（M2S2）模型д1д2杰我要求：预训练它应该检索所有相关产品P=p1，p2.. pjin语义空间LA的语言不可知论方式在这一步中，我们通过利用Dcls数据集来微调模型B的参数。优化以下损失函数θcls，其中θcls，θcls和Dcls，Dali <$n，Dqq，Dcat，Nepochs ，Nepochs和模型超参数1初始化M2 S2模型参数θtxt和θim <$;预训练λne是超参数。POS内代2 使用Dpp+和Dcat训练 θ im <$Nepochs。为epoch=1到Nepochsdo3在多语言对齐任务训练θtxt和θim <$lcls=1y=1min（0， yi−θcls）2+λne <$1y=0max（0， yi−θcls）2（7）使用硬底片进行训练：与训练图像编码器I类似，我们使用产品分类法作为启发式算法来微调模型B，以生成底片样本来提高邻域质量。产品分类编码产品之间的相关性，可以用来推断它们之间的各种关系。我们发现这些信息对于恢复包含模糊标记的搜索查询的Puma鞋与Puma背包为了在任何给定点处对否定进行采样，我们找到在当前嵌入空间LA中接近的查询但是具有显著的cni失配，并且将它们添加到Dne_as硬负，并且优化损耗矩阵。3.6M2S2模型训练我们首先使用监督图像数据预训练图像编码器，这些数据使用匿名和聚合的客户行为数据以及基于分类的硬否定来挖掘。接下来，在交替训练过程的每个第一步是利用预训练的图像编码器在多语言对齐任务上训练模型。第二步是利用Siamese方式的文本编码器对相关性分类任务进行训练。第二步利用相关性数据和基于分类的硬否定。训练过程在算法1中概述。我们在另一种训练过程中训练M2S2模型，主要有两个原因。（1）我们证明了训练globetrotter模型然后对相关数据进行微调（Finetuned-Globetrotter模型）的简单方法会导致遗忘问题，其中模型会忘记并且在多语言对齐任务中表现不佳。替代培训程序解决了这个问题（第4.4节）。（2）将相关性任务与多语言对齐任务结合起来的多任务训练是不合适的，因为我们希望首先学习语言不可知的表示，并利用这些表示来进行相关性分类的主要任务。4实验和结果本文主要探讨以下几个研究问题RP 1：来自目录数据的产品图像是否改善了跨语言的语义对齐？RP2：除了编目数据之外，是否有必要使用人工注释的相关性数据RP 3：我们需要使用基于产品分类的硬底片吗RP 4：除了使用对比学习训练图像模型外，还使用监督时，性能是否有所提高RP 5：当我们没有给定市场的人工注释相关数据时，我们的模型在零射击实验设置中的表现如何使用Daliдn;4使用θtxt的嵌入和Dqq的分类数据生成Dqq−;5Dqq纪元 ←Dqq+<$Dqq−;6在相关性分类任务上使用Dcls 和Dqq历元;7端RP 6 ：使用 Vision Trans- former 作为图像编码器和 XLM-RoBERTA作为文本编码器时，性能是否有所改善？哪一部分影响最大？4.1数据集对于所有实验，我们从亚马逊市场收集数据集收集了5种不同语言的实验数据：英语（EN）、德语（DE）、法语（FR）、意大利语（IT）和西班牙语（ES）。它跨越8个市场：印度（IN），美国（US），英国（UK），加拿大（CA），德国（DE），法国（FR），意大利（IT）和西班牙语（ES）。有4个数据集被采样到一个小的子集，用于训练和测试：(1) D对齐：来自不同亚马逊市场的目录数据，没有明确的监督，由（产品标题，产品图像）对组成，用于跨语言的语义对齐。测试数据用于评估模型的语言无关的检索性能。训练数据由每个市场的100万个样本组成。测试数据由每个市场的10K产品组成，这些产品在所有市场中都是常见的，培训和测试数据涵盖60个不同类别的产品。(2) Dcls：来自不同亚马逊市场的人类注释的单语相关性数据，包括用于学习相关性分类的（查询，产品标题，相关性标签）元组。查询和产品的平均长度标题分别为2.82和18.31我们对每个市场的6万个实例进行抽样（5万多个|10 k-）作为测试数据。训练和测试数据集基于随机分割，训练和测试分割之间没有共同的样本。(3) Dqq：来自Amazon IN marketplace的目录数据，包括（查询，查询分类阶梯）对，用于提高语义空间中的邻域质量它们用于生成（查询，查询）硬否定（QQ硬否定）。这确保了当查询和产品相似但属于不同的分类类别时，模型具有远距离嵌入。它还包括基于匿名化的（查询，查询）正对（Dqq+）的目录数据WWWSourab Mangrulkar，Ankith M S和Vivek Sembium46联系我们联系我们客户购买的历史记录。D qq+由1.2M个样本组成，D qq由400k个样本组成。(4) Dcat：来自各种Amazon市场的目录数据，包括（产品，图像，产品分类阶梯）元组，用于预训练和提高图像编码器I的性能。它们用于生成（图像，图像）硬底片。它包括基于匿名和聚合的历史客户购买的（产品，产品）正对（Dpp+）的目录数据Dpp+由4.2M个样本组成，Dcat由800k个样本组成。4.2基于任务的评价方法如第1节所述，这项工作的主要重点是为给定查询寻找相关产品因此，我们的讨论仅限于采购相关产品，并评估下面列出的相关性分类（ROC-AUC）和决策支持指标（精确度和召回率）的模型，而不是排名感知指标。(1) 相关性分类：二元相关性分类任务的ROC-AUC评分(2) 多语言语义对齐：对于D align测试数据中的每个产品，我们在语义空间中检索200个最近邻。我们衡量的多语言语义对齐的基础上，最近的邻居是否有相应的产品从其他市场。我们使用Recall@k for k 1，10，50，100来评估在给定k下每个产品检索到的常见产品的比例。(3) 语义空间中的邻域质量：测试数据包括来自Amazon INmarketplace的一天匿名搜索数据日志的1万个查询和240万个产品。对于每个查询，我们在语义空间中获得200个最近的产品，从而产生2M（查询，产品）对的数据集我们使用BERT模型来获得相关标签，该在使用仅英语数据集的相关分类任务它在CLS标记嵌入的顶部具有分类头，其中输入是“[CLS] query [SEP] product_title”串联序列。我们把这个模型作为我们的预言机，因为它在英语（英语）语言的相关性任务上有最好的表现。我们使用Precision@k for k 1， 10， 50， 100来评估给定k时相关（查询，产品）对4.3基线模型在多语言Bert（单语言纯文本S-BERT）上微调的单语言连体模型：我们采用预训练的M-BERT模型[7]，并使用给定市场的Dcls相关数据对其进行微调，以获得与该市场对应的单语模型。它只依赖于文本数据。在多语言Bert（多语言纯文本S-BERT）上微调的多语言连体模型：我们采用预训练的M-BERT模型[7]并使用来自所有可用市场的Dcls相关数据对其进行微调，以获得一个多语言模型。该模型仅依赖于文本数据。Globetrotter模型：我们使用预训练的M-BERT [7]和预训练的ResNet-50 [9]作为骨干和训练globetrotter模型[36]使用来自所有可用市场的D对齐目录数据Finetuned-Globetrotter模型：首先，我们使用预训练的M-BERT[7]和预训练的ResNet-50 [9]作为骨干，并使用来自所有可用市场的D对齐目录数据训练发布后，我们使用来自所有可用市场的Dcls相关数据对其进行微调4.4结果根据实验结果，我们将提出我们的模型的定量结果为了评估针对给定查询采购相关产品的能力，我们利用第4.2节中概述的指标。用监督图像模型训练的M2 S2模型称为M2 S2-SIM（Multilingual Multilimodal S emantic S emantic S emanticModel using Simagemodel as backbone）。M2S2-FSIM（Multilingual Multilimodal S emantic S emantic Model using Frozen S emagemodel as backbone）模型以目录数据为骨干，使用监督图像模型进行训练，并在训练过程中冻结图像模型的权值。M2 S2-ViT模型利用来自预训练CLIP模型[28]的ViT [ 8 ]而不是ResNet-50作为图像编码器骨干。M2 S2- XLMR模型利用预训练的XLM-RoBERTa [5]而不是M-BERT [27]模型作为文本编码器骨干。M2S2-ViT-XLMR/M2 S2-SIM-ViT-XLMR分别利用CLIP模型的预训练ViT和预训练XLM-RoBERTA作为图像和文本编码器。表1显示了各种基线模型和M2 S2模型变体的ROC-AUC评分。表2显示了Dalign测试数据集上的Recall@k得分。表2还显示了Dqq测试数据的Precision@k评分。最好的分数以粗体突出显示，第二好的分数以下划线突出显示，下面报告的所有收益以相对而言。相关性分类任务分析：从表1中，我们观察到没有明确地在相关性分类任务上进行微调/训练的Globetrotter模型表现最差。这揭示了具有由（查询、产品、人类判断）元组组成的人类注释的相关性数据的重要性。用于训练Globetrotter模型的目录数据没有查询数据，因此错过了查询的许多细微差别，例如较短的长度，一般的广泛意图，方言性质，代码切换和各种级别的语言复杂性等。这回答了我们的RP 2：执行的实验表明，除了目录数据之外，还需要人工注释的相关性数据。M2S2模型变体在非英语市场上的表现优于所有其他基线，并且具有很大的利润率，与英语市场相比，我们的人工注释数据数量级更少。与单语纯文本模型相比，我们观察到ROC-AUC在非英语市场中的收益为5.39%-9.18%，在英语市场中为1.31%。我们观察到，多语言纯文本模型在非英语市场上的收益比单语言模型提高了2.92%-5.87%，这表明迁移学习在一定程度上发生了。这进一步通过合并来自不同市场的cat-mix数据的产品图像来改进，其中最佳M2 S2变体优于多语言纯文本模型，在非英语市场中ROC-AUC增益为2.4%-3.65%，在英语市场中为1.38%。多语言语义对齐任务分析：从表基于跨语言对齐的产品图片多语言语义源WWW470.680.010.70Levi's男士红色圆领T恤，灰色，3XL[US]Exzact EX07-24pcs cubertería Acero Inoxalone con Asas de Color-4xCena tenedors，4 x Cuchillos，4 x cucharas Cena，4 x cucharaditas（Color Mezclado x24）[ES]0.070.790.780.79Procase Zaino Tattico Militare 35 Litri，Assault BackpackGrandecapacità Zaini 3 Day Assault Bag dell'Esercito Zaino perCaccia，Trekking e Campeggio e Altre attività All'apertoSeibertron Falcon Taktischer Militärischer Rucksack Kompakt AngriRucksackWandern Reisen Trekking Tasche战术包突击背包军用露营包户外背包（黑色37 L）[DE]0.98图三：我们展示了一个正匹配的例子（上图）和一个负匹配的例子（下图），展示了M2S2模型的多语言语义对齐能力。表1：各种基线模型和M2 S2模型变体的ROC-AUC评分模型在DEFR它ES单语纯文本S-Bert0.925970.853930.860830.824870.8283多语言纯文本S-Bert0.925350.883480.886020.873320.86252Globetrotter0.575320.583860.532720.540220.55486微调环球旅行者0.918180.884710.887660.877610.86751M2S20.930880.89610.897410.889350.87954M2S2-SIM0.934210.89810.90150.892970.88399M2 S2-SIM，不带QQ硬底片0.923510.8860.889810.880970.86858M2S2-FSIM0.933290.897450.900640.894010.88507M2S2-ViT0.934520.897620.901370.892160.88217M2S2-XLMR0.937880.907830.90480.898590.8914M2S2-ViT-XLMR0.937330.905990.908610.900780.89457M2S2-SIM-ViT-XLMR0.938130.907930.907250.900560.8942，我们观察到Globetrotter模型与多语言纯文本模型相比具有更好的Recall@k得分，在不同阈值下的收益为4.13%-22.9%。这表明Globetrotter模型通过使用产品图像作为跨语言的桥梁，更好地进行多语言对齐。这表明，使用来自不同市场的目录数据的产品图像，我们可以改善多语言对齐，从而回答RP 1。M2 S2模型在所有k个阈值上均优于所有基线，比多语言纯文本模型提高了34.69%-51.67% ，比Globetrotter 模型提高了18.96%-34.37%Finetuned-Globetrotter模型的性能最低，这表明在M2S2模型中进行替代训练方法的重要性语义空间中的邻域质量分析：从表2中，我们观察到未使用Dcls和D qq训练的Globetrotter模型这再次增强了在Finetuned-Globetrotter模型中可以看到的查询数据的重要性，比Globetrotter模型提高了在交替训练阶段引入Dqq数据的M2 S2模型的性能优于所有基线模型，分别比多语言纯文本模型Finetuned-Globetrotter提高6.25%-13.42%和43.46%-46.46%这证明了结合分类法相关的目录数据以进一步提高语义空间的嵌入质量的重要性，从而回答了RP 3。零拍性能分析：表3显示了零拍当目标市场的人工注释的相关性数据在训练期间不可用时，各种模型的ROC-AUC得分。我们可以观察到M2 S2-FSIM模型和Finetuned-Globetrotter模型具有高于0.8的零发射ROC-AUC分数。这里，在训练期间不存在目标市场的相关性数据Dcls，并且仅存在目标市场的Dalign目录数据WWWSourab Mangrulkar，Ankith M S和Vivek Sembium48表2：召回@k| D对齐测试数据集上的精度@k评分|D QQ模型k=1K=10k=50K=100多语言纯文本S-Bert0.09444|0.86750.35327|0.840260.48765|0.809870.54765|0.79036Globetrotter0.10692|0.46010.39112|0.431580.58932|0.408670.67307|0.39691微调环球旅行者零点七五五|0.64250.29762|0.632890.48606|0.617190.57219|0.60657M2S20.11066|0.8950.44159|0.877360.65272|0.860970.73364|0.84956M2S2-SIM11742|零八九四0.47758|0.881570.69144|0.866930.76925|0.85699M2 S2-SIM，不带QQ硬底片0.07811|0.62410.30473|0.61620.47956|0.604460.56079|0.59645M2S2-FSIM0.11968|0.90570.49009|0.891140.70426|0.874390.78147|0.86271M2S2-ViT11296|0.90060.45887|884010.67262|0.865090.75297|0.85323M2S2-XLMR0.12379|0.91860.5069|0.900670.72439|0.88116七九九五|0.86794M2S2-ViT-XLMR0.12496|0.92170.51062|0.912070.72681

下载后可阅读完整内容，剩余1页未读，立即下载