没有合适的资源?快使用搜索试试~ 我知道了~
493基于BERT的产品排序多任务学习框架圣克拉拉大学SantaClara,CA,USAxwu5@scu.eduAjit Puthenputhussery沃尔玛全球技术公司美国y@walmart.comAlessandro Magnani沃尔玛全球科技公司美国magnani@walmart.comCiya Liao沃尔玛全球技术中心美国加利福尼亚州森尼韦尔市ciya.walmart.comSuthee Chaidaroon沃尔玛全球科技公司美国加利福尼亚州森尼韦尔on@walmart.com易房圣克拉拉大学SantaClara,CA,USAyfang@scu.edu摘要产品排名是许多电子商务服务的关键组成部分产品搜索的主要挑战之一是查询和产品之间的词汇不匹配,这可能是一个更大的词汇差距问题相比,其他信息检索领域。 虽然有越来越多的神经学习方法来匹配专门解决这个问题的方法,但它们并没有利用大型语言模型的最新进展来进行产品搜索。另一方面,产品排名通常涉及多种类型的参与信号,如点击,添加到购物车和购买,而大多数现有的工作都集中在优化一个单一的指标,如点击率,这可能会受到数据稀疏。在这项工作中,我们提出了一个新的端到端的多任务学习框架,产品排名与BERT,以解决上述挑战。该模型利用特定领域的BERT和微调来弥合词汇差距,并采用多任务学习来同时优化多个目标,这产生了一个通用的产品搜索的端到端学习框架。 我们在真实世界的电子商务数据集上进行了一组全面的实验,并证明了所提出的方法相对于最先进的基线方法的显着改进。CCS概念• 计算方法→多任务学习;·信息系统→检索模型和排序。关键词产品搜索,多任务学习,神经信息检索ACM参考格式:XuyangWu,Alessandro Magnani,Suthee Chaidaroon,AjitPuthenputhussery,Ciya Liao,and Yi Fang. 2022年基于BERT的产品排名多任务学习框架在2022年ACM Web会议(WWW)上允许免费制作本作品的全部或部分的数字或硬拷贝,以供个人或课堂使用,前提是制作或分发副本的目的不是为了盈利或商业利益,并且副本的第一页上有本声明和完整的引用。版权的组成部分,这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要 以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511977’22),ACM,NewYork,NY,USA,9页。https://doi.org/10.1145/3485447.35119771引言网上购物已经成为人们日常生活中不可或缺的一部分随着目录规模的不断增加,产品搜索系统在为在线电子商务平台上的客户购物提供服务方面发挥着至关重要的作用已经提出了许多用于产品搜索的方法,范围从通用网络搜索模型的适应[5]到将学习排名应用于电子商务领域[34]。最近,基于深度神经网络的神经信息检索(IR)方法已被引入并用于产品搜索[19,41],通过学习查询和产品的语义表示,已经证明了有希望的结果。将神经信息检索应用于产品搜索存在着诸多挑战首先,产品搜索通常处理多种类型的参与信号,如点击,添加到购物车和购买,而大多数现有的工作都集中在优化一个单一的指标,如点击率。此外,神经IR通常需要大量的训练数据,并且一个数据源可能无法支持足够的模型训练。最后但并非最不重要的是,产品搜索中的查询和文档之间的词汇不匹配可能是比其他IR领域中更大的问题[10]。现有的工作并没有充分利用大型语言模型的最新进展进行产品搜索,因为在产品排名中使用BERT时报告了平庸的结果[28]。在本文中,我们通过提出一个多任务学习框架来解决上述挑战,该框架用于使用BERT进行产品排名。 该框架旨在同时优化多个目标,如点击,添加到购物车和购买。 应用多任务学习的主要挑战之一是不同任务之间的内在冲突可能会损害某些任务的模型性能,特别是当模型参数在任务之间大量共享时。因此,许多基于深度学习的多任务学习模型对数据分布和任务之间的关系等因素很敏感[17]。我们提出的多任务学习架构受到了专家混合(MoE)层[29]和最近的MMoE模型[17]的启发。 与MMoE中的粗略共享参数相比较,我们明确地将共享专家和特定任务专家分开,以减轻公共知识和特定任务知识之间的有害参数干扰。494→ →→WWW给定用户查询,示出产品的排名列表,并且用户可以点击相关物品,将其中一些物品添加到购物车,并且最终购买一个或多个物品。用户参与动作通常遵循顺序次序,印象是点击添加到购物车购买。换句话说,只有在前面的步骤以正反馈完成时,后面的步骤才可能发生。在本文中,我们利用顺序用户行为上的概率转移[37]来利用整个空间上的所有印象样本和来自点击后行为的额外丰富的监督信号,有效地解决了数据稀疏性问题。具体来说,我们根据用户行为图上定义的条件概率规则,在多任务学习框架中同时对点击、添加到购物车和购买的相应概率进行建模。另一方面,查询和文档之间的词汇不匹配对搜索引擎提出了根本性的挑战。在产品搜索中,词汇差距可能是一个比其他信息检索领域更大的问题[10,28]。 广告和产品标题通常很短,有时标题是短语或关键词的简单组合,而不是结构良好的句子。人们越来越感兴趣的是利用神经学习来匹配弥合产品搜索中词汇差距的方法。这些方法超越了词汇匹配,将查询和文档表示为密集的语义向量,并学习它们在语义空间中的相似度[21]。然而,现有的工作并没有充分利用BERT等大型预训练语言模型的优势[4]。最近的一项研究探索了最先进的基于BERT的产品搜索模型,但与传统方法相比,结果平平[28]。在本文中,我们预训练一个特定领域的BERT模型与微调,并显示出许多有前途的结果。本文的主要贡献可概括如下:提出了一种基于神经信息检索的产品排序据我们所知,不存在将多种类型的参与信号与神经IR整合以用于产品搜索的先前工作为了对不同任务之间的关系进行建模,并减少公共知识和特定任务知识之间的有害参数干扰,该框架利用专家混合层和任务之间的概率转移来利用丰富的参与数据。该框架以端到端的学习方式将语义匹配与传统的排序功能相结合。 我们利用特定领域的BERT进行语义匹配与微调,并展示了有希望的结果。我们在电子商务中的真实产品搜索数据集上进行了一组全面的实验,并显示了所提出的方法在竞争基线方法上的有效性。2相关工作2.1产品搜索和排名产品搜索问题比传统的网络搜索问题更具挑战性[5],因为用户查询往往很短,并且有数百万个潜在的相关产品[28]。一些研究人员提出了一种迭代方法,其中检索候选项的初始集合具有两个或更多个步骤然后对检索到的项目进行迭代排序(重新排序),并通过选择列表中的顶部来减少大小[34]。Long等人[16]提出了一个模型,该模型结合了最畅销的产品数据来对搜索结果进行排名此外,[25]中的模型考虑了产品结果的多样性,以增强用户体验。由于电子商务中可以使用各种信号来衡量搜索结果的质量,一些作品[1,38]根据用户参与度优化了搜索结果,例如点击率和转化率。不幸的是,用户参与数据通常非常稀疏,因此可能会限制模型的性能。基于深度神经的模型[21,23]也用于检索和排名步骤。Magnani等人 [19]使用不同类型的文本表示和损失函数增强了基于深度学习的模型。Zhang等人 [41]在排名模型中添加了查询与产品图之间的交互功能,该产品图捕获了类似产品之间的关系。2.2神经信息检索在神经信息检索中,排序模型可以分为两大类:基于表示的模型和基于交互的模型。基于表示的模型分别学习查询和项目的嵌入,然后通过计算查询和项目嵌入之间的距离来测量产品与给定查询的相关性。 DSSM [12]通过分别对来自查询文本和文档文本字段的词嵌入进行平均来计算查询和项目嵌入。CLSM [24]和LSTM-RNN[30]使用CNN [14]和LSTM [11]网络。NRM-F [40]通过编码多个产品字段(例如,标题、描述、颜色)。基于表示的方法通常受到嵌入大小的限制,因此它们不能从原始数据中总结所有信息并捕获精确的词汇匹配。基于交互的模型着眼于查询和项目中单词对DRMM [9]计算了查询中嵌入的每个单词与条目之间的余弦相似度近年来,基于BERT [4]的模型在排名中取得了最先进的性能[3,22,26]。 他们通常将查询和文档字符串连接为一个句子,然后将其提供给多个Transformer层。网络中的注意力机制[36]可以关注查询和产品的每个词对。2.3多任务学习多任务学习旨在通过利用相关任务的训练信号中的特定领域信息来提高泛化能力[35]。它比传统的单任务学习有几个优点。由于其固有的层共享,由此产生的存储器效率可以大大降低,推理速度可以提高。此外,如果相关任务共享互补信息,或者作为彼此的正则化器,则它们可以彼此受益。早期的多任务学习(MTL)工作主要集中在硬参数共享[27]。 这也是一种非常常见的MTL模型。共享层的输出馈入唯一模块····基于BERT的产品排序多任务学习框架WWW495QQ{我{}→ →→F(·)(·)(·)()下一页不同的任务。 当任务高度相关时,这种结构往往能取得良好的效果。 当任务相关性不强时,可能会出现负迁移现象。一些工作,如MMoE [17]和PLE [33],通过在共享底部结构上利用多个专家来解决这个 基于门控机制,不同的任务可以过滤输出电子商务领域数据。查询嵌入由特定于域的BERT从查询文本字段生成 从产品的标题字段、类型字段、品牌字段、颜色字段和性别字段生成产品嵌入。在获得嵌入特征后,我们还计算了查询嵌入和乘积嵌入之间的相互作用,不同的专家、共享的专家和特定任务的专家。 这种类型的模型主要在底部的共享架构中学习,但在顶部没有交换更多的信息。单位μT·μi∥µq∥·∥µi∥Hadamard(元素)产品q得双曲正弦值.其他一些想法,如ESMM [18]和ESM2[37]模型,在模型顶部使用基于不同任务之间顺序的概率转移,以优化模型效果,在点击率和转化率估计任务中获得更好的结果在[6,7]中,神经协同过滤被扩展到多任务学习的设置。上述模型主要采用概率传递,即相邻任务之间只传递简单的概率信息Xi等人 [39]提出了AITM,它对多步转换之间的顺序依赖性进行建模,并自适应地学习不同转换阶段要传输的信息和信息量。3产品排名的多任务学习在本节中,我们提出了建议的多任务学习框架-串联域特定BERT。 我们利用微调BERT模型来生成输入查询和项嵌入。我们首先使用从Bubbert-base-uncased1中获取的预训练权重初始化BERT模型。然后根据从电子商务网站收集的用户参与日志对BERT模型进行微调。日志文件的每一行都包含一个查询和一个单击、添加到购物车和购买的物品列表。训练目标是通过使用点击次数、添加到购物车和购买次数作为基础事实来估计这些物品的最佳顺序。 对于每个查询,我们还注入了随机抽样的项目。相关项目与抽样项目的比例为1:20。我们使用原始查询和项目属性(如标题、颜色、品牌和产品类型)作为模型的输入。该模型具有查询编码器和项编码器。编码器的最后一层输出256维查询,产品排名(MLPR)设= q1,q2,.,Qn表示集合、...、qN}项向量。宽的特点直接来自于生产端的排名N个用户查询,并且= i1,i2,.,im,.,IM表示M个产品(项)的集合给定搜索结果,我们考虑三种类型的用户活动:点击、添加到购物车(ATC)和购买,它们遵循如下顺序:印象单击加入购物车购买.我们的任务是在给定查询qn和产品im对的情况下预测每个参与活动的概率,数学上如下所特征,这是用于学习排名的传统特征它们通常可以被分组为以下类别:查询项级参与特征(例如,查询项CTR、ATC、订单比例等),项目属性(例如,类别、价格、评级分数、评论计数等),迭代特征(例如,相似性分数、匹配分数)等等。在我们的实验中,我们删除了参与度排名功能,以避免任何潜在的数据泄漏。我们总共获得了243个排名特征。此外,我们使用z分数来归一化所有kn,m=Fk(n(qn),n(im))(1)计算平均值和标准差的排序特征其中,R1和R2分别表示查询编码器和项k表示基于查询qn和乘积im对的任务k的预测概率函数由于有三种类型的参与活动,我们通过优化所有这三个目标,将其转化为从训练数据。 深&宽特征生成后的级联特征表示如下:xn,m=concat(n(qn),n(im),φ(n(qn),n(im)),rn,m),(2)其中ren(·),n(·)和φ(·)表示r,itemencodderandnd的类型同步图1说明了所提出的框架的体系结构交互特征编码器。rn,m每个查询和项目对的要素表示排名该方法由五个阶段组成:深度&宽特征生成、多专家共享选通控制、特定专家自定义选通控制、塔式网络和注意单元、概率转移。给定K个任务,深&宽特征生成阶段基于原始数据创建输入特征,随后是设计为共享底部结构的两阶段提取网络。具有注意力单元的塔网络建立在提取网络的输出上。 它们为相应的任务k生成输出。 我们将在下面的小节中详细介绍每个阶段。3.1深宽特征生成深层特征包括查询嵌入、产品嵌入以及它们之间的交互。在MLPR中,我们利用特定于域的BERT来学习嵌入,这些嵌入是在qn,im. xn,m表示从查询和项目输入字段生成的级联特征向量。3.2两级抽取网络现有的多任务学习模型在底层都包含一个共享层,可以从不同的任务中学习共同的知识。此外,共享专家还可以从不同的任务中不断地吸收联合隐藏信息. 这种结构可能有助于缓解过拟合,但由于任务依赖性和数据差异,它可能会对模型性能产生我们提出了两个阶段的提取网络和明确分开共享和特定任务的专家,以避免有害的参数干扰。1https://huggingface.co/distilbert-base-uncased埃什基WWWXuyang Wu,Alessandro Magnani,Suthee Chaidaroon,Ajit Puthenputhussery,Ciya Liao,andYi Fang496CVRATCCTR关注关注关注дд()下一页()()()下一页д()下一页−)](·)概率转移注意单位塔台网络两级提取网络具有定制门控控制的特定专家多专家共享门控深宽特征生成图1:建议的产品排名多任务学习框架(MLPR)的架构3.2.1多专家共享门控。 在此阶段,模型基于MMoE原理在模型底部利用门控网络机制[17]。 每个任务使用一个单独的门控网络。每个任务的门控网络实现受到所有任务的影响他们是在特定任务的专家受相应的任务[33]。wk(x)=Sof tmax(Wkx)通过不同的最终输出权重,在不同的任务网络中选择性地利用。门控网络的各种方案可以学习Hk(x)=[Ek(x),Es(xT(四)不同的专家组合模式,因此模型将考虑每个任务的相关性和差异性。 对于前一阶段的每一个输入,当前阶段可以通过以输入为条件的门控网络选择部分有意义的专家。每个专家网络是一个简单的多层前馈网络,具有批量归一化和ReLu激活函数。门控网络被设计为具有Softmax激活功能的单层前馈网络 每个选通网络的输出公式为:wk(xn,m)=Sof tmax(Wkxn,m)<$k(x)=wk(x)Hk(x)其中,Hkx表示共享专家Esx和任务k的特定专家E k x的组合的向量然后,该模型使用门控网络来计算所选择的向量的加权和其与Eqn的结构相同(3)在前一阶段中采用不同的参数矩阵Wk和输入专家Hk(x)。3.3塔台网络注意单元在上一阶段,塔网络获得预测的正确性。д<$k(xn,m)=wk(xn,m)Ek(xn,m)(三)响应每一项任务。 每个塔网络是一个简单的多层前馈网络,它可以扩展到任何先进的结构。注意单位学习任务驱动保密性更强其中xn,m是来自深度的级联特征向量,&宽特征生成层,Wk是可训练参数ma。对于任务k,wkxn,m是加权函数,其通过具有Softmax激活函数的线性层获得任务k的加权向量Ek(xn,m)是专家网络。3.2.2具有定制门控控制的特定专家 在这个阶段,我们的模型应用特定的专家与定制的门控控制器,以提取特定于任务的隐藏信息。共享专家模块和特定任务专家模块将从前一阶段获得输入共享专家中的参数塔网络内的信息 对于任务k,这些单元可以自适应地传递前一个任务的有用信息。给定K个任务,每个任务k的塔网络的输出t k定义如下:tk =MLPk(v)(5)其中,tk表示塔网络,并且输入v是共享底部级的输出,即等式1的输出(四)、对于注意力单元,有两个输入分别来自相邻的任务k1和k,任务k的注意力单元ak的输出定义为:伯特查询伯特项目项目嵌入查询嵌入文字互动门控门控门控专家A专家B专业的C门控门控门控门控共享专家专家A专家B专业的C特征归一化Concatenate共享专家C座B座A座宽构造基于BERT的产品排序多任务学习框架WWW497DK(··)(二)(三)123→→()→L LL(·).L(|)(|)的方式(|)·ak=Attention(tk,ak−1)=softmax(Q,KT)V(6)进行优化过程以最大化考虑了同方差不确定性的类高斯目标在该模型中,不确定性损失可以用公式表示为:其中Attention,函数是具有自注意机制的类似设计[36],tk是塔网络Q=WQ(tk<$ak−1),K=WK tkak−1,V=WV tkak−1是一个简单的单层前馈网络,具有不同的权重矩阵WQ,WK,WV,re。LMT L(W,σ1,σ2,σ3)=12σ2L1(W)++logσ1σ2σ312σ2L2(W)+12σ2L3(W)(十)- 是的对于没有前一个任务的第一个任务,a1=注意力t1,.注意单元ak的输出馈送到单层前馈网络MLPk中,以获得每个任务k的对应预测概率pkk。pk=si <$moid(MLPk(ak))(7)3.4概率转移为了减轻数据稀疏性和样本空间的偏差,所提出的框架采用了概率转移机制[18],该机制定义在用户行为图印象点击添加到购物车 购买上。给定印象x,模型预测概率转移被定义为:yClick=pctr=p(yClick=1|(x)yATC=pctr×pavr=p(yClick=1| x)×p(yAT C=1|yClick=l,x)(8)哪里1,2和3代表三项任务的损失,重-- 是的σ1、σ2和σ3是相应的噪声参数,可以平衡任务特定的损失。可训练参数应在训练过程中自动更新。4实验装置4.1数据集电子商务数据集于2020年10月连续一个月从Walmart.com收集,其中包含用户搜索查询、搜索结果中的相应产品以及每个查询-项目对的用户参与数据,包括点击次数、添加到购物车的次数和购买次数。我们过滤出少于或等于五次展示的查询项对。然后,我们将数据分为训练集,验证集和测试集,分别占80%,10%和10%。每个查询项对与一种或多种类型的参与相关联:点击、ATC和购买。表1显示了数据统计。yPurchase=pctr×pavr×pcvr=p(yClick=1| x)×p(yAT C=1|yClick=1,x)×p(yPurchase=1|yClick=1,yAT C=1,x)其中,yClick= 1,yATC= 1,yPurchase= 1表示是否发生了点击、添加到购物车或购买事件。 表示模型的最终输出。x表示post-vie w点击-through率e。x表示点击第一次添加到购物车的转化率,其被定义为产品被添加到购物车的条件概率,假定其已经被点击。类似地,pcvr=pyPurchase=1yClick=1,yAT C=1,x表示点击率,点击率被定义为产品被购买的条件概率,假定产品已经被添加到购物车中,其描绘了完整的行为序列:印象→点击→添加到购物车→购买。3.5 损耗优化最终的损失是各个任务损失的线性组合:LMT L=wk·Lk(9)K其中wk是任务特定权重,k是任务特定损失函数。在MLPR中,我们采用了损失优化的不确定性加权[13],该优化使用同方差不确定性来平衡单任务损失。该模型的同方差不确定性或任务相关不确定性不是输出,而是对于同一任务的不同输入示例保持恒定的量。的查询项目查询-项目对467,622 4,286,211 4,856,350 312,926,929表1:电子商务数据集的统计数据4.2评估指标我们的目标是评估两个方面的拟议工作:预测和排名。 首先,所提出的多任务学习模型预测了三种类型的用户参与(点击,ATC和购买)中的每一种上的每个查询项对的概率。 我们使用受试者工作特征(ROC)的曲线下面积(AUC)进行预测任务,因为它广泛用于评估分类/预测模型[20]。 为了评估每个测试查询的排名结果,我们应用了归一化折扣累积增益(NDCG),它适用于用户通常对相关产品的排名位置敏感的产品搜索[20]。4.3基线方法我们将MLPR与以下竞争基线进行比较:XGBoost [2]:XGBoost是一个使用基于树的学习算法的梯度提升框架。它被广泛-用于工业排名系统。在实验中,由于公司的保密政策,只给出了相对于XGBoost的度量改进,而不是绝对值。MLPSingle:这是一个单任务学习模型,每个任务都使用基本的多层感知器(MLP)·WWWXuyang Wu,Alessandro Magnani,Suthee Chaidaroon,Ajit Puthenputhussery,Ciya Liao,andYi Fang498†AUC NDCG@1 NDCG@5模型点击ATC购买单击ATC购买单击ATC购买MLP辛德勒+3.93%+2.06%+0.01%+8.06%+3.39%+0.06%+5.46%+2.20%+1.36%MLPMT L+3.78%+2.70%+0.03%+8.81%+4.97%-0.28%+5.85%+3.54%+1.36%欧洲稳定机制2+1.48%+0.28%-0.70%+2.64%-2.66%-2.04%+1.42%-2.79%+0.03%MMoE-0.73%-0.15%-1.01%-1.70%-5.23%-4.52%-1.66%-3.79%-1.99%PLE +5.80%+3.63%+0.56%+10.14%+6.31%+3.28%+7.84%+4.86%+3.69%AITM +5.86%+3.98%+0.64%+9.88%+6.93%+3.13%+7.73%+4.86%+3.49%MLPR+6。48%†+4。66%†+1。03%†+17。22%†+10。61%†+5。36%†+10。48%†+8。10%†+5。65%†表2:针对以下任务在AUC、NDCG@1和NDCG@5中相对于XGBoost的提升百分比方面的实验结果:点击、添加到购物车(ATC)和购买。突出显示每个任务的最佳结果 表示从XGBoost到MLPR的统计学显著改善,p值为<0。0001使用双尾t检验。MLP MTL:我们在底部使用共享底部结构,在顶部使用塔式网络。共享底层和塔式网络的结构是多层感知器[8]。ESM2[37]:ESMM [18]和ESM2,概率为trans-transmitted-FER模式通过对整个空间进行训练来解决非端到端的点击后转化率问题,以缓解样本选择偏差问题。MMoE[17]:MMoE with Expert-Bottom 模式旨在通过Gate Control中的多个Gate集成专家PLE[33]:具有专家底部的渐进分层提取(PLE)模式在不同的任务配置下明确地分离了任务共享专家和任务特定专家。AITM[39]:具有自适应信息模块的AITM模型在向量空间中传输来自不同转换阶段的知识。5实验结果5.1基线比较在本节中,我们将建议的MLPR模型与三种类型的用户参与的基线方法进行比较:点击,添加到购物车(ATC)和购买。表2包含结果,我们有以下观察结果。首先,MLPR在两个指标的所有三项任务上都取得了最佳成绩,并以显著的优势超过了所有竞争对手的基线基于深度学习的模型比传统的XGBoost方法产生了更好的结果,表明神经方法在利用大量数据进行模型训练方面的优势。我们可以各种任务。Click的AUC比XG-Boost提高了5.8%ESM2和AITM模型在模型结构的上层优化了性能ESM2中的简单概率迁移学习结构以简单的条件概率在相邻任务之间迁移知识具有注意模块的AITM模型在序列依赖任务中获得了更多的收益与各种最先进的基线模型相比,我们提出的MLPR模型获得了显着的改进,并证明了所提出的多任务学习架构与特定领域的BERT产品排名的有效性。5.2消融研究本节讨论MLPR模型的不同组成部分和阶段的影响。5.2.1带有微调的特定域BERT 我们通过下游的多任务学习来微调特定领域的BERT。来自表3的实验结果表明,BERT的微调对于每个预测任务具有显著的改进,无论是利用基本MLPMT L模型还是利用MLPR模型。特别是在CTR预测任务上,即使是微调的基本MLPMT L模型也产生了1。AUC评分较未微调组改善41%,03%的NDCG@1改善。我们分别研究了XGBoost和我们的模型中的一些特定查询及其搜索例如,给定查询“half bed for kids”,XGBoost返回的顶部结果是标题为“The cincumbent Kid POSTER(22x28)(1965)(Half Sheet Style A)"的产品,这是然后比较了基本的多任务学习模型MLP和单任务学习模型吨.每吨cif价与和标题,但这一项根本不相关另一方面,在一项研究中,我们的模型返回的产品MLPSinдle和XGBoost。结果结果表明,MLPMT L在大多数指标上都取得了更好的结果这表明多任务学习方法在不同任务之间转移知识基于专家底层结构的标准MMoE模型在数据集上表现不佳它的表现甚至比MLPMT L模型更差,因为它只控制不同任务之间的共享知识。然而,具有特定专家层的PLE模型可以通过将共享信息和特定于任务的知识传递给双胞胎超过充分与4抽屉的步骤和一个双脚轮,灰色”作为最高结果。正如我们所看到的,标题与给定查询的词汇重叠不像前一个产品那样多,但它在语义上与查询相关这个例子证明了所提出的基于BERT的方法在弥合词汇差距方面的有效性。5.2.2MLPR不同阶段的效果 为了了解我们框架的每个阶段的性能,我们通过增量方式研究MLPR模型的各个组件,·····基于BERT的产品排序多任务学习框架WWW499AUC增益NDCG@1增益AUC增益NDCG@1增益模型MLPMT L带微调单击AUC NDCG@1ATC购买点击ATC购买表3:在基本MTL模型和MLPR模型中,具有微调与没有(W/O)微调的域特定BERT的实验结果。AUC和NDCG@1以相对于XGBoost的提升百分比报告。AUC增益和NDCG@1增益以微调与未微调相比的提升百分比报告。模型单击AUC NDCG@1ATC购买点击ATC购买MLPMT L+不确定性损失+3.78%+3.77%+2.70%+2.78%+0.03%+0.20%不适用,不适用,不适用-0.01%,0.08%,0.17%+8.81%+8.28%+4.97%+4.68%-0.28%+0.28%不适用,不适用,不适用-0.48%,-0.28%,0.56%+专业-专家+5.80%+3.63%+0.56%1.94%、0.91%、0.53%+10.14%+6.31%+3.28%1.22%、1.26%、3.57%+注意单位+5.39%+3.78%+0.63%1.55%、1.06%、0.60%+9.85%+6.80%+3.31%0.95%、1.75%、3.60%+概率转移+5.69%+4.03%+0.67%1.84%、1.30%、0.64%+9.85%+6.85%+3.31%0.96%、1.80%、3.59%+微调+6.48%+4.66%+1.03%2.60%、1.91%、1.00%+17.22%+10.61%+5.36%7.74%、5.39%、5.65%表4:将各个组件递增地添加到基础MLPMT L模型的实验结果AUC和NDCG@1以相对于XGBoost的提升百分比报告AUC增益和NDCG@1增益以相对于基础MLPMT L模型的提升百分比报告突出显示每个任务的最佳结果向所述基础多任务学习模型添加新组件 我们定义模型中的每个组件如下:MLP MTL基本模型。共底级设计为多层前馈网络,上一级设计为塔式网络。+不确定性损失与MLPMT L相同的结构,但具有不同的损失函数(不确定性损失)用于训练。该模型在原有的MLPMT L结构和不确定性损失的基础上,在共享底层阶段增加了一个新的组件(具有定制门控的特定专家)。+注意力单元在上一个模型结构的基础上,在模型上层+概率转移该模型基于先前的设计实现了概率转移组件,该组件使来自注意力单元的预测结果规则化。+微调微调过程基于先前的模型进行。特定于域的BERT中的参数将由顶级优化函数更新表4包含实验结果。如我们所见,在不确定性损失的情况下,该模型获得了略好的结果,但总体上是可比较的。 此外,通过Specific-Experts层,模型性能显著提高,特别是CTR预测的AUC评分提高了1.94%。由于特定专家可以提取更多的机密信息比简单的共享底部设计,特定专家阶段不仅提取的共同知识,从不同的任务,但也学习每个单独的任务的特定信息。在上层具有Atten-tion Units的模型也表现出良好的改进模型部署策略时间XGBoostW/O查询/产品嵌入58 msMLPMT L产品预计算96 ms MLPRW/O产品预计算171 msMLPR产品预计算112 ms表5:产品排名第99百分位时的延迟(毫秒(ms))在基本模型上。此外,概率转移组件显示出积极的结果,因为它优化了多个任务的联合预测。最后但并非最不重要的一点是,由于特定于领域的BERT的好处,该模型从文本字段中学习了有价值的信息。通过对模型进行微调,得到了最佳的结果,证明了将BERT方法用于产品搜索的有效性。5.3延迟性能为了了解MLPR在推理中的效率,我们通过实验四个模型对延迟进行了分析。 我们使用产品排名时间的第99百分位数(P99)作为延迟度量,从模型收到查询的时间到它返回100个产品的排名列表的时间进行测量。实验在Intel(R)Xeon(R)CPU E5-2660v4@2.00GHz机器和具有 16 G 存储器的NVIDIA TeslaV100 GPU表5中报告了测试集上的离线P99延迟。 正如我们所看到的,XGBoost在四个模型中运行时间最短,因为它不计算查询和产品嵌入。······MLPMT LW/O微调+3.77%+5.23%+2.78%+3.24%+0.20%+0.59%不适用,不适用,不适用1.41%,0.45%,0.39%+8.28%+15.91%+4.68%+9.03%+0.28%+3.93%不适用、不适用、不适用7.03%、4.14%、3.74%MLPR W/O Fine-tuning+5.63%+6.48%+4.05%+4.66%+0.66%+1.03%不适用,不适+10.14%+17.22%+7.22%+10.61%+3.28%+5.36%不适用、不适用、WWWXuyang Wu,Alessandro Magnani,Suthee Chaidaroon,Ajit Puthenputhussery,Ciya Liao,andYi Fang500·10−2MLP辛德勒MLPMT LMLPR·10−2点击ATC购买·10−2点击ATC购买543210%-25%25%-75% 75%-100%百分位组3二、521 .一、56 65 54 43 30%-25%2 5 % -75% 75%-100%22百分位组(a) AUC升高百分比(b) NDCG@1%提升10 0。20岁30分。40. 50.60. 七点零分8102 3 4图2:XGBoost模型上不同模型的每个百分位组的转移知识增益(a) 辍学率(b) 隐藏层的数量MLPR模型在使用乘积嵌入的预计算时可以节省大量时间,因为推理时间从171 ms下降到112 ms。 对于产品预计算,MLPR比MLPMT L稍慢,而MLPR具有更复杂的体系结构和更高的精度,如表2所示。 实验结果表明,所提出的多任务学习与预计算策略的效率。5.4转移知识增益为了理解通过不同任务获得的知识转移,我们比较了不同采样策略下的模型性能,以证明我们的模型具有鲁棒的泛化能力。首先,我们根据印象数对测试数据集中的查询项对进行排序,并根据印象数将测试数据集分为三组,即,排序后的测试数据集的前0%-25%、25%-75%和75%-100%。前0%-25%的数据对应于具有最少印象的测试查询-项目对的部分,并且前75%-100%的数据包括具有最多印象的测试实例。如图2所示,我们提出的模型在三个不同的组中表现出相对稳定的性能。 即使使用较少的参与数据,它也可以实现合理的性能。另一方面,与基线模型相比,我们的模型在AUC和NDCG指标上的不同任务上都有所改进,特别是在前0%-25%的组中。5.5超参数分析在本节中,我们将对所提出的深度学习架构的两个重要超参数进行分析:丢弃率和隐藏层的数量5.5.1辍学率。 如果模型有太多的参数和太少的训练样本,训练的模型很可能过拟合[32]。作为一种广泛使用的缓解神经网络过拟合的技术,dropout机制[31]可以随机停用一些神经节点。该方法可以减少隐层节点间的相互影响,提高模型我们实验了不同的脱落率,范围从0.2到0.8。从图3(a)中的结果可以看出,当丢弃率为0.2时,模型获得了最佳性能。在所有图3:MLPR模型相对于XGBoost模型的AUC提升百分比,具有不同的dropout比率和隐藏层数量。在其他实验中,我们使用0.2作为MLPR的丢失率,除非另有说明。5.5.2隐藏层和节点的数量 在深度神经模型中,增加网络的层数通常可以增加模型容量[15]。但是,它也会增加模型参数的数量,这可能会导致过拟合。在实验中,我们尝试在底层专家网络的MLP组件中使用不同的层数,范围从2到4。如图3(b)所示,随着层数的增加,模型性能在开始时有所提高,但随后下降,这表明网络可能开始过拟合。因此,我们选择了3层网络作为MLP组件结构。此外,我们测试了不同隐藏层中的节点数量。我们发现,随着隐层节点数的增加,模型的性能普遍更好。在所有其他实验中,我们使用[512,256,128]作为隐藏层中节点的编号。6结论和今后的工作在本文中,我们提出了一种新的多任务学习框架的产品排名集成多种类型的参与信号与神经信息检索。所提出的端到端学习框架结合了特定领域的BERT与传统的排名功能进行语义匹配。在真实电子商务数据集上的综合实验证明了该方法的有效性这项工作是朝着一个有前途的研究方向迈出的第一步该框架允许灵活的配置,如输入数据,文本嵌入提取,混合专家,损失函数等。未来,我们将把其他类型的输入数据整合到模型中,例如产品图像。此外,我们将进行A/B测试,以验证所提出模型在在线环境中的性能。最后但并非最不重要的是,我们将把提出的框架应用到其他搜索和排名任务中。·10−2MLP辛德勒MLPMT LMLPRAUCNDCG@1AUC基于BERT的产品排序多任务学习框架WWW501引用[1] Keping Bi,Choon Hui Teo,Yesh Dattatreya,Vijai Mohan和W.布鲁斯·克罗夫特。2019. 利用隐式反馈进行上下文感知产品搜索。 在SIGIR(CEUR研讨会,卷。2410)。[2] 陈天奇和卡洛斯·格斯特林。2016年。XGBoost:一个可扩展的树提升系统。在SIGKDD中。ACM,785[3] 戴祝云和杰米·卡兰。2019年。基于上下文神经语言建模的IR深度文本理解在SIGIR。ACM,985[4] Jacob Devlin,Ming-Wei Chang,Wendon Lee,and Kristina To
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功