没有合适的资源?快使用搜索试试~ 我知道了~
捕捉用户潜在意图的潜在序贯模型
2528下一项推荐潜在意图的注意序贯模型MdMehrabTanjimmtanjim@eng.ucsd.eduCongzhe Su,EthanBenjamin,Diane Hu,Liangjie Hong@etsy.comEtsy朱利安·麦考利jmcauley@eng.ucsd.edu加州大学圣地亚哥分校摘要用户在电子商务服务中表现出不同的意图(例如,发现物品、购买礼物等)这驱使他们以多种方式与各种各样的项目交互(例如,点击、添加到购物车、添加到收藏夹、购买)。为了提供更好的推荐,除了考虑他们的历史交互之外,捕获用户意图也很重要。 然而,这些意图根据定义是潜在的,因为我们只观察用户的交互,而不是他们的潜在意图。 为了发现这些潜在的意图,并有效地利用它们进行推荐,本文提出了一个潜在意图的潜在S序列模型(ASLI)。我们的模型首先通过自我关注层从用户的交互历史中学习我们使用这种表示来指导attentive模型预测下一个项目。我们的实验结果表明,我们的模型可以捕获用户行为和偏好的动态,从而在两个主要电子商务平台(即Etsy和阿里巴巴)的数据集上实现最先进的性能。关键词Next Item推荐,用户建模,潜在意图ACM参考格式:Md Mehrab Tanjim , Congzhe Su , Ethan Benjamin , Diane Hu ,Liangjie Hong,and Julian McAuley.2020.下一项推荐潜在意图的注意序贯模型在网络会议2020(WWW '20)的会议记录,2020年4月20日至24 日 , 台 北 , 台 湾 。 ACM , 美 国 纽 约 州 纽 约 市 , 7 页 。https://doi.org/10.1145/3366423.33800021介绍推荐系统的基本目标是从用户可能潜在地与之交互的大量项目词汇表中推荐候选日期。为了实现这一目标,已经提出了可以学习用户偏好的各种系统[ 7,16,23 ]。工业应用中的一种流行的技术类别是协同过滤(CF),其利用用户最有可能与类似于她的历史交互项目的项目交互的观察[12]。为了扩展这个想法,各种模型进一步试图捕捉用户反馈的顺序动态[10,18]。大 多 数工作都是在Etsy实习期间完成的本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2020 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-7023-3/20/04。https://doi.org/10.1145/3366423.3380002通常,这些模型是在单个交互类型上训练的(例如,购买或点击),并且不进一步将预测分解为不同的动作或意图类型。在实践中,用户意图可以根据上下文而改变考虑电子商务的一个典型设置:用户可以点击商品,将其添加到收藏夹或购物车中,或者在满足标准的情况下购买。 根据用户的意图和偏好,与其他人相比,她可能更有可能在特定时间点对项目执行一种类型的交互。例如,考虑用户打算购买产品的情况;自然地,他们将点击、添加到购物车并最终购买的物品将在它们之间具有相似性。因此,为了推荐下一次购买,不仅考虑用户以前购买过什么,而且考虑她过去查看过或添加到购物车中的产品可能是有帮助的。或者,另一个用户可能只是浏览产品并将其添加到他们的购物车中,而没有立即购买的意图;这些项目可能共享共同的属性(例如,价格,美学),但可能与最终购买的那些不同(例如,更便宜的替代品)。因此,一个意图(探索)与另一个意图(购买)相比会导致不同的 因此,我们可能会尝试推荐满足用户当前目的的项目。我们认为,这是一个潜在的限制,目前的推荐系统,不能区分意图类型(甚至交互类型)。基于上述观察,我们寻求一个系统,可以找到时间之间的相似性,也捕捉用户这项任务提出了若干挑战。首先,虽然意图和交互是相关的,但它们并不相同;虽然我们可以直接观察用户因此,必须从用户的交互中推断潜在意图。此外,用户在本文中,我们解决了这些挑战,并提出了一种使用自我注意力的有意义的S序列潜在能力模型(ASLI)和时间卷积网络来寻找项目之间的相似性,捕捉用户的隐藏意图,并关注它们。首先,我们在用户与之交互的所有过去的项目上应用自我注意层,以从序列中找到项目相似性;然后,我们考虑用户在给定类别上执行的交互,并应用时间卷积网络来推断用户的潜在意图。最后,我们应用另一个注意力层来解决项目和意图之间的长期和短期依赖关系这被证明是有效的学习用户对一个项目的隐藏偏好。我们进一步展示了我们的模型在两个电子商务网站,即Etsy和阿里巴巴的真实数据集上的有效性 我们的实验表明,该模型能够获得最先进的性能为顺序预测任务。WWWMd Mehrab Tanjim,Congzhe Su,Ethan Benjamin,Diane Hu,Liangjie Hong,and JulianMcAuley2529.Σ{|C|个文件夹{|一|个文件夹{|P|个文件夹.ΣA{|一|}.ΣC{|C|}P{|P|}∈[]∈p1,i1 . . ,|Su|我|Su|⟩我p我、、 =布吕p我ppi我2动机2.1作为相互作用表1:符号。符号解释在电子商务环境中,物品的数量通常很重要,比类别的数量大得多,这样用户-项目交互就比用户-类别交互稀疏得多。例如,对于Etsy,稀疏度(观察到的可能相互作用的分数)仅为0。02%在用户项级别,但1。68%的用户级别。这意味着推断意图PC一个dp,c,a∈RSu产品集:1,. . . ,p. . . 、类别的集合:1,. . . ,c. . . 、动作集合:1,. . . ,a. . . 、产品p,类别c和动作a的d维嵌入属于用户的项和交互元组的序列u:一个用户谁在欧普,欧伊乘积p和交互作用i礼服当她发现有趣的项目,她把它们添加到购物车。但最终她改变了她的意图,“购买”,因为她发现更便宜的项目从“礼品和纪念品”类别。图1(a)说明了这一点。在用户与来自“婚纱”的特定物品交互之后,可能难以检测对来自“礼物和纪念品”的特定物品的微妙兴趣,因为它们仅是来自它们各自类别的许多实例中的两个实例。然而,“礼物和纪念品”和“婚纱”之间的联系更加简洁,并且由于类别之间的转换数据更加密集,我们可以更容易地了解用户的兴趣。出于这些原因,我们考虑用户2.2意图的潜在因素模型为了更好地理解为什么意图是一个重要因素,我们试图建立观察到的状态(即项目)和我们定义的交互之间的依赖关系。如果我们希望预测两者,我们将根据过去项目和相互作用的顺序计算它们的联合概率。具体来说,如果我们想打电话-产品和相互作用的rop,roi得分最相关的下一项建议。为此,我们将潜在意图定义为用户交互的表示假设= 1,. . .,p. . .、是所有乘积的集合,=1,. . .,c. . .、是所有猫的集合,=1,. . .,a. . .、是所有动作的集合。如果用户对类别c中的项目p采取动作a,则p、c和a是产品、类别和动作的对应d维嵌入。如上所述,我们已经将交互定义为来自特定类别的动作的组合,即,i=c+a。然后,我们将问题公式化为:给定一系列产品和用户交互,Su=p1,i1 . . ,|Su|我|Su|然而,在每一步中,目标都是捕捉隐藏或潜在的意图,并用它来预测下一个项目,项目d相互作用,例如,吉文我的第一 个目标是...... . . ,|Su|−1,i |Su|-1,计算a的下一个项目p和下一个交互i的概率第2号法令,第2号法令,。 . . ,|Su|我|Su|-是的 他是,|Su|是长度的用户u,则联合概率可以表示为P(p,i |Su,Su)。用户u的序列。在这里,p我Su和Su是过去项和交互的序列分别 有几种方法可以基于变量之间的相互依赖性假设来分解该概率(例如,项取决于交互,反之亦然)。根据这一假设,因式分解可以变得简单,也可以变得复杂。例如,如果我们假设项依赖于相互作用,则因子分解变为:|Su)P(p |i,Su,Su)。类似的双-3.2预赛3.2.1自我关注的网络自我注意力模型是最近提出的顺序模型,在各种NLP任务中实现了最先进的性能[21]。Self-attention首先尝试计算查询和关键字之间的相似度分数,并使用它如果我们假设相互作用依赖于物品,就可以推导我们可以简化相同的联合概率的因式分解,如果我们假设项目和相互作用都是条件独立的给定一些其他的潜在变量。让我们把这个变量可以是相同的对象(例如,项目的顺序具体来说,自我注意力被定义为注意(Q K V)softmax. QKTV(1)P(p,i |θ,Su,Su)= P(p |θ,Su)× P(i |θ,Su)其中Q、K和V分别是查询、键和值直觉,我们在这里引入的潜在变量可以定义为意图的某种表示(购物,浏览,发现新物品等)。 我们称之为用户的“潜在意图”,并设计了一个模型,可以参加它,以提供更好的建议。3该模型3.1问题描述符号描述见表1。 我们考虑的问题,捕捉用户的隐藏意图,从他们的互动项目,以获得这些是通过输入嵌入的线性投影计算的具体地,Q=SWQ,K=SWK,V=SWV,其中SRn×d是描述具有d维输入嵌入的长度为n的序列的矩阵,即,S=e1;. . . 其中,W Q、W K、W V Rd× d是投影矩阵。Q和V之间的注意力得分被划分为避免点积的大值(特别是对于许多尺寸)。为了保持因果关系并防止信息从后向前泄漏,注意力被修改为禁止Qi和Kj(j>i)之间的所有联系请注意,由于自注意操作不知道顺序,因此每个位置都被分配了一个从行动中推断可能比从类别中推断更困难为了更好地理解稀疏性问题,考虑以下情况:作为一个值的注意力权重在这里,查询、键和值如θ。然后,联合概率将被分解如下:下一项推荐潜在意图的注意序贯模型WWW2530∈.×S(a)(b)第(1)款图1:(a)模型概述。这里,示出了示例用例,其中用户最初具有通过与美观且昂贵的物品交互来反映的“发现”意图。最终,她改变了她的意图,更便宜,更朴素的东西。(b)详细架构学习的嵌入被添加到输入嵌入。由于等式1,这一层的复杂度为O(n2d).3.2.2时间卷积网络(TCN)。与自注意相反,卷积有一个固定的上下文窗口. 我们可以用许多不同的方法来执行卷积在我们的任务中,我们考虑在1D空间中执行卷积(即,序列),其在输入序列上滑动并通过一组权重确定上下文元素的重要性参数的数量可以从d2l减少到dl,其中l是内核宽度,如果我们使用权重W Rd× l执行深度卷积。具体地,输入序列S中的每个元素i的输出计算如下:3.3ASLI的高级概述我们在图1(a)中显示了ASLI的高级摘要。在ASLI中,我们首先在项目序列上应用自注意力来计算来自所有位置的项目的相似性。我们不会再次对这些输出应用自我注意,因为我们想探测项目序列的哪一部分与用户的隐藏意图最相关 为了捕捉潜在的意图,直观地说,我们需要一个隐藏的表示用户的行动。如前所述,这构成了一个独特的挑战,因为用户的项目行动是稀疏的。为了缓解稀疏性问题,我们的关键建模决策之一是将类别行为视为交互。在ASLI中,我们选择TCN从这些交互中获取特征,因为它相对较浅且易于并行化。后来,为了确保这个潜在的特征捕获意图,我们使用它来双重预测下一次交互(通过前馈网络),DepthwiseConv(S,Wc,:,i,c)=Lj=1Wc,j<$S(i+j−[l+1]/2),c(二更)工作)和下一个项目(由共同关注的Transformer层)。 我们在第一层的输出(计算项目相似性)之间进行共同关注,并发现隐藏的意图,正如我们所希望的那样C是当前信道。潜在空间的每个维度都可以被认为是一个通道,所以通常c = d。这一层的计算复杂度为O(ndl)。3.2.3前馈网络(FFN)。尽管自注意和卷积模型都能够通过自适应权重聚合顺序信息,但它们仍然是线性模型。为了引入非线性,下一步是将这些模型的输出馈送到两层前馈网络(FFN)。具体地,如果ot是步骤t的输出(来自自注意或TCN),则:FFN(ot)=W2(ReLU(W1ot+b1))+b2其中ReLU是整流线性单元激活函数[3],W1和W2是d d权重矩阵,b1b2是d维偏置向量。我们应该注意,FFN是逐点应用的,即每个步骤的输出分别作为输入。因此,在来自两个步骤的输出之间没有相互作用,并且防止了任何信息泄漏。 由于我们应用逐点FFN,其计算复杂度为O(nd2)。解决它们之间的长期和短期依赖关系,并更好地了解项目3.4ASLI3.4.1嵌入层:我们在图1(b)中展示了ASLI的详细架构。我们首先将用户u的训练序列u转换为固定长度(n)序列,其中n表示我们的模型可以处理的最大步骤数。对于项目p,类别c和动作a,我们有相应的嵌入p,c,a。从c和a,我们构造相互作用嵌入,即。i=c+a。如果序列长度大于n,我们考虑最近的n个动作。如果序列长度小于n,我们在左边填充,直到长度为n。常零向量0用于填充。3.4.2自我关注层。这一层的目标是根据用户的顺序交互发现项目之间的相似性。我们可以通过对项目序列应用自注意来计算来自不同位置的项目之间的相似性得分。我们考虑当前步骤或位置t的可学习位置嵌入t,我们将其添加到当前项嵌入p[21]。通过这种方式,我们构建了一个序列矩阵Sp,并使用它来计算查询、键和WWWMd Mehrab Tanjim,Congzhe Su,Ethan Benjamin,Diane Hu,Liangjie Hong,and JulianMcAuley2531()下一页pLrank+1)u2(值,即Q=SpWQ,K=SpWK,V=SpWV。最后,我们应用表2:预处理后的数据统计公式1并得到输出。然后,我们应用剩余连接利用任何低级别信息[5]和层规范化[1] 以稳定和加速训练。图1(b)中左下角的方框显示了它的架构。3.4.3TCN层。 在这一层中,我们将深度卷积(等式2)DepthwiseConv Si,W,随后是残差连接和层归一化应用于交互的序列矩阵Si。这一层(如图中右下角的块所1(b))为我们提供了我们用作查询的意图的潜在表示来预测下一个项目。我们也把它作为一个输入-ward网络,它给了我们一个嵌入,ot,来预测下一个交互(图1(b)中的中间块)。我3.4.4注意意向层。最后,为了找到具有潜在意图的项目的相关性,我们将来自第一自我注意层的输出作为键和值,并且将TCN的输出作为对另一自我注意层的查询。由于查询是意图的潜在表示,我们称之为意图关注层。这一层的输出被作为另一个前馈网络的输入,该网络输出一个嵌入,用于预测下一个item. 图中的顶部块图1(b)显示了其总体架构。3.4.5损失函数 为了训练模型,我们采用逐点损失,其中我们考虑一个正面示例和一个负面示例[9,13]。 由于我们在每一步中预测下一个项目和下一个交互,因此每一步都有一个基础真值,即p和i。 为了预测下一个项目,我们从数据中随机抽取一个负项目(用户之前没有与之交互的项目)。然后我们计算模型输出与正/负示例之间的点积,并获得分数。该分数用于计算排名损失,按以下方式对下一项进行排名:天猫Tmall-Small Etsy用户数9,883六千二百八十六千六百九十项目数569,65847,759119,310#类别6,352130608#行动2.45M0.44M0.22Mavg. 行动/用户248.1071.9834.17avg. 视图/用户211.3262.8427.31avg. 添加到收藏夹/用户11.663.013.37avg. 添加到购物车/用户17.154.222.47avg. 购买/用户7.971.911.024.1数据集为了证明ASLI的性能,我们考虑来自两个流行的电子商务网站的数据集:阿里巴巴和Etsy。 表2显示了预处理后这些数据集的统计数据。根据下一个项目建议的设置[13,24],对于每个用户,我们测试最后一个项目,验证之前的项目,并使用序列的其余部分进行训练。1天猫是阿里巴巴提供的公开数据集原-最后,它包含来自10,000个用户记录的约1,200万个操作有四种类型的行动,用户可以采取,即,点击,添加到收藏夹,添加到购物车和购买。对于预处理,我们遵循与[7,8,18]相同的过程,并删除任何少于5次交互的用户或项目。此外,请注意,某些项目可能会被用户点击多次,这可能会导致对某些动作的偏见。为了解决这个问题,我们只考虑用户采取的第一个此类操作经过预处理后,我们得到了9,883个用户,569,658个项目,6,352个类别和2,454,115个动作。Etsy Etsy是一个电子商务平台,专注于个性化和手工制品。数据集包含在推荐模块上拥有帐户的用户的活动日志十月2018年12月15日至12月2018年15日数据过滤如下:L等级=−。.log(σ(r t))+log(σ(1− r t))[4],这样,任何少于20个动作的项目或用户都将被opS u ∈S t ∈[1,.,n个]奥普删除.经过处理后,它包含6,690个用户,119,310个项目,608个类别和215,227个动作。这里,rot是正数p的点积,rot′是正数p的点积。为了公平比较,我们还准备了一个天猫版本p′pTmall-Small,它以与Etsy相同的方式进行预处理。它骗-负项p的得分。类似地,为了预测下一次交互,我们有地面真实下一次交互i。然后,我们随机抽取一个用户没有观察到的类别-动作对的组合,并构建负交互i′。我们同样计算分数并计算交互损失。具体地说,包含6,280个用户,47,759个项目,130个类别和439,497个操作。4.2评估指标我们报告了推荐系统中两个流行的top-k指标的结果,即:HitRate@k和NDCG@k [7,9]。HitRate@k是地面实况项出现在L相互作用=−。..log(σ(rot))+log(σ(1 − rot))。我top-k预测项,而NDCG@k(归一化贴现S u ∈S t ∈[1,.,n个]i′累积增益)是位置感知度量,其分配较大的重量更高的位置。具体来说,如果地面的排名在这里,rot和rot是积极和消极的得分,如果用户的真值项为ranku且ranku ≤k,则NDCG@k行动上 其最终损失为L=L排序+L交互作用。4实验在本节中,我们将介绍我们的实验设置和实证结果。 我们的实验旨在回答以下研究问题:RQ1:与其他推荐模型相比,我们捕获潜在意图的模型表现如何?RQ2:用户计算如下:log1.一、 如 果 秩 u>k , 则NDCG@k为0。对于排名项目,我们为每个地面实况项目考虑100个负样本对于k的值,我们选择5和10。4.3基线为了显示我们的模型的有效性,我们比较了ASLI与两组推荐基线。 第一组包含一般的非顺序推荐模型:我们的建筑的各个组成部分的影响是什么RQ3:我们的模型的培训效率和可扩展性如何1https://tianchi.aliyun.com/dataset/dataDetail? dataId=46下一项推荐潜在意图的注意序贯模型WWW2532----表3:各种型号的性能数据集天猫Tmall-Small EtsyNDCG HitRate NDCG HitRateK = 5K = 10K = 5K = 10K = 5K = 10K = 5K = 10K = 5K = 10K = 5K = 10最流行0.16880.20300.24590.35160.12710.15770.18980.28480.05390.06910.081160.1283BPR-MF0.35410.38620.46080.56010.26880.31240.37740.51270.27240.28000.28490.3086NextItRec0.43010.45140.50280.56860.39810.42350.47050.54930.35430.36710.38660.4265SASRec0.47710.50280.54360.62300.45250.47730.52690.60370.37650.38280.39270.4123ASLI0.51330.53670.60510.67690.43340.46780.53670.64290.39460.40150.43100.4523表4:不同注意力对两个数据集的影响关注类型天猫EtsyMostPop:MostPop是一个简单的基线,它根据项目的受欢迎程度对其进行排名BPR-MF:贝叶斯个性化排名使用排名损失分解用户-项目交互矩阵[17]。第二组包含两个最近提出的顺序深度学习模型:NextItRec:这是[ 24 ]中提出的用于下一项推荐的卷积模型。NextItRec使用1-D扩张卷积网络来获得过去L个项目的上下文。SASRec:这是一个基于自我注意力的下一个项目建议[13]。由于其他序列模型(如FPMC [18],Fossil [8],改进的GRU4Rec[10],CASER [20])已被上述序列模型超越,因此我们省略了与它们的比较4.4实现细节我们在TensorFlow中实现了我们提出的模型,并使用单个GPU(NVidia 1080)进行了所有实验。我们使用Adam优化器[14]来更新模型参数。基于每个用户的平均动作数,我们将Etsy的最大序列长度定为50,Tmall-Small定为100,Tmall定为300。NextItRec的批量大小为32,其余的为128 对于所有模型,200个潜在维度产生了令人满意的结果。为了调整其他模型特定的超参数,我们遵循了方法作者建议的策略 对于我们的模型,我们在从0开始执行网格搜索后将丢弃率设置为0.3。1,0。2,0。三,零。四,零。学习率从0 . 5提高到0. 001。1,0。01,0。001,0。0001,0。00001 我们还调整了TCN层的内核大小,这将在后面讨论。4.5性能为了回答RQ 1,我们在表3中报告了每个模型的性能。 从表中,我们的第一个观察是,所有顺序深度学习模型的一组优于非顺序组。在第一组的两个基线模型之间,BPR-MF的表现明显优于基于流行度的模型MostPop。虽然BPR-MF可以学习静态用户偏好,但它不能捕获序列动态。因此,能够学习这种动态的所有深度序列模型都优于BPR-MF。在序列模型中,我们可以观察到NextItRec在较短序列数据(Etsy)中的表现通常优于较长序列数据(Tmall和 Tmall-Small ) 。 此 外 , Etsy 的 HitRate@20 ( 0.4265 vs0.4123)比基于自我注意力的模型SASRec更高。据推测,这归因于NextItRec中膨胀内核的固定大小,使其能够比较长序列更好地捕获短长度序列的序列除此之外,SASRec的表现总体上优于总体而言,ASLI在所有数据集的所有指标下都实现了最佳性能,除了NDCG下的Tmall-Small,其性能比SASRec差(k=5时NDCG约低4%,k=10时低2% 这个结果显示了我们的模型对类别数量的最重要依赖之一。使用一个只有一个类别的数据集的例子可以更好地解释这种依赖性。在这种情况下,我们的模型将几乎平等地对待所有类别行为,因此,它将无法完全提取有用的模式来发现意图。这个例子虽然很简单,但它提供了一个直观的理由来解释Tmall-Small数据集的性能差距值得注意的是,Tmall-Small使用Etsy的方案进行了预处理在天猫和Etsy数据集中,类别的数量要高得多(超过500),我们的模型在所有指标下都达到了最佳性能例如,NDCG下这两个数据集的改善至少为4.8%。在HitRate下,它是6%或更高。接下来,我们讨论不同注意力的影响以及内核大小l对回答RQ2的影响。4.6注意力对潜在意图对于我们对最后一个注意层的查询选择,除了潜在意图之外,我们还可以潜在地表4比较了这些查询选项这里,“Seq”表示从第一自注意层输出的序列。SAS-Rec尝试从第一层中找到项目的内在属性,并使用“Seq-Seq”注意力来解决第一层中遗漏的任何依赖关系。“Seq-Item”表示在第二层中使用项嵌入作为查询。Seq-Item的性能比Seq-Seq差,可能是因为它冗余地计算了····NDCG@5HR@5NDCG@5HR@5Seq-Seq(SASRec)0.47530.54340.37920.3976Seq-Item0.36410.42970.25420.2773Seq-Action0.37660.46440.33860.3658序号-类别0.47870.56900.37880.4189Seq-潜在意图0.51010.59550.39400.4300WWWMd Mehrab Tanjim,Congzhe Su,Ethan Benjamin,Diane Hu,Liangjie Hong,and JulianMcAuley2533O()0.5120.5110.5100.5090.5080.507510152025K(a) 天猫0.3940.3920.3900.3880.3860.384510152025K(b) Etsy图2:内核大小l对性能的影响项目的序列,并可能失去相似性发现在第一层。当使用动作或类别时,性能显著提高,表明两者都是重要因素,因此将两者用作发现潜在意图的交互并关注它会导致更好的推荐。4.7内核大小l对性能的影响TCN层中的核大小l是我们模型中的关键超参数。为了分析其效果,我们将其大小从5变化到25(以5为间隔),并在图中显示两个数据集的NDCG@5二、 如果我们增加l,我们正在使用更大的上下文大小来提取潜在意图,这可能导致性能增益。有趣的是,从图中,我们发现了一个重要的观察结果,即任意增加l可能不会带来更好的性能。在我们的例子中,内核大小为10和20的Tmall和Etsy工作得更好。下面讨论回答RQ3的实验结果。4.8培训效率和可扩展性为了实证地展示我们模型的训练效率,我们测试了我们的模型与其他序列模型相比的收敛图3显示了Tmall数据集的收敛结果我们看到ASLI比其他两个收敛得更快(在20个epoch或大约350秒内),尽管它的每epoch时间比SASRec的要长 我们认为主要原因是我们对下一个项目和下一个交互的联合优化有助于模型快速了解项目的重新分配。 在可扩展性方面,我们应该注意到我们模型的整体计算复杂度是n2d+ndl+nd2(由于自注意,TCN和FFN层)。由于n通常大于d,所以复杂度主要由n×d项决定.然而,自注意力和TCN层在GPU中是完全可并行的,并且可以轻松扩展。例如,当我们将天猫的n从50增加到600时,每个epoch的时间从7秒增加。45秒(为简洁起见,未示出全部结果5相关工作传统的推荐系统通过交互矩阵来关注用户和项目。这些交互可以是明确的(例如,评级)或隐式(例如,点击、购买、评论等)[12、17]。流行的方法包括矩阵分解(MF)方法,其目的是从交互矩阵中发现潜在的维度[15,19]。由于对“未观察到的用户不与之交互的项目)。为了解决这个问题,逐点[12]和成对[17]提出了一些方法图3:天猫可以通过考虑时间动态来改进建议。例如,TimeSVD++[2]在Netflix挑战中取得了很好的成绩,将时间划分为几个部分,并在每个部分分别对用户和项目这种模型对于理解表现出时间“漂移”的数据集至关重要[2,23]。顺序推荐(或下一项推荐)与时间推荐略有不同,因为它只考虑动作的顺序而不是时间戳。FPMC使用矩阵分解,增加了项目-项目过渡项,以捕获长期偏好和短期过渡[18]。由于前一项为下一个动作提供了“上下文”,因此基于一阶MC的方法表现出很强的性能,特别是在稀疏数据集[7]。一些方法采用考虑更多先前项的高阶MC [6],[8]。例如,GRU 4 Rec使用门控递归单元(GRU)来对基于会话的推荐的点击序列进行建模[11],并且改进的版本进一步提高了其Top-N推荐性能[10]。在每个时间步中,RNN将上一步的状态和当前动作作为其输入。这些依赖性使得RNN效率较低,尽管已经提出了“会话并行”等技术来提高效率[ 11 ]。卷积网络最近已被应用于顺序推荐设置。 CASER [20]将L个先前项的嵌入矩阵视为“图像”,并应用卷积运算来提取转换,而NextItRec[24]应用一维扩张卷积来获取上下文。基于自我注意力的[13,25]网络也被提出用于顺序推荐,因为它们在各种NLP任务中取得了巨大的成功。最近,[22]提出了一种混合通道目的路由网络,以模拟匿名会话中项目的不同目的虽然这些方法可以对动态用户偏好或项目目的进行建模,但它们没有考虑用户意图的影响。我们将建议视为一项联合任务,即,预测下一次交互和下一个项目,并旨在通过一个统一的框架对两者进行6结论在本文中,我们提出了ASLI,它实现了更好的推荐,通过捕捉用户除了寻找项目之间的相似性之外,ASLI还利用TCN层来获得用户意图的潜在表示通过实验,我们发现我们的模型在两个真实世界的数据集上的性能优于当前最先进的模型。NDCG@5NDCG@5下一项推荐潜在意图的注意序贯模型WWW2534引用[1] Jimmy Lei Ba,Jamie Ryan Kiros,and Geoffrey E Hinton.2016年。层归一化。arXiv预印本arXiv:1607.06450(2016)。[2] Koren Y协作。2010年。时间动态滤波[J].Communica-tions of the Acm53,4(2010),89[3] 泽维尔·格洛洛,安托万·博德斯,还有约瑟芬·本吉奥。2011年。深度稀疏整流神经网络。第十四届人工智能与统计国际会议论文集。315-323[4] F麦克斯韦哈珀和约瑟夫A康斯坦。2016.电影镜头数据集:历史和背景。ACM交互式智能系统交易(TIIS)5,4(2016),19。[5] 何开明,张翔宇,任少卿,孙健。2016年。 深度残差学习用于图像识别。IEEE计算机视觉与模式识别会议论文集。770-778[6] Ruining He , Chen Fang , Zhaowen Wang , and Julian McAuley. 2016.Vista:一种视觉、社交和时间感知的艺术推荐模型。第10届ACM推荐系统会议论文集。ACM,309[7] Ruining He,Wang-Cheng Kang,and Julian McAuley.2017年。基于翻译的推荐。 第十一届ACM推荐系统会议论文集。ACM,161[8] 毁了他和朱利安·麦考利2016年。马尔可夫链融合相似度模型用于稀疏顺序推荐。2016年IEEE第16届数据挖掘国际会议(ICDM)。IEEE,191[9] Xiangnan He,Lizi Liao,Hanwang Zhang,Liliang Nie,Xia Hu,and Tat-Seng Chua. 2017年。神经协同过滤 在第26届万维网国际会议上。国际万维网会议指导委员会,173[10] 巴拉兹·希达西和亚历山德罗斯·卡拉佐格鲁。2018年基于会话推荐的具有top-k增益的递归神经第27届ACM信息与知识管理国际会议论文集。ACM,843-852。[11] Balázs Hidasi,Alexandros Karatzoglou,Linas Baltrunas,and DomonkosTikk.2015. 使 用 递 归 神 经 网 络 的 基 于 会 话 的 推 荐 。 arXiv 预 印本arXiv :1511.06939(2015)。[12] Yehuda Koren和Chris Volinsky。2008年隐式反馈数据集的协同过滤在ICDM,卷。八、Citeseer,263[13] 康旺成朱利安·麦考利。2018年自我关注的顺序推荐。2018年IEEE,197-206.[14] Diederik P Kingma和Jimmy Ba。2014年。Adam:一种随机优化方法arXiv预印本arXiv:1412.6980(2014)。[15] 耶胡达·科伦和罗伯特·贝尔2015. 协同过滤的进展。在推荐系统手册。 斯普林格,77[16] 耶胡达·科伦罗伯特·贝尔克里斯·沃林斯基2009年推荐系统中的矩阵分解技术Computer8(2009),30[17] Steffen Rendle,Christoph Freudenthaler,Zeno Bronner,and Lars Schmidt-Thieme.2009. BPR:贝叶斯个性化排名从隐式反馈。 第25届人工智能不确定性会议论文集。AUAI Press,452[18] Steffen Rendle , Christoph Freudenthaler , and Lars Schmidt-Thieme.2010年。下一个购物篮推荐的个性化马尔可夫链因子化 在第19届万维网国际会议上。ACM,811[19] Francesco Ricci,Lior Rokach,and Bracha Shapira. 2011. 推荐系统手册介绍。推荐系统手册。斯普林格,1-35。[20] 唐嘉熙和王克。2018.通过卷积序列嵌入的个性化top-n顺序排列第十一届ACM Web搜索和数据挖掘国际会议论文集。ACM,565[21] Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,LlionJones,Aidan N Gomez,Jakukasz Kaiser,and Illia Polosukhin. 2017.注意力就是你所需要的。神经信息处理系统的进展。5998-6008[22] 王守金、胡良、王扬、盛泉、奥根、曹龙兵. 2019年。 通过混合通道目的路由网络为下一个项目推荐建模多目的会话。第28届国际人工智能联合会议论文集。AAAI Press,1[23] Liang Xiong , Xi Chen , Tzu-Kuo Huang , Jeff Schneider , and Jaime GCarbonell.2010. 基于概率张量因子化的时间协同过滤2010年SIAM国际数据挖掘会议论文集。SIAM,211-222.[24] Fajie Yuan,Alexandros Karatzoglou,Ioannis Arapakis,Joemon M Jose,and Xi- angnan He.2019.一种用于下一项推荐的简单卷积生成网络。第十二届ACMWeb搜索和数据挖掘国际会议论文集。ACM,582[25] Shuai Zhang,Yi Tay,Lina Yao,Aixin Sun,and Jake An.2019年。下一个项目建议-自我关注的度量学习。在第33届AAAI人工智能会议上,卷。第九章
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功