没有合适的资源?快使用搜索试试~ 我知道了~
2183学习增强临时用户推荐JianlingWang*Texas A MUniversityCollegeStation,TX,USAjlwang@tamu.edu王玉燕谷歌公司美国加利福尼亚州山景城yuyanw@google.com雅乐谷歌公司美国加利福尼亚州山景城elainele@google.com艾德·H迟谷歌公司美国加利福尼亚州山景城edchi@google.com博昌谷歌公司美国加利福尼亚州山景城bochang@google.com陈敏敏谷歌公司美国加利福尼亚州山景城minminc@google.com摘要来到推荐平台的用户在活动水平上是异质的。通常存在一群核心用户,他们定期访问平台,每次访问都会消费大量内容,而其他人则是偶尔访问平台,每次消费较少的临时用户。因此,来自核心用户的消费活动通常主导用于学习的训练数据 由于核心用户可能表现出与休闲用户不同的活动模式,基于历史用户活动数据训练的推荐系统在休闲用户上的性能通常比核心用户差得多。为了弥补这一差距,我们提出了一个模型无关的框架L2Aug,通过数据增强来改善对临时用户的推荐,而不牺牲核心用户体验。 L2Aug由一个数据增强器提供支持,该数据增强器学习生成增强的交互序列,以便为临时用户微调和优化推荐系统的性能。在四个真实世界的公共数据集上,L2Aug优于其他处理方法,并为临时用户和核心用户实现了最佳的顺序推荐性能。我们还在在线仿真环境中测试了L2Aug,并提供实时反馈,以进一步验证其有效性,并展示其在支持不同增强操作方面的灵活性。CCS概念• 信息系统→推荐系统关键词推荐系统、数据扩充、政策学习ACM参考格式:王建玲*,乐雅,常波,王玉燕,Ed H.Chi和Minmin Chen。2022.学习增强临时用户推荐。在ACM Web Conference 2022(WWW '22)的会议记录中,2022年4月25日至29日,虚拟活动,法国里昂。ACM,纽约州纽约市,美国,12页。http://doi.org/10.1145/3485447.3512147* 工作是在谷歌实习本作品采用知识共享署名国际协议(Creative Commons AttributionInternational)授权4.0 执照WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.35121471介绍推荐系统无处不在。例如,流媒体服务依赖于推荐系统来向其用户提供高质量的信息和娱乐内容,并且电子商务平台推荐感兴趣的项目来帮助客户做出购物决策。 顺序推荐,其重点是基于他们的历史交互序列预测用户感兴趣消费的下一个项目,已经在许多应用中被广泛研究[19,20,23,42,56]。访问在线平台的用户通常在活动水平上是异质通常存在一组经常和持续访问平台的核心用户,而其他用户则是偶尔访问平台的临时用户活动水平的异质性可能导致这两组用户之间的不同过渡模式[5,7]。 如图1(a)所示,连续交互的项目不太集中,并且在休闲用户中的相似性低于核心用户,因为他们不太频繁地来到平台。主要在来自核心用户的交互数据上训练的顺序识别器通常无法捕获临时用户的活动模式,并且因此,为临时用户提供不太令人满意的识别。如图1(b)所示,基于自我注意力的推荐器(SASRec [ 23 ])在所有序列长度中对临时用户的表现明显不如对核心用户如何在不牺牲核心用户性能的情况下提高对临时用户的推荐是构建为所有人提供满意的推荐服务现有的方法,如冷启动建议[15,32,44,60] 或跨域方法[14,24,25,58,61],主要集中在解决数据稀缺性,但未能处理系统中不同类型用户之间虽然平台上的休闲用户往往比核心用户多与核心用户相比,他们留下的互动要少得多如何从核心用户中提取信息转移模式并有效地适应临时用户是我们的主要研究问题。 受数据增强技术[10,27,29,50]的最新进展的启发,我们开始从核心用户中生成增强的数据序列,以模仿临时用户的行为模式。虽然已经研究了许多用于连续输入(如图像)的增强技术[8,17],但由连续离散项ID组成的用户活动数据的增强仍处于探索阶段。同时,与倾向于留下一致和信息性交互序列的核心用户相比,休闲用户通常具有更嘈杂和更多样化的行为序列WWWWang,Jianling,etal.218420151050-0.2 0.0 0.2 0.4 0.6用户序列中连续项的余弦相似性(一)20.017.515.012.510.07.55.02.50.0核心用户休闲用户≤ 34567891011121314 ≥ 15序列长度(b)第(1)款6.05.55.04.54.03.53.02.52.0临时用户1 −临时用户的平均长度核心用户的平均长度仅对来自临时用户的原始数据和来自临时用户的核心数据进行训练0.00.10.20.30.40.50.60.70.80.91.0版下降百分比(c)第(1)款图1:(a)利息连续性比较(即,连续消费的项目的相似性)。(b) 给定一个推荐系统(SASRec[23]),该系统在来自核心用户和临时用户的交互序列上进行训练,对于相同长度的交互序列,它在临时用户上的表现总是比在核心用户上差,这表明为临时用户进行推荐的难度(c)来自核心用户的数据有助于训练针对临时用户的模型。此外,随机丢弃核心用户的部分交互可以进一步提高临时用户的性能。如图1(a)所示这是一个悬而未决的问题,找到一个有效的数据增强方法来生成增强序列,继承信息的过渡模式,从核心用户和提高休闲用户推荐。为了解决上述挑战,我们提出了一个模型无关的“学习增强”框架-L2Aug,它弥合了顺序推荐系统的临时用户和核心用户之间的差距。具体来说,我们开发了一个数据增强器,它决定了一系列的增强动作的输入序列生成增强的数据序列。 从“学习到增强”的角度来看,该数据增强器被训练为进行有效的数据增强,以最大化目标模型的性能(即,推荐者)。将其框架化为学习数据增强策略,数据增强器(代理)生成上下文/状态并选择增强动作。同时,目标模型更新与增强的数据序列,其性能的改善Meta验证集作为奖励,以指导学习的增强策略。通过在使用推荐器性能作为奖励的数据增强步骤和使用增强的数据改进推荐器之间交替,这两个模块相互加强并且逐步改进数据增强和推荐质量。因此,这建立了一个自适应推荐系统,它可以从核心用户中提取信息的过渡模式,并适应于具有显着不同的交互模式的休闲用户。我们的贡献可归纳如下:我们调查了核心用户和临时用户在交互序列中的过渡模式的差异,并从数据增强的角度研究了弥合核心用户和临时用户之间的序列推荐我们提出了一个与模型无关的框架L2Aug,使用REINFORCE学习数据增强策略,并使用生成的增强数据改进推荐系统我们在四个真实世界的数据集上,在各种SOTA顺序推荐模型的基础上评估了L2Aug,并表明它优于其他处理方法,并且在核心用户和临时用户上都实现了最佳推荐性能我们还评估了L2Aug在一个在线模拟环境中,用户的反应反事实的建议是已知的。 我们还展示了它的有效性以及灵活性,在支持多个增强行动。2动机在本节中,我们对从公共亚马逊评论数据集[35]中采样的数据进行了初步调查,以探索临时用户和核心用户之间的不同行为模式,然后研究应用数据增强弥合两者之间首先,为了研究不同用户对物品消费历史的兴趣连续性,我们计算了交互序列中连续物品的我们将词袋模型应用于项目描述,以获得项目嵌入,然后计算交互序列中连续项目的嵌入之间的余弦相似度。在图1(a)中,我们可以观察到核心用户消费的连续项目更加相似。这证实了我们的假设,即核心用户和休闲用户的行为不同,休闲用户的兴趣集中度低于核心用户。其次,由于核心用户的交互序列往往比临时用户的交互序列更长、更密集,因此最直接的数据增强方法是随机删除核心用户的部分交互。我们在最初的研究中采用了这种方法,并使用增强的数据训练SASRec模型[23] 在图1(c)中,我们通过改变丢弃交互的百分比来可视化临时用户推荐的性能。当丢弃百分比等于0时,没有来自核心用户的交互被丢弃,因此推荐器在来自核心用户和临时用户的原始数据上进行训练。相反,当丢弃百分比等于1.0时,来自核心用户的所有交互都被丢弃,这意味着推荐器仅在来自临时用户的原始数据上进行训练。可以观察到,推荐系统在以下方面实现了改进的性能:增强用户核心用户休闲用户百分比(%)命中率@20(%)命中率@20(%)····学习增强临时用户推荐WWW2185[客户端]我U UUU∈RUUU{|U|我{|我|个文件夹|U||I|UH[客户端]u,j(σ(y))≪UUUU•UkgSuiu,j. .你好k动作au,ku,k当生成当我们开始减少核心用户的交互时,我们会发现临时用户,这表明合成数据可以帮助改进临时用户推荐。然而,随着丢弃百分比的增加,丢弃太多的信息会对临时用户推荐产生负面影响。这些观察促使我们寻找更细粒度和受控的增强策略。3预赛在本节中,我们将描述顺序推荐的问题设置,并介绍基线推荐模型。问题表述。我们使用=u1,u2,. u和 为i1,i2,., i表示平台上的用户集合和项目集合。在这项工作中,平台上的用户可以分为两类:休闲用户休闲和核心用户基于其活动水平的核心(即,访问频率平台),S. T.休闲核心=和休闲核心=.请注意,每个项目都映射到与其唯一ID相关联的可训练嵌入向量。在这项工作中,我们不考虑用户和项目的任何辅助信息 给定用户u已经以时间顺序与之交互的项目序列,. . ,iu,p,. . . ,iu,n,其中iu,p表示与之交互的第p个项目u,顺序推荐模型的目标是推断用户u的下一个感兴趣的项目iu,n+1。为了简化符号,我们使用Su,[1:p]来表示项目[iu,1,iu,2,. . . ,iu,p]。目标模型 我们学习一个目标模型(recommender)f,它预测I中每个候选项的偏好得分,给定Su,[1:j−1]:y<$u,j=f(Su, [1:j−1];θ),(1)其中θ表示函数f的参数,预测y∈u,j|我 |表示用户u在步骤j对所有候选的 预 测 得 分 。然后,具有基于y的最高偏好评分的项目被推荐给用户u。具体而言,我们采用交叉熵损失作为目标函数,即:|Su|(θ)=−logu∈U=对输入序列的学习数据扩充策略这两个组件交替训练。具体地,对于从S核心采样的每批序列,数据扩充器学习采取一系列扩充动作(例如,移除、保留或替换),因此所生成的合成序列可以提高推荐器的性能。将其框架化为学习数据增强策略,数据增强器(代理)生成上下文/状态并选择增强动作。同时,目标模型与增强的数据序列进行更新,其性能提高Meta验证集作为奖励来指导增强器的训练。通过在使用推荐器性能作为奖励的数据增强步骤和使用增强的数据改进推荐器之间交替,这两个模块相互加强并逐步改进数据增强和推荐质量。4.1学习增强政策我们的目标是学习一个离散的顺序数据增强策略,以最大限度地提高推荐系统对临时用户的性能。 受第2节中初步研究的启发,我们开始生成增强(合成)数据序列,通过编辑核心用户序列来模仿休闲用户的行为模式。对于从核心采样的每一批交互序列,我们认为是一个数据增强任务,该任务通过从{保持,删除,替换,.} 对于输入序列中的项目,按顺序执行。 由于数据增强过程是不可区分的,我们采用下面描述的策略学习框架来实现培训:上下文/状态:让Su表示来自核心的交互序列。 当遇到序列Su中的项iu,k时,将编码子序列S1:k的向量k视为对应项iu,k。文本或状态表示。详细的模型,以获得状态向量将在4.2节中讨论。操作:为了简单起见,我们使用两个操作-“保持”和“删除”。该模型可以被扩展以支持多个动作(即,超过两个);更多详情见第5.3.1节。 在j1u,ju,j步骤k,对于序列Su中的项iu,k,我们需要决定其中,reσ是Sigmoid函数,y∈u,j是预定概率,用户u在步骤j与之交互的地面实况项i u,j的得分。在我们的实验中,我们在每个步骤j对每个用户采样单个kgSu作为负样本。4学习增强在本节中,我们详细介绍了L2Aug的设计,围绕两个指导性研究问题组织:1)如何对顺序数据执行数据增强以支持各种操作(例如,删除、保留或替换)序列中的项目?2)如何学习一种有效的数据增强策略来达到提高因果用户推荐的目标?框架概述。我们提出了L2Aug,如图2所示,来学习数据增强策略,以改善临时用户推荐。设计中有两个主要组件:一个推荐器,用于进行顺序推荐;一个数据扩充器,用于通过应用序列Su的增广序列。注意au,k=0Meta Validation Set(meta):为了指导数据增强器的训练,从N个临时用户的集合中,我们随机采样M个用户(M N)的小子集,以及用它们的交互序列构造Meta验证集元。在训练过程中,计算目标模型在Meta上的性能,作为学习增强策略的奖励。奖励:奖励函数旨在引导智能体学习增强策略,以最大限度地提高目标模型的性能。每批增强序列用于训练目标模型,并导致目标模型的性能变化,这可以被视为对数据增强器的奖励。 在离线设置中,它可以是由离线度量测量的Meta上的推荐性能的更新(例如,NDCG、命中率和平均倒数排名)。U··∈ {0, 1}以保留或删除项i·WWWWang,Jianling,etal.21861i31i312 3 4n1i 2i3 4n我我我我的核心i1 i2 i3 i4核心用户交互顺序我输入序列i1 + p 1i2+p2…奖励rtit+pt编号自我注意层FNN…我性能改进推荐人ffCasual用户交互顺序更新行动取样扩充数据序列评价a1a2at的随意I7I2i8输出序列SMeta子样本Meta确认集?n我i1i3我i1i3FNNFNN扩充器我1 我2 我3 我4 …∈U[客户端][客户端]√∈Rϑ(··)()/0图2:提出的模型无关的数据增强器对输入序列采取一系列增强动作以生成合成数据序列。同时,推荐器由合成数据序列更新,其在Meta验证集上的性能改进被用作奖励来指导增强器的训练。这两个组件相互加强,并逐步提高数据增强和推荐质量。在我们可以模拟用户对反事实推荐的响应的在线设置中,奖励可以是环境返回的用户响应(例如,参与,评级查询向量、键向量和值向量。然后,我们可以通过以下方式对每个项iu,k与序列中其他项的相关性进行编码,从而生成每个项i u,k的状态表示或转换)。有关指标的更多详细信息,请参见。S(WQ ek,WK ej)第5.1节。在我们的实验中,我们使用NDCG和命中率的性能增益作为离线实验的奖励,hk=j≤kσkj WV ej和σkj=.j≤k、(3)S(WQek,WKej)并将模拟评分的变化作为在线实验的奖励在[11,54,57]之后,用于数据增强的策略网络在将生成的增强数据馈送给推荐器之后接收到延迟的奖励上进行更新4.2数据增强器由于大多数现有的数据增强方法都是针对连续特征空间设计的[8,17],因此在我们的情况下,它们不适合处理由离散项ID组成的序列数据。 我们提出了数据增强器,它生成一个合成序列编码的输入序列作为上下文/状态表示,并决定对输入序列的编辑动作。给定交互项序列Su = iu,1,. . . ,iu,k,. . . ,iu,t对于核心用户u core,数据增强器需要决定对每个项的编辑动作。 为了对每个项目iu,k做出决定,代理需要对子序列S 1:k进 行 编 码,这反过来又需要每个项目的表示。 我们在单个项目表示中编码两条信息:项目内容本身及其位置。换句话说,对于SU中的每一项iu,k,我们有ek=ik+pk。这里,ik是项iu,k的嵌入,pk是位置k的位置嵌入,用于保留顺序信息。对于单个项目表示,任何顺序嵌入-丁模型,包括RNN,双向RNN或变压器其中函数Si用于表示两个元素之间的相似性得分。特别地,我们使用缩放的Do t-产品注意力[23,43]来计算分数:S a,b = aTb D,其中D是维度大小,并在计算相似性分数时用于归一化。一旦获得每个单独的上下文/状态表示hk,代理就在动作上产生策略πk空间A到ππ(·|hk)=Softmax(WA·hk)。(四)He reWA|一|× |H|是可训练加权矩阵。 我们使用扩展来表示构建增强策略网络所涉及的所有参数。π,k中的每个维度表示步骤k处的特定动作的概率。然后,代理通过使用概率进行采样来决定对项目的编辑操作。4.3增强策略优化为了优化数据增强策略,我们的目标是最大限度地提高推荐质量的预期回报,可以定义为:J(π)=最大Eπ[rt],(5)其中,rt是作为在馈送生成的增强数据时推荐性能的改进而计算的奖励[21,43]可以用于编码子序列S[1:k]以产生从输入批次t。在算法1的第12行中,我们使用Hit RateHT来评估推荐性能和不同的性能上下文/状态表示。在这项工作中,我们采用了自我-注意力模型[43]以产生状态hk。 Self-attention [43]被设计为将序列与自身进行匹配,因此使用与查询,键和值相同的对象。我们将用WQ、WK和WV变换位置感知嵌入,以生成这两个人的报酬,请注意,命中率可以替换为任何性能指标或其组合。我们通过策略梯度更新参数:←学习增强临时用户推荐WWW2187SS用户→ ||•U算法1:L2Aug训练过程表1:数据集的汇总统计量输入:训练序列Scoree、SMeta、Scasual和预训练推荐系统fθ,更新频率f θ输出:微调的推荐系统fθ1随机初始化数据扩充器ππ,i=0。2、不收敛时,3个样品B样品B从科尔4//通过数据增强器进行5,对于u=1→Bdo项目数量#休闲#核心用户Avg. 互动次数6,对于k=1sudo7计算第k项的状态表示第8章扩充动作9获得增广序列10//增强策略优化图11用一批增广序列微调fθ,得到fθ′12计算奖励rt=HT(fθ′,SMeta)− HT(fθ,Smeta)13根据等式更新π(6)和(7)14//重放并更新推荐器15如果imodn== 0,则16个样品B样品来自S核心17从具有πι的S序列生成合成样本Dsyn18个样本B样本St′rain来自Scasual和Scoree19用Ssyn和St′rain更新推荐器fθ20i←i+1建议的框架灵活,以支持更多的增强行动和各种建议设置?5.1实验装置数据集。为了检验所提出的方法的性能,我们在四个真实世界的数据集上进行实验。 表 1 显示了每个数据集的汇总统计量。Amazon_CD是从亚马逊评论数据集[35]中选取的,其中包括1996年5月类似地,Amazon_Books和Amazon_Movies来自同一个Amazon评论数据集的两个最大的类别 为了进一步研究在其他应用场景中的性能,我们引入了另一个来自想法共享社区的公共数据集-Goodreads,用户可以在上面留下他们的评论和评级21return微调后的推荐系统fθ其中α是学习率。利用获得的奖励,梯度可以通过以下公式计算:书[45]。 对于所有数据集,用户已经与之交互(查看)的所有项目形成用户交互序列Su。 我们使用他们连续交互之间的平均时间间隔来区分临时用户和核心用户:核心用户是那些平均时间间隔小于30天的用户;其他人被标记为临时用户。有关数据预处理和拆分的更多详细信息,∇ϑJ˜ (ϑ)=rt . .|Su|∇ϑlogπϑ(au,k|hk),(7)见附录A.1。基线。由于所提出的方法是模型不可知的,我们应用它u∈SBk=1训练过程的细节在算法1中示出。请注意,批次上的相同Meta奖励被分配给批次内采取的所有增强决策。本质上,基于在Meta验证集上计算的推荐改进而获得的奖励用于指导数据增强策略的学习作为回报的增广序列被用来进一步提高推荐器的性能。在训练过程中,数据增强器和推荐系统可以相互补充,逐步提高数据增强和推荐质量。回放 为了确保模型在核心用户上仍然达到令人满意的性能,我们采用重放策略[39]来避免遗忘。除了合成序列之外,推荐系统还使用来自核心用户的原始数据序列进行更新,从而在不牺牲核心用户的性能的情况下提高了对临时用户的推荐性能5实验在本节中,我们报告了我们在多个数据集上的实验,以评估L2Aug的性能,并回答以下问题:(i)L2Aug是否在不牺牲核心用户性能的情况下提高了对临时用户(二)是并将其性能与其他模型无关的处理方法进行比较,以检验其有效性。我们选择了三个主要的顺序推荐模型-GRU 4 Rec [ 20 ],SASRec [ 23 ]和NextItNet [ 56 ],它们分别建立在GRU,自我注意层和堆叠的1D膨胀卷积层之上,以捕获用户交互序列中的顺序模式。它们被广泛应用于许多应用中,并作为许多高级推荐系统的基础。由于没有以前的工作集中在提高临时用户推荐,对于每一个顺序推荐模型,我们比较了所提出的L2Aug与以下处理方法,这些方法被证明可以缓解不同用户组之间的性能差距随机:它随机丢弃核心用户的交互以获得合成数据,该合成数据与原始数据(都是核心&休闲用户)相结合以用于训练推荐器。专注学习[2]:它将休闲用户视为专注集,并执行网格搜索以获得最佳性能超参数(即,正则化)以提高聚焦集上的推荐准确度。对抗性重新加权[30]:它在推荐者和对手之间进行极大极小博弈。对手会··亚马逊_CD22,6852,1761,02223.75亚马逊_图书17,44311,0833,45731.71亚马逊_电影11,07910,0202,80814.06WWWWang,Jianling,etal.2188表2:不同数据集上各种模型的临时用户推荐性能方法亚马逊_CD亚马逊_书籍亚马逊_电影GoodreadsNDCG@5(%)HT@5(%)NDCG@5(%)HT@5(%)NDCG@5(%)HT@5(%)NDCG@5(%)HT@5(%)GRU0。64± 0。041. 05± 0. 09 0. 66± 0。041. 10± 0。04 1. 11± 0。071. 81± 0。08 1. 32± 0。062. 09± 0. 08w/Random0. 66± 0。06 1. 13± 0。110. 71± 0。031. 15± 0。05 1. 22± 0。011. 95± 0。121. 44±0。十三两29± 0。14专注于0。69± 0。031. 17± 0。08 0. 74± 0。021. 19± 0。04 1. 28± 0。062. 08± 0. 07 1. 43± 0。052. 37± 0。11具有对抗性0。73± 0。021. 24± 0。060. 73± 0。03 1. 20± 0。051. 34± 0。05 2. 23± 0。061. 46± 0。04 2. 21± 0。08w/L2Aug0.80± 0.031.37± 0.07 0.75± 0.021.25± 0.03 1.43± 0.042.35± 0.051.53 ±0.032.45 0.05 ±0.051. 12± 0。16 1. 69± 0。180. 97± 0。031. 56± 0。06 1. 30± 0。052. 13± 0。09 2. 05± 0. 112.97± 0。131. 17± 0。18 1. 88± 0。201. 08± 0. 05 1. 71± 0。071. 45± 0。08 2. 26± 0。092. 13± 0。10 3. 11± 0。16专注1。22± 0。十五两07± 0. 161. 13± 0。041. 68± 0。03 1. 47± 0。062. 42± 0。08 2. 25± 0。093. 32± 0。13具有对抗性1 .一、52± 0。 112. 39± 0。131. 15± 0。041. 75± 0。05 1. 58± 0。062. 56± 0。08 2. 42± 0。063. 43± 0。11w/L2Aug1.62± 0.092.44± 0.10 1.24± 0.051.87± 0.04 1.71± 0.052.74± 0.072.51 ±0.073.62 0.10 ±0.10SASRec1. 83± 0。10 2. 77± 0。161. 13± 0。05 1. 78± 0。061. 72± 0。05 2. 71± 0。082. 29± 0。07 3. 49± 0。101. 85± 0。十五两81± 0。18 1. 21± 0。051. 86± 0。07 1. 76± 0。112. 73± 0。122. 36±0。113. 54± 0。19专注1。88± 0。十四两90± 0。13 1. 24± 0。031. 94± 0。05 1. 81± 0。092. 83± 0。112. 42± 0。103. 60± 0。14具有对抗性1 .一、92± 0。十三三03± 0. 141. 23± 0。021. 93± 0。03 1. 88± 0。062. 86± 0。10 2. 45± 0。083. 72± 0。11w/L 2Aug2.11± 0.113.26± 0.13 1.31± 0.041.99± 0.04 1.95± 0.051.00± 0.082.71 ±0.093.93 0.10 ±0.10方法亚马逊_CD亚马逊_书籍亚马逊_电影GoodreadsNDCG@10(%)HT@10(%)NDCG@10(%)HT@10(%)NDCG@10(%)HT@10(%)NDCG@10(%)HT@10(%)GRU0。84± 0。071. 74± 0。13 0. 92± 0。031. 87± 0。05 1. 56± 0。063. 22± 0。111. 81± 0。073. 61± 0。12w/Random0. 91± 0。12 1. 92± 0。160. 99± 0。042. 02± 0. 031. 67± 0。083. 34± 0。15 1. 94± 0。103. 84± 0。20专注于0。93± 0。061. 91± 0。14 1. 03± 0. 032. 06± 0. 051. 77± 0。063. 59± 0。13 1. 91± 0。093. 89± 0。15w/敌对0. 96± 0。04 1. 97± 0。130. 99± 0。04 2. 02± 0. 041. 75± 0。08 3. 51± 0。141. 93± 0。08 3. 68± 0。13w/L2Aug1.03± 0.03 2.11± 0.10 1.05± 0.04 2.16± 0.03 1.86± 0.05 3.65± 0.10 1.99±0.07 3.96 ± 0.111. 59± 0。17 2. 87± 0。201. 29± 0。05 2. 55± 0。081. 79± 0。07 3. 66± 0。162. 52± 0。12 4. 44± 0。181. 57± 0。18 3. 10± 0。241. 34± 0。07 2. 53± 0。092. 05± 0. 十三四10± 0。18 2. 66± 0。164. 74± 0。19专注1。45± 0。122. 80± 0。19 1. 47± 0。052. 74± 0。06 1. 92± 0。113. 80± 0。十四两69±0。154. 73± 0。17w/对抗性1. 85± 0。113. 44± 0。151. 48± 0。042. 77± 0。05 2. 11± 0。094. 20± 0。112. 89± 0。074. 90± 0。13w/L2 Aug2.11± 0.12 3.95± 0.14 1.55± 0.03 2.86± 0.05 2.22± 0.08 4.32± 0.09 2.98±0.08 5.10 ± 0.15SASRec2. 38± 0。14 4. 49± 0。211. 60± 0。073. 24± 0。12 2. 26± 0。114. 41± 0。193. 02±0. 155. 77± 0。192. 25± 0。15 4. 03± 0. 261. 61± 0。06 3. 13± 0。十四两34± 0。十三四48± 0。183. 05± 0. 155. 68± 0。21专注2。47± 0。114. 73± 0。181. 66± 0。043. 32± 0。09 2. 45± 0。104. 83± 0。14 3. 02± 0. 125. 47± 0。17w/对抗性2. 35± 0。16 4. 37± 0。211. 62± 0。033. 12± 0。10 2. 43± 0。114. 54± 0。163. 15±0。105. 93± 0。21w/L2 Aug2.61± 0.12 4.87± 0.19 1.69± 0.03 3.38± 0.08 2.44± 0.08 4.53± 0.11 3.32±0.11 5.86 ± 0.15相反地,将更高的权重分配给推荐器产生显著错误的区域推荐器WWWWang,Jianling,etal.2189≤2(1u评价 我们在训练数据上训练推荐模型,然后在测试数据上测试它,其中每个用户都有一个地面实况项。 我们采用广泛使用的Top-K指标,包括命中率(HT@ K)和归一化折扣累积增益(NDCG@ K)来评估推荐性能。 对于用户u,基于等式(1)中的scoresy=u,(1),我们得到地面实况项的排名ru命中率表明是否地 面 实 况 项 出 现 在 前 K 列 表 中 , 即 , 如 果 ruK , 则 HTu@K=1,否则HTu@K= 0。请注意,在这种情况下,命中率等于召回率,因为每个用户在测试集中只有一个项目。当计算NDCG时,理想贴现累积量-对于所有用户,主动增益(IDCG)等于1所以我们在下文中,我们报告了K=5和10的测试集中所有用户的平均结果实施细节。 所有推荐模型都在TensorFlow中实现,并使用Adam进行优化[26]。我们使用了原始作品作者发布或建议的代码,并保持设置不变。我们将所有数据集的最大序列长度设置为200,批大小设置为512为了公平比较,项目嵌入维数为100,并且在所有模型的训练过程中负采样率设置为1我们还在TensorFlow中实现了我们的数据增强器,并采用Adam作为优化器。在表2中,我们报告了基于验证集上选择的设置在L2Aug中,使用训练集中10%的临时用户来构建Meta验证集,以计算学习数据增强的奖励如果r u ≤ K,则NDCGu @ K = log1+r),否则NDCGu @ K =0。的政策。所有数据集的更新频率都是5 更学习增强临时用户推荐WWW2190、()下一页|()()下一页|//下一页|()下一页||()下一页|3.53.02.52.01.51.00.5GRU4RecNextItNetSASRec(a)亚马逊_CD2.52.01.51.00.5GRU4RecNextItNetSASRec(b)亚马逊_图书3.02.52.01.51.0GRU4RecNextItNetSASRec(c) 亚马逊_电影3.53.02.52.01.51.0原始随机聚焦重新加权L2AugGRU4RecNextItNet SASRec(d)Goodreads图3:不同数据集上各种模型的核心用户推荐性能参数选择和模型实施的详细信息可参见附录A.2和A.3。5.2整体性能我们在四个数据集上进行实验,每个实验运行10次。每个指标的均值和方差的报告。我们提出了定量结果的建议perfor-mance指标为休闲和核心用户,以及定性分析,以展示所提出的方法的有效性。5.2.1临时用户推荐。我们总结了4.254.003.753.503.253.002.752.50w/替代品放下,保持0255075100125150175时代表2中的所有数据集上的不同基线方法的性能。当与各种顺序模型相结合时,所提出的L2Aug优于所有其他处理方法,并为休闲用户提供最佳推荐。下面,我们将进行更深入的观察和分析:与在原始数据上训练的模型相比,随机丢弃核心用户的部分交互的最简单处理有助于改善临时用户推荐。这一观察结果验证了数据增强可以帮助弥合核心用户和临时用户之间的差距的假设。通过学习一个特别关注休闲用户的推荐模型,集中学习处理可以帮助提高模型在休闲用户上的性能。同时,由于推荐器对临时用户的预测往往不准确,对抗性权重调整可以引导推荐器提高对临时用户的推荐性能,从而为临时用户提供更准确的推荐。一般来说,所提出的L2Aug在改善各种广泛使用的顺序推荐模 型 的 临 时 用 户 推 荐 方 面 显 著 优 于 所 有 基 线 处 理 以Amazon_CD数据集为例,我们发现,与表现最好的基线处理相比,L2Aug分别对NDCG@5和GRU,NextItNet和SASRec实现了9.59% ,6.58%和9.90% 的改进我们可以得出结论,L2Aug是有效的,在解决具有挑战性的问题,提高休闲用户推荐。5.2.2核心用户推荐。 除了对普通用户的性能,我们还在图3中报告了对核心用户的推荐性能,通过NDCG@5测量;其他指标的结果可以在附录A.4中找到。 虽然集中学习提高了对临时用户的推荐,但它失去了对核心用户的预测能力。对抗性重新加权处理,旨在改善具有挑战性的数据样本,而不是特定的图4:L2Aug可以轻松扩展以支持更多操作(即,替换),并具有改进的临时用户推荐。用户组,在某些情况下改进核心用户推荐但并不总是如此。相比之下,所提出的L2Aug通过各种顺序推荐模型改进了核心用户推荐,并且优于所有其他基线处理。这些结果展示了它在弥合临时用户和核心用户的推荐之间的差距方面的有效性,从而导致整体推荐的改进。5.2.3扩充数据的定性分析 图1(a)绘制了合成顺序数据(即,增强用户)以及来自亚马逊评论数据集的临时和核心用户。 可以看出,增强用户的兴趣连续性分布介于原始数据集的临时用户和核心用户之间,这表明L2Aug成功地从核心用户中提取了更一致的模式,同时适应临时用户的模式。5.3柔性分析5.3.1扩大行动空间。 回想一下,到目前为止,增强策略可以采取两种行动:“保持”和“丢弃”。 在本节中,我们将研究扩展L2Aug的动作空间的可行性,这使得增强器更加通用。 作为一个初步的研究,我们考虑的“替代”行动,它取代了一个项目与其最相关的项目。我们采用逆用户频率(即,N i N j N i N j)[4,40]来定义两个项目之间的相关性(即, i和j),其中N i是与项目i交互的用户的集合。图4显示,添加“替代”操作可以提高对临时用户的推荐性能;模型收敛也需要更多的时间。类似地,所提出的L2Aug也可以扩展以支持其他动作,如原始随机聚焦重新加权L2Aug原始随机聚焦重新加权L2Aug原始随机聚焦重新加权L2AugNDCG@5(%)NDCG@5(%)NDCG@5(%)NDCG@5(%)检测NDCG@5(%)···WWWWang,Jianling,etal.2191“reorder” 基于观察,可以推测,所提出的框架能够处理用于顺序数据增强的各种编辑动作。5.3.2在线实验到目前为止,这些实验都是在离线环境下进行的,将观察到的用户对系统提供的建议的反应作为基础事实。 离线实验的缺点是我们无法观察用户对反事实推荐的反应,即,没有向用户展示的项目。进一步评估拟议模型的能力3.43.23.02.82.6临时用户核心用户(a) 列表大小= 14.44.24.03.83.6DQNw/L2Augw/L2AugDQNLIRDLIRD临时用户核心用户(b) 列表大小= 4对于现实世界的应用,我们还进行在线仿真实验。 我们按照[59]建立在线仿真环境。给定用户的历史交互和任何推荐候选,它基于记忆匹配来这使我们能够评估模型的实时响应(即,评级),而不是依赖于离线度量。 在在线实验中,我们采用了公开的MovieLen 100K数据集,并将其分为7:3分别进行训练和测试。我们将访问频率前30%的用户视为核心用户,其余为临时用户。 在图5中,DQN [36]是深度Q学习方法,LIRD [59]是列表推荐的最新技术。 我们把它们当作一种工具(即,目标模型)。结合L2Aug,两者都实现了在不同列表大小下对临时和核心用户推荐的改进性能,这进一步证实了L2Aug在不同推荐场景
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功