基于评论级解释的神经注意力评分回归

66 浏览量更新于2023-10-16 收藏 13.56MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

15830基于评论级解释的神经注意力评分回归0陈冲清华大学DCST，中国北京cstchenc@163.com0张敏�0清华大学DCST，中国北京z-m@tsinghua.edu.cn0刘一群清华大学DCST，中国北京yiqunliu@tsinghua.edu.cn0马少平清华大学DCST，中国北京msp@tsinghua.edu.cn0摘要0在电子商务中，评论信息对用户进行在线购买决策起着主导作用。然而，评论的有用性是不同的。我们认为，不太有用的评论会损害模型的性能，并且对用户的参考意义也较小。虽然一些现有模型利用评论来提高推荐系统的性能，但其中很少有模型考虑评论对推荐质量的有用性。在本文中，我们引入了一种新颖的注意机制来探索评论的有用性，并提出了一种具有评论级解释的神经注意力回归模型（NARRE）用于推荐。具体而言，NARRE不仅可以预测精确的评分，还可以同时学习每个评论的有用性。因此，我们获得了高度有用的评论，这些评论提供了评论级解释，帮助用户做出更好更快的决策。在亚马逊和Yelp的基准数据集上进行的大量实验证明，所提出的NARRE模型在评分预测方面始终优于最先进的推荐方法，包括PMF、NMF、SVD++、HFT和DeepCoNN，通过考虑评论的有用性的注意模型。此外，当将现有的评论有用性评分作为系统的基准时，所选评论被证明是有效的。此外，基于众包的评估显示，在大多数情况下，NARRE在选择评论方面的性能与系统的有用性评分方法相当甚至更好。当系统中没有评论有用性评分时，它在真实电子商务场景中的主导案例上提供了极大的帮助。0CCS概念•信息系统→推荐系统；•计算方法→神经网络；0关键词推荐系统，神经注意网络，可解释的推荐，评论有用性0本文根据知识共享署名4.0国际许可证（CC BY4.0）发表。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860700A0C0B0图1：从亚马逊的电影《钢铁侠》中选择的不太有用（A，B）和非常有用（C）的评论示例。评论A只包含消费者的大致偏好。评论B谈论的是其他事情，而不是电影。相比之下，评论C提供了详细的信息，对用户的潜在消费更有帮助。0ACM参考格式：陈冲，张敏，刘一群，马少平。2018年。基于评论级解释的神经注意力评分回归。在2018年网络会议上，2018年4月23日至27日，法国里昂。ACM，纽约，纽约，美国，10页。https://doi.org/10.1145/3178876.318607001 引言0随着在线选择的增多，推荐系统在减轻信息过载方面发挥着越来越重要的作用，并被许多网站和应用广泛采用。协同过滤（CF）是一种占主导地位的最先进的推荐方法，它通过历史记录（如评分、点击和消费）来正确建模用户偏好和项目特征[20, 21, 24,29]。尽管CF技术表现出良好的性能，但在实际应用中遇到一个重要问题：无法提供关于为什么推荐某个项目的明确解释。近年来，一些研究人员发现推荐系统中的解释可能非常有益[11, 44]。通过0� 通讯作者0跟踪：Web Search and Mining WWW 2018，2018年4月23日至27日，法国里昂15840通过解释系统的工作原理，系统变得更加透明，有潜力增加用户对系统的信心或信任，并帮助用户做出更好（有效性）和更快（效率）的决策[44]。缺乏可解释性削弱了说服用户和帮助用户在现实生活中消费的能力[40]。在像亚马逊和Yelp这样的大多数电子商务和评论服务网站上，用户可以写带有数字星级评分的自由文本评论。文本评论通常包含关于物品特征（如质量、材料和颜色）的丰富信息，有时还包含有指导性的建议，这对于那些打算做出购买决策的人来说具有很大的参考价值。然而，对于用户来说，从大量可用的评论中获取有用的信息是困难的，因为它们的有用性是不同的。在本文中，评论的有用性被定义为它是否能提供关于物品的详细信息并帮助用户轻松做出购买决策。在图1中，我们展示了从亚马逊的电影《钢铁侠》中选择的不太有用（A、B）和高度有用（C）的评论的示例。正如我们所看到的，与评论C相比，评论A只包含消费者的粗略意见，但没有显示出电影的特点，评论B与电影的相关性较小，并且在某种程度上存在偏见。评论C在系统中还被8个用户标记为有帮助，本文中称之为“Rated_Useful”。不太有用的评论不仅会引入噪音，破坏推荐系统的性能，而且对用户来说也没有太多用处。现有的模型将用户评论整合到潜在因子建模中以提高性能[3, 25-27, 39, 46]并生成解释[11, 32,44]。尽管它们取得了良好的结果，但仍然存在一些固有的局限性。首先，它们没有考虑每个评论对物品建模的贡献以及对其他用户的有用性。其次，它们的解释是从评论中简单提取的单词或短语，这可能扭曲原始句子的含义[34]。据我们所知，我们是第一个考虑评论的有用性来提高推荐性能和可解释性的研究者。我们的目标是开发一个能够进行评分预测的模型，更重要的是，它能够同时从混乱的数据中挑选出有价值的评论。基于这项工作，可以提供关于物品是否值得推荐的评论级解释。为了学习评论的有用性，我们在本文中提出了一种具有评论级解释的神经注意回归模型（NARRE），它利用了神经网络建模的最新进展-注意机制，以远程监督的方式自动为评论分配权重[1,4]。具体而言，我们提出了一个加权函数，它是一个多层神经网络，以用户和物品的特征以及评论内容作为输入。此外，受[46]的启发，NARRE使用两个并行神经网络共同学习用户和物品的隐藏潜在特征。其中一个网络使用用户编写的评论建模用户偏好，另一个网络使用物品的编写评论建模物品特征。在最后一层，我们借鉴了潜在因子模型[21]并将其扩展为用于评分预测的神经网络。我们在四个真实数据集上对NARRE进行了广泛评估。实验结果表明，我们的模型始终优于包括PMF[29]、NMF[24]、SVD++[20]、HFT[27]和DeepCoNN[46]在内的最先进方法。0本文的主要贡献总结如下。0(1)我们提出了一个新颖的观点，即不同的评论对于物品建模具有不同的贡献，并对其他用户的消费产生不同的有用性。(2)据我们所知，我们是第一个引入神经注意机制来构建推荐模型并同时选择高度有用的评论的研究者，这有助于提高推荐系统的性能和可解释性。(3)在基准数据集上的实验结果表明，我们的模型在评分预测方面比基于矩阵分解的方法和基于深度学习的DeepCoNN等最先进的模型取得了更好的结果。此外，基于众包的评论有用性分析显示，我们选择的评论在系统中与原始用户评价的有用性相当甚至更好。当系统中没有评论有用性评分时，它可以灵活地在实际场景中提供巨大的帮助。02 相关工作近年来，矩阵分解（MF）已成为最流行的协同过滤方法[35，38]。最初的MF模型[21]旨在通过将用户和项目映射到潜在因子空间来建模用户的显式反馈，从而可以通过它们的潜在因子的点积来捕捉用户-项目关系（例如评级）。基于此，许多研究工作已经进行了MF的增强，例如将其与基于邻居的模型[20]集成以及将其扩展到因子化机器[33]以进行通用特征建模。尽管它们已经显示出良好的结果，但是当评级矩阵非常稀疏时，这些方法的推荐性能将显著降低。此外，它们无法解释为什么值得推荐或不值得推荐某个项目。在过去的几年中，有大量文献利用文本评论信息来改善评级预测性能，例如HFT[27]，RMR[26]，EFM[44]，TriRank[11]，RBLT[39]和sCVR[32]。这些工作在其框架中集成了主题模型，以生成用户和项目的潜在因子，包括评论文本。具体而言，EFM，TriRank和sCVR已明确声称它们可以提供推荐的解释。这些模型首先通过对用户评论进行短语级情感分析来提取明确的产品特征（即方面）和用户意见，然后根据特定的产品特征生成特征级解释以满足用户的兴趣。此外，一些研究关注评论的预处理。[45]的工作致力于过滤评论中的垃圾邮件，[17]利用监督机器学习技术学习评论的“有用性”。然而，这些工作存在一些局限性。首先，情感分析和特征提取通常需要手动预处理评论[17，32，44]。其次，对于EFM，TriRank和sCVR，解释仅是从文本中提取的单词或短语，这会改变评论的完整性并可能扭曲其原始含义[34]。相反，我们的目标是通过端到端神经网络同时进行推荐和选择有用的评论，从而减轻人力工作的负担0会议: Web搜索和挖掘WWW 2018，2018年4月23日至27日，法国里昂Text∗ 𝐾#EmbeddingLayerConvolutionalLayerMaxPoolingFullyConnected………1https://code.google.com/archive/p/word2vec2https://nlp.stanford.edu/projects/gloveTrack: Web Search and MiningWWW 2018, April 23-27, 2018, Lyon, France15850并提供更多信息性的解释。上述研究的另一个局限性是它们的文本相似性仅基于词汇相似性[46]。由于英语词汇非常多样，两个评论即使在词汇重叠较低的情况下也可能在语义上相似。因此，采用主题建模技术的方法存在可扩展性问题。最近，深度神经网络在语音识别、计算机视觉和自然语言处理方面取得了巨大成功[9]。一些工作还尝试将不同的神经网络结构与协同过滤相结合，以提高推荐性能。在[13]中，He等人提出了一种神经协同过滤（NCF）框架，用于学习用户和项目之间的非线性交互。随后，开发了神经因子分解机（NFM）[12]，通过建模高阶和非线性特征交互来增强FM。对于利用评论的方法，协同深度学习（CDL）[41]采用了一个分层贝叶斯模型，同时对内容进行深度表示学习和对评级矩阵进行协同过滤。DeepCoNN[46]使用卷积神经网络处理评论，并通过FM[33]在最后一层联合建模用户和项目进行评级预测。NRT[25]结合了门控循环神经网络和协同过滤，同时预测评级并生成抽象的提示，模拟用户的体验和感受。然而，大多数现有方法未能注意到评论的有用性，这是我们工作的主要关注点。注意机制在各种机器学习任务中已被证明是有效的，例如图像/视频字幕和机器翻译[1，4，36，42]。软注意的关键思想是学习为一组特征分配关注权重（通过总和归一化为1）：较高（较低）的权重表示相应的特征对于最终任务是信息丰富的（信息较少的）。在推荐系统领域，He等人在CF中引入了一种注意机制，它包括组件级和项目级注意模块，用于多媒体推荐[4]。[42]通过神经注意网络区分不同特征交互的重要性来改进FM。在本文中，我们使用注意机制来学习每个评论的有用性和贡献，以更好地建模用户和项目，以预测项目评级并生成解释。03 预备知识 3.1潜在因子模型0在介绍我们的模型之前，我们先简要介绍潜在因子模型[ 21]。LFM是一类主要基于矩阵分解技术的算法。LFM的其中一种最流行的算法通过以下方式预测用户 u 对物品 i 的评分 � R u , i ：0� R u , i = q u p T i + b u + b i + µ (1)这个方程包含四个组成部分：全局平均评分 µ ，用户偏差 b u，物品偏差 b i 和用户和物品的交互 q u p T i 。此外，q u 和 p i是表示用户偏好和物品特征的 K 维因子。0图2：CNN文本处理器的架构。03.2 CNN文本处理器0近年来，基于深度学习技术的许多文本处理方法已被提出，并取得了比传统方法更好的性能。例如fastText[ 15 ]，TextCNN[ 18 ]，TextRNN和段落向量[ 23]等。在本文中，我们使用与当前最先进方法DeepCoNN[ 46]相同的方法处理文本。在本文的其余部分中，我们将这种方法称为CNN文本处理器，它输入一个单词序列，并为输入输出一个 n维向量表示。图2给出了CNN文本处理器的架构。在第一层中，单词嵌入函数 f : M → Rd 将评论中的每个单词映射为一个 d维向量，然后给定的文本将被转换为一个具有固定长度 T的嵌入矩阵（在需要时用零填充以解决长度变化）。嵌入可以是任何预训练的嵌入，例如在GoogleNews语料库上使用word2vec 1 [ 28]训练的嵌入，或者在Wikipedia上使用GloVe 2[31]训练的嵌入。嵌入层之后是卷积层。它由 m个神经元组成，每个神经元与一个滤波器 K ∈ R t × d 相关联。0通过在单词向量上应用卷积运算符来生成特征。设 V 1: T是与长度为 T 的输入文本对应的嵌入矩阵。然后，第 j个神经元将其特征生成为：0z j = ReLU ( V 1: T � K j + b j ) (2) 这里 b j 是偏置，�是卷积操作，ReLU [ 30 ] 是非线性激活函数。设 z 1 , z 2 , ... z ( T −t + 1 ) j 是滑动窗口 t上嵌入文本产生的特征。然后，对应于该神经元的最终特征使用最大池化操作[ 7]计算。最大池化的思想是捕捉最重要的特征，即具有最高值的特征，定义为：0o j = max ( z 1 , z 2 , ... z ( T − t + 1 ) j ) (3)0卷积层的最终输出是其 m 个神经元的输出的串联，表示为：0O = [ o 1 , o 2 , ... o m ] (4)!"#!"$!"%&''("%("$("#)"#)"$)"%*+,-+′ 0,1),2+′ 344,54)65!7#!7$!78&''(78(7$(7#97#97$978Item+′ 0,1),2+′ 344,54)65Element−wise productPredictionlayer0N…………User ModelingItem ModelingS"T7U"V7++X"#X"$X"%YX"Z("ZZ[#..%…X78]X7$]X7#]YX7Z] (7ZZ[#..8…User id embeddingItem id embeddingOi ==1,...1k Oil(6)a= hT ReLU W O+W u+ b+ b(7)15860图3：NARRE的神经网络架构。我们的注意力模型使用ID（ i uj ， ujk ）和评论内容（ O uj ， O jk ）自动分配权重给评论。0通常，输出 O 然后传递给完全连接层，该层由权重矩阵 W ∈ R m× n 和偏置 д ∈ R n 组成，即：0X = WO + д (5)04 NEURAL ATTENTIONAL REGRESSION WITH REVIEWS在本节中，我们介绍了基于评论的神经注意回归（NARRE）模型。首先，我们将介绍NARRE的总体架构和基于CNN文本处理器的评论处理方法。然后，我们将展示我们的基于注意力的评论汇聚层，这是本文的主要关注点。之后，我们将介绍预测层，这是一个用于评分预测的神经潜在因子模型。最后，我们将详细介绍NARRE的优化细节。04.1NARRE概述我们模型的目标是在给定用户和物品的情况下预测评分，并选择有用和代表性的评论。为此，我们利用注意机制在建模用户和物品时自动分配评论的权重。所提出模型的架构如图3所示。该模型由两个并行的神经网络组成，一个用于用户建模（Netu），另一个用于物品建模（Neti）。在这两个网络的顶部，添加了一个预测层，让用户和物品的隐藏潜在因素相互作用，并计算模型的最终结果。在训练阶段，训练数据包括用户、物品和文本评论，而在测试阶段只有用户和物品可用。以下内容中，由于Net u和Net i在输入上的差异，我们重点介绍Neti的详细过程。Net u也采用类似的层进行处理。0在Neti的第一阶段，将CNN文本处理器应用于物品i的文本评论。我们首先讨论了现有模型DeepCoNN[46]的局限性，然后提出了我们的评论处理方法。在DeepCoNN中，将物品i的所有评论连接成一个单矩阵的词向量Vi。在这种情况下，可以通过卷积层直接获得物品i的特征向量Oi（参见公式（2,3,4））。我们认为这种方法会导致信息的丢失。由于最大池化操作应用于所有评论生成的特征，一个评论中的强特征将覆盖其他评论[7]。但实际上，在现实生活中，仅凭一条评论来评判一个物品是不公平的。此外，最大池化仅保留最大值，即使一个特征出现多次，也只保留一次。因此，特征的强度信息丢失了[16]。为了缓解上述问题，我们提出分别处理物品i的每个评论。具体而言，每个评论首先被转换为一个词向量矩阵，我们将其表示为V i 1，V i 2，... Vik。然后，这些矩阵被送入卷积层，并从输出中获得它们的特征向量。这些特征向量被标记为O i 1，O i 2，... Oij。由于这些向量在相同的特征空间中（它们都是从相同的卷积层生成的），一个常见的想法是聚合这些向量以获得物品i的表示：0然而，公式（6）假设每个评论对物品i的贡献相同，在现实生活中并不稳健，因为评论并不都是同样有用和代表性的[45]。为了解决这个问题，我们在模型中引入了注意机制，可以帮助以远程监督的方式学习每个评论的权重。04.2基于注意力的评论汇聚注意机制已经广泛应用于许多任务，如信息检索[43]、推荐[4, 42]、计算机视觉[5]和机器翻译[8]。Neti中基于注意力的评论汇聚的目标是选择对物品i的特征具有代表性的评论，然后聚合信息丰富的评论的表示来描述物品i。一个两层网络被应用于计算注意力分数ail。输入包含物品i的第l个评论的特征向量（Oil）和撰写该评论的用户（ID嵌入，uil）。ID嵌入被添加以建模用户的质量，有助于识别总是写出不太有用评论的用户。形式上，注意力网络定义如下：0其中W O ∈ Rt×k1，W u ∈ Rt×k2，b1 ∈ Rt，h ∈ Rt，b2 ∈R1是模型参数，t表示注意力网络的隐藏层大小，ReLU[30]是非线性激活函数。通过使用softmax函数对上述注意力分数进行归一化，可以得到评论的最终权重，可以解释为第l个评论对物品i的特征描述的贡献：0a il =)0� k l = 0 exp ( a � il ) (8)0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, FranceOi =Lr =Toys_and_Kindle_StoreMovies_and_Yelp_2017that the learning rate can be self adapted during the training phase,which eases the pain of choosing a proper learning rate and leadsto faster convergence than the vanilla SGD.Overftting is a perpetual problem in optimizing a ML model.Many works have mentioned that deep learning models are evenmore likely to sufer from overftting[9, 12, 18]. To alleviate thisissue, we consider dropout[37] — a widely used method in deeplearning models, in our work. The idea of dropout is randomlydrop some neurons (along with their connections) during the train-ing process[37]. When updating parameters, only part of themwill be updated. Trough this process, it can prevent complex co-adaptations of neurons on training data. Moreover, as dropout isdisabled during testing and the whole network is used for predic-tion, dropout has another side efect of performing model averagingwith smaller neural networks, which may potentially improve theperformance[42].Specifcally, in NARRE, we propose to adopt dropout on theattention based review pooling layer. After obtaining Oi whichis a k1-dimensional vector of latent factors, we randomly drop ρpercent of latent factors, where ρ is termed as the dropout ratio.Moreover, we also apply dropout after obtaining h0 at the sameway to prevent overftting.3http://jmcauley.ucsd.edu/data/amazon4https://www.yelp.com/dataset_challengeTrack: Web Search and MiningWWW 2018, April 23-27, 2018, Lyon, France15870在获得每个评论的注意力权重后，计算项目i的特征向量如下加权和：0l = 1 ,... k a il O il (9)0基于注意力的池化层的输出是一个k1维向量，通过区分它们的贡献，在嵌入空间中压缩了项目i的所有评论。然后，它被发送到具有权重矩阵 W 0 ∈ R n × k 1 和偏置 b 0 ∈ R n的全连接层，计算项目i的最终表示：0Y i = W 0 O i + b 0 (10)04.3 预测层0在本文中，我们将我们的NARRE模型应用于评分预测的推荐任务。为此，我们借鉴了传统的潜在因子模型，并通过以下方式进行扩展：首先，我们将LFM模型中的用户偏好和项目特征扩展为两个组成部分：一个基于评分，另一个基于评论。然后，受到[13]的启发，我们提出了一种用于预测评分的神经形式的LFM。具体而言，用户和项目的潜在因子首先映射到共享的隐藏空间。通过引入从评论中学到的潜在表示，建模了用户u和项目i之间的交互：0h 0 = ( q u + X u ) ⊙ ( p i + Y i ) (11) 这里的 q u 和 p i是基于评分的用户偏好和项目特征，如公式（1）所示， X u 和 Y i是从上述方法中获得的用户偏好和项目特征， ⊙表示向量的逐元素乘积。请注意，这里的id嵌入与公式（7）中的id嵌入不同。因为我们认为用户质量和偏好是不同种类的对象，具有不同的特征。将它们建模为相同的向量空间会导致限制。公式（11）的输出是一个n维向量，然后将其传递到预测层以获得实值评分 R u , i：0� R u , i = W T 1 h 0 + b u + b i + µ (12) 这里的 W 1 ∈ R n表示预测层的边权重， b u , b i 和 µ分别表示用户偏差、项目偏差和全局偏差。显然，通过将 W 1固定为1并省略 X u 和 Y i，我们可以完全恢复潜在因子模型。显然，我们可以在 h 0和预测层之间添加更多的非线性变换的隐藏层，我们将其作为未来的工作。04.4 学习因为我们在本文中关注的任务是评分预测，实际上是一个回归问题。对于回归问题，常用的目标函数是平方损失[12, 25, 42]：0u , i ∈T ( � R u , i − R u , i ) 2 (13)0表1：数据集的统计细节。0用户 19,412 68,223 123,960 199,445 项目 11,924 61,935 50,052119,441 评分和评论 167,597 982,619 1,679,533 3.072.12905 评分预测实验 5.1 实验设置 5.1.1数据集。在我们的实验中，我们使用四个公开可访问的来自不同领域的数据集来评估我们的模型。其中三个数据集来自于亚马逊5核心3[10]：Toys_and_Games，Kindle_Store和Movies_and_TV。这些数据集被选择用于涵盖不同领域和不同规模。其中，Movies_and_TV是最大的数据集，包含超过160万条评论，而Toys_and_Games是最小的数据集，只包含约16万条评论。另一个数据集来自于YelpChallenge 20174。它是一个包含餐厅评分和评论的大规模数据集。由于原始数据非常庞大且稀疏，我们对其进行了预处理，以确保所有用户和物品至少有五个评分。即便如此，它仍然是我们所有数据集中最大的数据集。它包含来自约20万名用户的300多万条评论。这些数据集的评分是在[1,5]范围内的整数。由于评论的长度和数量具有长尾效应，我们只保留覆盖p百分比的用户和物品的评论长度和数量，其中p对于Toys_and_Games和Kindle_Store设置为0.9，对于Movies_and_TV和Yelp设置为0.85。我们数据集的特点总结在表1中。05.1.2 基准。为了评估评分预测的性能，我们将NARRE与五个最先进的模型进行比较，分别是N,(Ru,i − Ru,i)2(14)15880表2：方法比较0评分 √ √ √ √ √ √0文本评论 \ \ \ √ √ √0深度学习 \ \ \ \ √ √0评论有用性 \ \ \ \ \ √0PMF，NMF，SVD++，HFT和DeepCoNN。前两种方法仅在训练阶段利用评分，而后两种方法是用于评分预测的代表性评论利用方法。比较方法的特点列在表2中。0• PMF[29]：概率矩阵分解。引入高斯分布来建模用户和物品的潜在因素。• NMF [24]：非负矩阵分解。它只使用评分矩阵作为输入。•SVD++[20]：它通过邻域模型扩展奇异值分解，其中添加了第二组物品因子来建模物品之间的相似性。• HFT[27]：这是结合评论和评分的最先进方法。它使用指数变换函数将建模评价文本的随机主题分布与建模评分的潜在向量相连。•DeepCoNN[46]：这是利用深度学习技术共同建模用户和物品的最先进方法。作者已经证明它与其他基于强大主题建模的方法相比可以取得显著的改进。在本文中，我们实现了这个模型，并将优化器更改为Adam[19]，因为它可以获得比RMSprop[14]更好的性能，RMSprop[14]是[46]中使用的优化器。05.1.3评估指标。为了评估所有算法的性能，我们计算均方根误差（RMSE），在推荐系统中广泛用于评分预测。较低的RMSE得分表示性能更好。给定用户u对物品i的预测评分Ru,i和真实评分Ru,i，RMSE的计算公式如下：0RMSE =0其中N表示用户和物品之间的评分数量。05.1.4实验细节。我们将数据集随机分为训练集（80%）、验证集（10%）和测试集（10%）。验证集用于调整超参数，最终的性能比较在测试集上进行。基线算法的参数初始化为相应论文中的设置，并经过精心调整以达到最佳性能。对于基于深度学习的方法DeepCoNN和NARRE，学习率在[0.005, 0.01, 0.02,0.05]中进行搜索。为了防止过拟合，我们将丢弃率调整为[0.1, 0.3,0.5, 0.7, 0.9]。批量大小在[50, 100,150]中进行测试，潜在因子数在[8, 16, 32,64]中进行测试。调整过程后，我们将潜在因子数k设置为10，用于NMF和SVD++。我们将主题数K设置为50，用于HFT。对于DeepCoNN和NARRE中的CNN文本处理器，我们重用了DeepCoNN作者报告的大部分超参数设置，因为变化它们并没有带来明显的改进，包括神经元数目。0在卷积层中，m的值为100，窗口大小t为3。此外，我们使用了在GoogleNews上训练的预训练词嵌入，该词嵌入训练了超过1000亿个单词[28]。除非特别提到，我们展示了潜在因子数n=32和DeepCoNN和NARRE的丢弃率ρ=0.5的结果。05.2总体性能的比较分析。我们的模型NARRE和基线模型在所有数据集上的评分预测结果如表3所示。从结果中可以得出几个观察结果：首先，考虑评论的方法（HFT、DeepCoNN和NARRE）通常比仅考虑评分矩阵的协同过滤模型（如PMF、NMF和SVD++）表现更好。这并不令人意外，因为评论信息是评分的补充，可以用来提高潜在因子的表示质量。因此，更好的建模质量增加了用户偏好和物品特征的学习准确性，从而导致更好的评分预测结果。其次，利用深度学习技术（DeepCoNN和NARRE）的方法通常优于传统方法，包括HFT，后者也考虑了用户和物品建模的评论。我们认为原因如下：首先，之前的研究[18,46]表明，与主题模型LDA[2]相比，神经网络如CNN在分析文本信息方面可以获得更好的性能。其次，深度学习可以以非线性方式对用户和物品进行建模[13]，这是传统基于协同过滤的模型的局限性。此外，深度学习中的一些技巧，如dropout，可以用于避免过拟合并潜在地提高性能。第三，在表3中，我们的方法NARRE始终优于所有基线方法。尽管评论信息在推荐中很有用，但性能可能会因评论信息的利用方式而有所不同。在我们的模型中，我们提出了一种新的基于注意力的池化方法来利用评论，同时考虑到每个评论的代表性。代表性允许每个评论以更细粒度的方式进行建模，这可以根据结果导致更好的性能。05.3 参数敏感性分析0在本节中，我们展示了在验证集上对参数的探索。由于空间限制，我们只展示了Toys_and_Games和Kindle_Store的结果。其他数据集的结果与Kindle_Store类似。为了更好地展示我们模型的性能和改进，我们将DeepCoNN通过将其共享层从FM更改为我们的神经预测层（参见公式（11,12））来扩展为DeepCoNN++。DeepCoNN++的结果也在下面的图中显示。我们首先探索了预测因子数量的影响。对于MF方法（PMF、NMF和SVD++），预测因子的数量等于潜在因子的数量。由于PMF和NMF的性能较差，它们在图4中被省略，以更好地突出其他方法之间的性能差异。一般来说，我们可以看到NARRE在两个数据集上以及所有预测数量上都取得了最佳性能。此外，DeepCoNN++优于DeepCoNN，但仍然不及NARRE。这证明了基于注意力的方法和基于神经网络的方法的优势。0论文题目：Web搜索和挖掘WWW 2018，2018年4月23日至27日，法国里昂PMFNMF1.03990.90231.11251.2916SVD++0.88600.79281.04471.1735HFT0.89250.79171.02911.1699DeepCoNN0.88900.78751.01281.1642NARRE0.8769**0.7783**0.9965**1.1559*0.770 0.775 0.780 0.785 0.870 0.875 0.880 0.885 0.990 0.995 1.000 1.005 15890表3：所有方法在四个数据集上的性能比较（均方根误差）。*和**分别表示与最佳基准线相比， p < 0.05和 p < 0.01的统计显著性。0玩具和游戏 Kindle商店电影和电视 Yelp-20170表4：我们模型选择的高权重和低权重评论的示例（ a ij 表示注意力权重）。0物品1 a（ a ij=0.1932）这些画笔非常适合儿童的艺术作品。它们似乎使用寿命很长，即使在激烈使用的情况下，毛刷也能保持良好的状态。0b（ a ij =0.0161）我买了这本书作为给我女儿的礼物。0物品2 a（ a ij=0.2143）从头到尾，这本书都很愉快。充满了神秘、混乱，还有一点点魔法。完美的流畅，写作和编辑都很出色。0b（ a ij =0.0319）我喜欢在闲暇时间阅读，我认为这本书非常适合我。0图4：根据不同的预测因素（等式（11）中的 h 0的维度数）的性能。0评论汇聚和我们的神经预测层。此外，随着预测因素数量的增加，SVD++的性能显著下降（请注意，较高的RMSE值意味着性能较差），但对于其他方法，性能没有改善或明显相反。然后，我们研究了基于深度学习方法的dropout效果。图5显示了NARRE、DeepCoNN和DeepCoNN++在不同dropout比率下的验证性能。从结果中我们发现，通过将dropout比率设置为适当的值，所有方法都可以显著改进。这证明了dropout在防止过拟合方面的能力，从而可以实现更好的泛化。NARRE在两个数据集上的最佳dropout比率为0.5。具体来说，我们发现玩具和游戏的结果对dropout比率更敏感，而Kindle商店的结果则不太敏感。我们认为原因是第一个数据集非常小，这使得模型更容易在没有dropout的情况下过拟合。05.4 注意力基于评论汇聚的效果现在我们重点分析注意力基于评论汇聚的效果。回想一下，在等式（7）中生成每个评论的注意力权重时，我们结合了不同的信息源。具体来说，在Neti中，它们是评论内容和撰写此评论的用户的id嵌入。在Netu中，它们是评论内容和此评论所写的物品的id嵌入。请注意，当我们不考虑注意力时，归一化的常数权重为0图5：根据不同的dropout比率的性能。0无注意力0Kindle商店0无注意力0玩具和游戏0无注意力0电影和电视0图6：注意机制的效果。应用注意机制的方法的性能显著优于不应用注意机制的方法（p<0.05）。0将为每个评论分配权重（等式（6））。结果如图6所示。从图中可以看出，当应用注意机制时，评分预测的性能显著提高，与常数权重方法相比。这证明了我们的假设：评论的有用性是不同的，不同的评论对用户偏好和物品特征具有不同的代表性。此外，我们基于注意力的评论汇聚可以很好地学习这种代表性，并提高推荐算法的性能。05.5 案例分析0我们在表4中提供了一些关于评论和它们最终注意力权重的示例，以说明评论有用性识别的结果。在表中，评论1a和2a代表具有较高注意力权重的更有用的评论，评论1b和2b是0Track: Web Search and Mining WWW 2018, 2018年4月23日至27日，法国里昂15900表5：对亚马逊数据集的有用性评估（以评论的有用性评级为基准）。 **：在统计显著性测试中，与最佳基线相比，p <0.01。0Toys_and_Games Kindle_Store Movies_and_TV0最新的随机长度NARRE 最新的随机长度NARRE 最新的随机长度NARRE0Precision@1 0.1487 0.3255 0.2476 0.3860** 0.2447 0.4574 0.4041 0.5235** 0.3040 0.4908 0.3903 0.6576** Recall@1 0.0362 0.0952 0.07710.1398** 0.0400 0.0992 0.0852 0.1131** 0.0436 0.0976 0.0677 0.1445** Precision@10 0.1550 0.2000 0.2316 0.2697** 0.2228 0

下载后可阅读完整内容，剩余1页未读，立即下载