《协同进化推荐模型：评价与评论之间的相互学习》

173 浏览量更新于2023-10-15 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法773协同进化推荐模型：评分与评论的相互学习卢毅超多伦多大学yichao@cs.toronto.edu董瑞海都柏林大学数据分析洞察中心ruihai. ucd.ie巴里·史密斯都柏林大学数据分析洞察中心barry. smyth@ucd.ie摘要协同过滤（CF）是一种常见的推荐方法，依赖于用户项目评级。然而，用户项目评级数据的自然稀疏性在许多领域和设置中可能是有问题的，限制了生成准确预测和有效推荐的能力。此外，在一些CF方法中，潜在特征通常用于表示用户和项目，这可能导致缺乏推荐透明度和可解释性。用户生成的客户评论现在在许多网站上很常见，为用户提供了传达他们对产品和服务的体验和意见的机会。因此，这些评论有可能通过捕获关于特定产品特征的有价值的情感信息来充当有用的推荐数据源。在本文中，我们提出了一种新的深度学习推荐模型，通过优化矩阵分解和基于注意力的GRU网络，从评级和客户评论中共同学习用户和项目信息。使用真实世界的数据集，我们显示了显着的改善rec-commmendation性能相比，各种替代品。此外，该方法是有用的，当涉及到分配直观的含义，潜在的功能，以提高推荐系统的透明度和可解释性。ACM参考格式：Yichao Lu，Ruihai Dong，and Barry Smyth.2018年。协同进化推荐模型：评价与评论之间的相互学习。在WWW2018：2018年网络会议，2018年4月23日至27日，里昂，法国。ACM，New York，NY，USA，10页。https://doi.org/10.1145/3178876.31861581介绍推荐系统是电子商务平台的重要组成部分。他们帮助客户找到他们正在寻找的东西，并已被证明可以推动销售和客户忠诚度[18]。协同过滤（CF）[24]是一种常见的推荐方法，已被许多电子商务网站采用，从Netflix和Amazon到Digg和Zalando。简而言之，CF算法直接[31]或间接（使用潜在因素模型）[22]依赖于用户项目评级，以进行评级预测和/或生成排名推荐。然而，这些方法往往会受到用户项目评级数据的自然稀疏性的影响;通常每个用户将仅“评级”可用产品的一小部分。本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW 2018，2018年4月23日©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186158此外，现代矩阵分解方法[4]的核心潜在特征可能导致其他问题，例如缺乏透明度和可解释性。1.1用户评论推荐用户生成评论的兴起引入了一种新的推荐数据来源。这些评论内容丰富，信息丰富，包含有价值的信息，包括用户对产品和产品功能的看法。例如，“在沿着龙涎香岛的海岸步行和骑自行车之后，我仍然肯定CayeCasa拥有最好的餐厅和活动”，告诉我们用户喜欢这家餐厅的食物，步行和骑自行车是个人兴趣，并且餐厅靠近龙涎香岛的海岸。最近，这样的用户评论已经被用作新类型的推荐系统的基础例如，[13]提出了一种方法来生成用于各种推荐任务的用户和产品配置文件;另见[9- 12 ]。客户评论无处不在的性质使其成为用于解决CF算法的稀疏性和透明度问题的重要数据源。这样的技术可以用于推断产品和服务的用户评级，并且甚至与真实评级和更传统的基于评级的技术相结合，以生成改进的推荐;例如参见[5]。这种类型的方法的一个限制是，它将推断的评级和真实评级作为独立类型的评级数据来对待，组合它们相关联的预测/推荐以生成最终推荐。诸如潜在狄利克雷分配（LDA）[3]之类的主题建模方法提供了将客户评论集成到CF算法中的另一种方式。例如，[41]提出了将基于潜在特征的CF和概率主题建模相结合的方法，以为用户和项目提供可解释的潜在结构;另见[8，26]。这种方法的局限性在于，它将评论视为简单的词袋，因此忽略了可能有助于推荐的重要顺序信息。1.2最近，深度学习已经被推荐系统研究所采用，部分原因是它能够处理顺序信息. 例如，[39]提出了将一首歌曲视为一组599个连续帧的方法，训练卷积神经网络（CNN）来学习其配置文件，以解决推荐中所谓的冷启动问题[33]。客户评论也可以被认为是一个单词序列。例如，[20]提出了一种方法，将经过训练的CNN网络总结的产品描述集成到概率矩阵首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法774因式分解与主题模型相比，它能够捕获文档的上下文信息。在相关工作中，递归神经网络（RNN）已被应用于各种自然语言处理任务，并取得了巨大成功。例如，双向RNN，包括双向长短期记忆（Bi-LSTM ）[15]和双向门控递归单元（Bi-GRU）[46]，可以在使用句子，文档作为输入序列时，使用上下文和顺序信息对目标词进行编码（不仅编码目标词，还编码周围的词）。RNN通常用于在各种任务中捕获或总结句子或文档的含义，例如机器翻译[2]，句子摘要[32]和情感分析[38，42]。同时，基于注意力的方法，基于人类[7]中发现的视觉注意力机制，通过学习不同子任务的权重向量，正在广泛用于机器翻译[6，25]和图像跟踪[45]。类似的想法也被证明有助于从客户评论中提取文本特征;例如[35]。1.3主要贡献受到最近基于注意力的模型和RNN的成功的启发，在本文中，我们提出了一种基于注意力的机制，从用户生成的评论中学习代表性特征，并将其与传统的矩阵分解推荐模型相结合，如图1所示。本文的贡献有三个方面：(i) 我们介绍了一种新的推荐模型称为TARMF，它利用基于注意力的递归神经网络，从审查文件中提取主题信息(ii) 我们展示了如何文本特征可以应用到增强矩阵分解推荐技术的性能，并提出了一个优化算法来训练我们的TARMF模型。(iii) 我们证明了 TARMF 的能力，以实现卓越的 rec-commendation性能的五个公开可用的基准数据集，在各种国家的最先进的基线替代品相比。2相关工作2.1推荐系统中的潜在因子模型潜在因素模型是一组在推荐系统文献中广泛使用的协同过滤方法。潜在因素模型通过将每个用户和项目表征为一个固定的维度向量，可以从观察到的评分中学习用户的偏好和项目特征，并据此向用户推荐新的项目。在潜在因子模型的所有不同替代方案中，基于矩阵因子分解的方法[21，22]可以说是最流行的方法。从本质上讲，矩阵分解将推荐任务转化为矩阵完成问题。到目前为止，大多数最先进的推荐模型都是建立在矩阵分解技术之上的。例如，概率矩阵因子化（PMF）模型[29]是一种广泛采用的具有可靠性能的框架。纯矩阵分解模型的问题在于，未观察到的评级的数量与用户数量和项目数量的乘积线性缩放，而已知评级的数量通常与用户数量线性缩放因此，随着现代电子商务平台中用户数量的快速增长，数据的稀疏性增加成为关键问题。解决稀疏性问题的一种方式是从用户生成的内容中挖掘有用的特征，例如，用户评论、电影情节和项目使用说明。例如，[8，26，41]提出使用主题建模来从评论文档中学习特征，基于此，矩阵分解技术可以获得参数分布的有用先验知识。此外，在潜在因素模型中利用用户生成的内容有助于提高推荐的可解释性。在[26]中，作者证明，显示LDA模型的前k个单词可以产生与不同主题相关的有意义的单词集群[47]探讨了明确对齐潜在因素和审查方面的有效性，这导致了一个可解释的模型，可以对推荐选择进行推理2.2自然语言处理中的深度神经网络最近在自然语言处理中应用深度学习技术的热情源于学习代表性词向量的成功[28，30]。利用有意义的词嵌入向量，几乎所有在计算机视觉和语音识别文献中使用的深度计算框架都可以无缝地应用于自然语言处理。最广泛使用的神经网络结构，包括卷积神经网络[17，20]，递归神经网络[27，37]和神经图灵机[44]，已经在各种自然语言处理基准中显示出有希望的结果。具体来说，[2]引入的注意力机制使神经语言模型能够在机器翻译[14，40]，阅读理解[16，34]，语音识别[1]等方面实现最先进的结果。深度神经网络在各种自然语言处理任务中的成功也引起了推荐系统社区的关注。例如，[19]提出采用卷积神经网络来促进矩阵分解的学习。类似地，[35]利用基于注意力的卷积神经网络对评论文档进行建模，并在评级预测任务中取得了最先进的结果。3局部注意正则化矩阵分解在本节中，我们将详细介绍我们提出的模型，主题注意力正则化矩阵分解（TARMF）。我们首先描述了基于注意力的递归神经网络架构，我们利用文档建模，其次是从用户和项目审查文档中提取文本特征的方法。然后，我们引入了传统的概率矩阵分解模型的扩展，将文本正则化。首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法775~tht−1E ∈Rh→−t，h←−t图1：评论和评级之间相互学习的高级架构。利用具有主题注意机制的双向递归神经网络从用户i和项目j的评论文档中从矩阵分解模型中提取潜在特征。纹理特征和潜在特征在训练过程中彼此近似。最后，我们提出了一个计算框架，优化参数。3.1基于注意力的递归神经网络文档建模我们采用了一个双向递归神经网络的注意力机制，学习有代表性的功能，从审查文件。网络架构由四个主要组件组成：（i）单词嵌入层，（ii）序列编码层，（iii）主题关注层，以及（iv）特征投影层;参见图2。3.1.1字嵌入层。单词嵌入层将单词序列（w1，w2，w3，…wT），并且映射每个在信息流中，每个循环单元能够封装跨不同时间尺度的顺序依赖性从形式上讲，GRU将其在时间步长处的激活为先前激活之间的线性插值以及候选激活h~t：ht=（1−zt）⊙ht−1+zt⊙ht，（1）哪里h~t=tanh（Whxt+rt⊙（Uhht−1）+bh），（2）zt=σ（Wzxt+Uzht−1+bz），（3）字到其相应的k维向量表示期望向量表示对语义表示进行编码。rt=σ（Wrxt +Urh t−1 +bz）。（四）以及由每个单词携带的句法信息，从而使得序列编码层能够有效地捕获输入序列的上下文依赖性。我们使用从word2vec [28]获得的预训练词向量初始化词嵌入层，然后使用反向传播对其进行微调。3.1.2序列编码层。序列编码层为输入序列提供上下文注释。具体地，我们利用[6]提出的双向GRU架构，因为它在我们的实验中具有计算效率和鲁棒性能。门控递归单元（GRU）是香草的流行变体更新门z_t决定过去信息被新信息取代的程度，而重置门r_t确定先前激活对候选激活的贡献程度。为了使注释总结来自前面的单词和下面的单词的信息，我们采用由向前和向后GRU组成的双向GRU前向GRU以通常的顺序读取输入序列，而后向GRU以相反的顺序读取输入序列前向GRU和后向GRU在时间的激活步骤t表示为h→−t和h←−t，r是特定的。在每个时间步骤p，we将前向激活和Σd后向激活连接为递归隐藏单元通过利用选通单元进行调制获得最终注释，即，ht=.首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法776不不不t=1不不t ss图2：用于文档建模的基于注意力的双向GRU网络3.1.3局部注意层。主题关注层提取与推荐任务感兴趣的主题集合相关联的主题相关信息。我们假设并非文档的所有部分都与特定主题同等相关。因此，我们引入注意机制来捕捉不同单词之间的相对重要性。假设每个用户和项目可以由对应的K维潜在因子向量表征，每个潜在维度被期望表示与特定用户或项目相关的主题。直观地说，注意力权重在每个每个主题的单词应该不同因此，我们采用K不同每个单独的关注模块的输出被一起传递到特征投影层作为主题关注层的激活。3.1.4要素投影图层。特征投影层对由倒数第二层生成的特征表示执行非线性变换。我们采用一个单层的感知器与tanh作为其激活函数。因此，第k个注意力模块的激活被变换为：ck=tanh（Wkhk+bk）。（八）C c与K个主题对应的注意模块例如，考虑第k个注意力模块。给定单词注释的顺序（h1，h2，h3，…hT），注意力模块首先通过具有tanh激活函数的单层感知器来变换每个单词注释：特征投影层将变换后的动作串接，并将其输出为潜在文档表示，即，c=[c1，c2，c3，…cK]。3.2从评论sk=tanh（Wkht+ bk）。（五）然后，注意力模块通过计算点积来比较上下文向量zk与变换后的注释之间的相似性，并使用softmax函数为每个注释分配加权分数：文件我们假设从评论文档中提取的文本特征可以作为用户和项目潜在因素向量的合理指标。首先，我们需要定义评审文档的概念。我们将用户评论文档du，i定义为用户i编写的所有评论的集合。同样，项目审查ak=zk·sk.不zk·sk.（六）ˆ文档d，v，j被定义为对项目j所写的评论的集合。请注意，用户i对项目j所写的评论将在-最后，注意力模块将其输出hk计算为注释的加权和hk=.AKHT.（七）不文件dv，j.但是，同样的审查应区别对待-在这种情况下，很明显对于用户评论文档中的评论，我们希望了解内容中显示的用户偏好。当涉及到项目评审文档中的评审包括在用户评审文档du，i和项目评审中=1我们的目标是提取与特定项目相关的特征由于首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法777NE∈RE ∈RE∈R~~~~ ~~~~N我）~~ ~MNMU、VUVNUVUVUUσ2。UVV2F2Fnius范数UVV--针对用户评论文档和项目评论文档的内在差异，采用两个结构相同、参数不同的基于注意力的递归神经网络对它们进行建模。用于对用户评论文档和项目评论文档进行建模的基于注意力的递归神经网络分别被命名为用户注意力网络和项目注意力网络。给定一个评论文档，我们首先使用基于注意力的递归神经网络生成每个评论的潜在文档表示，然后将它们平均为从评论文档中提取的文本特征3.3文本正则化矩阵分解我们扩展了概率矩阵分解（PMF）模型[29]，通过在用户和项目潜在中因子向量假设我们有N个用户和M个项目，矩阵分解找到一个用户系数矩阵UD×N和一个项目因子矩阵VD×M，其乘积R=UTV近似于评级矩阵RN×M。列向量u，i和v，j分别是用户i和项目j的D维分布式表示。对于具有高斯观察噪声的线性模型，观察到的评级上的条件分布可以如等式9中所定义，其中（μ，〇 2）是具有均值μ和方差〇 2的高斯分布的概率密度函数，并且Iij是指示符函数，其中如果用户i对项目j进行评级，则Iij=1，否则Iij = 0。虽然U和V的优化目标是直接的，即，为了最小化评级矩阵R与U和V的乘积之间的差，WU和WV的优化准则仍然不清楚。由于我们期望文本特征充当潜在因子向量的可靠指示符，因此Ui和Vj应该近似于Ui和Vj。因此，我们通过最大化sim（U，U）和sim（V，V）来优化W U和W V，其中sim函数度量两个矩阵之间的相似性。直观的优化策略是定义总体损失函数，并使用随机梯度下降同时训练所有参数。然而，由于参数之间的高度相关性，随机梯度下降算法可能很容易陷入其中一个不期望的局部最小值。例如，考虑用户系数矩阵U和用户注意力网络的参数Wu。一方面，U取决于WU，因为WU的变化将影响由用户注意力网络生成的文本特征U，并且因此改变U的后验分布。另一方面，通过最大化U和U之间的相似度来优化WU。因此，当U和WU被联合优化时，它们很可能相互误导，从而导致模型性能的恶化。同样的情况也适用于V和WV的优化。而不是联合优化所有的未知参数，我们采用一种替代方法，该方法以特定顺序迭代地更新四组参数中的每一组当模型优化一组特定的参数时，我们暂时将所有剩余的参数固定为常数。我们的理由是，这种迭代训练方法可以帮助减轻依赖性p（R |U、V、σ2）=. .ΣN（Rij |uT·vj，σ2ΣIij（九）之间的参数，并相应地促进训练过程i=1j= 1与传统的概率矩阵分解模型不同，该模型将零均值各向同性高斯先验分布放置在所有潜在变量上，用户和项目潜在变量的先验均值假设最优U和V已知且固定，则U和V上的后验分布由下式给出maxp（U，V|R，U~，V~，σ2，σ2，σ2）用户和项目的潜在因素与=maxp（R|U，V，σ2）p（U，V|U~，V~，σ2，σ2），从审阅文档中提取的文本特征因此，我们将用户和项目潜在因子向量的先验分布定义为：哪里U，VUVp（U，V|U~，V~，σ 2，σ 2）= p（U~，V~，σ 2，σ2）|U~，σ~ 2）p（V|V~，σ2）（13）p（U|U~，σ2）=.N（U）i|U~1，σ2（1），（10）我是U和V的联合后验分布，给定U~，V~，σ2，和p（V|V~，σ2）=.N（Vj|V~j，σ2（1），（11）J最大化后验概率相当于最小化它的负对数，由下式给出其中U~i和V~j是从~1. .T2审查用户i和项目j的文档，如第3.2节所述。先验分布中文本特征的引入基本上正则化矩阵分解模型，使得它L（U，V |R，U，V）= 2Ii j（Rij UiVj）I jNN（十四）可以在看不见的测试数据集上很好地推广3.4优化方法训练TARMF模型涉及优化以下非-+λU。U−U~V−V~其中λU=σ2/σ2，λV=σ2/σ2，且·F表示Frobe-已知参数：（i）用户系数矩阵U，（ii）项目因子矩阵V，（iii）用户注意力网络中的参数W_U，以及（iv）项目注意力网络中的参数W_V。注意，当V（或U）被视为常数时，方程14变为关于U（或V）的二次函数，这意味着当梯度为0时，方程达到其最优解。MTARMF模型中的因子不固定为零。相反，我们假设（十二）我我首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法778∈∈E ∈R~←~←F~其中VFU（或V）等于零。因此，我们采用交替最小二乘法，重复优化U和V中的一个，同时暂时将另一个固定为常数：Ui=（VIiVT+λUIK）−1（V Ri+λUU~i），（15）Vj=（UIjUT+λVIK）−1（U Rj+λVV~j），（16）算法1：用于TARMF的优化算法随机初始化用户系数矩阵URK×N。随机初始化项目因子矩阵VRK×M。初始化用户注意力网络中的参数W_U初始化项目注意力网络中的参数WV对于epoch←1到T做i←1toNdo其中Ii∈ RM×M是以Iij为对角元素的对角矩阵，RiM是Rij的向量。回想一下，如果用户i尚未对项目j进行评级，则Ii j = Ri j =0。以类似的方式定义Ij和Rj。相反，考虑其中最优U和V是先验已知然后，用户和项目注意力网络的目标是调整它们的内部权重WU和WV，使得它们提取的文本特征可以近似理想的U和V。对于具有用户评论文档Xu，i和用户潜在因子Ui的给定用户i，我们可以将Wu的损失函数定义为使用最小二乘近似更新UiUi←（V IiVT+λUIK）−1（VRi+λUUi）端对于j1到M，做用最小二乘近似更新VjVj←（U IjUT+λVIK）−1（URj+λVVj）端对于迭代1到S，做随机抽取一小批用户XU。经由随机梯度下降更新W/ULWU （Xu，i，Ui）=UAN（WU，Xu，i）−Ui2，（17）WU←WU−ηLWU（XU）其中Ui=UAN（WU，Xu，i）表示通过将用户评论文档Xu，i馈送到具有参数WU的用户注意力网络中而生成的用户i的文本特征。W/V的损失函数可以类似地定义如下：WU随机抽取一小批物品XV。经由随机梯度下降更新WVLWV（XV）LW（Xv，j，Vj）=IAN（Xv，j）−Vj2，（18）IAN指的是项目注意力网络。结束结束WV←WV−ηWV给出了优化TARMF模型的完整算法在算法1中。在每个时期，我们在U、V、WU和WV的优化之间交替。当U和V用交替最小二乘法拟合时，WU和WV用小批量梯度下降优化当前正在优化的参数使得所有其他参数都是最优的。显然，这种假设在最初的几个时期与事实相去甚远，并且参数可能被其他未优化的参数错误地引导。半径。然而，随着模型经历优化过程，每个参数越来越接近其最优值，并且模型最终将收敛。4定量评价在本节中，我们将在真实数据集上评估TARMF模型表1：评价数据集统计将其性能与一些最先进的记录进行比较.N（ri−ri）2在文献中报道的注释技术4.1数据集和评估指标MSE=i=1N4.2基线模型（十九）我们使用五个公开可用的数据集-包括来自Yelp数据集挑战1的两个数据集和来自Amazon的其他三个数据集-用于此分析的目的;见表1。我们首先将所有五个数据集随机分为训练/验证/测试集，分割比例为70/10/20然后，我们调整验证集上的超参数，并通过计算测试集上的均方误差（MSE）来评估不同方法的性能，该测试集比较预测评级和黄金真相之间的差异：1https：//www.yelp.com/dataset/challenge为了比较的目的，我们检查了TARMF模型以及以下基线模型：(i) 偏移量：偏移量估计器取训练集中所有评分的平均值，并将其用作测试集中评分的预测。(ii) PMF：概率矩阵分解（Probabilistic Matrix Factorization，PMF）[29]是一种从概率角度来看的流行的基于因子的模型，在非常稀疏和不平衡的数据集上表现良好(iii) HFT：隐藏因子作为主题（HFT）[26]是一种新颖的推荐技术，它利用潜在狄利克雷分配[3]来对评论文档进行建模。该模型通过优化数据集用户数项目数#评级Yelp 20131,6311,63378,966Yelp 20144,8184,194231,163亚马逊电子37,12825,783 1,689,188亚马逊电子游戏24,30310,672231,780亚马逊美食14,6818,713151,254首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法779考虑预测评级中的误差和学习到的潜在因素的语料库可能性(iv) CTR：协作主题回归（CTR）[41]从用户生成的内容中学习可解释的潜在结构，使得概率主题建模可以集成到协作过滤中。(v) JMARS ： Jointly Modeling Aspects ， Ratings ， andSentiments（JMARS）[8]是另一种结合了协同过滤和主题建模的最(vi) ConvMF+：卷积矩阵分解[19]是一种新提出的推荐模型，它采用卷积神经网络从项目评论文档中学习项目特征。ConvMF+是指使用预训练的单词嵌入初始化的ConvMF模型。4.3调整超参数我们探讨了超参数的不同设置将如何影响我们提出的模型的性能所检查的超参数包括词嵌入的维度dW、序列编码器的状态维度dS、注意模块中的经变换的注释的维度dA以及正则化项λU和λV。改变dW、dS、dA、λU和λV后的确认MSE分别见图3、图4、图5和图6。我们可以看到，每个超参数的最优值无论评估的数据集如何，都保持相同。因此，我们根据经验将单词嵌入维度设置为256，将序列编码器状态维度设置为128，将注意力模块中的经变换的注释的维度设置为128，并且将λU和λV设置为100。图3：作为改变dW的结果的验证MSE。4.4评价结果所有比较模型的评价结果如表2所示。我们注意到，TARMF模型在所有五个数据集上都优于所有基线模型。此外，这些差异图4：作为改变dS的结果的验证MSE。图5：作为改变dA的结果的验证MSE。我们提出的方法和每个基线模型之间的差异对于p0是统计学上显著<的。05.评估结果实际上符合我们的预期。偏置估计器具有最差的性能，因为它不考虑用户和项目的差异而进行恒定的预测。另一方面，PMF模型用潜在因素表征用户和项目。然而，完全从评级构建这样的模型可能相当困难，特别是当评级数据稀疏时因此，PMF模型仍然不能产生令人满意的结果。剩下的五个算法，即， HFT、 CTR 、 JMARS 、 ConvMF+ 和TARMF都利用用户生成的内容作为用于推荐的辅助信息源。这已被证明是处理稀疏性问题的有效方法。特别是首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法780(a) 亚马逊电子（b）亚马逊电子游戏（c）亚马逊美食(d)Yelp 2013（e）Yelp 2014图6：改变λU和λV后的确认MSE。数据集模型Yelp 2013Yelp 2014亚马逊电子亚马逊电子游戏亚马逊美食偏移1.0171.1251.4761.4351.397PMF0.9851.0531.4111.2971.251HFT0.9771.0291.2591.1521.121CTR0.9751.0131.2841.1471.139JMARS0.9700.9981.2441.1331.114ConvMF+ 0.9170.9541.2411.0921.084TARMF0.8750.9091.1471.0431.019表2：在MSE方面的推荐性能HFT、CTR和JMARS基于具有词袋假设的主题建模由于词袋模型的固有限制，即，它完全忽略了每个单词的上下文，这些模型不能完全捕捉审阅文档中的文本采用卷积神经网络进行文档建模的ConvMF+模型通过集成与文本中的n元语法特征相对应的一组过滤器来部分解决这个问题因此，它明显优于词袋模型。TARMF模型是所有五个比较模型中性能最好的算法。与ConvMF+模型类似，TARMF模型也放松了词袋假设。此外，还从三个方面对ConvMF+模型进行了改进。首先，TARMF模型采用双向递归神经网络具有注意力机制的网络，其能够对长文档建模。其次，TARMF模型应用了主题注意方法，这类似于主题建模的思想，使得每个潜在因素维度都可以与特定的主题对齐。第三，ConvMF+模型只考虑项目评审文档，而TARMF模型同时考虑了用户和项目评审文档，这给模型带来了更大的灵活性。5定性评价5.1注意力可视化为了理解推荐背后的机制，我们尝试将每个注意力模块所参与的位置化首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法781≥到. 考虑长度为T的评论文本中的特定单词，由每个注意力模块分配的预期注意力分数是1/T。我们假设，如果单词wt被特定注意力模块分配有注意力分数st5/T，则该单词是该特定注意力模块感兴趣的此外，如果一个词同时达到不同的注意力模块的注意力阈值，我们假设它只参加了由分配给它的最大注意力分数的注意力模块。图7和图8可视化了用户和项目注意力网络分配的亚马逊电子数据集中特定评论的注意力分布。由不同注意力模块关注的单词用不同的颜色突出显示，并且较暗的颜色表示较高的注意力分数。我们可以从这些数字中得出几个结论首先，注意力模块可以学习评论文本中的可解释的感兴趣区域例如，图7中对应于第一注意力模块的红色突出显示提取关于儿童的信息通过分析这些信息，模型可以了解到撰写该评论的用户对购买儿童电子设备感兴趣。类似地，黄色突出部分表示设备的响应速度，而蓝色突出部分指的是价格。其次，由用户和项目注意力网络分配的注意力分布很好地对齐。例如，图7和图8中的黄色突出显示考虑了设备的响应速度。这种注意力对齐是至关重要的，因为评级是由用户和项目潜在因素向量之间的点积预测的图7：用户注意力网络的注意力可视化图8：项目注意力网络的注意力可视化5.2讨论可以直接看出，基于注意力的GRU网络确实学会了在以下情况下选择性地关注感兴趣的内容：在评论文本中建模不同的主题我们可以通过检查具有高注意分数的区域来获得与潜在因素的每个维度相关的隐藏主题的直观解释。人们会期望我们可以通过收集具有高注意力分数的单词来自动生成这样的解释。例如，在[26]中，作者证明提取LDA模型的前k个单词将产生可解释的主题。然而，这种方法不适用于本文的目的。原因在于，GRU网络在其注释中结合了顺序信息，而不是像LDA中那样进行词袋假设。因此，每个词的注释不仅包含其自身的语义，还包括来自其周围词的信息。因此，注意力分数不再单独衡量单词的重要性。事实上，注意力分数概括了上下文的兴趣水平我们可以在图8中看到，在Amazon.com但我在当地百思买（Bestbuy）商店看到的样品显示，Nook平板电脑的响应速度比Kindle Fire快得多因此，我们不能通过提取每个主题中具有高注意力分数的单词来直接生成推荐解释。我们把自动创建推荐解释作为未来的工作。6结论和未来的工作结合文本特征已被证明可以提高协同过滤算法的性能。本文提出一种新的想法，采用基于注意力的GRU网络，以facilitate矩阵因式分解，并介绍了一个协同进化算法优化的推荐模型。该模型，我们称之为TARMF，实现了所有五个基准数据集的最先进的结果。此外，我们演示了如何分配的注意力权重，每个注意力模块可以用来解释与每个维度的潜在因素向量的含义。然而，简单地识别每个隐藏主题的代表词远远不足以提供个性化的推荐解释。每项建议所需的配套解释应以信息丰富且可读的人类语言编写与此同时，最近成功地将深度神经网络和深度强化学习算法应用于自然语言生成[23，36，43]，使得创建以特定主题为条件的有意义和相关的文本成为可能。因此，这样的自然语言生成模型可以用于解释由推荐系统提供的建议，通过学习将学习到的潜在特征转换成人类可读文本。因此，在未来的工作中，我们将探索利用序列到序列（seq2seq）学习框架[37]的潜力，以生成有说服力的推荐解释，帮助客户做出更好的购买决策。致谢这项工作得到了爱尔兰科学基金会的支持，资助号为SFI/12/RC/2289。首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法782引用[1] DarioAmodei ， Sundaram Ananthanarayanan ， Rishita Anubhai ， JingliangBai，EricBattenberg，Carl Case，Jared Casper，Bryan Catanzaro，QiangCheng，Guoliang Chen，et al. 2016年。深度语音2：英语和普通话的端到端语音识别。国际机器学习会议。173-182[2] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio. 2014.神经机器翻译通过联合学习对齐和翻译。arXiv预印本arXiv：1409.0473（2014）。[3] David M Blei，Andrew Y Ng，and Michael I Jordan.2003年。潜在狄利克雷分配。Journal of Machine Learning Research3，Jan（2003），993[4] Emmanuel J Candès和Benjamin Recht。2009年通过凸优化实现精确矩阵补全。计算数学基础9，6（2009），717。[5] 李晨，陈冠良，王峰。2015年。基于用户评论的推荐系统：最新技术水平User Modeling and User-Adapted Interaction 25，2（2015），99-154.[6] Kyunghyun Cho ， Bart Van Merriënboer ， Caglar Gulcehre ， DzmitryBahdanau，Fethi Bougares，Holger Schwenk，and Yoshua Bengio.2014.使用RNN编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078（2014）。[7] 罗伯特·德西蒙和约翰·邓肯。1995.选择性视觉注意的神经机制。Annual review ofneuroscience18，1（1995），193[8] Qiming Diao， Minghui Qiu ， Chao-Yuan Wu， Alexander J Smola， JingJiang ， and Chong Wang.2014年联合建模方面，评级和情感的电影推荐（jmars）。第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM，193[9] Ruihai Dong，Michael P2013年。感性的产品推荐。第七届ACM推荐系统会议论文集。ACM，411[10] Ruihai Dong，Michael P O'Mahony，and Barry Smyth. 2014.在固执己见的产品推荐方面的进一步实验。基于案例推理国际会议。斯普林格110[11] Ruihai Dong，Markus Schaal，Michael P2013年。有意见的产品推荐。基于案例推理的国际会议。斯普林格44[12] Ruihai Dong，Markus Schaal，Michael P2013年。基于在线评论的主题抽取与分类推荐在IJCAI，第13卷中。1310-1316。[13] 董瑞海和巴里·史密斯。2016.个性化的基于意见的推荐。基于案例推理的国际会议。斯普林格93[14] Jonas Gehring ， Michael Auli ， David Grangier ， Denis Yarats ， andYann N Dauphin. 2017. 卷积序列到序列学习。 arXiv 预印本 arXiv ：1705.03122（2017）。[15] Alex Graves和Jürgen Schmidhuber。2005年使用双向LSTM和其他神经网络架构的逐帧音素分类。 Neural Networks 18，5-6（2005），602-610.[16] Karl Moritz Hermann 、 Tomas Kocisky 、 Edward Grefenstette 、 LasseEspeholt、Will Kay、Mustafa Suleyman和Phil Blunsom。2015.教机器阅读和理解。神经信息处理系统进展。1693-1701年。[17] Nal Kalchbrenner Edward Grefenstette和Phil Blunsom2014年一个用于句子建模的卷积神经网络。arXiv预印本arXiv：1404.2188（2014）。[18] Timothy L Keiningham、Bruce Coolil、Lerzan Aksoy、Tor W Andreassen和Jay Weiner。2007年不同的客户满意度和忠诚度指标在预测客户保留、推荐和钱包份额方面的价值。ManagingService Quality：An International Journal17，4（2007），361-384.[19] Donghyun Kim ， Chanyoung Park ， Jinoh Oh ， Sungyoung Lee ， andHwanjo Yu.2016.用于文档上下文感知推荐的卷积矩阵分解。第10届ACM推荐系统会议论文集。ACM，233-240.[20] 金允。2014.用于句子分类的卷积神经网络。 arXiv预印本arXiv：1408.5882（2014）。[21] 耶胡达·科伦2008.因式分解满足邻域：多方面协同过滤模型。第14届ACMSIGKDD知识发现和数据挖掘国际会议论文集。ACM，426[22] Yehuda Koren，Robert Bell，Chris Volinsky.2009年推荐系统的矩阵分解技术。Comp

下载后可阅读完整内容，剩余1页未读，立即下载