自适应学习率的矩阵近似协同过滤算法（AdaError）

61 浏览量更新于2023-09-21 收藏 665KB PDF 举报

User

Modeling

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法741AdaError：一种自适应学习率的矩阵近似协同过滤李东升IBM中国研究院中国上海ldsli@cn.ibm.com上海复旦大学，中国lutun@fudan.edu.cn摘要朝晨IBM中国研究院中国上海cchao@cn.ibm.com李尚科罗拉多大学博尔德分校美国科罗拉多州博尔德li. colorado.edu秦律科罗拉多大学博尔德分校美国科罗拉多州博尔德www.example.comqin.lv @colorado.edu复旦大学上海，中国ninggu@fudan.edu.cnACM参考格式：HansuGuSeagateTechnology美国科罗拉多guhansu@gmail.comStephen M.朱IBM研究院-中国上海，中国schu@cn.ibm.com诸如随机梯度下降的基于梯度的学习方法被广泛用于基于矩阵近似的协同过滤算法中，以基于观察到的用户项目评级来训练推荐模型。一个主要的困难在现有的基于梯度的学习方法中，确定适当的学习率是一个重要的问题，因为如果学习率太大或太小，则模型收敛将分别不准确或非常慢。本文提出了AdaError，一个自适应的学习率方法矩阵近似为基础的协同过滤。AdaError消除了人工调整学习率的需要，通过自适应调整学习率的基础上的噪声水平的用户项目评级，使用较小的学习率噪声评级，以减少其对学习模型的影响。我们的理论和实证分析表明，AdaError可以提高学习模型的泛化性能。对MovieLens和Netflix数据集的实验研究也证明，AdaError在基于矩阵近似的协作过滤中优于最先进的自适应学习率方法。此外，通过将AdaError应用于标准矩阵近似方法，我们可以在评级预测准确性和前N个推荐准确性方面实现比最先进的协同过滤方法在统计上显著的改进。CCS概念• 信息系统→协同过滤;推荐系统;关键词协同过滤，矩阵逼近本文在知识共享署名4.0国际（CC BY 4.0）许可下发布作者保留在其个人和公司网站上以适当的归属方式传播作品WWW 2018，2018年4月23日©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186155Dongsheng Li，Chao Chen，Qin Lv，Hansu Gu，Tun Lu，LiShang，Ning Gu，and Stephen M.楚2018. AdaError：一种基于矩阵逼近的协同滤波自适应学习率方法。在WWW 2018：2018年网络会议，2018年4月23日至27日，里昂，法国。ACM，NewYork，NY，USA，11页。https://doi.org/10.1145/3178876.31861551引言矩阵近似（MA）方法由于其优越的准确性而在现有的基于协同过滤（CF）的解决方案中变得越来越流行[3，4，8，9，15，16]。16、22、44、46]。在基于MA的CF算法中，基于梯度的学习方法（如随机梯度下降（SGD））被广泛采用，以基于观察到的用户项目评级来学习MA模型[8，16，22，43，44]。然后使用学习的MA模型来预测用户对未见过的项目的评级。现有的基于梯度的学习方法中的一个主要困难是确定梯度下降的适当学习率[17]，因为如果学习率太大，模型会发散，如果学习率太小，模型收敛会非常慢最近，已经提出了几种自适应学习率方法，如Adagrad[12]，AdaDelta [45]和Adam [20]，以解决学习率问题，并且在几种算法中取得了良好的性能，特别是神经网络[11，20，45]。一般而言，现有的自适应学习率方法旨在通过增加对不频繁参数的梯度更新然而，在现实世界的推荐系统中，观察到的用户项目评级不仅非常稀疏，而且非常嘈杂[7，10，26，43]。最近的一项研究[10]表明，当用户被要求对相同的项目进行重新评级时，只有60%的用户评级保持不变，并且这种评级噪音可能导致推荐RMSE的40%变化[1]。因此在基于MA的CF解决方案中选择学习率时，重要的是要考虑评级噪声，即，对有噪声的评级执行小梯度更新，以防止所学习的模型对评级噪声反应过度。首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法742∈∈∈||·||- （3）��，∈Ω为此，本文提出了AdaError -一种自适应学习率方法，用于基于矩阵近似的协作滤波。AdaError降低了噪声训练示例的学习率，使得学习的模型不太容易受到训练数据中的噪声评级的影响。AdaError还随着epoch数量的增加自适应地缩小学习率我们的理论和实证分析表明，AdaError可以提高学习MA模型的泛化性能，并对L2正则化系数不太敏感。使用MovieLens的0.8550.8500.845自适应学习率固定学习率10 20 30 4050秩和Netflix的数据集表明，AdaError在基于矩阵近似的协同过滤中优于最先进的自适应学习率方法。此外，通过将AdaError应用于标准矩阵近似方法，与最先进的协同过滤方法相比，我们可以在统计上显着提高2问题公式化在本节中，我们首先介绍基于矩阵近似的协同过滤的基本概念然后，我们分析了现实世界中的推荐系统的噪声评级问题最后，通过一个案例分析，对目标问题进行了激励。2.1基于矩阵近似的协同过滤给定一个用户-项目评分矩阵R×，其中是用户数，是项目数，矩阵近似方法的目的是确定一个用户特征矩阵R×和项目特征矩阵R×，使得≈ ^=��.（一）的等级通常比真实世界推荐系统中的在获得和之后，可以通过其对应特征的点积来计算第-个用户对第-个项目的预测评级向量，即，^，= .图1：案例研究：在MovieLens 1 M数据集上改变排名值时，RSVD [34]与自适应/固定学习率之间的推荐准确度比较。我们使用0.01作为固定学习率。对于自适应学习率，我们使用对于具有小训练误差的条目为0.011，对于具有大训练误差的条目2.2推荐系统中的噪声评级真实世界推荐系统中的用户项目评级通常是嘈杂的[2，28，33]。最近的工作[33]指出，当推荐系统收集或推断用户偏好时出现的自然噪声自然噪声是由各种原因引起的，包括用户难以量化他们的偏好[18]、评级尺度的不适当粒度[10]、由于观看和评级项目之间的长时间而导致的记忆丧失[30]、坏心情[2]等。由于如此多的复杂原因，用户项目评级中的这些自然噪声是不可避免的。因此，基于矩阵近似的CF方法在其算法设计中应考虑评级噪声。根据最近的研究[10，18]，推荐系统中的噪声评级的比例很大。Cosley等人[10]发现，当用户被要求重新评价他们以前评价过的相同电影时，大约40%的用户评级与他们以前的评级不同。类似地，Jones et al.[18]发现，用户对评级项目的稳定性约为63%。以获得最佳并且在等式1中，基于梯度study. 这些噪声评级可以显著影响基于矩阵近似的CF方法的准确性[1，10]。可以采用诸如随机梯度下降（SGD）的学习方法来最小化以下正则化最小二乘误差问题[8，22，34，44]：L=∑（，−��）2+ ||||2个以上 ||||二、（二）Cosley等人[10]观察到显着的MAE差异时，使用协同过滤算法对用户Amatriain等人[1]发现建议RMSE变化可高达40%其中Ω是评级矩阵中观察到的条目的集合，并且�� 是弗罗贝纽斯规范。使用SGD求解时上面在条目处的最小化问题，梯度更新规则可以描述如下：如果我们能妥善处理嘈杂的收视率问题，这是非常为提高协同过滤方法的推荐准确率提供了新的思路2.3案例研究：噪声与学习率←L-不好意思 ←L .在这里，我们进行了一个案例研究，以实证研究推荐准确性的潜在改进，当是学习率，它控制模型学习过程的收敛。在模型学习过程中考虑评级噪声。该研究在MovieLens 1M数据集上进行，该数据集RMSE当在用户-项目评级矩阵中存在噪声因此，我们认为，首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法743∼--| |∈←∈��−--（）,、、=0、��（−1）=∑、包含来自6k用户对4k项的106个其基本思想是使用较大的学习率为强大的评级和较小的学习率为嘈杂的评级，从而减少嘈杂的评级对学习模型的影响。然而，评级噪声难以量化。因此，我们依靠学习的MA模型来识别噪声评级。具体地，我们假设如果学习的MA模型不能准确地拟合评级，则评级是有噪声的如果学习的MA模型在该评级上具有大的训练误差，则基于上述思想，给定预定义的学习率��和训练示例，我们采用以下自适应学习率：1）如果训练样本的预测误差（，（1）2大于所有的平均平方误差训练样本，则其学习率降低10%，即，0的情况。9 ; 2）否则，其学习速率增加10%，即，1 .一、1 .一、如图1所示，具有自适应学习率的RSVD [ 34 ]在推荐准确性方面优于具有固定学习率的RSVD，即，实现更低的均方根误差（RMSE）。对于从10到50的等级变化，这是正确的。这两种方法之间的唯一区别是，具有自适应学习率的RSVD可以对具有大训练误差的条目（噪声评级）使用较小的更新，而对具有小训练误差的条目（鲁棒评级）使用较大的更新因此，学习的MA模型不太容易在评级中受到噪声的影响。该案例研究证实了在模型学习过程中考虑评级噪声可以提高基于MA的CF方法的推荐精度关键的问题是-3算法设计在本节中，我们首先提出AdaError方法，该方法可以自适应地调整具有不同噪声水平的条目的学习率。然后，我们提出了如何将建议的AdaError方法应用于矩阵逼近在大量迭代之后，其无穷小，本文将其设置为1-4所提出的AdaError方法的优点总结如下：• 解决不同级别的噪音：学习率不同的条目将根据它们的训练误差而变化，使得具有不同累积训练误差的条目将具有不同的学习率;• 学习率的自适应调整：学习率将随着迭代次数的增加而缩小，因此它不需要手动调整学习速率。同时，采用��的可以防止学习率变得无限小，使得学习过程将在可接受的迭代次数内停止;以及• 效率：所提出的AdaError方法是逐项的，即，不同的条目将具有不同的学习速率。这不同于许多现有的参数式自适应学习速率方法，例如， AdaGrad [12] ， AdaDelta [45] 和Adam [20]，其中不同参数的学习率不同。对于矩阵逼近，AdaError的计算复杂度为（Ω）/次迭代，小于那些参数式自适应学习率方法的计算复杂度（Ω）/次迭代。|Ω|）。3.2AdaError用于评级预测在这里，我们提出了将所提出的AdaError方法应用于评级预测任务中的矩阵近似的算法设计，其中我们解决了由等式2定义的最小化问题。我们首先初始化参数和R×。��然后，我们使用存储器迭代地更新参数和d��（）（>0）。tic梯度下降算法1中给出了细节。算法1用于评级预测Require：用户-项目评分矩阵，观察条目集Ω，秩，学习率，正则化系数，两个协同过滤任务：评分预测和top-N��=1 ��^推荐3.1提出的AdaError方法AdaError是基于以下思想设计的：确保：近似的用户-项目评级矩阵。1：随机初始化，= 1，且（0）= 0，. 2：不收敛时3：对于每个（，）∈Ωdo4：（）←（−1）+（，−）2。��、、训练误差较小的条目应被赋予较大的5：（）←��/√��（）+��+ 。学习率。该想法可以在不同的实施例中实现，6：← − 2（）（（��−，）+ ）。AdaGrad [12]。给定预定义的学习率和7：←−2（）（（��−，）+ ）。对于观察到的条目Ω，其在第i次迭代的学习率定义如下：（）=+ 。（四）8：+1。9：结束十： end while^,��√1）+11：返回相对误差，uptothee（1）-th迭代。是一个小常数，以防止分母中的0，在本文中设置为1 - 8。是一个常数，以防止3.3 Top-N推荐在这里，我们提出的算法设计应用提出的AdaError方法的矩阵逼近的较大的训练误差应给予较小的学习率的方式在这里，我们提出了一个自适应的方法，这是类似的首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法744--联系我们∈∇∈∇||不超过||≤转→ −∞ − −∞- ≥∈←不超过∈∇||不超过||-- ||∈·||·||不超过||−∈不超过∇||不超过||-- ||∈·||·||不超过||−转,=1=1（，）∈Ωtop-N推荐任务。在许多前N个推荐任务中，用户项目评级是二进制的，即，，1，1。公式2中定义的均方损失在此类设置中不适用[42]。因此，我们采用指数代理函数的注意，其他替代损失函数[42]，例如平方损失、对数损失和铰链损失，也可以在等式5中采用。然而，许多真实世界的数据集仅提供正反馈，例如，点进数据，也称为隐式反馈数据。为了解决隐式反馈问题，我们按照WRMF方法[16]，对正面评级赋予更大的权重，对负面评级赋予更小的权重。我们设置，=1，如果，=1和，=0。04如果，=1基于我们的实证研究。最后，用于前N个推荐的损失函数可以是定义如下：对于所有模型Φ，其中E（）=L（）。那么存在一个确定性算法，它可以在最多的迭代之后返回a，使得对于最优*∈ Φ，我们有E [L（）] − L（*）≤（��2）。根据上述结果，我们可以在下面的定理4.2中类似地导出基于AdaError的SGD的收敛速率。理论4.2. 假设损失函数L是强凸的，且对所有模型Φ，其梯度满足E（��2）2，其中E（）=L（）.然后，通过针对每次迭代在等式4中适当地选择��和��，基于AdaError的SGD可以在最多迭代之后返回α，使得对于最优 *∈Φ，我们具有E [L（）]-L（*）≤（��2）。定理4.2证明了求解强凸损失L′=∑，exp{−，^，}+��||||2个以上��||||二、（五）使用基于AdaError的SGD可以实现然后，我们可以类似地解决上述最小化问题。比如收视率预测问题。算法2中给出了细节。算法2用于Top-N推荐的AdaError是强凸的，因为它的二阶导数是常数2.指数损失（等式5）并不总是强凸的，因为它的二阶导数0当. 但是，，^，将不会与在矩阵近似中，如果学习率被适当地设置在要求：用户-项目评分矩阵，观察条目集SGD，所以我们可以假设对于所有（，）Ω，有一些适当选择的学习率。然后，等式5Ω，秩，学习率，正则化系数，将满足强凸假设。��=1 ��^确保：近似的用户-项目评级矩阵。1：随机初始化，= 1，且（0）= 0，.2：不收敛时3：对于每个（，）∈Ωdo4：（）←（−1）+， exp{−，}。��、、4.2泛化误差界如果学习的MA模型容易受到噪声训练数据的影响，则矩阵逼近的泛化性能会很差。由于AdaError可以防止已学习的5：（）←��/√��（）+��+ 。数据，AdaError可以自然地提高泛化能力，6：← +（）（，，exp {−，��} − 2 ）。性能在这里，我们从理论上分析推广7：←+（）（，，exp {−，��}− 2 ）。采用一致稳定性[6]分析了广义8：+1。9：结束十： end while,SGD的位置误差。具有固定学习率的SGD的预期泛化误差可以如下所示[13]：理论4.3. 给定损失函数L：Φ →R，11：返回n^4理论分析在本节中，我们首先分析apply-求和L（i）是凸的，L（;）和L（;）L（′;）��′ ′对于所有训练示例以及任意两个模型′Φ。假设我们以第-步的步长2 /运行SGD��，总共步数。然后，SGD满足样品的均匀稳定性例如通过≤2.然后，分析了基于AdaError的SGD的泛化误差界，并与标准SGD进行了比较4.1收敛速度SGD的收敛速度已在文献中进行了广泛的研究，最近的结果表明，SGD算法可以在迭代后返回（1/）-接近最优值的解[14]。更正式地，SGD的收敛率可以分析如下[14]：理论4.1. 假设损失函数为根据上述结果，我们可以在下面的定理4.4中类似地导出基于AdaError的SGD的泛化误差界。理论4.4. 给定损失函数L：Φ R，若L（;）是凸的，则L（;）和L（;）L（′;）��′ ′对于所有训练示例以及任意两个模型′Φ。假设我们运行基于AdaError的SGD，其具有如在等式4中定义的第-个步长，对于全部步长，satisfying��（）2/��。基于AdaErrorSGD在样本上满足一致稳定性，并举例说明强凸且其梯度满足E（|| ||2) ≤ ��2关于≤22∑（）中选择。（1/）。很容易验证均方损失（公式2）MA模型对训练中噪声的过度反应基于AdaError的SGD的错误界。在SGD中使用AdaError求解强凸问题。首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法745∑√≤∑∼∼∼∼√∑||||∑==1+=1∑P屋顶。证明可以从定理4.3导出。 Q接下来，我们可以在下面的定理4.5中比较具有固定学习率的SGD和基于AdaError的SGD的泛化误差界。定理4.5. 定理4.4的一致稳定界3）LLORMA [24]是一种集成MA方法，它通过核平滑来集成一组局部MA模型; 4）GSMF [44]可以通过矩阵分解中的组稀疏正则化来建模多个用户行为;[8]也是一种将比定理4.3更尖锐，如果1 −��/��。1个（）+集成方法，通过加权平均集成基于有偏共聚类的MA模型; 6）SMA [26]可以通过引入硬-P屋顶。Theo-的一致稳定性界损失函数中的可预测项;以及7）ERMMA [25]rem4.4表示22∑��（）≤2��，即，可以最小化学习MA模型的预期风险。∑��（）≤∑。根据公式4，我们知道提出的方法与以下方法：1）WRMF [16]=1（=1（）+）.然后通过简单的代数我们就能完成证明了Q在AdaError中，（）将累积为iter的数量因此当足够大时，例如，>100在我们的实证研究中是公平的。5实验本节首先介绍实验装置。然后，我们分析了AdaError的敏感性，并将其与其他自适应学习率方法进行了比较。最后，我们比较了基于AdaError的矩阵近似方法与最先进的CF方法在评级预测和top-N推荐任务中的推荐准确率5.1实验装置数据集描述。在实验中使用以下真实世界数据集：1）MovieLens 100 K数据集（来自1，000个用户对1，700部电影的105个评级）; 2）MovieLens 1 M数据集（来自6，000个用户对4，000部电影的106个评级）; 3）MovieLens 10 M数据集（来自72，000个用户对10，000部电影的107评级）;和4）Netflix Prize数据集（来自480，000个用户对17，770部电影的108个评级）。在每个实验中，我们将数据集随机分为训练集和测试集，并保持比例为90%：10%。所有报告的结果在五轮不同的随机拆分中取注意，对于前N个推荐，我们预测用户是否会对项目进行评级[19]，即，如果用户对项目进行了评级，则对项目的用户评级将为1，否则为-1用户项目评分矩阵来解决隐式反馈是-sue; 2）BPR [36]学习成对损失以优化排名前N设置的措施他们提出了不同版本的BPR方法，本文与BPR-MF进行了比较; 3）AOBPR [35]通过对信息对进行过采样来改进原始BPR方法，以加快收敛速度和精度;以及4）SLIM [31]通过聚合通过求解L1和L2正则化优化问题而学习的加权用户评级来生成前N个推荐。此外，我们将AdaError与以下流行的自适应学习率方法进行了比较：1）AdaGrad [12]可以调整学习率，使得频繁更新的参数将被赋予较小的学习率，而不频繁更新的参数将被赋予较大的学习率; 2）RMSprop 1将学习率除以最近梯度幅度的运行平均值，以防止学习率变得无限小; 3）Adam [20]通过考虑梯度的一阶矩和二阶矩来调整各个参数的学习率。评估指标。对于评级预测任务，采用均方根误差（RMSE）来衡量推荐准确度：RMSE（^）=1/|Ω′|（，）∈Ω′（，−^，）2，其中Ω’是测试集中的条目的集合。较低的RMSE指示较高的评级预测准确度。对于前N位推荐任务，采用两种流行的措施1）精度@N =/，其中是前N个推荐的列表，是已评级;2）NDCG@N = DCG@N/IDCG@N，其中DCG@N参数设置。我们设置 = 0。01且=1-4in=1 （2−1）/2（+1）且IDCG@N是��如果未明确指定，则为等式4。正则化系数对于评级预测被设置为0.02，对于评级预测被设置为0.001。对于top-N推荐。收敛阈值被设置为1/-5，并且最大历元数被设置为1000。比较的方法的最佳参数选择从他们的原始文件。比较方法。对于评级预测任务，我们将所提出的方法与以下最先进的基于MA的CF方法进行比较：1）BPMF [38]是PMF [ 39 ]方法的贝叶斯扩展，其可以通过整合所有模型参数和超参数来自动控制模型容量; 2）DFC [27]可以改善具有完美排名的DCG@N（如果对第-个推荐项进行评级，则=1，否则 = 0）。较高的精度@N和NDCG@N指示较高的推荐准确度。5.2泛化误差分析图2比较了在MovieLens 10M数据集上使用标准SGD和具有AdaError的RSVD [34]的训练和测试误差之间的差距从结果中可以看出，使用标准SGD的RSVD比使用AdaError的RSVD在训练和测试误差1http://www.cs.toronto.edu/tijmen/csc321/slides/lecture slideslec6.pdf=1=1对于前N个推荐任务，我们比较亲-/不超过将逐点置信度分配给√首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法746--0.950.900.850.800.750.700.650 20 4060 80100120140160 180历元0.950.900.850.800.750.05 0.03 0.01 0.005 0.003图2：训练和测试错误与在MovieLens 10M数据集上使用标准SGD和AdaError进行RSVD [34]的epoch。我们设置秩= 100并且L2正则化系数 = 0。02两种方法0.7850.780图3：初始学习步骤在MovieLens 10M数据集上。我们设置rank=100和L2正则化系数��= 0。对于所有方法，set = 02，对于AdaError，set ��= 1 − 4。0.810.800.7750.790.7701E-4 2E-4 3E-4 4E-4 5E-4 6E-4 7E-4 8E-4 9E-4 1E-3图4：在MovieLens 10M数据集上具有超参数的AdaError的灵敏度分析。我们设置秩= 100并且L2正则化系数 =0。02所有方法0.780.770.01 0.02 0.03 0.04 0.05图5：MovieLens 10M数据集上使用L2正则化系数的我们设定= 100且 = 0。01，并设置 =1 4关于AdaError也就是说，带有AdaError的RSVD可以获得更好的泛化性能，这证实了定理4. 4和定理4. 5中的理论分析，即当epoch数足够大时，AdaError可以获得更尖锐的一致稳定界。5.3敏感性分析在这里，我们分析了AdaError对不同超参数的敏感性，并将AdaError与三种流行的自适应学习率方法进行了比较：AdaGrad [12]，RMSProp和Adam [20]。为了确保公平比较，如果没有明确指定，所有方法都5.3.1灵敏度与 . 图3比较了AdaError和其他三种具有不同初始学习率的方法的推荐精度。从结果中我们可以看出，AdaError在所有比较方法中达到了最低的RMSE值，其值从0.05到0.05不等。0.001.同时，AdaError的检验RMSE随的变化较小，而其他方法的检验RMSE变化较大。这是因为AdaError由于其对评级噪声不敏感而总是可以收敛到局部最小值。注意，当太小时，AdaGrad的测试RMSE显著增加，这是因为当不够大时，AdaGrad中的学习率将迅速变得非常小，并且训练过程将由于优化精度的增益太小而终止。同时，RMSProp和Adam在学习率太大时的测试RMSE都很高，这是因为过大的学习率可能会影响这两种方法的收敛性。相比之下，AdaError可以克服这个问题，因为AdaError的最小学习步骤是由。5.3.2灵敏度与 . 如等式4中所定义，可以防止AdaError的学习步骤变得无限小。如图4所示，较小的值可以实现RSVDw/ SGD（列车）RSVD w/ SGD（试验）RSVD w/AdaError（train）RSVD w/AdaErrorAdagradRMSpropAdamAdaErrorAdagradRMSProp亚当AdaErrorRMSProp阿达格拉德·亚当RMSERMSERMSERMSE首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法747- -0.790.780.77AdaErrorRMSProp阿达格拉德·亚当50 100 150 200250秩0.880.860.840.820.800.7820% 40% 60% 80%训练数据图6：在Movie-Lens 10 M数据集上具有等级的敏感性分析所有的方法的超参数被选为最佳的基础上以前的敏感性分析。测试RMSE略低，因为较小的可以减少AdaError的整体学习步骤，并且较小的学习步骤可以确保更好地收敛于局部最小值。然而，当从1 4增加到13时，测试RMSE仅增加约0.001，这表明AdaError对于不同的值非常稳定。5.3.3灵敏度与正则化系数图5比较了AdaError和其他三种具有不同L2正则化系数的方法的推荐准确性。从结果中可以看出，AdaError在以下情况下从0.01增加到0.05。众所周知，适当的L2正则化系数可以防止学习模型过拟合[29]。然而，AdaError可以自然地防止学习的模型过度拟合训练数据，因此AdaError对的敏感性低于其他方法。5.3.4灵敏度与等级图6比较了AdaError和其他三种具有不同秩值的方法的推荐精度请注意，对于所有方法，我们使用基于先前灵敏度分析的最优超参数。从结果中可以看出，当秩从50增加到250时，AdaError的测试RMSE一致地减小这进一步证实了AdaError可以实现更好的泛化性能。此外，AdaError优于所有其他三种方法的所有排名，这进一步证实了AdaError是更可取的协同过滤。5.3.5灵敏度与数据稀疏。图7比较了AdaError和具有不同训练/测试分流比的三种其他方法的推荐准确度，即，不同稀疏度的训练数据。如结果所示，当训练集比率从20%增加到80%时，AdaError的测试准确率始终优于所有三种比较方法这表明AdaError即使在训练数据非常稀疏的情况下也可以实现卓越的性能。图7：MovieLens 10M数据集上数据稀疏的敏感性分析。我们设置秩= 100 并且 L2 正则化系数��= 0。 02 ，对于AdaError设置= 1−4��表1：所提出的方法（= 500）与七种最先进的基于矩阵近似的 CF 方法 -BPMF[38] 、D-FC[27] 、LLORMA[24] 、 GSMF[44] 、 WEMAREC[8] 之间的RMSE比较。[26]，ERMMA [25]. 注意，所提出的方法在统计上显著优于其他方法，具有至少95%的置信水平。方法MovieLens（10M）NetflixBPMF0.8197 ±0.00060.8421 ±0.0003DFC0.8067 ±0.00020.8453 ±0.0003LLORMA0.7855 ±0.00020.8275 ±0.0004GSMF0.8012 ±0.00110.8420 ±0.0006WEMAREC0.7775 ±0.00070.8143 ±0.0001SMA0.7682 ±0.00030.8036 ±0.0004ERMMA0.7670 ±0.00070.8018 ±0.0001提出0.7644±0.00030.7980±0.0002综上所述，灵敏度分析实验表明，与基于MA的协同过滤中的三种流行的自适应学习率方法相比，所提出的AdaError方法对超参数不太敏感。因此，我们可以得出结论，AdaError是更可取的比其他三个自适应学习率方法在基于矩阵近似的协同过滤。5.4评级预测精度表1将所提出的方法（用于评级预测的AdaError）的推荐准确性与MovieLens 10M和Netflix数据集上的七种最先进的基于矩阵近似的协作过滤方法进行了比较。从结果中可以看出，所提出的方法在MovieLens 10M和Netflix数据集上都以至少95%的置信水平主要原因有：1）AdaError可以防止学习到的MA模型对噪声的过度反应，使得学习到的MA模型对噪声的反应更小。RMSEAdaErrorAdagradRMSpropAdamRMSE首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法748表2：在MovieLens 100K和MovieLens 1M数据集上，提出的方法与一种基于评级的MA方法（RSVD[34]）和四种前N推荐方法（WRMF[16]， BPR[36]， SLIM[31]， AOBRP[35]）度量精密度@N数据|方法N=1N=5N=10N=20公司简介RSVDWRMFBPRSLIMAOBR提出0.3155 ±0.00380.3851 ±0.01160.3439 ±0.01680.3951 ±0.00560.3395 ±0.00990.4078±0.00210.2179 ±0.00070.2752 ±0.00530.2533 ±0.00820.2625 ±0.00900.2591 ±0.00570.2934±0.00490.1403 ±0.00350.2202 ±0.00560.2061 ±0.00400.2055 ±0.00310.2119 ±0.00310.2331±0.00290.1300 ±0.00570.1679 ±0.00350.1581 ±0.00280.1539 ±0.00150.1632 ±0.00250.1779±0.0018ML-1MRSVDWRMFBPRSLIMAOBR提出0.1659 ±0.00170.2761 ±0.00740.3062 ±0.00300.3053 ±0.00970.3098 ±0.00760.3692±0.00180.1263 ±0.00050.2155 ±0.00090.2277 ±0.00740.2208 ±0.00390.2315 ±0.00020.2878±0.00110.1037 ±0.00090.1816 ±0.00070.1896 ±0.00480.1836 ±0.00060.1926 ±0.00220.2385±0.00140.0766 ±0.00200.1459 ±0.00040.1516 ±0.00070.1419 ±0.00290.1540 ±0.00160.1891±0.0007表3：拟议方法与一种基于评级的MA方法（RSVD[34]）之间的NDCG比较以及MovieLens 100K和MovieLens1M数据集上的四种前N推荐方法（WRMF[16]，BPR[36]， SLIM[31]， AOBRP[35]）度量NDCG@N数据|方法N=1N=5N=10N=20公司简介RSVDWRMFBPRSLIMAOBR提出0.0389 ±0.00280.0913 ±0.00340.0783 ±0.00360.0922 ±0.00210.0770 ±0.00430.0998±0.00140.1047 ±0.00320.1989 ±0.00300.1803 ±0.00560.1967 ±0.00360.1801 ±0.00440.2143±0.00360.0996 ±0.00590.2535 ±0.00450.2351 ±0.00560.2476 ±0.00500.2343 ±0.00510.2719±0.00480.1393 ±0.00710.3131 ±0.00430.2929 ±0.00650.3017 ±0.00910.2930 ±0.00580.3333±0.0053ML-1MRSVDWRMFBPRSLIMAOBR提出0.0324 ±0.00200.0510 ±0.00130.0568 ±0.00060.0551 ±0.00150.0582 ±0.00180.0722±0.00100.0700 ±0.00060.1202 ±0.00020.1235 ±0.00030.1201 ±0.00230.1200 ±0.00060.1653±0.00060.0864 ±0.00020.1563 ±0.00130.1601 ±0.00350.1586 ±0.00280.1567 ±0.00090.2155±0.00020.1006 ±0.00010.2012 ±0.00100.2070 ±0.00110.1948 ±0.00430.2021 ±0.00090.2703±0.0003当AdaError的超参数，即，2）AdaError可以随着迭代次数的增加而缩小学习速率，这可以确保更好的收敛，因为较小的学习步骤可以减少局部最小值附近的振荡。5.5Top-N推荐准确度表2和表3比较了拟定标准方法和其他五种方法，分别在MovieLens 100K和MovieLens1M数据集上进行。在五种比较方法中，RSVD [34]是一种基于评级的MA方法，WRMF [16]，BPR [36]，SLIM [31]和AOBRP [35]是top-N推荐算法。如结果所示，所提出的方法（AdaError fortop-N recommendation）在Precision@N上都优于所有比较方法和NDCG@N，当从1增加到20时，置信水平至少为95%。该方法性能优越的主要原因是：1）具有较好的泛化性能; 2）抑制局部极小值附近振荡的能力较强; 3）加权策略，其对未观察到的评级给予较低的权重，以解决前N个推荐任务中的正未标记数据问题。RSVD和WRMF之间的主要区别在于，WRMF可以在训练过程中为未观察到的评级提供较低的权重，而RSVD平等对待所有评级。这表明为未观察到的评级设置较小的权重可以显着提高隐式反馈数据上的前N个推荐所提出的方法采用与WRMF相同的加权策略，并且所提出的方法的优越性能表明，所提出的AdaError方法可以改善加权矩阵近似在top-N推荐任务中的性能。首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法7496相关工作协同过滤是当今推荐系统中的一类重要方法dation [16，25，36].最早的基于矩阵近似的CF方法试图发现用户-项目评级矩阵[5]中的潜在结构，其中他们声称SVD可以消除用户对所有相似项目进行评级的需要。换句话说，发现潜在结构可以帮助缓解现实世界推荐系统中的数据稀疏问题[22，40，41]。同时，推荐系统的

下载后可阅读完整内容，剩余1页未读，立即下载