没有合适的资源?快使用搜索试试~ 我知道了~
CEUR程序http://ceur-ws.org新闻推荐MeteSertkan、SophiaAlthammer、SebastianHofstätter和JuliaNeidhardtChristian Doppler推荐系统实验室,TU Wien,奥地利摘要个性化新闻推荐系统被广泛部署以过滤由每天产生的大量新闻 推荐的新闻文章通常具有与先前消费的新闻的情感取向类似的情感,从而在人们周围创建情感室的自我强化循环。Wu等人 SentiRec是一种感知情感多样性的神经新闻推荐模型,以解决这种缺乏多样性的问题。在这项工作中,我们重现SentiRec没有访问原始的源代码和数据样本。我们从头开始重新实现SentiRec,并使用Microsoft MIND数据集(与原始工作相同,但子集不同)进行实验。我们从不同的角度评估和讨论我们的生殖 虽然原来的论文主要有一个以用户为中心的观点,通过比较推荐列表的用户的交互历史的情感多样性,我们还分析了内列表的情感多样性的推荐列表。此外,我们还研究了情感多样化对主题多样性的影响。 我们的研究结果表明,SentiRec不能很好地推广到其他数据,因为比较的基线已经表现良好,与原始工作的结果相反。 虽然原始的SentiRec使用基于规则的情感分析器,但我们还研究了一个预先训练的神经情感分析器。然而,我们没有观察到有效性和情感多样性的改善为了促进可重复性,我们公开了我们的源代码。1. 介绍基于内容的推荐器通常向用户推荐与他们过去喜欢的项目类似的项目[1]。此外,最近表现良好的神经新闻推荐方法也遵循这一原则。 他们根据用户之前浏览的新闻文章对用户进行建模,然后根据考虑用户模型的相关性得分对候选新闻文章进行排名[2]。然而,这样的方法倾向于缺乏多样性。 特别是因为负面情绪的新闻比正面的新闻更经常被点击,因此在新闻推荐中使情绪多样化是必不可少的[3]。考虑到这一切,吴等。 [3]介绍了SentiRec,一种感知情感多样性的神经新闻推荐方法。他们通过考虑新闻的内容并联合训练推荐模型以及辅助情感预测任务来学习情感感知的新闻表示。 用户通过其先前点击和未点击(即,看到但未点击)新闻文章。 SentiRec方法通过与用户的总体情感取向相比惩罚具有相似情感的候选新闻来规则化并因此增加情感多样性。在情感正则化和情感Perspectives on the Evaluation of Recommender Systems Workshop(PERSPECTIVES 2022),2022年9月22日,与第16届ACM推荐系统会议在美国华盛顿州西雅图met. tuwien.ac.at(M. Sertkan)© 2022本文版权归作者所有。在知识共享许可署名4.0国际(CC BY 4.0)下允许使用讲习班刊号1613-0073CEUR研讨会论文集(CEUR-WS.org)预测任务,VADER [4],一个基于规则的情感分析器,被用来确定情感极性分数作为标签。在这项工作中,我们重现SentiRec,而无需访问原始源代码或数据集。我们要求访问原始源代码和数据集的请求尚未得到答复。因此,我们从头开始重新实现SentiRec,并使用Microsoft MIND [2]数据集(与原始工作中相同的数据源但不同的子集)进行实验。我们从不同的角度评估我们的再现,即i)有效性,ii)以用户为中心的情感多样性,iii)列表内情感多样性,以及iii)主题多样性。在我们的第一个评估视角中,我们的目标是将原始论文的有效性趋势与我们的实施和研究进行比较:RQ1我们复制的SentiRec实现与MIND [2]基线相比如何关于有效性?与原始工作相比,我们的再现并没有显著优于基线,这可能是由于数据集的差异,突出了SentiRec在泛化方面的缺点。除了基于规则的分析器(VADER-SA [ 4 ])之外,我们还采用了预训练的神经情感分析器(BERT-SA 1)。当使用BERT-SA时,与VADER-SA设置相比,我们没有观察到推荐性能和情感多样性的 我们的下一个评估角度是以用户为中心的情感多样性,如原始论文中所定义的;因此,我们调查:RQ2我们复制的SentiRec实现与MIND [2]基线相比如何关于以用户为中心的情感多样性与原始论文相反,我们无法通过在保持最佳效果的同时优于随机模型来实现以用户为中心的情感多样性结果。此外,我们证明,一些基线已经达到了足够的以用户为中心的情感多样性,并显着优于SentiRec,(再次)强调缺乏概括性。虽然原始论文通过将推荐的新闻列表与用户的交互历史进行比较来关注以用户为中心的情感多样性列表内情感多样性。 因此,我们调查:RQ3我们复制的SentiRec实现与MIND [2]基线相比如何关于名单内情绪多样性的问题相反,以用户为中心的评价,虽然受到惩罚,以用户为中心的情感相似性,我们的再现显着优于大多数基线,如果考虑内列表的情感多样性这就需要讨论是采用以用户为中心的多样化还是采用列表内的多样化以及进一步的调查。虽然原始论文只考虑了情感多样性,但我们也分析了主题多样性,因此在我们最终的评估视角中,我们研究:RQ4我们复制的SentiRec实现与MIND [2]基线相比如何关于以用户为中心和列表内主题多样性?以用户为中心的主题多样性将用户的交互历史与推荐列表进行 我们表明,基线已经达到显着更好的以用户为中心的主题多样性比我们的Sentirec再现-突出不同目标之间的权衡。1https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english在列表内主题多样性中,我们的复制达到了与基线相当的结果(不考虑随机模型)。本工作的贡献如下:• 我们在不访问原始源代码和数据集的情况下复制SentiRec [3]相反,我们从头开始重新实现SentiRec并使用MIND [2]数据集。虽然我们的实现显示了类似的趋势,但我们未能重现原始结果,这可能是由于数据集差异造成的特别是,我们实验中的基线已经显示出不错的推荐和情感多样性性能。• 我们建议通过使用预先训练的神经情感分析器而不是基于规则的情感分析器来扩展实验。然而,我们没有观察到有效性和情感多样性的增加。• 我们建议通过考虑以用户为中心的主题多样性和内部列表主题和情感多样性来扩展实验。如果考虑以用户为中心和列表内主题多样性,则基线优于我们的再现,但它在列表内情感多样性方面显著优于基线。• 我 们 在 以 下 网 站 发 布 了 SentiRec 的 第 一 个 开 放 实 现 :https://github.com/MeteSertkan/newsrec2. 背景项目的呈现方式通常会影响用户的决策行为[5]。因此,当与新闻文章互动时,除了语义或句法属性外,它们的文本风格也起着重要作用[3,6,7然而,这些特征很难手工设计最近,深度学习架构越来越多地用于推荐场景[8]。 这些体系结构已被证明在捕获各种模式(例如,用户会话、图片或语言中的结构)或处理高复杂性(例如,多模态数据、非常动态的设置等)。它们通常遵循端到端特征提取范例,其中推荐模型和表示模型(即,项目和用户编码器)同时被训练。因此,避免了手工启发式[9]。这一趋势也已经延伸到了新的推荐领域。例如,NAML [10]使用注意力网络来合并新闻文章的不同观点,例如,标题、摘要、类别等,LSTUR [11]通过将GRU应用于最近点击的项目来捕获用户的短期兴趣,并通过考虑用户的整个历史轨迹来捕获长期兴趣然而,通过仅考虑用户的先前交互的内容因此,我们研究新闻多样化,特别是情感多样化。在这项工作中,我们重新实现,扩展和分析SentiRec [3]。SentiRec使用辅助情感预测任务来学习情感感知的新闻表示,并引入情感正则化方法来获得情感多样化的推荐。虽然已经在旅游领域[13,14],电影领域[15,16]和电子商务[17,18]中研究了情感感知推荐,但仅举几例,较少关注新闻领域中的情感感知推荐,也没有关注情感多样化。2图1:包括以下主要组件的SentiRec [3]的概述新闻编码器,其中学习通过其内容对新闻进行编码,并且同时基于学习编码;情绪分析器,它根据以下信息为每篇新闻文章分配情绪得分其内容;User Encoder,根据用户以前的新闻交互对用户进行单击预测器,其确定给定用户和候选新闻对的分数;并且其监测和正则化情感多样性。情绪监测器3. 方法3.1. SentiRecSentiRec旨在优化推荐准确性和情感多样性,这自然会导致准确性和多样性之间的权衡 总体任务是基于用户的先前项目的历史来对候选项目进行排名。给定用户具有情感极性得分[1,...,]的个先前浏览的新闻文章[1,...,]的历史集合H,目的是对个候选新闻文章[1,...,]的集合进行排名。���������������������������������](with sentiment polarity scores [������,������11给每个文章分配一个分数即,[1,���������特别地,SentiRec在推荐列表中寻求情感多样性。如果排名靠前的新闻文章具有与用户先前浏览的新闻的总体情感取向不同的情感极性分数,������������������������在下文中,我们描述如图1所示的不同SentiRec组件。新闻编码器。 新闻编码器的任务是找到候选新闻的表示������������as well as representations [���1,���������������它由一个嵌入层和一个Transformer层组成,以获得一个术语序列的表示���。 由于没有给出关于Transformer层的细节,我们遵循密切相关的NRMS [12]模型的架构。因此,我们使用多个头部的自注意的上下文和添加剂的注意,以获得一个统一的嵌入出的上下文的词嵌入。新闻编码器与辅助情感预测任务联合训练,以便将情感意识注入新闻表示。的情感得分���使用线性层预测,���������������������������������即作为损失函数,计算预测值与实际值13451234���5���情感得分和情感分析器确定的情感得分如下使用������������:1���������������=∑|������−������|(一)=1情感分析仪给定新闻文章的标题,情感分析器确定范围在[-1,1]中的情感极性分数,其被认为是相应新闻文章的情感标签。 原始论文使用VADER [4](一种基于规则的方法)作为情感分析器(VADER-SA)。此外,我们还研究了一个预训练的神经情感分析器2(BERT-SA)。用户编码器。 用户编码器获得先前浏览的新闻的感知情感的表示,即,[1,������根据NRMS[12]的多头自注意力,然后是附加注意力),以获得用户的表示单击“预测器”。 点击预测器使用用户嵌入和候选嵌入之间的点积,即���������,来确定点击得分���。情绪监测器。 情感监测器观察候选新闻文章的情感极性得分(由情感分析器获得)������偏离用户������������������的总体情感取向的程度]������)(i. 即,用户浏览历史的平均情感概率得分情感的多样性可以通过=(0,)来衡量,其中的值越大,表示情感多样性越小���������情感多样性得分���进一步用于将模型正则化并引导到更情感多样的方向。 以下损失函数用于此目的:ℒ��������� =1���中文(简体)|���| ���∈���其中,是训练集,是第个样本的情感多样性得分。���使用负采样以便为推荐任务创建标记的数据集对于用户印象中的每个点击的新闻,随机选择来自相同印象的未点击的样本。推荐损失是点击样本的负对数似然,定义如下:���������(������+)ℒ���������=−∑���������()(3)���∈������������(���+)+ ∑������������(��� −)������=1���,������其中+是第次点击新闻的点击得分,−是第次点击新闻的点击得分。���������������,���对应的个阴性样本,是训练集。���最后的损失函数带来所有三个损失,即,推荐损失、情感预测损失和情感多样性损失一起如下:���������������������������������������=其中,和是分别控制情感预测损失和情感多样性损失的影响的超参数。2https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english有效项。以用户为中心的情感多样性。���列表内情感多样性以用户为中心的主题多样性3.2. 评价视角我们从五个不同的角度来评估我们的再现:有效性,以用户为中心的情感多样性,内列表情感多样性,以用户为中心的主题多样性,和内列表主题多样性。注意,与列表内多样性度量相反,以用户为中心的度量评估与用户的先前新闻消费有关的多样性 我们使用配对t检验和Bonferroni校正[19,20]将我们的再现结果与所有基线和我们的扩展进行比较。我们使用C、RR、CG@5和CG@10评估有效性。������������我们评估以用户为中心的情感多样性使用的情感对齐度量���RR和@,介绍了WU等人。������[3],其定义如下:������C������RR=���������(0,��� ∑���),���@���=���������(0,������ ∑��� ���)(5)=1���=1其中,C是推荐列表的长度(即,候选项的数量),并且是在该列表中的位置处排名的新文章的情感倾向评分;并且是对应用户的总体情感倾向。������因此,排名靠前的候选者的情感与用户的总体情感取向越接近,情感对齐度量就越高。因此,较低的情感一致性分数表明更多的情感多样性推荐。(未包含在原始文件中 由于新闻文章的情感极性得分������仅为一个标量,因此我们通过对������������推荐候选文章的前K列表中的每个新闻对之间的情感极性得分的绝对差进行平均来计算列表内情感多样性:������������@���=2Σ|������−������|(六)������������������(列表内情感多样性得分位于0和1之间,其中0是最大潜水员。(未包含在原始文件中 我们考虑新闻文章的类别(例如,体育)和子类别(例如,足球)来计算主题多样性。我们用1-热编码表示新闻文章的(子)类别我们通过总结所有浏览的新闻类别表示来计算用户������的类别表示。类似地,我们通过对推荐的前K个候选新闻文章的类别表示求和来计算推荐列表������的类别表示。然后,我们������通过在和C之间取余弦相似���������性来测量多样性���。这导致0和1之间的度量,其中0是最大潜水员。类似地,我们测量������RR,其中差异是计算所有候选者的类别表示的加权平均值������以获得推荐列表的表示RR,其中权重是对应的新闻文章的排名。������RR=������������������(������RR,������),���@���= (���C@���,��� ���)(7)���������������������参数设置。列表内主题多样性(未包含在原始论文中)。我们再次表示具有1-热编码的新闻文章的(子)类别。 我们通过计算���推荐的前k篇新闻文章的1-热编码类别表示之间的平均成对余弦相似度来测量推荐列表的列表内主题多样性。这导致0和1之间的度量,其中0是最大潜水员。������������@���=2∑������������������(������,������)(8)������������������(4. 实验环境数据集。原始论文的数据集是从2018年10月31日至2019年1月29日收集的MSN News 3日志构建的,但尚未开源,我们的访问请求尚未得到回复。因此,我们在实验中使用MIND[2]数据集-特别是MIND-small4版本,因为它源于相同的来源。它是在2019年10月12日至11月22日的六周内从5万用户(至少点击五次)中随机抽样的,其中前五周用于培训,最后一周用于测试。一个样本由时间戳、用户id、表示用户的点击历史的按时间排序的新闻id的列表、以及具有对应标签的混洗的候选新闻id的列表(即,1表示点击,0表示看到但未点击)。数据集的详细统计总结见表1。Mind-small的用户数量是其他网站的五倍,而印象数则是其他网站的两倍,平均每个用户的积极互动次数减少了七倍(七次点击与七次点击相比)。49)比SentiRec数据集。表1SentiRec数据集(如报告的)和MIND-小型数据集统计。数据集#用户#新闻#印象#点击#非点击SentiRec一万四千二百五十五四十四万五千二百三十四十八万九千六百四十四6,651,940MIND-small 50,000六五二三八230,117 347,7278,236,715训练 所有模型都是在90%的训练数据上训练的。剩余的10%用于通过优化AUC来调整超参数。我们使用最小增量为0.0001 AUC和耐心为5的早期停止。请注意,我们在所有模型中使用300维Glove嵌入[21]来初始化单词嵌入层和NLTK [22]单词分词器以进行分词。此外,我们将每个印象中浏览的新闻数量限制为50,标题长度限制为20个术语(较小的序列是零填充的)。我们将负采样率K设置为4。 我们将20%的dropout应用于单词嵌入。我们使用多头自我注意力与15个注意力头,其次是一个200维查询向量的附加注意力层我们使用ADAM [23]优化器,学习率为0.0001,批量大小为128。对于基于VADER-SA的模型(R)���������https://www.msn.com/en-us/news3https://msnews.github.io/index.html我们设置= 0.4和= 10,对于基于BERT-SA的模型(R),我们设置= 0.4和��������������������� =Ba1s。线我们将复制和调整的模型与数据集提供商建议的以下基线进行比较[2]:LSTUR [11](未包含在原始论文中- 神经新闻推荐器捕获用户我们用用户嵌入初始化GRU网络我们将用户长期兴趣的掩蔽概率我们将20%的dropout应用于单词嵌入。负采样比K被设置为4。对于CNN,我们将过滤器的数量设置为300,窗口大小设置为3。我们使用一个200维的查询向量的附加注意力层。我们使用ADAM [23]优化器,学习率为0.0001,批量大小为256。NAML [10](未包含在原始论文中)(如原始论文中的NAML的改编)- 包含多个视图的神经新闻推荐器(即,标题、类别和摘要)到新闻表示中。我们将抽象长度限制在50个术语。 我们将20%的dropout应用于单词嵌入。我们将类别嵌入维度设置为100。CNN过滤器的数量设置为400,窗口大小设置为3。我们用200维的附加注意力层中的查询向量负采样比K被设置为4。我们使用ADAM [23]优化器,学习率为0.0001,批量大小为256。我们还训练了-一个“仅标题”版本-如原始论文[ 3 ]中所使用的我们获得了与NAML相同的参数,而不需要类别维度。NRMS [12]- 神经新闻推荐器,其在新闻编码器和用户编码器内利用多头自注意。 我们使用多头自我注意力与15个注意力头,其次是一个200维查询向量的附加注意力层。我们将20%的dropout应用于单词嵌入。我们将负采样率K设置为4。我们使用ADAM [23]优化器,学习率为0.0001,批量大小为128。5. 结果和分析在本节中,我们将介绍和分析我们的结果,并回答我们先前提出的研究问题。 我们调查复制的模型是否如原始论文和研究中所描述的那样执行:RQ1我们复制的SentiRec实现与MIND [2]基线相比如何关于有效性?我们比较推荐性能(即,������C,���RR,������CG@5,and������ CG@10) of the reproducedmodel(i.e.,���������������R���������) against the baselines (i.e.,������������R [11],������������&���������������[10],��� R������ [12], and R���������������), which is summarized in rows 1-6 of Table2.相对原始的工作,我们的情绪再现并没有显着优于所有基线有关的建议的此外,它的性能与密切相关的���������R此外,利用预先训练的神经情感分析器而不是基于规则的分析器不会产生性能增益(比较表2中的第6行到第7行)。RQ2我们复制的SentiRec实现与MIND [2]基线相比如何关于以用户为中心的情感多样性我们通过比较情感对齐分数(即,������RR,模型nDCGAUCMRR@5@10表2比较有效性(即,AUC、MRR、nDCG@5和nDCG@10)。更高的有效性分数表示更好的性能。 下标V(VADER-SA)和B(BERT-SA)指示所使用的情感分析器。注意,†表示在α0.05处与R的统计学显著差异������������������������。1随机.4994†.2190†.2236†.2863†2.6194.2982.3190.38043.6206.2913†.3185.3782†4 R.6210†.2840†.3101†.3721†5R.6228.2946.3191.38176 R.6224.2952.3211.38187 R.6219.2942.3203.3820表3比较以用户为中心的情感和主题对齐(即,������RR,���@5,���@10,������RR,���@5,���@10)。较低的比对分数指示较好的多样性。 下标V(VADER-SA)和B(BERT-SA)指示所使用的情感分析器。注意,†表示在α0.05处与R的统计学显著差异������������������������。模型VADER-SA标签RR@5 @10BERT-SA标签RR@5 @10RR@5 @101R0.0086†0.0150†0.0188†.1095†.1748†.2638†.4315†.3680†.4428†230.0157†.0131†0.0276†0.0210†.03820.0248†.1741†.1132†.2623†.1749†.3933†.2936†.5091†.4504†.4570†.3744†.5047†.4270†4R0.0158†0.0281†0.0412†.1655†.2637†.4297†.4735†.4220†.4867†5R0.0149†.0282.0390.1317†.2317†.3869†.4883.4353.4926†6R.0161.0284.0386.1300.2153.3651.4872.4328.48917R0.0174†0.0325†0.0449†.1560†.2675†.4330†.4905†.4414†.4942†5和10-较低的分数表示较高的������������������������和基线(见表3中的第1-6行)。 在最初的工作[3]中,SentiRec在情感多样性方面优于所有基线-甚至是随机模型-同时保持最高的推荐性能得分。我们无法证实这些发现。此外,我们的结果表明,基线在各个方面都表现良好,即,推荐性能和情感多样性。特别是,我们没有观察到大幅度的情感多样性,在原来的文件,而原来的文件研究情感多样性与以用户为中心的重点,它也是必不可少的调查情感多样性内的推荐列表的新闻文章;因此,我们要求:RQ3我们复制的SentiRec实现与MIND [2]关于列表内情感多样性的基线相比如何?我们计算截止点K处的列表内情感相似性,即,���������������通过考虑前K个推荐列表内的新闻文章的成对差异表4(第1-7行)表4比较基于情感和基于主题的列表内相似性(即, ������������@5,������������@10,������������@5,������������@10)。较低的列表内相似性得分指示较好的多样性。下标V(VADER-SA)和B(BERT-SA)指示所使用的情感分析器。注意,†表示在α0.05处与R的统计学显著差异������������������������。模型VADER-SA标签@5@10BERT-SA标签@5@10@5@101R.2393†.2394†.5047†.5045†0.0774†0.0775†2.2336†.2377†.4770†.4863†.1396†.1089†3.2600†.2480†.5221†.5049†.3377†.1886†4R.2313.2347.4826†.4826.1223†.10265R.2376†.2393†.4700.4819.1290.101667RR.2310.2423†.2337.2404†.4682.4444†.4812.4648†.1289.1429†.1013.1063†总结了我们的成果。较低的列表内相似性得分指示较好的多样性。与我们以用户为中心的多样性调查结果相反,基线已经表现出良好的性能,我们观察到我们的复制模型,即, ���������������������������,显著优于关于列表内情感多样性的大多数基线。相比之下,������������基线显示出最差的性能。表明附加模态可能促进以用户为中心的情感多样性(参见表3),但是通过推荐具有相当高的情感相似性的前K篇新闻文章来损害列表内情感多样性有效性和情感多样性是评估SentiRec的新兴视角;除此之外,我们还关注主题多样性并调查:RQ4我们复制的SentiRec实现与MIND [2]关于以用户为中心和列表内主题多样性的基线相比如何?我们调整以用户为中心的情感对齐度量,并引入以用户为中心的主题对齐度量,即, ������RR和���@���,通过考虑新闻文章的分类成员。较低的���RR/@表示较高的多样性。���表3的最后三列总结了我们的分析。R模型向用户先前浏览的新闻文章推荐最具话题多样性的新闻文章���������������������������������������该和R基线显著达到更好以用户为中心的主题多样性比我们复制的���������������R������模型,同时保持合理的推荐性能-展示了基线模型的竞争力。如果我们考虑列表内的主题多样性������������@���(见表4最后两列),这是由推荐列表内的成对分类差异定义的,R���������������模型推荐最多样化的新闻文章。我们的生殖能力,R,优于������������������models and is on par with the������������ R and��� R������ baselines.6. 讨论总的来说,我们无法确认原始工作的结果,它们在有效性和以用户为中心的情感多样性方面优于所有基线。 我们认为,原始SentiRec和我们的复制之间的有效性和多样性的差异是由于数据集的差异,突出了���������������R������关于泛化的缺点。 我们的数据集包含比原始论文多五倍的用户和大约23 K的新闻;然而,它包含相对较少的积极反馈(即,点击),并且仅持续六周以上(相比之下为九周)。因此,与原始论文相比,所使用的数据集中包含了固有的更多样化的行为 有人可能会说,我们的样本中的情感多样性问题并不像原始作品的样本那样普遍。然而,我们证明,������������基线显着优于我们的再现,并接近R���������������模型的性能。 这突出表明有改进的空间,这是没有利用的���������������R������的多元化方法。如上所述,在以用户为中心的情感多样性方面,[10]模型优于所有其他模型(除了R模型),同时保持与我们的R复制品相当的推荐性能。������������������ 除了新闻文章的标题之外,它还考虑类别,子类别和摘要。因此,我们认为,考虑不同的方式有助于多样化任务。请注意,在原始文件中,仅以一种模态(即,���标题)-在本作品中表示为。������������除了以用户为中心的观点的情感多样性,我们还分析了一个更通用的每-前瞻性的,即,列表内情感多样性。 我们证明,我们的再现实现了出色的列表内的情感多样性,虽然以用户为中心的情感多样性进行了优化。 将这两种观点放在一起为以下问题打开了空间,我们将在未来的工作中解决这个问题:在保持用户满意度的同时,我们应该优化情感多样性的哪个视图?针对以用户为中心的视角进行优化是更加保守的。这将使具有与用户的新闻消费的整体情绪正交的情绪的新闻文章排名更高。这种方法有很强的推动力,但可能会通过推荐更多的“不寻常”来降低用户满意度另一方面,通过建议具有不同情绪的新闻文章,针对列表内视角的优化更加轻松然而,它承担了用户可能仍然遵循其先前行为并且例如仅消费负面新闻文章的风险。我们的最终评价视角是主题多样性,这是原始工作没有考虑特别地,我们考虑推荐的新闻文章和用户浏览的新闻之间的分类差异以用户为中心的主题多样性和推荐列表中的新闻文章内的分类差异,即,列表内主题多样性。在这两个指标中,R模型实现了最具主题多样性的推荐。Setting aside the R���������������模型,而在以用户为中心的角度来看,我们的复制表现优于���������������������������大多数基线,在列表内的角度来看,它与基线持平或优于基线。随着不同的情绪分布在新闻类别,我们计划分析是否专题多样化已经在未来的工作中产生情感多样化和更高的用户满意度7. 结论这项工作旨在重现SentiRec [3]-一种情感多样性感知神经新闻推荐模型-而无需访问原始源代码和数据集。 我们从头开始重新实现SentiRec,并将其公开提供。我们使用MIND [2]数据集,它与原始论文具有相同的来源,尽管时间段不同。总的来说,我们无法证实SentiRec论文的重要发现。复制的模型在(以用户为中心的)情感多样性方面并没有优于随机模型,同时与原始工作中的基线相比保持了最佳此外,我们的研究结果表明,基线已经表现良好。特别是,NAML [10]模型提供了最多的情感多样性建议(w.r.t.用户我们的结论是,这些差异是由于数据集的差异突出的缺点SentiRec关于泛化。除了原始论文,我们还考虑了与用户以前的用户历史相比,推荐列表的主题多样性。与之前类似,我们发现基线,特别是基线,比我们的复制���������������������������������model.除了基于规则的情感分析器之外,如Wu等人所使用 [3],我们使用预训练的神经情感分析器进行了实验,以研究神经模型是否会产生更好的情感标签,从而提高整体训练性能。然而,我们没有观察到推荐性能或情感多样性的改善。而原始论文仅通过将用户的总体用户历史与推荐列表进行比较来关注情感多样性以用户为中心的多样性),我们还调查了推荐列表内新闻文章之间的情感和主题多样性(列表内多样性)。与以用户为中心的评估相反,列表内评估显示,我们的R复制显著优于大多数基线,而强������������基线表现不佳。我们讨论了不同的评估视角(即,以用户为中心/列表内情感和主题多样性)。我们计划进行离线和在线实验,在未来的工作中进行比较和结合。此外,我们计划将其他辅助信息纳入端到端推荐模型,如情感感知和多样性。最终,我们希望创建推荐模型,为广泛的目标进行优化,并通过更负责任的推荐造福社会。致谢这项研究得到了基督教多普勒研究协会(CDG)的支持,并获得了欧盟H2020研究和创新计划(批准号822670)的资助。引用[1] 楼里奇湖罗卡奇湾Shapira,推荐系统:简介和挑战,Springer US,Boston,MA,2015 , pp. 1-34 网 址 : https://doi.org/10.1007/978-1-4899-7637-6_1 。 doi :10.1007/978-1-4899-7637-6\_1。[2] 楼Wu,Y.乔,J. -小时Chen C.,马缨丹属Wu,T. Qi,J. Lian,D. Liu,X. Xie,J.Gao,W. Wu,M. Zhou,MIND:一个用于新闻推荐的大规模数据集,载于:计算语言学协会第58届年会论文集,计算语言学协会,在线,2020年,pp. 3597-3606 网址:https://www.aclweb.org/anthology/2020 。acl-main. 33 1. doi : 10 。 18653/v1/2020。acl-main. 331号[3] 梭Wu,F. Wu,T. Qi,Y. Huang、SentiRec:情绪多样性感知神经新闻推荐,载于:计算语言学协会亚太分会第一次会议和第十届自然语言处理国际联合会议论文集 , 计 算 语 言 学 协 会 , 中 国 苏 州 , 2020 年 , 第 10 页 。 44 比 53 网 址 :https://www.aclweb.org/anthology/2020.aacl-main.6。[4] 梭 Hutto , E.Gilbert , Vader : A parsimonious rule-based model for sentimentanalysis of social media text,Proceedings of the International AAAI Conference onWebandSocialMedia8(2014).网址:https://ojs.aaai.org/index.php/ICWSM/article/view/14550。[5] 学位Jannach,M. Zanker,A. Felfernig,G. Friedrich,Online Consumer DecisionMaking , CambridgeUni versityP r ess , 2010 , p. 234-252 doi : 10 。 1017/CBO9780511763113。012[6] 室埃尔巴夫Wachsmuth,K.哈提卜湾斯坦因,《分析新闻编辑论证中风格的说服作用》,载于:计算语言学协会第58届年会论文集,计算语言学协会,在线,2020年,第10页。3154-3160.网址:https://www.aclweb.org/anthology/2020.acl-main.287。doi:10。18653/v 1/2020。acl-main. 287.[7] 先生Sertkan,J.Neidhardt,H.Werthner,文档,主题和作者:在线新闻的文本挖掘,在:2019年IEEE第21届商业信息学会议(CBI),第01卷,2019年,p p。405-413 doi:10。1109/CBI. 2019年。00053[8] 美国张丽Yao、黄毛菊A.太阳,Y。基于深度学习的推荐系统:调查和新观点,ACMComput 。 Surv. 52 ( 2019 ) 。 网 址 : https://doi.org/10.1145/3285029 。 doi :10.1145/3285029。[9] 纽约Deldjoo,M.Schedl,P.克雷莫内西湾Pasi,利用多媒体内容的推荐系统,ACMComput. Surv. 53 ( 2020 ) 。 网 址 : https://doi.org/10.1145/3407190 。 doi :10.1145/3407190。[10] 梭Wu,F. Wu,M.安,黄,Y. Huang,X. Xie,Neural news recommendation withattentive multi-view learning,arXiv prepri
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新型智能电加热器:触摸感应与自动温控技术
- 社区物流信息管理系统的毕业设计实现
- VB门诊管理系统设计与实现(附论文与源代码)
- 剪叉式高空作业平台稳定性研究与创新设计
- DAMA CDGA考试必备:真题模拟及章节重点解析
- TaskExplorer:全新升级的系统监控与任务管理工具
- 新型碎纸机进纸间隙调整技术解析
- 有腿移动机器人动作教学与技术存储介质的研究
- 基于遗传算法优化的RBF神经网络分析工具
- Visual Basic入门教程完整版PDF下载
- 海洋岸滩保洁与垃圾清运服务招标文件公示
- 触摸屏测量仪器与粘度测定方法
- PSO多目标优化问题求解代码详解
- 有机硅组合物及差异剥离纸或膜技术分析
- Win10快速关机技巧:去除关机阻止功能
- 创新打印机设计:速释打印头与压纸辊安装拆卸便捷性
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功