没有合适的资源?快使用搜索试试~ 我知道了~
CEUR诉讼http://ceur-ws.org新闻推荐MeteSertkan,SophiaAlthammer,SebastianHofstätter和JuliaNeidhardtChristian Doppler Laboratory for Recommender Systems,TU Wien,维也纳,奥地利摘要个性化新闻推荐系统被广泛部署以过滤由每天产生的大量新闻 推荐的新闻文章通常具有与先前消费的新闻的情感取向类似的情感,从而在人们周围创造了一个自我强化的情感室循环。Wu等人SentiRec是一种感知情感多样性的神经新闻推荐模型,旨在解决这种缺乏多样性的问题。在这项工作中,我们在不访问原始源代码和数据样本的情况下复制SentiRec我们从头开始重新实现SentiRec,并使用Microsoft MIND数据集(与原始工作相同,但子集不同)进行实验。我们从不同的角度评估和讨论我们的生殖 虽然原来的论文主要有一个以用户为中心的观点,通过比较推荐列表的用户的交互历史的情感多样性,我们还分析了内列表的情感多样性的推荐列表。此外,我们还研究了情感多元化对话题多样性的影响。 我们的研究结果表明,SentiRec不能很好地推广到其他数据,因为比较的基线已经表现良好,与原始工作的结果相反。 虽然最初的SentiRec使用基于规则的情感分析器,但我们还研究了预训练的神经情感分析器。然而,我们没有观察到有效性和情感多样性的改善为了促进可重复性,我们公开了我们的源代码。1. 介绍基于内容的推荐者通常向用户推荐与他们过去喜欢的项目相似的项目[1]。此外,最近表现良好的神经新闻推荐方法也遵循这一原则。 他们根据用户之前浏览的新闻文章对用户进行建模,然后根据考虑用户模型的相关性得分对候选新闻文章进行排名[2]。然而,这些方法往往缺乏多样性。 特别是因为负面情绪的新闻比正面的新闻更容易被点击,因此在新闻推荐中使情绪多样化是至关重要的[3]。考虑到这一切,吴等。 [3]介绍了SentiRec,一种感知情感多样性的神经新闻推荐方法。他们通过考虑新闻的内容并联合训练推荐模型以及辅助情感预测任务来学习情感感知的新闻表示。 用户通过其先前点击和未点击(即,看过但没点击过的)新闻文章。SentiRec方法通过与用户的总体情感取向相比惩罚具有相似情感的候选新闻来规则化并因此增加情感多样性。在情感正则化和情感Perspectives on the Evaluation of Recommender Systems Workshop(PERSPECTIVES 2022),2022年9月22日,与第16届ACM推荐系统会议在美国华盛顿州西雅图tuwien.ac.at(M. Sertkan)© 2022本文版权归作者所有。在知识共享许可署名4.0国际(CC BY 4.0)下允许使用讲习班ISSN1613-0073CEUR研讨会论文集(CEUR-WS.org)预测任务,VADER [4],一个基于规则的情感分析器,被用来确定情感极性分数作为标签。在这项工作中,我们在不访问原始源代码或数据集的情况下复制了SentiRec。我们对原始源代码和数据集的访问请求尚未得到答复。因此,我们从头开始重新实现SentiRec,并使用Microsoft MIND [2]数据集(与原始工作相同的数据源,但不同的子集)进行实验。我们从不同的角度评估我们的复制,即i)有效性,ii)以用户为中心的情感多样性,iii)列表内情感多样性,以及iii)主题多样性。在我们的第一个评估视角中,我们的目标是将原始论文的有效性趋势与我们的实施和研究进行比较:RQ 1我们复制的SentiRec实现与MIND [2]基线相比如何关于有效性?与原始工作相比,我们的再现并没有显著优于基线,这可能是由于数据集的差异,突出了SentiRec在泛化方面的缺点。除了基于规则的分析器(VADER-SA [ 4 ])之外,我们还使用了一个预训练的神经情感分析器(BERT-SA 1)。当使用BERT-SA时,与VADER-SA设置相比,我们没有观察到推荐性能和情感多样性的我们的下一个评估视角是以用户为中心的情感多样性,正如原始论文中所定义的那样;因此,我们调查:RQ 2我们复制的SentiRec实现与MIND [2]基线相比如何关于以用户为中心的情感多样性?与原始论文相反,我们无法通过在保持最佳效果的同时优于随机模型来实现以用户为中心的情感多样性结果。此外,我们证明了一些基线已经达到了足够的以用户为中心的情感多样性,并且显著优于SentiRec,(再次)强调了缺乏可推广性。虽然原始论文通过将推荐的新闻列表与用户的交互历史进行比较来关注以用户为中心的情感多样性列表内情感多样性。 因此,我们调查:RQ 3我们复制的SentiRec实现与MIND [2]基线相比如何关于名单内情绪的多样性?与以用户为中心的评估相反,尽管以用户为中心的情感相似性受到了惩罚,但如果考虑列表内情感多样性,我们的再现显着优于大多数基线这就需要讨论是采用以用户为中心的多样化还是采用名单内的多样化,并需要进一步调查。虽然原始论文只考虑了情感多样性,但我们也分析了主题多样性,因此在我们最终的评估角度,我们研究:RQ4我们复制的SentiRec实现与MIND [2]基线相比如何关于以用户为中心和列表内主题多样性?以用户为中心的主题多样性将用户的交互历史与推荐列表进行 我们证明,基线已经达到显着更好的以用户为中心的主题多样性比我们的Sentirec再现-突出不同目标之间的权衡。第1https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english在列表内的主题多样性中,我们的复制达到了与基线相当的结果(不考虑随机模型)。本工作的贡献如下:• 我们在不访问原始源代码和数据集的情况下复制SentiRec [3]相反,我们从头开始重新实现SentiRec并使用MIND [2]数据集。虽然我们的实现显示了类似的趋势,但我们未能重现原始结果,这可能是由于数据集差异造成的特别是,我们实验中的基线已经显示出不错的推荐和情感多样性性能。• 我们建议通过使用预先训练的神经情感分析器而不是基于规则的情感分析器来扩展实验。然而,我们没有观察到有效性和情绪多样性的增加。• 我们建议通过考虑以用户为中心的主题多样性和内部列表主题和情感多样性来扩展实验。 虽然如果考虑以用户为中心和列表内主题多样性,基线的表现优于我们的再现,但它在列表内情感多样性方面明显优于基线。• 我 们 在 以 下 网 站 发 布 了 SentiRec 的 第 一 个 开 放 实 现 :https://github.com/MeteSertkan/newsrec2. 背景项目的呈现方式往往会影响用户的决策行为[5]。因此,当与新闻文章互动时,除了语义或句法属性外,它们的文本风格也起着重要作用[3,6,7然而,这些功能很难手工设计最近,深度学习架构越来越多地用于推荐场景[8]。 这些架构已经证明在捕获各种模式(例如,用户会话、图片或语言中的结构)或处理高复杂性(例如,多模态数据、非常动态的设置等)。它们通常遵循端到端特征提取范例,其中推荐模型和表示模型(即, 项目和用户编码器)同时被训练。因此,避免了手工制作的装饰[9]。这一趋势也已经延伸到了新的推荐领域。例如,NAML [10]使用注意力网络来整合新闻文章的不同观点,例如,标题、摘要、类别等,LSTUR [11]通过将GRU应用于最近点击的项目来捕获用户的短期兴趣,并通过考虑用户的整个历史轨迹来捕获长期兴趣然而,通过仅考虑用户先前交互的内容因此,我们研究新闻多样化,特别是情感多样化。在这项工作中,我们重新实现,扩展和分析SentiRec [3]。SentiRec使用辅助情感预测任务来学习情感感知的新闻表示,并引入情感正则化方法来获得情感多样化的推荐。虽然已经在旅游领域[13,14],电影领域[15,16]和电子商务[17,18]中研究了情感感知推荐,但仅举几例,对新闻领域中的情感感知推荐的关注较少,也没有对情感多样化进行关注。2图1:SentiRec [3]概述,包括以下主要组件:新闻编码器,学习根据内容对新闻进行编码,同时根据学习编码;情绪分析器,它根据以下信息为每篇新闻文章分配情绪得分:其内容;User Encoder,根据用户以前的新闻互动对用户进行单击预测器,其确定给定用户和候选新闻对的分数;并且其监视和规则化情感多样性。情绪监测,3. 方法3.1. SentiRecSentiRec旨在优化推荐准确性和情感多样性,这自然会导致准确性和多样性之间的权衡 总体任务是基于用户的先前项目的历史来对候选项目进行排名。对于用户A,给定具有情感极性得分[101,...,102]的100个先前浏览的新闻文章[101,...,102]的历史集合H,目的是对100个候选新闻文章[102,...,102]的集合H进行���������������������������������情绪极性得分[情绪,���������1���1���给每个文章分配一个分数即,[1,.,���������特别是,SentiRec在推荐列表中寻求情感多样性。如果排名靠前的新闻文章具有与用户先前浏览的新闻的总体情感取向不同的情感极性得分,������������������������在下文中,我们将描述不同的SentiRec组件,如图1所示。新闻编码器。 新闻编码器的任务是找到候选新闻的表示������通过将它们的标题作为输入,来生成所浏览的新闻[101,...,102]的标题以及表示[101,...,102���������������它由一个嵌入层和一个Transformer层组成,后者用于���从一系列项中获得表示。由于没有给出关于Transformer层的细节,我们遵循密切相关的NRMS [12]模型的架构。因此,我们使用多头自注意力进行语境化和添加注意力,以获得一个统一的嵌入的语境化的词嵌入。新闻编码器与辅助情感预测任务联合训练,以便将情感意识注入新闻表示。的情感得分���使用线性层预测,即���,= ������× ���+������,其中������和������是可学习的参数,���是新闻表示。作为损失函数,13451234���5���情感得分和由情感分析器确定的情感得分如下使用������������:1������������������=∑|������̂−������|(一)=1情感分析仪给定新闻文章的标题,情感分析器确定范围在[-1,1]中的情感极性分数,其被认为是相应新闻文章的情感标签。 原始论文使用VADER [4](一种基于规则的方法)作为情感分析器(VADER-SA)。此外,我们还研究了一个预训练的神经情感分析器2(BERT-SA)。用户编码器。 用户编码器获得先前浏览的新闻的感知情感的表示,即,[101,.,102������根据NRMS [12],多头自注意力之后是附加注意力),以获得用户的表示单击“预测器”。 点击预测器使用用户嵌入和候选嵌入之间的点积,即���������,来确定点击得分���。情绪监测器。 情感监视器观察候选新闻文章的情感极性得分(由情感分析器获得)������偏离用户������������������的总体情感取向的程度,]������)(i. 例如,用户浏览历史的平均情感偏好得分这种情绪的多样性通过=(0,)来衡量,其中的值越大,表明情绪多样性越小。������ 情感多样性分数���进一步用于将模型正则化并引导到情感更多样化的方向。 以下损失函数用于此目的:1.最大值=1���中文(简体)|���| ���∈���其中,R1是训练集,R2是第k个样本的情感多样性得分负采样用于为推荐任务创建标记数据集对于用户印象中的每个点击新闻,随机选择来自同一印象的非点击样本推荐损失是点击样本的负对数似然,定义如下:电子邮件:info@jiangshi.com.cn���ℒ���������=−∑���������()(3)���∈������������(���<$+)+ ∑������������(��� −)������=1���,���其中,+是第10次点击新闻的点击得分,−是第10次点击新闻样本的点击得分,���������������,对应的n个阴性样本,n是训练集。���最后的损失函数带来所有三个损失,即,推荐损失、情感预测损失和情感多样性损失一起如下:���������������������������������������=其中,R1和R2是分别控制情感预测损失和情感多样性损失的影响的超参数。2https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english有效的无。以用户为中心的情感多样性。���列表内情绪多样性以用户为中心的主题多样性3.2. 评价视角我们从五个不同的角度来评估我们的再现:有效性,以用户为中心的情感多样性,内部列表情感多样性,以用户为中心的主题多样性,和内部列表主题多样性。注意,与列表内多样性度量相反,以用户为中心的度量评估与用户的先前新闻消费有关的多样性 我们使用配对t检验和Bonferroni校正[19,20]将我们的再现结果与所有基线和扩展进行比较。我们使用最大有效性C、最大有效性RR、最大有效性CG@5和最大有效性CG@10来评估有效性。我们评估以用户为中心的情感多样性使用的情感对齐指标的WU等。������������[3],定义如下:������C������RR=���������(0,��� ∑���),���@���=���������(0,������ ∑��� ���)(5)=1���=1其中,C是推荐列表的长度(即,候选项目的数量),并且,P2P是在该列表中的位置P2P处排名的新新闻文章的情感倾向评分;并且,P2P是对应用户的总体情感倾向。���因此,排名靠前的候选人的情感越接近用户的整体情感取向,情感对齐度量就越高。因此,较低的情感一致性分数表明更多的情感多样性建议。(未包含在原始文件中 由于新闻文章的情感极性得分������仅为一个标量,因此我们通过对������������推荐候选文章的Top-K列表中的每个新闻对之间的情感极性得分的绝对差进行平均来计算列表内情感多样性:������������@���=2∑|������−������|(六)������������������(列表内情感多样性得分介于0和1之间,其中0是最大潜水员。(未包含在原始文件中 我们考虑新闻文章的类别(例如,体育)和子类别(例如,足球)来计算主题多样性。我们用1-hot-encoding表示新闻文章的一个(子)类别我们通过总结所有浏览的新闻类别表示来计算用户������的类别表示。类似地,我们通过对推荐的前K个候选新闻文章的类别表示求和来计算推荐列表������的类别表示C@。然后,我们������通过在和C之间取余弦相似���������性来测量多样性���。这导致了一个介于0和1之间的度量,其中0是最大潜水员。类似地,我们测量������RR,不同之处在于计算所有候选类别表示的加权平均值������以获得推荐列表的表示RR,其中权重是相应新闻文章的排名。������RR=������������������(������RR,������),���@���= (���C@���,��� ���)(7)���������������������参数设置。列表内主题多样性(未包含在原始论文中)。我们再次用1-hot编码表示新闻文章的(子)类别。 我们衡量内列表主题多样性的推荐列表,通过计算平均成对余弦相似度的1-热编码的类别���表示推荐的前k名的新闻文章。这导致了一个介于0和1之间的度量,其中0是最大潜水员。������������@���=2∑������������������(������,������)(8)������������������(4. 实验环境数据集。原始论文的数据集是由2018年10月31日至2019年1月29日收集的MSN News 3日志构建的,但尚未开源,我们的访问请求尚未得到回复。因此,我们在实验中使用MIND [2]数据集-特别是MIND-small4版本-因为它来自相同的来源。 它是在2019年10月12日至11月22日的六周内从5万用户(至少有五次点击)中随机抽样的,其中前五周用于培训,最后一周用于测试。一个样本由时间戳、用户id、表示用户的点击历史的按时间顺序排序的新闻id的列表以及具有对应标签的混洗候选新闻id的列表(即,1表示点击,0表示看到但未点击)。数据集的详细统计总结见表1。Mind-small的用户数量是其他网站的五倍,而印象数却减少了两倍,平均每个用户的积极互动减少了七倍(七次点击与三次点击)。49)比SentiRec数据集。表1SentiRec数据集(如报告所示)和MIND-小型数据集统计数据。数据集#用户#新闻#印象#点击#非点击SentiRec一万四千二百五十五四十四万五千二百三十四十八万九千六百四十四6,651,940MIND-small 五万六千五百二十八230 117 347 7278,236,715训练 所有模型都是在90%的训练数据上训练的。剩余的10%用于通过优化AUC来调整超参数。我们使用提前停止,最小delta为0.0001 AUC,耐心为5。请注意,我们在所有模型中使用300维Glove嵌入[21]来初始化单词嵌入层和NLTK [22]单词分词器进行分词。此外,我们将每个印象中浏览的新闻数量限制为50,标题长度限制为20个术语(较小的序列是零填充的)。我们将负采样率K设置为4。 我们将20%的dropout应用于单词嵌入。我们使用多头自我注意力,15个注意力头,然后是一个200维查询向量的附加注意力层我们使用ADAM [23]优化器,学习率为0.0001,批量大小为128。对于基于VADER-SA的模型(VADER-SA)���������������������https://www.msn.com/en-us/news3https://msnews.github.io/index.html我们设置= 0.4和= 10,对于基于BERT-SA的模型(R),我们设置= 0.4和��������������������� =Ba1s。线。我们将复制和调整的模型与数据集提供者建议的以下基线进行比较[2]:LSTUR [11](未包含在原始论文中- 神经新闻推荐器捕获用户我们用用户嵌入初始化GRU网络我们将用户长期兴趣的掩蔽概率我们将20%的dropout应用于单词嵌入。负采样率K被设置为4。对于CNN,我们将过滤器的数量设置为300,窗口大小设置为3。我们使用一个200维的查询向量作为附加注意力层。我们使用ADAM [23]优化器,学习率为0.0001,批量大小为256。NAML [10](未包含在原始论文中)神经网络新闻推荐器(如原始论文中的NAML改编)- 包含多个视图的神经新闻推荐器(即,标题、类别和摘要)到新闻表示中。我们将摘要长度限制在50个术语。 我们将20%的dropout应用于单词嵌入。我们将类别嵌入维度设置为100。CNN过滤器的数量设置为400,窗口大小设置为3。我们用200维的添加注意力层中的查询向量负采样率K被设置为4。我们使用ADAM [23]优化器,学习率为0.0001,批量大小为256。我们还训练了一个“仅限标题”的版本-如原始论文[ 3 ]中所使用的���我们获得了与NAML相同的参数,而不需要类别维度。NRMS [12]- 神经新闻推荐器,它在新闻编码器和用户编码器中利用多头自注意。 我们使用多头自我注意力,15个注意力头,然后是一个200维查询向量的附加注意力层。我们将20%的dropout应用于单词嵌入。我们将负采样率K设置为4。我们使用ADAM [23]优化器,学习率为0.0001,批量大小为128。5. 结果和分析在本节中,我们介绍和分析我们的结果,并回答我们以前提出的研究问题。 我们调查复制的模型是否如原始论文和研究中所描述的那样运行:RQ 1我们复制的SentiRec实现与MIND [2]基线相比如何关于有效性?我们比较推荐性能(即,���������������������复制模型的最大值(即,[001 pdf 1st-31files]相对于基线(即,������������[11]第十一届中国国际汽车工业展览会&������������[10]、[12]和[13],总结在表2的第1-6行中。���������相对原始的工作,我们的情绪再现并没有显着优于所有关于推荐有效性的基线。此外,它的表现类似于密切相关的���基线测量。此外,使用预先训练的神经情感分析器而不是基于规则的分析器不会产生性能增益(比较表2中的第6行到第7行)。RQ 2我们复制的SentiRec实现与MIND [2]基线相比如何关于以用户为中心的情感多样性?我们通过比较情感对齐分数(即,你���好,模型nDCGAUCMRR@5@10表2比较有效性(即,AUC、MRR、nDCG@5和nDCG@10)。更高的有效性分数表明更好的性能。 下标V(VADER-SA)和B(BERT-SA)指示所使用的情感分析器。注意,†表示在α0.05时与R的统计学显著差异������������������������。1随机0.4994†.2190†.2236†0.2863†2.6194.2982.3190.38043.62060.2913†.31850.3782†4张图片.6210†0.2840†.3101†0.3721†5R.6228.2946.3191.38176 R.6224.2952.3211.38187 R.6219.2942.3203.3820表3比较以用户为中心的情感和主题对齐(即,������RR,���@5,���@10,������RR,���@5,���@10)。较低的比对分数指示较好的多样性。 下标V(VADER-SA)和B(BERT-SA)指示所使用的情感分析器。注意,†表示在α0.05时与R的统计学显著差异������������������������。模型VADER-SA标签RR@5 @10BERT-SA标签RR@5 @10RR@5 @101R0.0086†0.0150†0.0188†0.1095†0.1748†0.2638†.4315†0.3680†0.4428†230.0157†0.0131†0.0276†0.0210†.03820.0248†.1741†.1132†0.2623†0.1749†0.3933†0.2936†0.5091†0.4504†0.4570†0.3744†0.5047†0.4270†4R0.0158†0.0281†0.0412†0.1655†0.2637†0.4297†0.4735†.4220†0.4867†5R0.0149†.0282.0390.1317†.2317†0.3869†.4883.43530.4926†6R.0161.0284.0386.1300.2153.3651.4872.4328.48917R0.0174†0.0325†0.0449†0.1560†0.2675†.4330†0.4905†.4414†0.4942†5和10-分数越低表示情感多样性越������������������������和基线(见表3第1-6行)。 在最初的工作[3]中,SentiRec在情感多样性方面优于所有基线-甚至是随机模型-同时保持最高的推荐性能得分。我们无法证实这些发现。此外,我们的研究结果表明,基线在各个方面都表现良好,即,推荐性能和情感多样性。特别是,我们没有像原始论文那样观察到情感多样性的大幅度虽然原始论文以用户为中心研究情感多样性,但在推荐的新闻文章列表中调查情感多样性也很重要;因此,我们问:RQ3我们复制的SentiRec实现与MIND [2]关于列表内情感多样性的基线相比如何?我们计算截止点K处的列表内情感相似性,即,���������������通过考虑前K个推荐列表中新闻文章的成对差异表4(第1-7行)表4比较基于情感和基于主题的列表内相似性(即, ������������@5、������������@10、������������@5、������������@10)。较低的列表内相似性得分指示较好的多样性。下标V(VADER-SA)和B(BERT-SA)指示所使用的情感分析器。注意,†表示在α0.05时与R的统计学显著差异������������������������。模型VADER-SA标签电子邮件:info@10.comBERT-SA标签电子邮件:info@10.com电子邮件:info@10.com1R0.2393†0.2394†0.5047†0.5045†0.0774†0.0775†2.2336†0.2377†0.4770†0.4863†0.1396†0.1089†30.2600†.2480†.5221†0.5049†0.3377†.1886†4R.2313.23470.4826†.4826.1223†.10265R0.2376†0.2393†.4700.4819.1290.101667RR.2310.2423†.2337.2404†.46820.4444†.48120.4648†.1289.1429†.10130.1063†总结了我们的成果。较低的列表内相似性得分指示较好的多样性。与我们以用户为中心的多样性调查结果相反,基线已经表现出不错的性能,我们观察到我们的复制模型,即, ���������������������������,显著优于大多数关于列表内情感多样性的基线。相比之下,������������基线表现最差。这表明,额外的模式可能会促进以用户为中心的情感多样性(见表3),但通过推荐具有相当高的情感相似性的前K篇新闻文章,损害了列表内的情感多样性有效性和情感多样性是评估SentiRec的新兴视角;除此之外,我们还关注主题多样性并调查:RQ4在以用户为中心和列表内主题多样性方面,我们复制的SentiRec实现与MIND [2]基线相比如何?我们调整了以用户为中心的情感对齐度量,并引入了以用户为中心的主题对齐度量,即,������RR和���@���,通过考虑新闻文章的类别成员。较低的生物多样性RR/RR@RR表示较高的多样性。表3的最后三列总结了我们的分析。R搜索引擎搜索模型向用户先前浏览的新闻文章推荐最具主题多样性的新闻文章,除非考虑前10个推荐,否则R搜索引擎搜索模型表现出色������������最大值和最小值R基线显著达到更好的水平���������以用户为中心的主题多样性比我们复制的���������������R������模型,同时保持合理的推荐性能-展示了基线模型的竞争力。如果我们考虑列表内的主题多样性������������@���(见表4最后两列),这是由推荐列表内的成对分类差异定义的,R���������������模型推荐最多样化的新闻文章。我们的繁殖能力,������������������������该模型与通用汽车公司的通用汽车公司R和通用汽车公司R的基准线相当������������������6. 讨论总的来说,我们无法确认原始工作的结果,它们在有效性和以用户为中心的情感多样性方面优于所有基线。 我们认为,原始SentiRec和我们的复制之间的有效性和多样性差异是由于数据集的差异,突出了���������������R������关于泛化的缺点。 我们的数据集包含的用户数量是原始论文的五倍,新闻数量约为23 K;然而,它包含的积极反馈相对较少(即,点击),仅持续六周(而不是九周)。因此,与原始论文相比,所使用的数据集中包含了固有的更多样化的行为 有人可能会说,我们的样本中的情感多样性问题并不像原始作品的样本那样普遍。然而,我们证明了������������基线显著优于我们的再现,并接近R���������������模型的性能。 这突出表明有改进的余地,而R的多样化方法没有利用���������������������这一点。如前所述,在以用户为中心的情感多样性方面,Ranking Ranking[10]模型优于所有其他模型(除了Ranking Ranking Ranking模型),同时保持与我们的Ranking Ranking复制品相当的推荐性能。��� 除了新闻文章的标题外,它还考虑类别,子类别和摘要。因此,我们的理由是,考虑不同的方式有助于多样化任务。注意,在原始纸张中,仅用一种模态(即,������������标题)-在本作品中表示为"无标题文档“。除了以用户为中心的观点的情感多样性,我们还分析了一个更通用的每-前瞻性的,即,列表内情感多样性。 我们证明,我们的再现实现了出色的列表内情感多样性,虽然优化了以用户为中心的情感多样性。 将这两种观点放在一起为以下问题打开了空间,我们将在未来的工作中解决这个问题:在保持用户满意度的同时,我们应该优化情感多样性的哪种观点?从以用户为中心的角度进行优化则更为保守。这将使具有与用户的新闻消费的整体情感正交的情感的新闻文章排名更高。这种方法有很强的推动力,但可能会通过推荐更多的“不寻常”来降低用户满意度另一方面,通过建议具有不同情绪的新闻文章,针对列表内视角的优化更加宽松然而,它承担着用户可能仍然遵循他们以前的行为并且仅消费例如负面新闻文章的风险。我们的最终评估视角是主题多样性,这是原始工作没有考虑特别是,我们考虑推荐的新闻文章和用户浏览的新闻之间的分类差异以用户为中心的主题多样性和推荐列表中的新闻文章内的分类差异,即,列表内主题多样性。在这两个指标中,R语言的推荐模型都实现了最具主题多样性的推荐。抛开R的束缚模型,而在以用户为中心的角度来看,我们的复制性能优于���������������������������大多数基线,在内部列表的角度来看,它与基线相当或优于基线。随着不同的情绪分布在新闻类别,我们计划分析是否专题多样化已经在未来的工作中产生了情感多样化和更高的用户满意度7. 结论这项工作旨在重现SentiRec [3]-一种情感多样性感知神经新闻推荐模型-而无需访问原始源代码和数据集。 我们从头开始重新实现SentiRec,并将其公开提供。我们使用MIND [2]数据集,它与原始论文具有相同的来源,尽管时间段不同。总的来说,我们无法证实SentiRec论文的重要发现。复制的模型在(以用户为中心的)情感多样性方面并没有优于随机模型,同时与原始工作中的基线相比保持了最佳此外,我们的研究结果表明,基线已经表现良好。特别是,NAML [10]模型提供了最具情感多样性的建议(w.r.t.用户我们的结论是,这些差异是由于数据集的差异突出了SentiRec关于泛化的缺点。除了原始论文,我们还考虑了与用户以前的用户历史相比,推荐列表的主题多样性。与以前类似,我们表明,基线,特别是基线,比我们复制的显著���������这是一个很好的模型。除了基于规则的情感分析器,如Wu等人所使用 [3],我们使用预训练的神经情感分析器进行了实验,以研究神经模型是否会产生更好的情感标签,从而提高整体训练性能。然而,我们没有观察到推荐性能或情感多样性的改善。虽然原始论文仅通过将用户的整体用户历史与推荐列表进行比较来关注情感多样性以用户为中心的多样性),我们还调查了推荐列表内新闻文章之间的情感和主题多样性(列表内多样性)。与以用户为中心的评估相反,列表内评估显示,我们的用户复制率显著优于大多数基线,而强电子邮件基线表现不佳。我们讨论了我们不同的评估视角(即,以用户为中心/列表内情感和主题多样性)。我们计划进行离线和在线实验,在未来的工作中进行比较和结合。此外,我们计划将其他辅助信息纳入端到端推荐模型,如情感感知和多样性。最终,我们希望创建推荐模型,为广泛的目标进行优化,并通过更负责任的推荐造福社会。致谢这项研究得到了基督教多普勒研究协会(CDG)的支持,并获得了欧盟H2020研究和创新计划(批准号822670)的资助。引用[1] F. 里 奇 湖 罗 卡 奇 湾 Shapira , Recommender Systems : Introduction andChallenges , SpringerUS , Boston , MA , 2015 , pp.1-34网 址 :https://doi.org/10.1007/978-1-4899-7637-6_1 。 doi : 10.1007/978-1-4899-7637-6\_1。[2] F. Wu,Y.乔,J. - H. Chen C.,马缨丹属Wu,T. Qi,J. Lian,D. Liu,X. Xie,J. Gao,W. Wu,M. Zhou,MIND:一个用于新闻推荐的大规模数据集,载于:计算语言学协会第 58届 年 会 论 文 集 , 计 算 语 言 学 协 会 , 在 线 , 2020 年 , pp. 3597-3606 网址:https://www.aclweb.org/anthology/2020。 acl-main.33 1. doi:10. 18653/v 1/2020。acl-main。331.[3] C. Wu,F. Wu,T. Qi,Y. Huang,SentiRec:感知情绪多样性的神经新闻报道,载于:计算语言学协会亚太分会第一次会议和第十届自然语言处理国际联合会议论文集 , 计 算 语 言 学 协 会 , 中 国 苏 州 , 2020 年 , pp.44 比 53 网 址 :https://www.aclweb.org/anthology/2020.aacl-main.6。[4] C. Hutto , E.Gilbert , Vader : A parsimonious rule-based model for sentimentanalysis of social media text,Proceedings of the International AAAI Conference onWebandSocialMedia8(2014).网址:https://ojs.aaai.org/index.php/ICWSM/article/view/14550。[5] D. Jannach,M. Zanker,A. Felfernig,G. Friedrich,Online Consumer DecisionMaking , CambridgeUni versityP r ess , 2010 , p. 234-252 。 doi : 10.1017/CBO9780511763113。012.[6] R. 巴夫湾Wachsmuth,K.哈提卜湾斯坦,分析风格在新闻编辑论证中的说服作用,在:计算语言学协会第58届年会的会议记录,计算语言学协会,在线,2020年,pp。3154-3160.网址:https://www.aclweb.org/anthology/2020.acl-main.287。doi:10.18653/v 1/2020。acl-main。287.[7] M. Sertkan,J.Neidhardt,H.Werthner,文档,主题和作者:在线新闻的文本挖掘,在:2019年IEEE第21届商业信息学会议(CBI),第01卷,2019年,p p。405-413 doi:10。1109/CBI. 2019年。00053。[8] S. 张丽Yao,中国山核桃A.太阳,Y.基于深度学习的推荐系统:调查和新观点,ACMComput 。 监 视 器 52 ( 2019 ) 。 网 址 : https://doi.org/10.1145/3285029 。 doi :10.1145/3285029。[9] Y. 德尔朱,M。Schedl,P.克雷莫内西湾多媒体内容推
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功