新闻推荐系统中的立场和情绪分析的偏见

161 浏览量更新于2023-11-29 收藏 591KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

448→利用情绪和立场检测分析新闻推荐系统的偏见MehwishAlammehwish. kit.edu卡尔斯鲁厄理工学院德国Katharinakaludwig@mail.uni-mannheim.de曼海姆大学德国和reeaIanajuandreea@informatik.uni-mannheim.de德国曼海姆大学Philipp Müllerp. uni-mannheim.de曼海姆大学德国亚历山大·格罗特alexander. kit.edu德国卡尔斯鲁厄理工学院信息研究中心曼海姆大学heiko@informatik.uni-mannheim.de德国摘要在线新闻提供商使用新闻推荐系统来减轻信息过载并向用户提供个性化内容然而，算法新闻策展被假设为创造过滤泡沫并加强用户的选择性曝光，可能会增加他们对两极分化的意见和假新闻的脆弱性。在本文中，我们展示了如何利用新闻项目的立场和情感信息为此，我们已经注释了德国新闻语料库的主题，使用立场检测和情感分析的移民。在四个不同推荐系统的实验评估中，我们的结果显示，所有四个模型都有轻微的倾向，推荐对难民和移民主题有负面情绪和立场的文章。此外，我们观察到基于文本的评论者的情感和立场偏见与预先存在的用户偏见之间存在正相关关系，这表明这些系统放大了用户的意见，降低了推荐新闻的多样性。知识感知模型似乎是最不容易出现这种偏差的模型，其代价是预测准确性。CCS概念• 信息系统推荐系统;情感分析;个性化。关键词新闻推荐，过滤气泡，回声室，极化，立场检测，情绪分析，德语新闻文章ACM参考格式：Mehwish Alam，Andreea Iana，Alexander Grote，Katharina Ludwig，PhilippMüller，and Heiko Paulheim. 2022年新闻偏见分析首先，两位作者对本研究做出了同等的贡献。本作品采用知识共享署名国际协议（Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.3524674使用情绪和姿态检测的推荐系统。在Compan-ion Proceedings of the WebConference 2022（WWW '22 Companion），2022年4月25日至29日，虚拟活动，法国里昂。 ACM ，美国纽约州纽约市， 10 页。https://doi.org/10.1145/3487553.35246741引言每天都有大量的新闻文章在网上发表，导致信息量超过了互联网用户的消费能力。为了减轻这种信息过载并基于用户过去的兴趣向用户提供定制的内容，推荐系统被新闻提供商广泛采用然而，这种算法新闻策展通过选择性地过滤掉看似无关的文章（以最大限度地提高用户参与度）[32]或与读者先前存在的信念和态度不一致的文章，影响用户对不同内容的接触，因为用户更有可能接受强化他们观点的信息[ 10 ]。随着时间的推移，推荐系统塑造用户对世界的感知的能力已经导致人们担心，通过算法创建的“过滤气泡”[32]和自我选择的“回声室”[20，41]，个人被从不同的角度隔离开来，他们只与具有相似意识形态观点的个人互动。在（政治）新闻的背景下，过度暴露于不太多样化的观点可能会决定一种态度强化螺旋[8，40]，从长远来看，这可能导致意见两极分化，甚至是极端政治或意识形态观点的个人激进化[2，3，25]。多样性不仅是新闻质量的重要特征[29]，也是确保信息平衡和广泛多样的重要特征，以在任何民主社会中创造一个知情的公众[17]。尽管如此，新闻多样性是一个多方面的概念[14]它可以同时指来源的多元化（来源多样性）[44]，讨论主题的多元化（内容多样性）[14]，以及对给定主题采取的立场（观点多样性）[1]。一些重要的工作集中在构建数据集，用于检测和分析新闻文章中更一般的媒体偏见概念[9，23，39]，并在社会科学和计算机科学领域的媒体偏见研究之间建立联系[15]。从推荐系统的角度来看，情感分析和立场检测已被用来衡量和控制新闻的多样性。在情感分析中，系统确定一段文本是积极的，消极的还是中性的[24，34]。然而，在这方面，449WWW在立场检测中，系统将确定文章或立场和情感注释可用于识别新闻推荐系统是否强化选择性曝光并增加用户对极化意见和假新闻的可接受性同时，立场和情感标签可以构成用于控制个性化推荐系统中的极化水平以及用于生成具有更多样化的情感取向和观点的建议的线索在本文中，我们使用情感和立场注释来分析不同类型的推荐系统是否存在对某种情感或观点的潜在偏见，以及这是否会降低推荐的多样性并增强用户为此，我们使用迁移学习来注释GeNeG，这是一个德国新闻文章的数据集，带有情感分数和立场标签。然后，这些注释用于检查四个推荐系统的结果，这些结果与在推荐文章中识别的情感和立场以及来自用户阅读历史的情感和立场有关。本文其余部分的结构如下。首先，我们讨论了各种语言中的立场检测的相关工作（第2节）。其次，我们介绍了GeNeG，并描述了它的策展和注释过程（第3节）。第三，在第四节中，我们评估了一组新闻推荐系统，并检查他们的情感和立场偏见。最后，我们在第5节中讨论了研究结果，并展望了本研究计划的下一步。2相关工作在下文中，讨论了各种研究，这些研究考虑到了以不同语言创建用于姿态检测的数据集，因为姿态检测的多语言性方面还没有得到充分研究。然后，我们更特别地集中在多语言方面的立场检测。有关姿态检测技术的详尽调查，请参阅[22]。在当前的研究中，我们没有讨论知识感知的新闻推荐系统，然而，关于知识感知的新闻推荐系统的更多细节，请参考[18]。2.1STANDER [6]是一个用于立场检测和细粒度证据检索任务的数据集，用于未来的立场检测研究以及多任务学习。它载有3，291篇专家（专业记者）的附加说明的文章。该语料库也与Twitter数据集WT-WT [6]语料库保持一致。STANDER新闻文章的主题是“医疗保健行业美国公司的合并”。立场注释包括“support”、“refute”、“comment”和“unrelated”。此外，语料库还包括“证据”作为注释，表明文本中用于确定文章立场的部分。采用2至4名注释员，并采用多数表决来决定最终注释。在[31]中，作者提出了一个tweet数据集，其中注释了tweeter关于已经选择的该数据集包含六个感兴趣的目标，“对于每个目标，从最初收集的170万条推文中随机抽取1000条推文。这些推文由8名注释者注释该语料库总共包含4，870条带注释的推文。该数据集已用于SemEval 20161中的站立检测任务。这个立场数据集，随后也被注释为情感，可以用来更好地理解立场，情感，实体关系和文本推理之间的关系在假新闻检测挑战赛FNC-1 [16]中，组织者专注于在文档级别执行立场检测。这些文件被分为四类：“同意”，“讨论”，“不同意”，“无关”。数据包含2，587个标题和文档。在这些文档中，7.4%被标记为所有上述用于姿态检测的数据集都是针对英语的，因此不能用于在GeNeG上执行姿态检测。2.2多语言姿态检测在[27]中，作者创建了Cheese，这是一个新的数据集，包含3，693对辩论问题和相关的瑞士德语新闻文章，并附有立场和情绪注释。这些新闻文章发表于2004年至2020年之间，涉及24个主题，包括科学、环境、政治、宗教、社会等。立场注释包括“反对”、“反对”、“讨论”和“无关”，而情感注释包括“喜悦”、“信任”、“恐惧”、“预期”、“悲伤”、“厌恶”、“愤怒”、“愤怒”和“没有情感”。除了数据集，作者还提供了一个监督分类任务，目标是新闻文章对问题的立场。分类算法使用德语（德语BERT）的上下文语言模型SardiStance [5]是意大利语推文的立场检测任务针对两种不同的设置创建共享任务：（i）文本立场检测，仅利用由推文提供的信息，以及（ii）上下文立场检测，添加关于推文本身的信息，诸如转发的数量、支持的数量或发布的日期，关于作者的上下文信息，诸如关注者计数、位置、用户的传记，以及从用户的朋友、关注者、转发、引用和回复的网络提取的广告知识。为该任务构建的数据集包含70万条用意大利语写的关于“Movimentodelle Sardine”的推文这些推文是从2019年11月至2020年1月收集的，并使用标签“反对”，“反对”，“中立”和“不相关”进行注释。数据集还包含注释，指示推文是“讽刺的”、“非讽刺的”还是“未定义的”。在[47]中，作者提出了中国微博上的立场检测任务。这被进一步分为两个子任务，其中第一个是监督分类任务，其利用给定的标记数据检测对五个感兴趣目标的第二个是可选的无监督任务，只需要未标记的数据。以前讨论的数据集只关注一种语言。作为进一步，在x-stance [42]中，作者促进了多语言，多目标立场检测，这也有助于执行跨语言立场检测。作者使用多语言BERT [7]在美国辩论，即真正的1 https://alt.qcri.org/semeval2016/task6/新闻推荐系统的偏向性分析WWW450−−f avor+aд进行姿态分类。该数据集包含英语、法语、德语和意大利语的问题和新闻文章对。3用情感和距离丰富德语新闻知识图谱本节讨论有关GeNeG的必要细节，以及执行情感分析和立场检测所采用的方法。3.1GeNeGGeNeG [19]是一个新闻知识图谱，由4，557篇关于难民和移民主题的德国新闻文章组成，这些文章收集自39家媒体，涵盖广泛的政治领域，包括极右翼和极左翼的在线出版物。该语料库由2019年1月1日至2020年10月20日之间发布的新闻组成，基于代表主题的关键词词干（例如，‘flüchtl’, ‘migrant’, ‘asyl’),and collected from the news outlets via 数据集包含丰富的文本和元数据信息，如内容、出处、出版日期、作者或标记的关键字。此外，已经从文章的内容中提取了命名实体（例如，人、位置）和元数据（例如，出版商，作者），并使用维基数据消除歧义[45]。从这个数据集构建的新闻知识图表示一个异构网络，其中新闻内容和现实世界的实体被表示为节点，而这些项目之间的不同关系构成了图的边缘。节点被划分为文字，表示文本内容，日期或极化分数，和实体，指示标识的命名实体。反过来，实体节点可以链接到维基数据，或无歧义（如果在维基数据中找不到）。GeNeG提供了三种风格：基本图- 包含从文章中提取的文本信息，元数据和实体，实体图-通过删除所有文字节点从基础版本中导出，它只包含从文章中提取的实体，并使用它们的三跳维基数据邻居进行丰富，以及完整图-组合前两个图，并合并文字和实体。基本GeNeG包含54，327个节点和186，584条边，表示16个属性。实体GeNeG由844，935个节点和代表1，263个属性的6，615，972条最后，完整的GeNeG包括868，159个节点和6，656，779条边，表示1，271个属性。3.2情感诠释为了用情感得分来注释每篇新闻文章，我们使用了一个预先训练的基于BERT的情感分类模型[7]用于德语文本[13]。该模型使用softmax函数来计算概率估计，该概率估计将每个文档分类为正面，中性或负面。为了将这些概率转换为范围为-1到1的情绪得分，我们将消极情绪概率从积极情绪概率中减去。更正式地，这表示为s=pppn，其中s等于情感得分，而pp和pn分别表示积极和消极的情感概率。我们忽略中立性分数，因为它被隐式编码为1 −pp −pn。上在GeNeG语料库中，我们观察到对负面情绪的文章有轻微的偏斜，如smean=−0的平均和中值情绪评分所示。154，且smedian=−0。019，res pecti v el y.3.3迁移学习在德语新闻文章中的立场检测为了对收集的关于难民和移民主题的新闻文章执行立场检测，执行迁移学习为了做到这一点，第一步是为德语文章选择合适的训练数据集，第二步是将文章分为两类，即训练数据选择。有两个数据集是针对德语引入的，即，Cheese [27] 专门针对德语，以及 x-stance的德语部分[42] 。Cheese数据集被排除在训练考虑之外，因为每个类中的实例数量，即，“在”，“反对”，“无关”，“讨论”，是高度不平衡的（即，702，286，1428和774），导致我们的语料库预测的不平衡类。这个问题已经在[37]中进行了更详细的讨论，其中作者提出了一个级联的二进制分类器来考虑状态中的类的层次结构更具体地说，作者首先将文本分类为相关或不相关，然后将相关文本标记为最后的二进制分类是使用“赞成”或“反对”类标签的文本在我们的例子中，我们使用x-stance [42]数据集来训练分类器，其中包含两个类的平衡数量的文章，即，训练数据是从具有语言标签“de”的x-stance中提取的，即，只有德国人从x-stance提取的语料库的统计数据在表1中给出。表1：x-stance数据集德国部分的统计数据。数据集对忙总培训1713016720 33850验证145114202871测试58826009 11891GeNeG中的姿态检测。立场检测考虑问题和文章对，并将文章的立场分类为赞成或反对手头的问题表2中给出了用于构建分类问题和新闻文章对的问题。 GermanBert 3 [4]在x-stance中提供的训练数据集上进行了微调。测试集上表现最好的模型的超参数是：learnin <$rate = 3 e 5和epochs数= 4。之后，执行迁移学习以将GeNeG中的新闻文章（作为测试数据集）分类到两个类中的一个，即，在未来的研究中，我们希望对注释的GeNeG文章进行人体评价。表3示出了针对每个问题的姿势检测的结果，以及平均分数，计算为f av或− a <$。2https://github.com/andreeaiana/german-news3 https://huggingface.co/bert-base-german-casedWWWAlam和Iana等人451联系我们}⟨ ⟩∈表2：问题-新闻文章对的问题德国问题英语翻译（为了便于理解）(Q1)请告诉我您的航班是去德国吗你支持难民来德国吗(Q2)请告诉我您在德国的飞行时间你支持难民在德国生活吗(Q3)请告诉我，您在德国工作吗？你支持难民在德国工作吗(Q4)Sollte Deutschland Flüchtlinge aufnehmen？德国应该接收难民吗？(Q5)Sollte Deutschland Flüchtlingen helfen？德国应该帮助难民吗？表3：“赞成”或“反对"配对问题的文章。问题赞成的文章反对条款Avg. 评分（Q1）21652392-0.050（Q2）21932364-0.038（Q3）22102347-0.030（Q4）21202437-0.070（Q5）21922365-0.038最后，在两个新创建的属性（即 geneg ： in_favor 和geneg：against）的帮助下，GeNeG还填充有姿态检测的输出。由此产生的三元组的形式为 article ， stance ，question，wherestancegeneg：in_favor，geneg：against，andquestion Qn，n=一五该数据集可通过Zenodo4访问，访问受限4新闻推荐人的情感与立场偏差新闻文章的立场和观点可以用于确定新闻评论者是否偏向于文章的某种观点或立场，以及这是否反过来与用户对给定主题的现有观点相关并加强用户在这一部分中，我们首先介绍了分析的四个新闻推荐系统，并描述了用户数据。之后，我们评估模型的性能，并调查他们的情绪和立场偏见。4.1推荐模型协同过滤是音乐、电影等领域最常用的推荐方法。尽管如此，基于内容的方法在新闻推荐领域中使用最广泛，这主要是由于用户通常在新闻网站上没有长期的个人资料，阅读历史仅限于单个会话，并且几乎完全从点击日志中隐式地收集反馈[18，21]。在我们的分析中，我们比较了四种不同的基于内容的推荐系统。前三个是文本，即，它们完全基于文章所有基于文本的模型都使用余弦相似度来确定候选新闻文章与用户4https://doi.org/10.5281/zenodo.6039372词频-逆文档频率（TF-IDF）推荐器为每篇文章使用TF-IDF [ 38 ]向量表示。Word2vec推荐器使用从大型文本语料库中学习的词嵌入对文章进行编码[30]。更具体地说，我们使用在Common Crawl和Wikipedia数据集上训练的预训练德语word2vec模型[12]来学习文章中单词的潜在表示。文章的向量表示被计算为其单词嵌入的平均值。Transfomer架构使用注意力机制将上下文纳入文本嵌入[43]。我们使用预先训练的跨语言模型来嵌入英语和德语的句子[28，35]来编码新闻文章中的句子文章的最终表示是通过平均其所有句子的嵌入向量来获得的RippleNet[46]是一个知识感知的推荐器，沿着知识图的边缘传播用户该模型基于从用户阅读的文章中提取的实体生成波纹集（即编码潜在用户兴趣的多跳实体邻居的这些波纹集用于探索高阶偏好，其中用户偏好的强度最后的点击概率预测使用的偏好分布的用户的候选新闻，通过叠加多个波纹集。对于RippleNet，我们使用实体GeNeG作为推荐器的知识图。特别是，情感和立场信息不包括在用于计算推荐的图中。4.2用户数据我们通过在线研究收集了用户数据，旨在测量推荐系统对用户的政治极化效应该研究基于第3.1节中描述的新闻数据集。然而，732篇超过1,500字的文章被从实验中删除，以限制参与者所需的阅读时间，并确保对刺激的强烈反应。研究中的每个参与者都被随机分配到四个测试中的一个，即TF-IDF，Word 2vec，Transformer或随机推荐基线。每个参与者被要求从六篇文章的预览中选择一篇文章，然后阅读。用户的选择包括在他或她的阅读历史中。这个过程重复了四次，每个参与者有四次互动。····新闻推荐系统的偏向性分析WWW452[−]我们使用80：20的比例将用户数据分为训练集和测试集。由于85%的用户评级是使用基于文本的评论器的推荐生成的，因此这些基线容易过拟合。因此，我们生成一个测试子集，其中只包含用户对来自完整测试集的随机建议文章的评分。用户数据统计见表4。有关在线研究和数据收集的更多详细信息，请参见附录A。表4：用户数据统计。数据集项目用户总3,8251,417培训3,3651,414完整的测试1,6331,174随机测试3161774.3推荐系统的评价在下文中，我们描述了实验装置，并讨论了所提出的多功能模块的评估结果4.3.1实验设置。我们评估了四个推荐模型的点击率（CTR）预测。在这种情况下，每个推荐器被应用于来自测试集的每个用户-文章对，以预测用户点击候选文章的可能性。此外，我们应用了最小-最大缩放的相似性度量输出的基于文本的推理机作为一个近似的概率得分。我们使用准确度（ACC），曲线下面积（AUC）和F1评分来评估模型的性能所分析的推荐系统5的关键参数设置如下。对于TF-IDF，我们使用1和2的n-gram范围以及l2-norm正则化。 Word2vec和Transformer编译器使用维度为300的嵌入向量，并重新表5：CTR预测结果。模型完成ACC AUC F1随机ACC AUC F1TF-IDF0.7320.8730.6470.4870.4990Word2vec0.5140.7940.6740.4990.4740.663Transformer0.5050.7790.6710.4990.5150.665RippleNet0.5530.5740.5230.5590.5780.531无法对此测试集中的文章做出任何正确的预测，导致F1得分为0。总的来说，我们得出的结论是，通过仅使用GeNeG中的实体来计算推荐，RippleNet能够实现不错的与纯粹基于文本的搜索器相比，对数据4.4偏倚分析除了预测者在这项研究中，每个基于文本的模型都生成了一个输出，其中包含与用户历史记录中的文章最相似的前k篇文章，而RippleNet推荐了被用户点击概率最高的k篇文章。在我们随后的偏倚分析中，我们将所有用户的推荐文章数量设置为k=5，因为我们观察到，大多数调查的网点平均建议与用户当前阅读的文章相关的其他5篇文章为了量化新闻文章的立场并计算用户和评论者的总体偏差分数，我们对文章的立场标签采用以下转换函数.+1如果stance_label=Fav或768. 在RippleNet中，我们根据经验设置跳数stance_score=−1如果stance_label=Agiven设为H = 1，用户波纹的大小设为16，项目和知识图嵌入的维数设为d = 48，知识图嵌入的训练权重设为λ 2 = 0。03. 对于其他参数，我们使用[46]中的新闻推荐默认值4.3.2结果。基准推荐物的实验结果总结在表5中。在完整的测试集上，基于文本的分类器在AUC和F1方面取得了最好的成绩，而RippleNet在准确性方面优于Word2vec和Transformer分类器。然而，基于文本的推荐模型在完整的测试数据上过拟合，这是由于用户评级来源。更具体地说，从分配给TF-IDF推荐器的用户收集的评级占案例的55%以上（有关评级来源的更深入统计数据，请参阅附录A）。因此，我们研究了推荐系统在随机测试集上的性能，以减少基于文本的模型的偏差。在这个评估设置中，RippleNet在准确性和AUC方面优于所有其他的神经网络。此外，它获得了更高的F1得分比TF-IDF模型，5代码和数据可在https://github.com/andreeaiana/geneg_benchmarking上获得。对于每个用户，我们计算平均情感偏差分数，作为他或她的阅读历史中包含的文章的情感分数的平均值。类似地，每个用户的推荐者情感偏差得分被获得为推荐文章的所有情感得分的平均值。最后，所有用户的所有推荐者情感偏差分数的平均值构成推荐者类似地计算平均用户和推荐者立场偏差分数。情绪和立场的平均偏差分数都落在区间1， 1中，其中-1表示用户或推荐者倾向于对给定主题具有负面情绪或立场的文章，而+1表示相反的情况。4.4.1推荐偏差。首先，我们使用平均推荐偏差分数来回答以下问题：推荐系统是否倾向于推荐具有某种情感或立场的文章？表6显示了情绪偏差方面的结果。从这里可以看出，所有的评论者都更有可能推荐带有负面情绪的文章。然而，这种对负面情绪的倾斜应该通过考虑GeNeG中的新闻文章平均具有负面情绪来解释WWWAlam和Iana等人453––−−−表6：平均用户和推荐者情感得分。学生t检验的统计学显著性* （p值<0. 01）和 **（p值<0. 05）。在用户情绪的情况下，星号表示平均用户和语料库得分之间的统计显著性。在推荐者情感的情况下，（*/*）表示统计显著性，首先是平均用户得分，其次是平均语料库得分。"测试集Avg. 用户情感得分Avg.推荐者情感评分TF-IDFWord2vec TransformerRippleNet完成-0.171*-0.162（-/-）-0.169（-/**）-0.157（-/-） -0.148（*/-）随机-0.169-0.141（-/-）-0.170（-/-）-0.160（-/-）-0.150（**/-）表7：平均用户和推荐者立场得分。学生t检验的统计学显著<性用 *（p值0. 01）和 **（p值<0. 05）。在用户站姿的情况下，星号表示平均用户和语料库得分之间的统计显著性在推荐者立场的情况下，（*/*）表示统计显著性，首先是平均用户得分，其次是平均语料库得分。"问题Avg. 用户站位得分Avg. 推荐者立场评分（完全/随机测试集）TF-IDFWord2vecTransformerRippleNet（Q1）-0.109 /-0.093-0.140（-/-）/-0.227（**/-0.165（**/-）/ -0.219（**/-）-0.136（-/-）/-0.172（-/-）-0.082（-/-）/-0.054（-/-）（Q2）-0.102**/-0.093-0.132（-/-）/-0.220（**/-0.158（**/-）/ -0.207（**/-）-0.131（-/-）/-0.169（-/-）-0.074（-/-）/-0.038（-/-）（Q3）-0.092 **/-0.081-0.127（-/**）/ -0.215（**/-0.149（**/**）/ -0.205（**/-）-0.116（-/**）/ -0.164（-/-）-0.062（-/**）/ -0.024（-/-）（Q4）-0.117 /-0.106 -0.167（**/-）/-0.255（**/-0.178（**/-）/ -0.268（*/-）-0.157（-/-）/-0.179（-/-）-0.095（-/-）/-0.084（-/-）（Q5）-0.079 /-0.081-0.130（**/-）/-0.237（*/-0.135（**/-）/ -0.199（**/-）-0.124（-/-）/-0.143（-/-）-0.060（-/-）/-0.055（-/-）分数，如第3.2节所示。尽管如此，我们观察到，在6个案例中，有5个文本推荐者更倾向于负面情绪的新闻，正如平均推荐者情绪偏差所示，它大于平均情绪得分数据集中的文章，即smean= 0。154.与此相反，在这两种情况下，知识感知模型推荐具有比语料库中的新闻的平均情感得分稍少的负面情感然而，这些观察结果仅对于Word2vec推荐器在统计上是完整的测试集，p值为<0。05，如表6所示。类似地，表7说明了两个测试集上的平均推荐立场偏差。所有受访者都对反对难民和移民话题的新闻文章表现出偏见，因为所有问题都用来代表这个话题。如表3所示，在GeNeG中，对于在姿势检测过程中使用的所有五个问题，反对该主题的文章多于赞成该主题的文章。虽然这可以部分解释评论者对更负面文章的偏好，但评论者选择的文章的平均得分仍然比上面描述的整个语料库的平均得分更负面。同样，关于情感偏差，基于知识的推荐器具有最弱的负偏差，仅显示出与数据集中的总体平均分数的微小偏差。尽管如此，只有问题（Q3）的平均情感得分与语料库的平均情感得分之间的差异在统计学上是显著的4.4.2推荐者和用户偏好之间的相关性然后，我们提出的问题：如何做的用户的情感和立场偏见与现有的用户情感和立场偏见？这种分析的目的是确定用户是否倾向于生成与用户现有信念一致或加强用户现有信念的建议。表6和表7显示了平均情绪和立场用户偏见。我们观察到，读者对带有负面情绪的新闻文章有轻微的偏好（表6），这不能完全用数据集中负面情绪的总体偏斜度来然而，在八分之七的情况下，推荐者的平均情感偏见比用户偏见稍微少一些，这表明推荐者在其结果列表中包括具有较少负面情感的文章。在这里，人们应该再次考虑到我们数据集中的文章平均具有负面情绪。即使在这种情况下，我们也注意到用户更倾向于阅读带有负面情绪的文章，完整测试集的平均用户偏差为-0.171，随机测试集的平均用户偏差为-0.169，略高于平均值GeNeG中的新闻文章的情感得分，smean= 0。154.根据学生t检验，这是一个统计学上的显著差异. 然而，在推荐者和用户的偏见分数之间似乎没有太大的差异，前者遵循相同的模式。这可以指示推荐器确实从用户的历史和偏好中学习然而，我们在完整测试集上观察到RippleNet的用户和推荐器平均情感得分之间存在统计学显著差异，这表明基于知识的推荐器可能不太容易放大现有的情感偏好。类似的模式可以在立场偏差的情况下观察到一方面，基于文本的评论者似乎加剧了用户对难民和移民话题新闻的偏好，这一点在两个测试集上都表现为评论者的此外，在随机测试集上，这种行为似乎更明显。Word2vec推荐的平均立场得分与平均用户立场新闻推荐系统的偏向性分析WWW454在两个测试集上的得分都是显著的，而在TF- IDF的情况下，这一观察结果在随机测试集上大部分是正确的。另一方面，尽管知识感知推荐器似乎也偏向于反对给定主题的观点，但平均而言，它似乎也建议了更多对该主题持有利立场的文章RippleNet的平均立场偏差得分显示了这一点，该得分低于平均用户立场偏差得分。在Transformer和RippleNet用户的情况下，我们没有观察到用户和推荐者立场偏差之间的统计学显著差异。通过仔细观察推荐者与用户情绪和立场偏差之间的相关性，我们确定了偏差相关性的五种可能情况，如下所示：（C1）在相同方向上的偏向：用户和推荐者都情感和/或反对（赞成）立场的倾向。(C2)相反方向的偏见：用户偏好消极（积极）情绪和/或反对（赞成）立场，而推荐者倾向于建议具有相反情绪和/或立场的文章。（C3）偏向用户：用户偏好具有负面（正面）情绪和/或反对立场的文章，而推荐器关于推荐文章的情绪和/或立场（C4）偏向推荐者：用户关于阅读文章的情感和/或立场是平衡的，而推荐者倾向于建议具有负面（正面）情感和/或反对（赞成）立场的文章。（C5）无偏见：用户和推荐者都没有表现出任何情绪和/或立场偏见。应该注意的是，在情感偏见的情况下，只有前两种情况（C1）和（C2）是可能的，因为情感分数的性质，以及语料库中没有完全表8显示了在情感偏见方面属于前两种情况的用户数量。结果表明，对于这两个测试集，几乎总是推荐的文章与用户的历史中发现的相同的情绪表8：推荐者-用户情感相关计数。偏置情况计数（完整/随机测试集）TF-IDFWord2vec TransformerRippleNet（C1）1166 /1771166 /1771165 /1771160 /177（C2）8 /08 /0九比零14 /0此外，表9显示了五种偏见情况和立场偏见问题的用户数量。我们观察到，所有决策者生成的建议通常属于前两种情况之一，更有可能是同向偏差第三种最可能的情况是用户的总体立场偏差得分接近0，表示对支持和反对该主题的文章的平衡新闻消费，而推荐者倾向于推荐具有一个特定观点的文章。最不可能的情况是用户偏向于某种立场，而推荐器是中立的，接着是用户和推荐者对于新闻的立场都是中立的情况总的来说，第一种偏见情况的普遍性表明，评论者不仅从用户的阅读历史中学习表9：推荐者-用户姿态相关计数。问题偏置情况计数（完整/随机测试集）TF-IDFWord2vecTransformerRippleNet（C1）600 /81第575 /68号决议第575 /88号决议470 /83（C2）358 /63三六七374 /52471 /61Q1（C3）14 /130 /723 /531/1（C4）198 /31198 /31194 /29一百九十三/三十一（C5）4 / 14 / 18 / 39 / 1（C1）第595/79号决议第575 /69号决议第572 /86号决议479 /82（C2）362 /65三六七/六九378 /54462 /62Q2（C3）15 /130 /722 /531 /1（C4）199 /31198 /31193 /29194 /31（C5）3 / 14 / 19 / 38 / 1（C1）600 /78第574 /68号决议第574 /86号决议477 /81（C2）360 /66370 /70375 /54467 /63Q3（C3）15 /131 /726 /531 /1（C4）196 /31一百九十五/三十一一百九十三/三十191 /31（C5）3 / 14 / 16 / 28 / 1（C1）第611/82号决议第590 /76号决议第538 /86号决议495 /87（C2）342 /54356 /61402 /48448 /50Q4（C3）13 /220 /126 /423 /1（C4）206 /38198 /39204 /37200 /39（C5）2 / 110 /04 / 28 / 0（C1）第624/89号决议第592 /77号决议第542 /88号决议498 /84（C2）337 /51357 /62403 /49451 /57Q5（C3）10 /222 /326 /522 /1（C4）二百三十四一九四/三十五201 /34一百九十五/三十五（C5）3 / 1九比零2 / 18 / 0最后，我们计算推荐者和用户平均偏差分数之间的Pearson相关系数，以进一步研究我们的初始观察是否具有统计学意义。表10和11分别示出了推荐者-用户发送的结果和立场偏差相关性。表10：推荐者-用户情感偏差相关性。统计学显著性用 *（p-v值0<）表示。01）和 **（p − v值<0. 05）。测试集Pearson相关性（p值）TF-IDF Word2vec TransformerRippleNet完成0.325*0.347*0.216*0.045**随机0.253*0.310*0.129-0.033在情感偏见的情况下，结果表明在两个测试集上的TF-IDF和Word 2 vec模型的推荐者和用户偏见之间存在统计上显著的正相关。在Transformer推荐器的情况下，我们注意到只有在完整的测试集上才有统计上显著的正相关性。这意味着，如果用户只喜欢对主题有负面情绪的文章，例如，生活在德国的难民，·····WWWAlam和Iana等人455–−−表11：推荐者-用户立场偏差相关性。统计显著性用 *（p值<0. 01）和 **（p值<0。05）。问题Pearson相关性（p值）（完整/随机检验集）TF-IDFWord2vecTransformerRippleNet（Q1）0.248* /0.0780.196* /0.0290.187* /0.162-0.022/0.111（Q2）0.241* /0.0780.196* /0.0190.176* /0.148-0.008/0.115（Q3）0.252* /0.0720.199* /0.0030.195* /0.143-0.009/0.091（Q4）0.280* /0.1350.249* /0.0020.143* /0.230*-0.019/0.148（Q5）0.320* /0.1920.269* /0.0420.168* /0.230*-0.011/0.112分析师将继续推荐负面情绪的新闻。在这种情况下，用户对具有积极情绪的文章的曝光将受到推荐器的限制，并且用户将无法访问可能与他现有观点不一致的新闻。相比之下，在RippleNet的情况下，我们发现在完整的测试集上，推荐者和用户偏见之间存在统计学上的显著相关性，p值为<0。05，随机检验无统计学意义。后者可能表明推荐器不太倾向于放大用户对特定情感的现有偏好。就立场偏差而言，对于所有问题，基于文本的解释者与完整测试集上的现有用户偏差也具有统计学显著正相关性，如表11所示。然而，这种模式在随机测试集的情况下并不成立。在这种情况下，我们注意到只有Transformer推荐器显示出与用户偏见的正相关性，这对于五个问题中的四个具有统计学意义，而Word2vec模型与用户历史没有统计学意义的偏见相关性。相比之下，我们的分析表明，TF-IDF模型的立场偏差与仅在p值0的问题（Q5）上存在用户<偏倚。05.最后，与情感偏见的情况一样，RippleNet在两个测试集的任何一个上都没有显示出与用户现有立场偏见的统计学显著相关性，再次证明基于知识的推荐不太容易放大用户偏见。5讨论在本文中，我们介绍了GeNeG，德国新闻语料库的主题难民和移民，包括极性注释方面的情绪和立场。我们已经证明，这些注释可以用来量化不同的推荐算法的情感和立场偏见。我们的实验表明，纯粹基于文本的推荐系统暴露了用户对情感和立场的态度的放大，这两者构成了在算法新闻策展过程中创建过滤气泡的线索，以及情感和观点方面的新闻多样

下载后可阅读完整内容，剩余1页未读，立即下载