没有合适的资源?快使用搜索试试~ 我知道了~
5350新闻报道中的选择偏见:学习和对抗0Dylan Bourgeois �0EPFLdylan.bourgeois@epfl.ch0Jérémie Rappaz �0EPFLjeremie.rappaz@epfl.ch0Karl Aberer EPFLkarl.aberer@epfl.ch0摘要0新闻机构必须通过各自的渠道选择和过滤他们广播的报道,因为世界事件的集合太大,无法详尽处理。这种过滤的主观性导致了偏见,原因包括资源限制、编辑指南、意识形态倾向,甚至是记者所掌握的信息的碎片化性质。然而,这些偏见的大小和方向是广泛未知的。缺乏地面真相、事件空间的庞大规模或没有详尽的绝对特征集来衡量使得直接观察偏见、表征倾向的性质并将其排除以确保新闻的中立报道变得困难。在这项工作中,我们介绍了一种捕捉媒体决策过程潜在结构的方法。我们的贡献是多方面的。首先,我们展示了使用个性化技术可以预测媒体报道,并在从GDELT数据库收集的大量事件上评估了我们的方法。然后,我们展示了个性化和参数化方法不仅在报道预测中具有更高的准确性,而且提供了对选择偏见的可解释表示。最后,我们提出了一种能够通过利用潜在表示选择一组来源的方法。这些选定的来源提供了更多样化和平等的报道,同时保留了最活跃的报道事件。0CCS概念0• 信息系统 → 数据挖掘;协同过滤;内容分析和特征选择;•计算方法学 → 因子分解方法;学习潜在表示;特征选择;• 应用计算→ 出版;0关键词0新闻报道;选择偏见;媒体多元化;回音室;因子分解方法;排名方法0ACM参考格式:Dylan Bourgeois,Jérémie Rappaz和KarlAberer。2018年。新闻报道中的选择偏见:学习和对抗。在WWW '18Companion:2018年Web会议伴侣,2018年4月23日至27日,法国里昂。ACM,美国纽约,9页。https://doi.org/10.1145/3184558.31887240� 两位作者对本文的贡献相同0本文以知识共享署名4.0国际许可证(CC BY4.0)发布。作者保留在其个人和公司网站上传播作品的权利,并附上适当的归属。WWW'18 Companion,2018年4月23日至27日,法国里昂,© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.318872401 引言0世界事件通过越来越多的信息渠道进行报道。这些事件发生在全球各地,涉及各种不同的规模,从全球到高度本地,遍布整个地球。为了了解世界的状况,即使是狂热的读者也必须对事件空间进行预处理,这种采样本质上会使他们接触到一种扭曲的视角。这种处理是一种有意识的选择,不仅适用于最终的消费者(读者),也适用于提供者:新闻来源。新闻机构被设计成事件流的初始过滤器,将其修剪、压缩和分类为可管理的信息块。不幸的是,很难保证这种选择的中立性:这个过程是由编辑团队根据任意数量的因素进行的。其中一些因素是显而易见的,如地理考虑、编辑指南、主题关注或甚至是后勤能力。其他因素一眼看不到:意识形态倾向或更高级的结构,如广播联播或企业结构。其中任何一个都可能损害所呈现的新闻样本的代表性:这通常被称为守门员或选择偏差。任何试图绝对衡量这些因素对新闻报道的影响的尝试都是注定失败的:因素空间永远不能声称是详尽无遗的,而子集最多只能是任意的。此外,这些措施缺乏基线:它们都是相对估计,没有地面真相可供比较。这些问题是解释新闻报道中偏见的重要障碍,这可能对读者的世界观产生实际影响。媒体所有权的集中也有助于加强这些偏见,因为整合报道会机械地削弱媒体多元化。在这些问题上缺乏问责制是对广播多样性的明显威胁,并可能危及媒体的完整性,加剧公众对新闻来源的信任缺失。0在这项工作中,我们建立了一种方法来识别和表征主流媒体景观中的偏见,将其视为新闻来源进行的选择过程的一种表现。这为将其作为个性化方法启发的方法处理偏见问题铺平了道路。我们首先认为,捕捉这种偏见需要比较不同新闻来源的报道事件分布,因为仅仅通过观察新闻来源本身无法观察到新闻媒体的有偏选择。因此,我们打算通过学习新闻来源观察到的事件的潜在表示来衡量特定来源的新闻选择与另一个来源相比有多大偏差。我们假设这种表示允许研究来源之间的关系,并揭示指导它们决策的因素。最后,我们声称这种表示可以用于减少选择偏见,并提出了一种平衡报道的方法。01 http://news.gallup.com/poll/212852/confidence-newspapers-low-rising.aspx0Track: 新闻报道、错误信息、事实核查 Track WWW 2018, 2018年4月23日至27日,法国里昂5360符号说明0R 交互矩阵 ∈ R | S |×| E |0S 新闻来源集合 E 事件集合 s j 来源 s j ∈ S e k 事件 e k∈ E K 潜在因子数量 β 多样性参数 N 选择的来源数量 r s je k R 中的条目(对于来源 s j 和事件 e k ) ˆ x s j e k来源 s j 对事件 e k 的预测偏好 D 评估集 N选择的来源数量0表1:符号说明0在本文中,我们建立了一种方法来识别和表征主流媒体景观中的偏见,将其视为新闻来源进行的选择过程的一种表现。这为将其作为个性化方法启发的方法处理偏见问题铺平了道路。我们首先认为,捕捉这种偏见需要比较不同新闻来源的报道事件分布,因为仅仅通过观察新闻来源本身无法观察到新闻媒体的有偏选择。因此,我们打算通过学习新闻来源观察到的事件的潜在表示来衡量特定来源的新闻选择与另一个来源相比有多大偏差。我们假设这种表示允许研究来源之间的关系,并揭示指导它们决策的因素。最后,我们声称这种表示可以用于减少选择偏见,并提出了一种平衡报道的方法。02 相关工作0媒体偏见:关于偏见的存在以及其正式定义已经在文献中广泛讨论。Groseclose等人在该领域的早期工作[6]通过计算每个主要媒体机构的意识形态得分,突出了左右派别在多个主要媒体报道中的分歧。他们的方法依赖于新闻中几个政策组织的引用次数与几个国会议员提到同一组织的次数之间的观察差异。最近,Lin等人[13]比较了主流媒体和社交媒体之间的报道偏见,重点关注了关于第111届美国国会(2009-2011年)的报道。他们报告了政治倾向和地理偏见。Saez-Trumper等人[23]对传统新闻和社交媒体的偏见进行了大规模分析。他们考虑了三种类型的偏见,即:新闻中的门户偏见,定义了新闻中的故事是如何被选择或忽略的;报道偏见,衡量了一个问题在新闻中的可见度;陈述偏见,量化了一篇文章的语调如何偏向或反对某个实体。具体而言,他们提出了新的度量偏见的指标,并对主流媒体和社交媒体中的这三种类型的偏见进行了表征。作者试图对门户偏见进行建模的尝试可能是与我们最接近的,但不同之处在于它使用了一种无监督的方法。DellaVigna等人在一项观察性研究中浮出了新闻景观变化的影响,该研究测量了福克斯新闻对选民投票模式的影响[3]。0研究结果表明,福克斯频道成功说服了3%到8%的观众投票给共和党。有偏见的新闻报道的一个后果是形成了一个比喻性的“回声室”,类似于声学回声室中声音的回响。这个比喻描绘了一个受人尊敬的消息来源不受质疑,反对观点被审查的新闻界。此外,回声室内观点的同质化人为地加强了普遍接受观点的感知。回声室已经被Wallsten等人[27]、Flaxman等人[5]和Bakshy等人[1]在社交媒体中进行了研究。0GDELT:GDELT数据库已被用于观察媒体对特定主题的反应,如气候变化[16]、和平与冲突[8]以及抗议[19]。Kwak等人[10]进行了一项广泛的实验,比较了两个主要的新闻数据集GDELT和EventRegistry,并分析了它们的数据分布。他们指出了规模和包含的新闻来源方面的差异,但观察到这两个数据集在新闻地理方面的分布相似。0学习:矩阵分解(MF)方法在过去十年中引起了相当大的关注,尤其是在推荐系统领域,可能受到了Netflix奖的推动,Koren等人[18]提出了一种基于MF的解决方案,后来被正式化[9]。尽管主要用于在线购物场景,但MF方法已经被适应到特定问题中,例如在音乐推荐[15]、交换平台[20]或基于位置的社交网络[12]的背景下。后来的进展研究了从隐式反馈中学习偏好的问题[7],这些反馈是交互的信号,如点击率或购买率。Pan等人[17]考虑了只观察到正面交互的极端情况,即单类协同过滤(OCCF)。Rendle等人[21]提出了贝叶斯个性化排序(BPR),一种处理单类交互数据并直接优化排序准则的成对学习方法。我们将在第4.1节中讨论如何将事件的报道视为一类学习问题。最大边际相关性(MMR)[2]是一种信息检索技术,根据相关性检索文档,同时强制保持多样性。它通过使用可调参数平衡这两个方面。有关更详细的描述,请参阅第6节。0研究问题:在上述工作中,还有一些研究问题尚未解答:0研究问题1:如何使用监督学习方法捕捉新闻报道中的选择偏差?研究问题2:所学习的表示是否可解释?研究问题3:如何利用学习到的偏差表示选择一组具有平衡报道的新闻来源?03 数据0在下一节中,我们将描述我们的数据收集过程,并提供有关结果数据集的统计信息。0主题:新闻报道、错误信息、事实核查 主题:WWW 2018,2018年4月23日至27日,法国里昂5370图1:单个周的事件和来源的典型分布。0日期 来源 事件0第1周 10月1日-10月8日 9,501 76,966 第2周10月15日-10月23日 9,363 88,755 第3周10月25日-11月2日 9,741 88,082 第4周11月5日-11月13日 9,714 89,367 第5周10月15日-10月23日 9,961 87,5740表2:研究中使用的5个选定周的元数据。03.1 原始数据源0最近的一些倡议,如全球事件、语言和语调数据库(GDELT2)和EventRegistry3,旨在收集、存储和处理来自世界各地的新闻。由于其规模和时间覆盖范围,它们已经引起了学术界越来越多的关注。因此,这些倡议代表了一个研究大量新闻来源选择过程特点的独特机会。具体而言,GDELT是一个公开可用的全球活动目录。它积极监测广播、印刷和网络等各种新闻来源,记录和注释全球事件及其报道。在本研究中,我们从GDELT 2.0事件数据库中提取所需数据:GDELTv2提供的事件表和提及表。GDELT事件通过标准事件编码框架进行注释[11],允许对世界各国行为者之间的互动进行分类。事件表引用了提及表中所指定的来源对事件(每15分钟采样一次)的报道。然后,该集合通过尽力补充元数据进行注释,试图分配参与者、地理代码,甚至情感分数,并对事件类型进行分类。重要的是,它为每个事件分配了一个全球唯一标识符,这允许对该事件的报道进行持续跟踪,跨时间和来源。03.2 数据处理0我们分析的学习部分只需要构建源和事件之间的交互矩阵:我们从事件和提及表中获取信息,以了解在给定时间段内哪些事件被哪些来源报道。我们过滤掉低计数的事件和来源(报道少于5个事件的来源,反之亦然)。02 https://www.gdeltproject.org/ 3 http://eventregistry.org/ 4https://blog.gdeltproject.org/gdelt-2-0-our-global-world-in-realtime/0在此预处理步骤之后,我们的数据集计算出图1和表2。04 方法0在下一节中,我们将描述我们捕捉新闻选择过程的方法。我们首先描述如何以监督方式高效地捕捉新闻来源的偏好。然后我们描述我们的优化过程的细节。最后,我们描述我们的实验设置以及评估方法。04.1 模型0我们选择的方法需要建模任何新闻来源在选择要报道的事件子集时的决策过程,而不是整个可用事件集合。我们首先假设任何给定的来源具有潜在的偏好结构,从广义上讲,代表其对特定事件的兴趣。如果观察到这个偏好结构,它将允许根据来源的兴趣对任何事件对进行排序。因此,任何由一个来源报道的事件都将严格高于其未报道的事件集合。在模型中强制执行这种成对偏好结构提供了一种处理数据的一类性质的优雅方式。实际上,在这种情况下,只有正面互动(来源报道事件)是可观察到的。其余的互动是真正的负面互动(来源故意不报道事件)和缺失值(来源对事件没有信息)的混合。因此,模型应该能够处理这些未观察到的互动,而不对它们的性质做出强烈的假设。根据Rendle等人的方法,我们将这个决策建模为一个成对排序问题。我们训练一个模型来最大化将正面互动排名高于负面互动的概率。具体而言,我们训练一个模型来最大化给定任何新闻来源 s i 的以下概率0Pr ( e j > s i e k | Θ) , (1)0其中 e j 是由 s i 报道的事件,e k 是 s i 没有报道的事件,Θ表示任意预测器的参数。一个能够完美建模源 s i 的潜在偏好结构 >s i 的预测器因此会预测 Pr ( e i > s i e j | Θ) 的概率为1,Pr ( e i < si e j | Θ) 的概率为0。将 ˆ x s i , e j 定义为源 s i 和事件 e j的预测分数,可以将其建模为 H ( ˆ x s i , e j , e k ),其中 ˆ x s i , e j, e k : = ˆ x s i , e j - ˆ x s i , e k,H ( ∙ )是阶跃函数。请注意,实际上 H ( ∙ )不可微分,因此很难与梯度下降方法一起使用,但可以用逻辑sigmoid函数 σ ( ∙ ) 进行近似。0Pr ( e i > s i e j | Θ) : = σ ( ˆ x s i , e j , e k (Θ)) = σ ( ˆ x s i ,0到目前为止,我们描述了观察到的新闻频道偏好方案的建模,同时将推理委托给能够建模两者之间关系的任意预测器。0Track: Journalism, Misinformation, Fact Checking Track WWW 2018, April 23-27, 2018, Lyon, France5https://selection-bias-www2018.github.io/Track: Journalism, Misinformation, Fact Checking Track WWW 2018, April 23-27, 2018, Lyon, France5380新闻来源和事件。一个合适的预测器应该能够为每个来源-事件组合预测一个介于0和1之间的分数,其中分数为1表示该来源有很高的可能性报道该事件。建模两组离散组件之间的这种关系需要一种能够学习的方法,对于每个来源和每个事件,该方法能够学习一个低维度表示,作为它们观察到的相互作用的高级描述符。我们的洞察力是,可见偏差是新闻来源进行的选择过程的一种表现。换句话说,报道本身可以被建模为一个受一组现实世界因素影响的选择过程。为了对此进行建模,我们借鉴了个性化领域的方法。这些方法通常依赖于一个基本假设,即通过观察具有相似行为的用户,可以预测个体未来的互动,因此需要建立个体之间的距离关系。根据我们的类比,我们将新闻来源建模为与现实生活事件互动的一组个体。我们选择矩阵分解(MF)作为我们的选择方法,因为它适合捕捉上述关系,并在许多个性化应用中产生了最先进的结果。我们将 R定义为我们的目标矩阵,大小为 R | S |×| E|。该方法将每个来源和每个事件投影到一个共同的低维空间中,以通过学习两个低秩矩阵 P 和 Q 来近似 R,它们的大小分别为 R K ×| S |和 R K ×| E |,其中 K是模型的潜在因子数量。如上所述,该模型通过一个单一目标进行学习:将观察到的互动排名高于未观察到的互动。可以通过计算源 s i和事件 e j 的分数来得到源 s i 和事件 e j 的分数的点积。0ˆx s i,e j = p T s i ∙ q e j,(3)0其中ˆx s i,e j是给定来源s i和事件e j组合的预测得分,p s i,q ej分别是来源s i和事件e j的潜在空间表示。04.2 优化0我们的目标是直接优化问题的排名结构,而不是提供对交互矩阵R的准确重建。Rendle等人引入的BPR优化方案[21]特别适用于这种类型的问题,并且可以应用于我们的问题,使用以下更新步骤0θ ← θ + α ∙ (σ(-ˆx s i,e j,e k)∂ˆx s i,e j,e k0∂θ + λθΩ'(θ)),(4)0其中ˆx s i,e j,e k = ˆx s i e j - ˆx s i ek,θ表示要学习的参数集。Ω(θ)表示正则化器。我们选择了ℓ2正则化器Ω(θ) = ∥Θ∥22。04.3 实验设置0为了抽象出时间动态,我们对数据进行了时间上的分割。我们在数据集中选择了2个月(2016年10月和11月)的5个感兴趣的星期,如表2所述。我们选择了一周的数据来获取足够的数据,并在这五个星期中复制实验以测量时间的一致性。0由于来源通常涵盖数量变化很大的事件,我们采用一种留一法来评估模型的准确性,每个来源在评估中具有相同的权重。具体而言,我们通过在每个来源中随机抽样一个它在上周最后一天涵盖的事件来构建我们的测试集。0可重现性:我们在一台计算机上运行了实验,使用的是2.3GHz的Intel Core i7 CPU,使用的是MatlabR2014b。我们使用以下参数训练我们的模型:α = 0.1,λθ =0.01,K =20。我们发现这些是提出的问题的最佳参数:所有5个星期都使用相同的参数。我们注意到,在K =20维之后,潜在因子的数量K没有显示出显著的信息增益。所有代码将在发布时提供。04.4 评估0预测准确性不是我们方法的主要目标,而是调整预测器的一种手段,以避免欠拟合或过拟合,并将其与各种方法进行比较。由于BPR优化方案直接优化成对排名准则,我们选择了广泛使用的性能度量指标AUC(曲线下面积)[24]作为我们的性能度量。0AUC = 1 |D |0(s i,e j,e k)∈DH(ˆys i e j - ˆy s i e k)= 1 | D|0(s i,e j,ek)∈DH(ˆx s i e j e0其中H(∙)是Heaviside阶跃函数(后一个公式使用了第4节中引入的符号),D是由每个来源组成的评估集,其中si是一个来源,ej是一个随机抽样的由si涵盖的事件,ek是一个随机抽样的si未涵盖的事件。该指标评估了预测器在训练期间对一个被保留的正交互作用正确排序的能力,与一个随机的负例进行比较。理想的预测器将获得AUC =1的得分,而随机选择将输出约为AUC =0.5的得分。我们将我们的方法与推荐问题中使用的两个常见基准进行比较:流行度和最近邻方法[22]。基于流行度的方法仅根据事件的涵盖量对其进行排序。最近邻方法通过推断一个来源的涵盖量来自其最近的同行的涵盖量:其基本思想是相似的来源应该表现出类似的事件空间涵盖。我们选择了k最近邻(k =10)方法作为这个基准,使用Jaccard距离度量。05 结果0在这项工作中,我们提出了一种监督学习方法,它具有允许明确评估模型质量的优势。我们提出,覆盖预测准确性可以适当估计学习嵌入质量。实际上,只有当潜在因素捕捉到关于新闻源如何选择它们所报道事件的足够信息时,才能重建这些交互。这种类型的评估对于无监督方法(例如PCA,SVD[25])是不可行的,这些方法需要专家干预来判断结果的质量和解释结果。MMR(si ) := β ∗ relevance(si ) − (1 − β) ∗ maxsj B�sim(si,sj )�,(6)β = 0.75β = 0.55390我们参考了图2的结果,与所选基线相比,显示出更高的预测准确性。0图2:以AUC作为性能指标的结果。结果按周显示。我们显示了平均分数以及在5周内获得的结果的标准差。06 源选择0在接下来的部分,我们将描述如何在新闻选择的背景下利用我们的模型产生的先验知识,即从一个大而异构的集合中选择 N个源的问题。在这种情况下,新闻源的选择应该是这样的,以促进多样性。直观地说,结果集应该涵盖新闻的广泛领域,同时最小化围绕一小组事件的集中,从而减少所谓的回音室效应 [27]的影响。其次,所选源所覆盖的新闻集合应该保留大量最活跃的事件,确保对事件空间进行全面覆盖。在没有准确建模源之间相互关系的方法的情况下,选择代表性的媒体子集可能很困难。实际上,选择的主要标准必须来自于侧面信息,例如源的声誉或其活动水平等。因此,我们建议利用从我们的模型中获得的知识来指导这个选择。我们将标准多样性推广检索方法最大边际相关性(MMR)[2]应用于我们的场景。MMR是一个迭代过程,根据两个标准(一个特定于应用程序的相关性分数和检索元素的多样性度量)建立元素的排序。MMR通过可调参数 β平衡这两个方面。在每个步骤中,MMR根据源的相关性选择要添加到结果集中的源,我们将其定义为包含在区间[0,1]中的源。然后,将该分数加权以包括与当前检索集的相似性最小的结果,从而确保其多样性。该过程根据以下评分函数对源进行迭代排序0其中 β 是控制多样化强度的参数,B是已经选择的元素集合(第一个选择)0因此,它仅基于相关性进行排名。当 β值为1时,排名仅基于相关性,而当 β值为0时,排名是以贪婪方式实现的最多样化的项目集。方程6的制定需要源之间的相似性度量。在尝试了不同的选项后,我们使用 sim (s i , s j ) = 1 / dist ( p i , p j ) 作为我们的相似性度量,其中 dist (∙ ) 是 p i 和 p j两个源的潜在表示向量之间的欧氏距离。我们使用源的活动水平作为相关性函数,即源发布的文章数量(见第7.3节)。0原始的0图4:我们在数据集的第5周上展示了β参数的效果,查询大小为N=100。潜在空间中的来源位置显示为单个点。我们在所选子集中包含的来源周围叠加密度(高斯KDE)。原始选择仅基于活动水平选择来源(β=1)。中心和右侧的图像具有β的非零值,这样可以使来源的选择多样化。07 讨论0在下一节中,我们考虑了实验结果。我们首先讨论了该方法的预测性能。然后,我们分析了我们方法产生的表示结果,提供了解释观察到的差异的方法。最后,我们描述了使用我们的方法促进新闻来源选择问题中的多样性的结果。07.1 覆盖预测准确性0如第5节所述,我们选择的方法具有监督学习程序的优点,因为它提供了预测覆盖准确性的度量。因此,它允许与其他类型的个性化技术进行比较。我们选择了两个基准:事件的原始流行度和k最近邻(k-NN)。基于流行度的方法不是个性化的:它们仅根据事件的报道量对其进行排名。我们展示了我们可以通过个性化的覆盖预测方法超越这种方法。我们还与个性化方法k-NN进行了比较,并观察到我们的方法由于也是参数化的原因而实现了更好的准确性。我们报告了5个选定周的得分(AUC)大于90%。我们还观察到,与我们选择的方法相比,从这种方法获得的结果在不同周之间的变异性较小。0追踪:新闻报道,错误信息,事实核查 追踪WWW 2018年4月23日至27日,法国里昂theguardian.comtelegraph.co.ukirishexaminer.com24indianews.comindianexpress.comctvnews.camacleans.cacanadianbusiness.comcbc.cabclocalnews.comwesterleynews.comindiatimes.comhindustantimes.comindependent.iemirror.co.ukoxfordmail.co.ukbbc.co.uknewkerala.comprokerala.com#18 Sinclair Broadcast Group#7 The McClatchy Companywsbt.comcbs12.comkatu.comokcfox.comabc22now.comwach.comnpr.orgwesm913.orgklcc.orgkanw.commcclatchydc.commiamiherald.comislandpacket.comcentredaily.comsacbee.comwvasfm.orgypradio.org6http://www.pewresearch.org/fact-tank/2017/05/11/buying-spree-brings-more-local-tv-stations-to-fewer-big-companies/5400地理接近 广播联播0#11 英国 - 爱尔兰0#3 印度0#8 加拿大0#20 公共广播电台0图3:潜在空间中的来源聚集(最佳颜色)左:经过调查后,我们观察到聚类可以通过聚类中的来源的发布结构来解释:所有这些来源都是发布网络的一部分,例如公共广播网络(#20:左下)或都属于较大的商业实体(#7:左上,#18:左中)。中心:源在潜在空间中的位置,使用t-SNE [26]降低维度。应用无监督的聚类学习方法(DBSCAN[4])显示在潜在空间中相似的源的聚集。在此示例中提取了24个聚类(第1周)。通过发现详细介绍的偏见,可以通过视觉检查来解释。右:我们注意到几个地理聚类,其中三个在这里详细说明:印度新闻来源的聚类(#3:右上),加拿大新闻来源的聚类(#8:右中)和来自英国和爱尔兰的来源的聚类(#11:右下)。07.2利用表示揭示偏见0第4节中描述的方法产生了源偏好的潜在空间表示,即选择偏见的低维描述。通过研究偏好空间中的源之间的距离,我们发现它们之间的有趣相关性,表明存在共同的偏见。我们还应用标准的无监督聚类方法来明确地将来源分组。虽然这些测量是在潜在空间中进行的,但我们将这些向量投影到2维空间进行可视化检查。由于结构直接来源于报道,我们可以提取出偏见的因素,例如我们在第1节中提到的因素(地理关系、主题关注、高阶结构等),尽管它们对于经验不丰富的人来说并不总是明显(例如由较大结构拥有的广播附属机构,这在品牌上并不反映出来)。0地理接近性:来源之间最简单的相似性来自它们的地理接近性:地方或国家来源将其报道定位于各自的规模。因此,具有相似地理依赖性的来源应该在其报道中呈现相似之处,并在潜在空间中彼此靠近。我们的方法确实捕捉到了这种效应,如图3所示。这种来源之间的地理关系通过区域来源的接近性得到了确认,例如prokerala.com和newkerala.com。0来自印度喀拉拉邦的两个来源:它们属于印度新闻来源的一个簇,但它们在潜在空间中也彼此靠近,因为它们报道国家和地区新闻。在聚类#8的一部分中也可见同样的效应,加拿大不列颠哥伦比亚省的来源彼此靠近(这里显示了westerleynews.com和bclocalnews.com)。0隶属关系和所有权:地方新闻来源是新闻报道网络的重要组成部分,尤其是在农村地区,它们代表了唯一能够提供足够细粒度的本地事件报道的信息来源之一。虽然它们也有利于为读者提供一般新闻报道(国家或国际新闻),但它们通常缺乏参与大规模事件处理的资源。因此,长期以来,一种常见的方法是将它们聚集到更大的组织中:地方新闻来源集团将他们的预算的一部分用于在它们之间共享报道,形成广播联播网络[14]。请注意,这些分组不一定是水平的:它们也可以是通过更大组织的合并或收购而形成的(皮尤研究中心估计,现在美国五大广播公司拥有37%的本地电视台6)。在聚类#18中,我们展示了一组由同一公司结构拥有的来源,这是在地方新闻领域的一波收购中形成的。0追踪:新闻学,错误信息,事实核查追踪WWW 2018年4月23日至27日,法国里昂0.20.40.60.81e500.20.40.60.8100.20.40.60.810100020003000400050000.20.40.60.810.51.01.52.0 1e500.20.40.60.8100.20.40.60.81randβ 0.75β 0.5β 0.1original0100020003000400050000.20.40.60.81randβ 0.75β 0.5β 0.1original7abcnews.go.com8cbs.com9foxnews.com10npr.org11pri.org12americanpublicmedia.org5410原始:0.75:0.5:0.1 rand 0.00事件计数0总唯一0事件累积比例0覆盖率累积比例0rand β0.75 β0.5 β0.1 原始0事件包含0报道比例0rand β0.75 β0.5 β0.1 原始0原始:0.75:0.5:0.1 rand 0.00事件计数0总唯一0事件累积比例0覆盖率累积比例0事件包含0覆盖比例0图5:前25个源选择(第一行)和前100个源选择(第二行)。我们报告了原始排名(按发布的文章数量排序)产生的覆盖范围,具有不同β值的多样性约束的相同排名,以及随机选择的源的覆盖范围。左:所选新闻源覆盖的文章数量(总数和唯一数)。中:所选新闻源接收到的个别事件的Lorenz曲线。右:包含在所选新闻源的覆盖范围中的一周内讨论最多的5000个事件的比例。例如,x轴上的top-100表示在整个集合中被覆盖至少一次的100个最受关注的事件的百分比。0这些较大的结构并不总是一眼就能看出来。在图3所示的源列表中,有许多熟悉的网络,如美国广播公司(ABC 7) (abc22now.com)、哥伦比亚广播公司(CBS 8)(cbs12.com)甚至福克斯(9)。0(okcfox.com),但实际上它们都不是由其名称所暗示的网络运营的:它们都是由同一广播实体运营的。0媒体:一些较大的结构是由基于相似媒体的平台驱动的。第20个聚类将一组公共广播电台聚集在一起。它们通常与NPR 10、Public Radio International 11等组织有关。0或者美国公共媒体12,它们都是非营利实体,通过交换内容形成一个广播联播网。还有一些观察结果作为附注。首先,我们报告本节讨论的聚类在5个选定的周内基本保持一致。我们报告了在5个星期内最活跃的前1000个源在嵌入空间中的成对距离的平均皮尔逊相关系数为0.82。其次,我们没有观察到任何明显的左右分裂,因此不进行报告。07.3 应用于源选择0在本节中,我们将提出的方法在源选择的背景下得到的结果进行了开发。特别地,我们对它们对事件空间的综合覆盖性质感兴趣。新闻源的倾斜选择可能会引发副作用。所选的源可能通过关注少数高度讨论的话题来覆盖事件空间的太小或不具代表性的部分。因此,我们将讨论新闻选择问题的结果涉及两个方面。首先,我们报告了事件接收到的覆盖平等度量。一个平等的覆盖应该给我们选择的源处理的所有事件一个类似的重要性。其次,我们报告了该方法保留集合中最活跃的事件的能力。我们首先基于一个不需要任何辅助信息的排名准则选择了一个N个新闻源的子集:它们各自的活动水平。这种天真的方法确保所得到的选择包含尽可能多的文章。因此,我们期望它包含了广泛的事件。然后,我们将这种覆盖与在第6节中介绍的具有额外多样性约束的排名产生的覆盖进行比较。我们报告原始排名中的关注度不均衡提供了前25个事件/文章的比率为0.41,前100个事件/文章的比率为0.22。这个比率表明了在相同的一组事件周围有很多重复。然而,我们观察到这种效应被0主题:新闻报道,错误信息,事实核查 主题WWW 2018,2018年4月23日至27日,法国里昂5420重新排序过程。例如,通过将 β 参数的值固定为0.5,我们得到了前25个和前100个的比例分别为0.60和0.44。关于这种差异及其缓解的更详细视图显示在图5(左)中。这个比例给出了一组来源提供的整体新颖性的指示。然而,它并没有显示事件的不平等对待,这是我们的假设。如果我们将新闻源的报道视为注意力预算,我们可以观察到每个事件获得的注意力收入。事实上,洛伦兹曲线(图5中间)确实显示了新闻界的注意力预算在最活跃的来源的选择上不均等。我们报告说,这种效果也被我们提出的方法所缓解。我们还使用基尼系数来统计估计结果的报道中的不平衡,该系数衡量分布的不平等性。一个完全平等的报道将具有基尼系数为0,意味着所有事件获得相等的关注。对于25个来源的选择,我们得到了一个基尼系数为0.79,重新排序后降低到0.74( β =0.5)。类似地,对于100个来源的选择,我们得到了一个基尼系数为0.78,重新排序后降低到0.68( β =0.5)。尽管报道的平等性是一个可取的特性,但我们不能为了实现平等的分布而牺牲总体报道,这意味着舍弃太多重要事件,使报道变得无意义。因此,我们还报告了我们选择的子集保留重要事件的倾向,如图5(右)所示。我们按重要性对事件进行了排序,其中排名靠前的事件是在一周内被更多来源报道的事件。我们展示的新闻源的选择结果包括更多讨论最多的主题,尽管覆盖了更小的一组独特事件。我们讨论的最后一点是报道平等性和重要事件保留之间的平衡。 β参数的选择是两个方面之间的权衡,可以通过数值分析或包括人为判断来确定。然而, β = 0.5的值可以大大减少不平衡,同时仍然包括更多的重要事件在结果报道中。08 结论和未来工作0我们研究了新闻报道中存在的选择偏见的存在和性质。通过将事件选择视为偏好问题,激发了个性化系统方法的应用,我们仅从他们的报道中学习,报告了不同且可解释的新闻源社群。值得注意的是,这些聚合体呈现出很高的凝聚力,表明媒体格局是分层的。我们进一步利用所学到的表示提出了一种方法,以产生更多样化和平等的新闻报道。此外,我们报告了这种重新排序过程相比于简单选择高活跃源的情况下,保留了更多讨论最多的事件的比例。0学到的表示揭示了新闻实体之间的许多现实世界关系,这反过来影响了这些来源对新闻的报道。值得注意的是,我们检测到了地理依赖性,甚至保留了区域链接,以及没有使用辅助信息的同媒体来源。我们还报告了提取非平凡关系的能力,例如关联、广播联播和甚至将来源包含在公司网络中。识别这些非明显的结构是恢复公众对报道过程信任所需的透明度的重要一步。此外,我们促进多样性的新闻报道选择方法可以阻碍拥有许多来源但声音有限的效果,有利于媒体多元化,这是朝着更可信赖的信息来源努力的另一个重要方面。还有一些问题需要未来的工作。首先,我们的方法将来源和事件视为没有附加外部信息的离散组件,因此可能受到冷启动问题的影响。未来的研究工作可以将辅助信息整合到优化过程中,以限制其影响并提高性能。其次,我们分析了选择来源的问题,但抽象了来源的选择。实际上,在这项工作中,来自不同来源的处理相同事件的文章被认为是等价的。未来的研究场景可以通过从文章中捕捉语义信息来区分不同观点的不同来源的新闻文章。最后,我们相信领域专家的洞察力将极大地有助于揭示形成的聚类中的非明显关系。0Track: 新闻学,错误信息,事实核查 Track WWW 2018,2018年4月23日至27日,法国里昂5430参考文献0[1] Eytan Bakshy,Solomon Messing和Lada A.Adamic。2015年。政治科学。在Facebook上接触意识形态多样的新闻和观点。《科学》348 6239(2015),1130-2。[2] Carlos de Juan Carbonell和JadeGoldstein-Stewart。1998年。使用MMR,基于多样性的重新排序文档和生成摘要。SIGIR论坛51(1998),209-210。[3] Stefano DellaVigna,Ethan Kaplan,Alan B.Krueger,Marco Manacorda,Enrico Moretti,Torsten Persson,SamPopkin,Riccardo Puglisi,Matthew Rabi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功