媒体选点对政治演讲与辩论的影响：一个定量研究

142 浏览量更新于2023-10-16 收藏 815KB PDF 举报

2018

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

主题：Web与社会WWW 2018，2018年4月23日至27日，法国里昂945“You论总统辩论中的媒体选点科罗拉多大学博尔德分校美国科罗拉多州博尔德chenhao@chenhaot.com摘要郝鹏Paul G.美国华盛顿大学艾伦CS E学院hapeng@cs.washington.edu诺亚A. 史密斯Paul G.美国华盛顿大学艾伦CS E学院nasmith@cs.washington.edu政治演讲和辩论在塑造政治家形象方面发挥着重要作用，公众往往依赖媒体从大量言论中选择政治传播的片段这是一个重要的研究问题，以了解哪些因素影响这个选择过程。为了定量地探索选择过程，我们建立了一个三十年的总统辩论成绩单和辩论后的报道数据集。我们首先研究了措辞的效果，并提出了一个二元分类框架，控制发言者和辩论的情况。我们发现，众包工作者在这项任务中只能达到60%的准确率，这表明媒体选择并不完全明显。我们的分类器平均表现优于众包工作者，主要是在初选辩论中。我们还比较了众包工作者的自由形式解释与数据驱动方法的很少有人群工作者提到最后，我们研究了媒体偏好对不同的措辞，以了解媒体之间的碎片化程度的综合效果通过分析从我们的数据中引用行为构建的二分图，我们观察到两党报道的下降趋势CCS概念• 应用计算→法律、社会和行为科学;关键词媒体偏见，总统辩论，引用，措辞，对话ACM参考格式：Chenhao Tan ， Hao Peng ， and Noah A. 史密斯 2018 年。在 WWW2018：2018年网络会议，2018年4月23日至27日，里昂，法国。ACM，NewYork，NY，USA，10页。https://doi.org/10.1145/3178876.31861421引言电视公开辩论已成为选举摄像机的焦点[34]。一个著名的例子是1988年美国副总统辩论在丹·奎尔把自己比作约翰·F。肯尼迪本文在知识共享署名4.0国际（CC BY 4.0）许可下发布作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW 2018，2018年4月23日©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186142图1：在2016年民主党初选辩论中，伯尼·桑德斯在相邻回合中的两个大胆句子之间，第一句话在辩论后一周内被新闻报纸引用了23次，而第二句话在我们的数据中根本没有被引用。然而，在我们的实验中，五分之三的人认为第二个被引用得更多。劳埃德·本特森轻蔑地回答说：这一时刻在辩论后得到了广泛的报道，甚至在后来的辩论和流行的模仿中也普遍存在。1我们指的是经常被媒体引用为亮点的时刻。辩论后媒体选择的亮点塑造公众如何解释选举辩论，因为这些亮点可能是许多选民消费的唯一辩论内容[17，25，26]。然而，大多数强调媒体选择并不像“你不是杰克·肯尼迪”那样出色考虑图1中的示例。在我们的实验中，参与者并不清楚桑德斯的两段话中哪一段是重点。即使知道第一个被强调，我们可以提出多种合理的解释，这种选择的媒体。它可能是“赌场资本家”的朗朗上口，也可能是“如此之少拥有如此之多”和“如此之多拥有如此之少”的平行结构。它还可以涉及转换动力学（例如，克林顿一些定性研究调查了语言相关因素对媒体如何选择亮点的影响[1，11，19，24]。例如，为了解释“你不是杰克·肯尼迪”的流行，Clayman [11]提出了三个重要因素：1）叙述相关性（一个时刻在新闻故事中的适合程度）; 2）引人注目性（一个时刻在辩论中的突出程度）; 3）可提取性（如何1https：//en.wikipedia.org/wiki/Senator，_you're_no_Jack_Kennedy#Legacy.桑德斯：我是否认为自己是赌场资本主义过程的一部分，在这个过程中，很少有人拥有这么多，而很多人拥有这么少，华尔街的贪婪和鲁莽破坏了这个经济？【......】克林顿：[……]我想桑德斯参议员说的是...从不平等的角度来看，这是有道理的。【......】桑德斯：[...]因此，我们需要做的是支持中小企业，这是我们经济的支柱，但我们必须确保这个国家的每个家庭都得到公平的待遇。主题：Web与社会WWW 2018，2018年4月23日至27日，法国里昂946WWW 2018，2018年4月23日自包含的时刻是）。然而，计算表征这些定性因素是不平凡的，并且它们的预测能力仍然未知。在现有文献中还缺少的是对新闻报道的消费者，即，公众，解读媒体此外，媒体选择的亮点举行的承诺，了解媒体的偏见和两极分化.现有的研究表明，非文本因素，如媒体特别地，Niculae et al.[37]展示媒体中的隐含结构（例如，国际VS国内）通过分析总统巴拉克·奥巴马的报价模式。由于电视总统辩论已经进行了几十年，对辩论报道的分析可以揭示媒体偏好随时间的演变。为了定量研究这些问题，我们收集了美国总统辩论的记录，包括一般性辩论（初选后大选候选人之间的辩论）和初选辩论（初选中较早的党内辩论），以及辩论后报纸的报道（详见第2节）。我们的数据集跨越了三十多年。目前的工作：措辞对媒体选择的影响（§3）。本文的第一个主旨是调查措辞对媒体选择的影响，并检验公众是否理解这些选择。为了做到这一点，我们提出了一个二元分类框架，其中一个引用良好的句子（突出）与一个不是突出的句子配对，控制说话者和辩论的情况。我们的任务是找出哪一个被引用得更多。使用这个分类框架，我们研究了人类和机器学习分类器如何预测媒体选择以及区分文本因素是什么。我们发现，在选择亮点的媒体选择是不完全明显的人类。作为公众的代表，我们要求土耳其机械公司的工作人员执行分类任务，并解释他们在进行预测时使用的因素。虽然它们能够识别一些文本信号并且优于随机概率（50%），但是它们仅实现60%的平均准确率与此同时，在措辞中似乎存在更多的信号，这些信号对未经训练的人来说并不突出。基于过去的定性研究[1，11，19，24]精心设计的特征，我们的分类器实现了66%的准确率。这一结果表明，文本因素可以预测媒体的选择，在更大的程度上比平均人类的表现建议。事实上，主要的绩效差距来自初选辩论。一般性辩论和初选辩论之间人类表现的差距，一个可能的解释是过去接触的数量：与一般性辩论相比，初选辩论得到的媒体报道较少，并且人类可能对初选辩论的重点记忆较弱。我们还观察到有趣的相似性和差异时，比较人类提到的区别因素与数据驱动的方法确定的那些例如，消极性在这两种方法中都被认为是重要的。然而，这两种方法看待会话语境不同。只有3%的人的回答提到环境很重要，而我们的模型表明它是一个重要因素：突出部分往往与说话者先前的话语更不同，并且更可能在稍后的话语中被拾取。目前的工作：随着时间的推移引用模式（§4）。本文的第二个重点是研究媒体在选择重点时的偏好和偏见。我们不把所有媒体看作一个统一的机构，而是利用我们数据的纵向性质，研究新闻媒体是否随着时间的推移变得更加分散使用一袋的句子的方法，我们构建了一个二分图的媒体和他们引用的句子。与现有的极化研究[2]一致，我们观察到大选中两党覆盖率下降的趋势，其中存在明显的两党结构。当我们在没有党派假设的情况下调查媒体之间的相似性时，我们发现局部聚类的紧密性有增加的趋势，但没有观察到媒体随着时间的推移平均彼此变得不那么相似。2数据集概述我们的数据集由两部分组成：辩论成绩单和辩论后的新闻报道。我们从美国总统项目中提取了自1960年以来的一般性辩论和自2000年总统选举以来的初选辩论的成绩单。[2]在本书中，我们将话轮定义为一个说话者不间断的话语。为了收集辩论后的新闻报道，我们使用 LexisNexisAcademic3搜索每次辩论后七天内的所有报纸。当LexisNexis索引1980年以来的报纸时，我们研究我-美国国防情报局从1980年到2016年的总统辩论集锦为了实现高召回率，我们使用辩论类型（虽然报纸是新闻报道的一个子集，但它们包括长期存在且经常被研究的媒体部分，并且非常适合于复制研究。我们把对其他媒体来源的探索留给未来的工作。受现有研究的启发[31，37，47，52]，我们根据直接来自辩论的新闻文章中的引用来定义在这项工作中，我们区分报价报价。我们将新闻文章中包含陈述标记的任何文本称为引文，而引文是可以与辩论中的转折相匹配的引文的子集我们确定是否报价相匹配的总统辩论的基础上，词重叠和模糊匹配。提取过程从相应的辩论中产生成对的引用和引用的句子我们将在§3.1中给出高光的正式定义。我们的数据集和补充材料可在 www.example.com 上获得https://chenhaot.com/papers/debate-quotes.html。表1显示了我们数据集的总体统计数据接下来我们讨论我们的数据集的基本属性特别是，我们观察到新闻媒体越来越多地引用总统辩论的时刻。一组不同的报纸（图2a）。重要的是要指出我们发现，随着时间的推移，我们的数据集中有更多的报纸，部分原因是越来越多的媒体开始引用总统辩论，部分原因是LexisNexis逐渐改善了他们的报纸收藏。只有四家报纸引用了年的2 http://www.presidency.ucsb.edu/debates.php.网站上的链接。事实上，总统辩论是一个相对较新的现象，尽管他们现在的突出。在第一次一般性辩论之后，约翰·F·1960年，肯尼迪和理查德·尼克松举行了大选辩论，直到1976年才举行了大选辩论。有关更多历史细节，请参阅http://www.cnn.com/2012/09/30/opinion/greene-debates/。3http://www.lexisnexis.com/hottopics/lnacademic/。主题：Web与社会WWW 2018，2018年4月23日至27日，法国里昂947“You10%的网点占报价百分百百分之八十百分之六十百分之四十百分之二十0%0个字符100 200 300 400 500600 700媒体数量百分之五十百分之四十百分之三十百分之二十百分之十1980198819962004二〇一二年百分之九百分之八占7%占6%百分之五198019881996二OO四年2012百分之二十百分之十五百分之十百分之五0%的百分比10 20 30 40 50 60 70 80 90 100辩论进展（%）(a)累积分数媒体的引用。(b) 辩论句子的分数被（部分）引用。(c) 新闻文章中引用的文本的分数。(d) 每十分位数的分数。图2：在图2a中，媒体按引用总数排序，并且存在重尾。图2b示出了随着时间的推移，辩论中越来越多的句子被媒体（部分）引用。图2c表明，新闻文章中越来越多的文本直接引用了辩论。图2d显示更多的引用来自辩论的开始在整个论文中，误差条表示标准误差，虚线示出最佳线性拟合，并且图例中的 * 指示线性系数在p <0的情况下与<0在统计学上显著不同。05.翻译新闻报道。第二，辩论候选人无法控制自己的受欢迎程度或新闻媒体的政治倾向，但他们总是可以选择措辞时，他们试图传递一个信息。因此，理解措辞的效果可以为政治沟通提供信息。第三，了解我们仅使用文本信息就能够预测媒体选择的程度是有价值的--当然，仅使用文本信息可能无法预测表1：数据集统计。最后三列显示平均句子数、平均标记数和每次辩论的平均引用数。1980年; 2016年有334家报纸。全球约有700家报纸，其中排名前10%的报纸引用了72%的引文。自1980年以来，《纽约时报》和《华盛顿邮报》一直是引用次数最多的报纸我们也有小报纸（例如，Rhode Island Lawyers Weekly）和国际报纸（例如《卫报》）。报价的增加趋势（图2b和图2c）。随着时间的推移，媒体渠道越来越多，预计新闻媒体引用辩论中的句子比例会越来越高。相比之下，一般性辩论被引用的次数远远多于初选辩论。但出乎意料的是，正如我们观察到的那样，新闻文章中直接引用的文本比例也随着时间的推移而增加。这表明，直接引用候选人的话是报道辩论的一种越来越常见的方式。更多的引用来自辩论的开始（图2d）。在辩论中，后来的转折不太可能被媒体引用这种下降的可能性在不同类型的辩论中是稳健的，并与电影引用的结果相呼应[13]。第三章措辞对媒体选择的影响我们研究了文本因素如何与媒体选择的总统辩论的亮点有三个原因。首先，媒体选择的重点是不观看辩论并因此依赖于辩论后覆盖的选民消费的唯一辩论内容。公众如何理解媒体选择的亮点是值得研究的，因为公众使用这种理解充分预测媒体选择。为了研究措辞对媒体选择的影响，我们提出了一个控制说话者和辩论情境的实验框架，并制定了一个二元分类任务（第3.1节）。然后，我们通过评估人类在这项任务上的表现和分析人类调查中的自由形式解释来研究公众对媒体选择的理解（§3.2）。我们进一步建立在现有理论的基础上，为数据驱动分类器开发了定量特征（§3.3），并在§3.4中检查了它们的预测性能。3.1实验框架为了研究文本因素如何与媒体选择总统辩论的亮点相关联，我们需要控制其他混杂因素，如发言人是谁，辩论处于什么状态。受“自然实验”和以前关于措辞对信息共享，记忆力和说服力的影响的研究的启发二进制分类框架。要正式定义高光，我们用句子作为分析的基本单位。在我们的自然实验框架中，我们为每个媒体选择的突出部分找到一个匹配的因为辩论候选人的受欢迎程度各不相同，而且辩论的进展具有不同的重要性级别（请参见图2d），我们将每个突出显示与同一说话者在三个回合内的类似长度的未突出显示的4如果一个句子是相应辩论中被引用最多的t%句子之一，我们认为该句子被突出显示。我们选择了4存在考虑主题转移的替代方式，例如，[35]第35段。一般（*）DEMRep一般（*）DEMRep累积分数辩论类型#辩论avg. #发送的avg.#tokensavg.#quotes一般261064.916278.0944.2副91018.215974.0618.4民主381070.616028.3330.7共和党591270.817781.1369.1主题：Web与社会WWW 2018，2018年4月23日至27日，法国里昂948WWW 2018，2018年4月23日. Σ∼类别%人类循环（声音咬，新闻价值）30.0煽动性的，耸人听闻的25.5有趣的，有趣的17.0问题，信息16.0争议15.0记忆，过去暴露12.0表2：人类调查中的主要因素以及提到它们的人类百分比这代替了绝对计数阈值化，因为引号的数量随时间增加（参见图2b）。我们用t = 1、2、…、10进行实验。结果在t的选择上是稳健的，并且我们因此仅报告t=10的结果（总体准确度除外）。根据上述定义，我们从所有辩论中提取了14K对句子。对于一对句子，我们随机排列顺序，并预测第一个句子是否被突出显示。随机猜测的准确率为50%.我们随机选择80%的数据进行训练，剩下的20%用于测试。为了在§3.4中构建机器学习分类器，我们通过从每个句子中提取特征并取它们之间的差异来构建每对的向量我们使用逻辑回归2-正则化。这种方法相当于线性框架-[28 ]第28话在一个人的世界里我们在2x范围内的训练集上基于五倍交叉验证的准确度网格搜索最佳的2系数，其中x均匀地超过20个值间隔在-8和1之间3.2媒介选择的人文解读利用上述分类框架，我们首先考察公众对新闻媒体如何选择亮点的理解。我们招募了200名美国-基于Mechanical Turk的工人作为未经训练的人类（公众）的样本，对来自保持组的随机抽样对执行预测任务。此外，我们要求参与者解释他们在自由形式的回答中用于预测的重要因素。具体来说，我们要求每个参与者标记25对，并完成一个退出调查，以解释他们用来做出预测的因素以及他们观看辩论的经验和他们的观点。政治意识形态对于一组，我们按照辩论中出现的顺序展示高亮的句子、未高亮的句子和周围的几个句子，并要求参与者猜猜看哪一个在新闻媒体上被引用得更多为了确保他们理解任务，我们准备了三个训练对，并要求他们在开始之前进行理解测验。我们还为每个正确的猜测提供奖金，以激励参与者尽最大努力。人体实验的进一步细节见附录。媒体选择对公众来说并不明显。平均人类准确度为60%，人类标签之间的Fleiss表示略微一致。6这些观察结果表明，媒体选择对人类来说并不明显，至少基于文本内容。一个合理的解释是，文本信息不足以解释媒体选择：媒体选择受到外部因素的影响，如总统辩论外的声明和公众舆论的变化。然而，正如我们稍后将展示的那样，在措辞中似乎存在着对未经训练的人来说并不突出的信号。另一个更悲观的解释是，人类对新闻媒体如何选择亮点的理解有限人类调查中的重要因素检查重要的从人类的角度来看，我们对人类调查中的自由形式解释进行了分类，并在表2中列出了最重要的因素。引用的最常见因素是循环的;即，30%的参与者提到，他们是根据哪一个有新闻价值或哪一个有很好的声音来做出决定的这表明，人类对媒体选择的重点进行推理是不平凡的。在接下来的五个最常提到的类别中，参与者提到了耸人听闻（情绪化、消极、令人震惊等）。令人惊讶或有趣。这些因素中的大多数难以在计算上操作化。有趣的是，12%的参与者明确提到了记忆或过去的接触，这表明如果没有不可避免的媒体接触，人类可能会更不准确地预测媒体选择。这些主要因素与现有的定性研究并不直接一致。例如，最相关的工作Clayman [11]指出了三个重要因素：1）叙事相关性（一个时刻在新闻故事中的适合程度）; 2）显著性（一个时刻在辩论中的突出程度）; 3）可提取性（时刻的自包含程度）。目前还不清楚如何将我们的参与者提到的因素映射到这三个因素。值得注意的是，只有3%的参与者提到了这一背景同样多的人提出以吸引自由派选民为标准（没有人讨论另一个方向）。Clayman[11]中的可提取性，或“可以脱离上下文”被4%的参与者认为很重要。然而，这些观察表明了对新闻媒体的负面态度，或者至少对他们在美国政治中的作用持怀疑态度3.3数量特征基于上述人类直觉和现有研究，我们开发了两组特征：单独的句子特征和试图捕获会话动态的会话流特征。在本节中，我们使用训练数据来识别区分亮点和非亮点的重要特征，并将数据驱动方法的信号与人类自由形式解释的因素进行除了这两组特征之外，我们将在§3.4中采用词袋特征作为强基线，即，在训练集中出现至少5次的一元组和二元组5对于一对中的两个句子，我们在它之前最多包括3个句子，在它之前最多包括3个句子之后，为与会者提供一些背景，以了解辩论的现状。6.令人惊讶的是，个人的预测表现与他们自我报告的经验或政治意识形态水平之间没有明确的关系。主题：Web与社会WWW 2018，2018年4月23日至27日，法国里昂949“You↑↑邮其他（）下一页prev特征集相关理论/直觉和简要描述意义信息性我们用长度作为信息量的代表。尽管我们在第3.1节中讨论了对长度的控制，但较长的句子更有可能被突出显示。这与Tan et al.[54，55]。我们认为积极和消极的话，在彭尼贝克等人。[40]。突出显示的句子使用长度↑波塞莫情绪消极词显著增多，而积极词无显著差异。这与消极偏见[44]和新闻媒体中发现的消极性[18]是一致的。对比我们使用否定和否定连词（例如，not，but，although）来捕捉对比度。我们的结果否定↑人称代词不确定性/主观性Atkinson[1]的观点，证明了对比度的重要性一般来说，突出显示的句子除了第一人称复数和第三人称复数外，使用更多的人称代词对“我”和“我们”之间的对比的一种解释是，媒体更喜欢关于候选人本身的陈述，而不是使用“我们”的统一陈述。套期保值是表达不确定性的一种常见方式[30]，我们使用Tan和Lee的词典[53]。在辩论语境中，模糊限制语也可能代表主观性。最高级表示形容词或副词的极端形式，可以用来强调一个陈述。令人惊讶的是，突出显示的句子并没有使用更多的最高级。负共轭↑↑我，你，她，他他们我们↓对冲↑最高级我们计算不定冠词来衡量概括性。我们的研究结果与Danescu-Niculescu-Mizilet al.[13]，Shahaf et al.[45]，Tan et al. [54]第54段。不确定文章↑语言为了捕捉惊喜或引人注目，我们根据纽约时报文本和Penn Treebank的WSJ部分中的单字词性（POS）标签然而，唯一显著的特征是双，三元组模型并行性突出显示的句子在单字用法上更类似于纽约时报文本。这一发现与信息分享[54]一致，但与令人难忘的电影引用[13]不同。运用排比句是一种修辞技巧，如表1的第一句和“我这辈子从来没有蔫过，我这辈子从来没有动摇过”。我们使用子句子之间的平均最长公共序列来测量它[48]。POS {1， 2，3}-克平行度↑表3：单独句子特征的测试结果。向上的箭头指示突出显示的句子在该特征中具有更大的分数，而向下的箭头指示相反的方式（：p<〇. 0001，：p<0. 001，：p<0. 01，：p<0. 05，向下箭头也是如此;p是指Bonferroni校正后的p值）。单句特征。我们首先检查的功能，不依赖于任何上下文信息的辩论，可以从一个句子单独提取。我们评估是否突出显示的句子显着不同，从不突出显示的句子在每个功能。具体而言，对于每个特征，我们计算突出显示和未突出显示句子的特征值，并使用Bonferroni校正进行单侧配对t检验[4]。表3呈现了每个特征集的直觉和理论辩论中的对话动态可能有助于选择重点[58]。我们提出了一套新颖的对话流功能，并确实观察到有趣的对话动态周围的亮点。为了捕捉句子的局部上下文，我们将句子与其相邻的话轮进行比较。我们使用一个窗口w，并表示由同一说话人在接下来的w轮中的实义词作为Wordspost（w），前面w中的内容词由包括相关工作。我们提出了完整的计算细节自我prev邮政在附录中。通过将表3中的结果与先前讨论的来自人类调查的因素进行比较，我们发现人类调查中的首要因素也往往是来自数据驱动方法的统计学显著信号，例如长度（信息）和负面情绪（感觉）。但情况并不总是如此，例如，积极的情绪和与Wordsself（w）相同的扬声器。类似地，我们提取其他说话者的词other（w）和词w。我们计算Jaccard相似度之间的句子（词s）和它的相邻轮。比如说Jacca rdpost（5）=|Wo rd ss∩Wo rdsothe r（5）|邮强强调不是统计学上显著的信号。意思是-while，人称代词、模糊限制语和语言其他|Wo rd ss∪Wo rdsothe r(5)|模型特征来自数据驱动的方法，但人类可能不会对它们给予同样多的关注。一个完整的比较之间的计算功能和人为因素将需要操作性的争议，耸人听闻，幽默等;我们把这个问题留给今后的工作。会话流功能。虽然只有少数几个人--pants裤子in our human人的experiment实验mentioned提到that context上下文matters事项，测量句子与句子之后的其他说话者的5个回合之间的相似性。扭结与同一扬声器的转弯相似（图3a）。突出显示的和未突出显示的句子呈现与同一说话者的回合相同的相似性水平，直到句子之前的最后一个回合。在句子周围出现了一个有趣的转折：突出显示的句子与紧接在其之前的轮次不太相似，但与之后的轮次更相似。我们把这当作一个信号↑↑↑↑↑↑↑·主题：Web与社会WWW 2018，2018年4月23日至27日，法国里昂950WWW 2018，2018年4月23日0.0220.0180.014-4-2 0 24窗口大小与BOW相似的精度当一对中的突出显示的句子被更频繁地引用时并且当存在更少的训练实例时，“全-BOW”工作得相对较好，而当突出显示的句子更接近10%阈值时，BOW具有优势（图4a的右侧）。组合所有特征（包括BOW;“全部”）总是会导致最佳精度。请注意，机器和人类的准确性并不意味着要进行头对头的比较，因为机器依赖于训练数据来识别有用的信号，而人类则依赖于他们的日常工作。(a) 与自己的回合相似0.0220.0180.014-4-2 0 2 4窗口大小(b) 与其他演讲者的话轮相似。图3：图3a和图3b呈现了基于句子与其相邻轮次之间的Jaccard相似性的会话流特征（前一轮次的负窗口，后一轮次的正窗口，误差条很小）。在图3a中，扭结存在于与同一说话者的回合相似度为0左右，而在图3b中，突出显示的句子始终更类似于其他说话者的回合。独白中的突出显示的句子更类似于其他说话者的相邻回合（图3b）。关于总体趋势，对于突出显示的句子和未突出显示的句子两者，与包括更多轮时相比，紧邻轮（w是1或-1）的相似性更小。这是因为主持人经常在候选人之前和之后发言，并且主持人在词语方面与候选人截然不同（由于不同的交际目标）。3.4预测性能最后，我们研究在何种程度上可以预测媒体的选择，只有从文本的因素，通过检查分类性能上举行了一套。我们还研究了一般性辩论和初选辩论之间的区别。总体预测准确度（图4a）。仅使用文本面-tors，我们的分类器实现了66%的准确性，在t=10的保持设置。机器和人类的准确性都增加了“更容易”的配对，其中突出的句子被引用得这一趋势证实了措辞中存在有意义的信号。机器（“所有”）的准确性（可能有偏见）媒体曝光。相反，我们将这种准确性差距视为证据，表明措辞中的一些信号很难被人类识别。这也指出了在机器的帮助下告知公众不同辩论类型的差异（图4b）。作为主要辩论与一般性辩论相比，候选人更多，报道较少，新闻媒体可能会采用不同的标准来选择重点人物。为了探索差异，我们在初级辩论的训练数据子集上训练分类器，并在不同类型的辩论上进行测试在措辞如何影响媒体选择方面确实存在差异：分类器在其他辩论类型上进行测试时通常表现不佳事实上，使用所有训练实例并不改进了仅使用来自匹配辩论类型的对，尽管后者7机器只在初级辩论中胜过人类在一般性辩论中，胡曼的准确性比在初选辩论中要好得多。事实上，图4a中我们的分类器（“所有”）的优势原因可能是性别辩论受到更多关注和更多报道，因此人类更有可能记住被选为亮点的内容;事实上，“记忆，过去的暴露”是调查中的一个如果是这样的话，人类对媒体选择的理解可能会更加有限，如果没有以前接触的影响我们还观察到，人类在2000年之后的一般性辩论中的表现比2000年之前的表现更好4随时间推移的除了措辞的影响之外，媒体机构事实上，媒体极化已经引起了研究人员和公众的极大兴趣[2，27]。我们利用我们的数据集的纵向性质，并评估随着时间的推移媒体碎片的程度。直觉的基础上，网点是相似的，如果他们引用相同的句子与类似的情绪，我们采用两种方法来量化的碎片化水平。我们首先考虑美国现有的两党结构并评估媒体对双方的引用是否“均衡”。其次，我们借用聚类文献中的概念，并研究超越党派假设的媒体之间的整体相似性。4.1两党覆盖因为美国总统选举通常涉及两个主要政党，我们首先利用这种两党结构和词袋（BOW）模型已经在以下方面优于人类这个任务。与我们在§3.3中提出的特征（7一个更类似的设置是对训练实例进行二次采样，以匹配特定辩论类型的大小。这样做，只使用匹配的辩论类型（称为强调不加亮强调不加亮Jaccard相似性Jaccard相似性·主题：Web与社会WWW 2018，2018年4月23日至27日，法国里昂951“You∈7570656055501 2 3 4 5 6 7 8 9前百分比随机人仅长度BOWall7065605550一般DEMREP一般DEMREP所有人类(a) 不同功能的准确性与人类（b）跨组表现图4：分类精度。在图4a中，每个点测量保持数据的子集上的特征集（由颜色指示）的准确性，其中一对中的突出显示的句子的引用计数在辩论中的前x%引用的句子中换句话说，较小的X值对应于x=10的y值给出了完整保留数据的准确度（所有，66.0% vs.人，60.1%，p = 0。0008）。图4b说明了当我们将在辩论类型上训练的分类器应用于另一辩论类型时的准确性不同的颜色代表训练数据的辩论类型，x轴代表测试数据的辩论类型请注意，使用min-cut来识别两党覆盖范围。我们专注于一般性辩论的新闻报道，因为在过去的三十年里，民主党和共和党总是有一位总统候选人和一位副总统候选人[8]因此，我们根据每次总统选举中的一般性辩论构建了二分图的矩阵。在某种程度上，网点在极端的情况下，一部分媒体可能只引用共和党候选人的话，其余的只引用民主党候选人的话，换句话说，不存在两党的报道。这些直觉与使用min-cut来识别两党覆盖的想法一致如果我们把最小割算法应用到单独的句子上图5：媒体和总统辩论亮点之间的二分图。这些边缘是从2016年的总统辩论中取样的。通过“倾向民主党”的媒体机构引用共和党候选人的多少来评估分裂二分图表示。一个自然的表示quot-ING模式是出口和句子之间的二分图，其中媒体出口i和候选句子j之间的边指示i引用j（例如，图5）。这张图可以表示-使用媒体-句子矩阵DRM×S，其中每行表示媒体出口（M是出口的数量），并且每列表示来自候选的句子（S是句子的数量）。为了获得Dij，我们使用三种方法来解释媒体引用的频率和情绪在两党图[49]中，来自民主党候选人的句子和来自共和党候选人的句子，那么不存在两党覆盖的极端情况导致最小切割为0。相反，最小切割成本越高，双方就越纠结。两党覆盖率下降（图6a）。我们计算最小切割中的权重的分数和该最小统计数字表明，媒体主要引用双方中一9图6a显示，在所有三种定义下，最小切割中的跨切割覆盖率都随着时间的推移而下降。值得注意的是，尽管有下降的趋势，但最小切割中的权重比例并不小（约40%，上限为50%），这表明媒体机构倾向于至少覆盖双方。事实上，在情绪（积极和消极）方面的交叉报道比在计数方面少，这表明尽管媒体机构引用了双方，但候选话语：a. count（Dij是感情不同。10句子j在出口i）中被引用; b.积极上下文（Di，j是插座i中句子j的每个引用周围的30个词中的积极词的数量）; c. 消极语境（类似于积极语境，但计算消极词）。我们对每一行进行标准化，使2-norm为1，并删除在选举中引用少于10次的媒体。[8]在本分析中，我们忽略所有独立候选人。9请注意，优先引用民主党候选人的媒体可能不支持民主党，因为引用可能会以负面的方式呈现因此，我们还在引用的上下文中使用情感信息来填充D。[10]就最小切割导致的分区而言，在大多数年份，大多数媒体都处于与共和党候选人句子相关的分区中，至少与2016年的最新报告一致[39]。对于《纽约时报》和《华盛顿邮报》等大型媒体来说，情况尤其如此。一个值得注意的例外是，《华盛顿邮报》在2008年因积极的背景而处于民主党的分治之中准确度准确度主题：Web与社会WWW 2018，2018年4月23日至27日，法国里昂952WWW 2018，2018年4月23日计数正负444036321992 2000 200820160.30.20.10.01992 2000 200820160.60.40.2计数阳性阴性（*）1992 2000 2008 2016(a) 最小切割中的权重分数。(b) 所有媒体的平均成对相似度。(c) 与3个最近邻的平均相似度图6：图6a估计了经销商是否在双方之间均匀报价，并显示了随时间推移的下降趋势。图6b给出了全局平均成对相似性，并且没有明显的趋势，而图6c示出了“局部相似性”（与顶部最近邻居的在80年代，没有足够的媒体至少引用10次来计算有意义的结果，所以我们排除了那些年份。在所有图中，不同的颜色表示用其引用模式表示媒体出口的不同方式4.2超越党派假设另一种估计碎片化的方法是研究媒体在没有党派假设的情况下如何聚集在一起我们根据每次总统选举的初选辩论和一般性辩论构建矩阵我们使用每行Di来表示媒体出口i，并调查媒体出口之间的聚类质量。聚类纯度通常在两个级别上进行评估：在纯聚类中，聚类间距离很大，聚类内距离很小[43]。当我们使用轮廓分数（纯度的度量）来识别D中的媒体表示的K均值聚类中的聚类的最佳数量时，最佳数量接近媒体出口的总数M，这表明存在许多孤立的小聚类。因此，我们通过将每个媒体出口视为一个单体来检查上述两个级别的碎片化：媒体出口是否已经变得整体上彼此不太相似（类似于群间距离）;以及媒体出口是否已经变得与它们最近的邻居更相似（类似于群内距离）。我们使用余弦相似度来衡量一对媒体之间的相似性“簇间”相似性没有明显趋势（图6b）。到为了评估新闻媒体是否变得彼此不太相似，我们计算所有成对相似性的全局平均值全球平均值的下降表明全球水平的碎片化，但我们没有观察到一致的趋势或任何与时间的统计学显著相关性（图6b）。积极语境和消极语境中的相似度总是小于使用频率上的相似度。这再次表明，尽管不同的媒体可能引用相同的句子，但它们围绕引用提出了不同的意见。增加“簇内”相似性（图6c）。捕捉“local” similarity that is analogous to intra-cluster distances, wepropose 我们称之为局部相似性。地方相似性的增加表明地方一级的紧张程度增加。我们在三个定义中观察到一致的增加趋势，并且这种观察对于K的选择是稳健的。这一观察结果与以下事实有关：随着时间的推移有许多媒体出口，因此媒体出口更可能具有最近的邻居。然而，这一假设不足以解释我们的观察结果，因为它也表明“集群间”的相似性应该增加，这并不成立。讨论我们的观察结果来自三十年的数据集，与过去关于极化和parti- san选择性暴露的工作一致[2，51]，但两党覆盖率下降和局部相似性增加背后的原因需要进一步调查。我们的结果当然受到总统辩论历史相对较短的限制同样重要的是要注意，我们的研究没有考虑媒体本身的影响[6，20，29]。例如，Golan[20]展示了早间《纽约时报》和三个晚间电视新闻节目之间的相关性。关于媒体选择中的高光扩散的进一步研究可以为我们的观察提供更多的信息。5相关工作我们在整个论文中讨论了最相关的研究。在这里，我们讨论相关工作的三个附加链。辩论后的报道对公众舆论的影响研究已经表明，媒体对报道的选择可能会产生严重的后果[8，17，23，25，26，38，56]。例如，Fridkin et al.[17]2004年，美国在2010年大选中，只看新闻报道的公民对克里的评价比直接观看辩论的人更负面Boydstun等人[5]开发一个手机应用程序，收集总统辩论的实时帕特森[38]讨论了美国媒体媒体与政治家之间的关系。虽然我们的工作集中在媒体选择的亮点，政治家经常根据他们对媒体偏好的信念行事，这表明媒体和政治家之间的复杂动态[3，9，12，21，42]。例如，Blumler和Kavanagh[3]讨论了在媒体丰富的情况下，政治家对不同新闻价值观和格式的适应程度。同样相关的是研究政治家对媒体的影响，包括议程设置，修辞定位和框架[10，16，33，46，57]。计数阳性（*）阴性切割分数（%）平均余弦相似余弦相似神经网络主题：Web与社会WWW 2018，2018年4月23日至27日，法国里昂953“You}∈{辩论和其他类型报道中的权力动态研究表明，辩论中的语言使用和话题控制可以反映候选人之间的影响力，并表明权力动态[35，36，41]。最近，社交媒体也成为实时监控辩论公众舆论的重要渠道[7，14]，并可能改变新闻媒体的报道。6结论在本文中，我们进行了第一次系统的研究，媒体选择的亮点，从总统辩论，使用三十年的数据集。我们引入了一个计算框架，控制为演讲者和辩论情境研究文本因素的影响。首先，我们发现，媒体的选择是不明显的土耳其机械工人，这表明公众可能有一个有限的了解，新闻媒体如何选择在新闻报道的亮点。其次，尽管机器和人类在一般辩论中达到了类似的准确性，但机器在预测初选辩论中媒体选择的亮点方面明显优于人类。我们的研究结果表明，在文本信息中存在未受过训练的人没有发现显着的信号。特别地我们进一步展示了一个下降的趋势，两党的报道，

下载后可阅读完整内容，剩余1页未读，立即下载