新闻发布后的标题变化及其影响：美国主流媒体标题修改频率、类型、社交媒体传播分析

118 浏览量更新于2023-11-29 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

588∼Verba Volant，Scripta Volant：了解新闻发布后的标题变化摘要郭兴志美国纽约石溪大学xingzguo@cs.stonybrook.edu美国纽约nick@cs.stonybrook.edu石溪大学BrianKondrackiStonyBrook University纽约，美国bkondracki@cs.stonybrook.edu史蒂文·斯基耶纳美国纽约石溪大学skiena@cs.stonybrook.edu关键词数字媒体（包括网站和在线社交网络）通过灵活和个性化的渠道促进新闻广播与传统报纸在出版后成为“只读”不同，在线新闻来源在首次发布后可以自由地任意修改新闻标题。出版后标题变化的动机、频率和影响在很大程度上是未知的，没有研究人员可以从中得出平行结果的离线等价物。在本文中，我们通过跟踪美国主要新闻机构在六个月期间（2021年3月至9月）的411K篇文章，收集和分析了超过41K对更改的新闻标题，发现7.5%的文章至少有一次出版后的标题编辑，类型广泛，从轻微更新到完全重写。我们描述了标题被修改的频率，以及某些媒体是否比其他媒体更有可能参与出版后的标题更改。我们发现，49.7%的更改超出了轻微的拼写或语法更正，其中23.13%导致向读者传达的信息完全不同。最后，为了更好地理解出版后的标题编辑和社交媒体之间的相互作用，我们对Twitter上的新闻流行度进行了时间分析。我们发现，一个有效的标题发布后编辑应该发生在最初发布后的前十个小时内，以确保以前的，可能具有误导性的信息不会完全传播到社交网络。CCS概念• 信息系统→关联规则;·安全和隐私→安全和隐私的社会方面。允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上有本声明和完整的引用。版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3512219信息完整性，新闻标题修改分类，社会网络ACM参考格式：Xingzhi Guo ， Brian Kondracki ， Nick Nikiforakis ， and StevenSkiena.2022年Verba Volant，Scripta Volant：了解新闻发布后的标题变化。在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，美国纽约州纽约市，11页。https://doi.org/10.1145/3485447.35122191引言互联网的发展使新闻文章的传播从印刷品和广播等传统渠道转向在线网站和社交媒体平台。今天，86%的人通过互联网在数字设备上消费新闻[29]。这一新媒体大大缩短了从发生有新闻价值的事件到发表报道这些事件的文章之间的时间。新闻机构似乎经常使用的策略之一是发表信息不完整的文章，利用它们在发表后修改在线文章的能力因此，与稍后阅读同一篇文章的读者相比，在发表后立即查看文章或标题的读者可能会接触到完全不同的信息，因此得出不同的结论。例如，《大西洋月刊》在2021年2月11日发表了以下文章，标题是：原标题[21]：“我想念特朗普的刺激然而，五个小时后，这篇文章的标题改为：改变标题：“我是人民的敌人考虑到用户倾向于浏览标题而不是阅读他们遇到的每一篇新闻文章的内容[6]，对标题的彻底修改可以转化为两个或更多组的人从相同的来源消费相同的新闻，但可能会得出不同的世界观。本文探讨了新闻标题在出版后的修改我们监控来自几家顶级新闻出版商的文章标题，并捕捉所有出版后的更改以供日后分析。我们分析编译的数据集，使用自动化NLP管道创建标题更改的分类，使我们能够确定文章标题更改的原因，负责的实体以及发布者可能会因此获得的有形利益。此外，我们还研究了WWWXingzhi Guo，Brian Kondracki，Nick Nikiforakis，and StevenSkiena589通过收集时间序列印象统计（例如，转发/喜欢的数量）的推文，其包含到新闻出版商的Twitter账户的新闻文章的链接。我们工作的主要贡献如下：时间新闻标题数据集：我们已经开发了一个时间新闻标题语料库，由30，930篇不同的新闻文章组成，其中标题至少改变一次。我们的数据集共有41，906个改变的标题对（有些文章不止一次改变标题），为未来研究新闻可信度和用户信任度提供了独特的资源，我们将在出版时提供。描述新闻标题的变化：我们创建了一个NLP分类管道来评估标题的变化根据新闻学提出的九类分类法，领域知识和最先进的语言模型（BERTScore [34]），从中我们成功地发现，23.13%的标题编辑被视为有害。这种分析使我们能够量化为什么在实践中会发生标题变化，以及政策如何与特定的新闻机构不同。估计Twitter上的有效时间：我们提出了一个时间分析，显示如何迅速的新闻是充分传播的社交网络。我们观察到，大多数新闻推文在最初发布后的前10个小时内被分享/转发，然后由于失去公众的注意力或达到最大受众而逐渐淡出这表明，有效的标题更正必须迅速发生，以避免传播错误信息。2相关工作一个真正的新闻标题概括了内容，使读者能够迅速得出结论[10，15，26]。然而，在数字媒体时代，虚假信息或假新闻[11，19，30，35]通过诱导读者点击诱饵标题和捏造内容来威胁公众Vargas等人[31]开发技术，使用协调网络分析区分Twitter上的合法活动此外，一个大型研究线[12，16，25，35]专注于假新闻检测，讽刺检测[9，28]和点击诱饵检测[23]。Hounsel等人[14]提出了使用其托管基础设施的特征来发现虚假信息网站的方法。在这项工作中，我们调查的新闻媒体，在发布合法的文章的过程中，修改他们的标题。标题修改可能是无害的（例如，更新竞争分数）或恶意的（例如，使标题具有点击性[7]，或者从一个不准确的标题开始，最大限度地提高用户的浏览量，最终将其改为准确的标题）。 Hagar和Diakopou-los [13]讨论了新闻标题的A/B测试，并收集了几种标题写作实践的观众反馈（例如，以“为什么”或“如何”和主观理想开始标题）并报告标题针对特定度量被优化（例如，点击率）从A/B测试。Kuiken等人[18]通过比较原始标题和重写标题的点击率来研究标题的有效性，表明点击诱饵功能导致点击量的统计显着增加。然而，他们的数据集的大小是有限的，只有1，836对标题是从一组编辑中重写的。图1：新闻出版商选择基于他们的政治偏见和Alexa排名。另一个相关的研究方向是文本编辑分类。先前的工作[8]分析了编辑类别分类任务的语言特征，将英文维基百科的编辑分为21个类别，从拼写更正到故意破坏。Yang等人[32]研究了文本编辑背后的意图，并创建了编辑意图的13类分类法，然后开发了用于自动识别的监督学习模型。类似地，Marrese-Taylor等人。[20]，Yin等人。[33]采用编码器-解码器深度学习框架来学习编辑表示并预测其类别。由于数据的可获得性，以前的研究主要集中在维基百科的编辑后，而不是新闻标题。鉴于我们独特的，大规模的数据集的41K对标题的变化，我们的目标是了解现实世界的标题修改，并推导出一个分类的自动编辑分类。此外，我们还分析了社交网络上的新闻传播速度，以及它们与出版后标题变化的关系，并就负责任的出版后修改的时机提供了指导。3数据集准备在本节中，我们将讨论我们选择新闻出版商的过程。然后，我们描述了我们设计和实施的基础设施，以捕获新闻文章，以及检测出版后的标题变化和衡量新闻在社交媒体上的传播。3.1新闻发布者标识在捕捉和研究发表后文章标题的变化之前，我们必须首先确定一组新闻发布商，以从其收集代表广泛的审计、偏见和平台大小的文章数据。为此，我们首先通过咨询AdFontesMedia创建的媒体偏差图构建了一组新闻发布商[2]。这个图表将新闻出版商映射到一个代表政治偏见和声誉的二维平面上。我们只关注每个新闻出版商的政治偏见从这个轴的每个地区选择相同数量的出版商而不是利用这个图表上每个出版商的声誉排名，我们选择用每个出版商网站的Alexa排名[1]来衡量声誉我们认为Alexa···Verba Volant，ScriptaVolantWWW590图2：新闻抓取基础设施概述每个出版商的排名是出版商的有效和公正的代理;信誉更好的出版商吸引更大的读者和更高的排名。我们将发布者分组到代表不同Alexa排名范围的桶中，旨在从每个桶中获得相同数量的发布者图1显示了我们选择的新闻发布者，以及他们在我们描述的二维平面中的位置。3.2数据收集基础结构为了衡量新闻出版商在出版后修改其文章标题的程度，我们创建了一个数据收集基础设施，该基础设施在新闻文章发布时访问新闻文章的网页，并持续监控它们以检测其标题和内容的变化。此外，该基础设施还监控Twitter上的新闻传播。发表后文章标题的变化图2提供了我们的基础设施的概述。（i）使用对应于从中收集URL的源的一组输入模块来收集新闻文章URL。对于我们研究的所有新闻出版商，URL都是使用每个出版商提供的RSS提要收集的。但是，我们的基础设施可以很容易地扩展到支持其他URL源，例如通过为该源创建新模块来抓取新闻发布者的主页。我们的RSS模块定期查询每个新闻发布商的RSS服务器，以收集新文章发布后不久的URL。每个新文章的URL被放置到文章抓取模块中的队列中（ii），其中工作者通过访问每个URL并解析来自文章网页的元数据来消费新URL。我们收集并保存每个HTML网页以供将来处理，但具体来说，使用PythonNewspaper库解析文章标题[4]。为了检测新闻文章中的标题变化，（iii）我们在其原始发布后的两天内定期重新抓取每篇文章的网页，并解析出与所描述的相同的信息。我们通过一个试点爬行实验得出了这个两天的阈值，在这个实验中，我们确定任何标题修改通常发生在文章发表后的前几个小时。在许多情况下，对新闻文章的修改发生在这些文章已经被消费和分享之后。由于信息在用户之间传播的速度，社交媒体平台只会加剧这一问题。我们选择研究Twitter上的新闻传播，因为与其他社交媒体平台不同，Twitter阻止用户在发布后编辑推文，导致新闻机构的推文及其相关文章中共享的信息存在差异。当抓取发现有修改标题的文章时，我们的基础设施还搜索相关新闻发布者的Twitter提要，以查找包含相关文章链接的推文。如果这样的推文被发现，它会以与文章本身相同的时间间隔重新抓取对于每一次抓取推文，我们的基础设施都会记录推文文本，以及当前收藏和转发的为了测量每个新闻发布者收到的交互推文的基本水平，我们的数据收集基础设施还从每个发布者那里抓取了一个随机的推文样本。4出版后头条新闻的变化使用我们的数据收集基础设施，我们监测了图1中所列新闻机构自2010年3月以来出版的411，070篇文章2021年1月1日至2021年8月31日总的来说，我们观察到30，930（7.5%）篇文章至少修改了一次标题，导致41，906对更改1。图3显示，超过90%的更改发生在发布后的前10个小时内。在文章发表后不久读到文章的读者可能会对文章的主题产生不同的看法，而在标题改变后读到同一篇文章的读者则会有不同的看法。此外，如果标题更改是为了纠正无效信息，这可能导致错误信息通过社交媒体等渠道迅速传播。在本节中，我们将探讨数据集中标题变化的幅度，为这些变化分配与修改性质相对应的标签，并比较流行新闻媒体发布的标题的一致性。1我们将一对视为两个连续的标题版本。此外，我们在附录中的表8中列出了每个机构的变更对的新闻类别WWWXingzhi Guo，Brian Kondracki，Nick Nikiforakis，and StevenSkiena591∈ [−]F|X|x ∈xJ|xˆ|ˆˆ我编辑距离直方图0 5 10 15 2025编辑距离（令牌级别）编辑时间直方图由现在时态转变为过去时的修饰动词，表示事件的结束同样，标题的变化对应于正在进行的事件的更新（例如，体育赛事中的分数变化我们观察到，68.39%的数字标题变化导致数字增加了一些值（例如，反映了正在发生的自然灾害中发现的更多伤害/伤亡附录中的表5显示了我们观察到的所有数字变化的详细分类。0 5 10 15 20 25 30 3540编辑时间（小时）1.000.750.500.250.00编辑距离与BertScore（F1）2.01.51.00.50.0BERT评分（F1）直方图图3：编辑距离直方图（上图）：大部分ed-its是距离为1到3的本地编辑所有权变更的时间0 5 10 15 2025编辑距离0.0 0.5 1.0BERT评分（F1）（底部）：大多数标题更改发生在首次发布后的10小时我们在附录中的图84.1标题变更幅度标题中包含、排除或修改单个单词或短语会导致读者感知的巨大差异图3显示了我们在数据收集期间检测到的标题修改的编辑距离在标题修饰的上下文中，我们将标记定义为单个单词。我们在数据集中观察到双峰分布，大部分标题变化导致单个标记的编辑距离，第二个局部峰值大约为10个标记。由于我们预计这两组中的标题修改是不同因素的结果，因此我们分别讨论它们。单令牌编辑距离。在我们的数据收集期间，我们观察到6，036个单令牌编辑更改。其中，3,767个是单词替换。表1显示了标题中最常见的五种词性变化。我们发现，标题与单令牌取代通常对应于任何更新图4：图（左）：BERTScore随着应用更多编辑而降低，图（右）显示只有少数新闻标题完全重写。任意编辑距离。为了对任意编辑距离下的标题修改进行建模，我们计算修改对中词汇的差异，以区分它是一个小的更新还是一个完整的重写。基于BERT的单词对齐分数-BERTScore可以捕捉两个句子的语义相似性，而编辑距离只能测量表面的词汇差异。我们将我们的分析扩展到所有变化的对，BERTScoreF 11，1作为语义相似性度量。编辑距离和BERTScoreF1之间的关系如图4（左）所示。R=1.max x<$∈x<$xix<$j;P=1。maxx∈xxix<$j表1：词性变化前5我BERT评分1=2P≥RR+Pxj∈x∈ [-1，1]，（一）POS变更#(NOUN，NOUN）861(VERB、动词）573(NUM，NUM）396（PUNCT，PUNCT）242(ADJ、ADJ）216别人1,479特别是对于单词替换，44.1%的名词变化和54.6%的动词变化是同义词，hyponymns，hyponymns，或以其他方式共享相同的词元。附录中的表6和表7分别列出了名词和动词的分类这些修改通常发生在有新闻价值的事件结束时;其中xi，xi表示两个句子x，x中的第i个标记。图4（右）显示BERTScore的分布，其中0.9左右的峰值表示大多数编辑不会改变标题的语义含义，而以0为中心的样本表示出版后编辑完全改变了标题行我们在附录的表9 中给出了与BERTScore相关的示例。使用BERTScore阈值0.25，我们发现数据集中大约10%的变化对被显著重写。我们认为这些标题的改变对读者的伤害最大，因为标题所传达的信息很可能在修改后发生巨大变化。表2显示了新闻机构的排序列表，按所有更改的标题的平均相似性得分排序。一般来说，高频率密度频率密度BertScore（F1）频率密度正在进行的事件或错误更正。Verba Volant，ScriptaVolantWWW592表2：各机构的语义相似度（BERTScore）从新闻声誉排名中澄清相似性排名，有序列表并不反映可信度。Tracked是被跟踪的文章总数，Mod. Ratio是至少有一个标题被更改的文章的百分比。0.30.20.10.0编辑类别0.50.40.30.20.10.0编辑类别覆盖范围012345#更改对的图5：分类统计。图（左）显示了大多数更改类型是释义和动态更新。图（右）显示，大约。70%的样本至少有一个类别。50.3%的修改与良性编辑类别（释义，更新，阐述，简洁），而23.13%的修改与其他不太良性的编辑。相似性表示不改变原始语义的微小变化。我们发现许多受人尊敬的出版商（例如，BBC，The Guardian，NYT）经常修改标题语义。这一出乎意料的发现表明，新闻媒体的受欢迎程度并不一定意味着对出版后标题变化的更大限制。相比之下，我们观察到像《大纪元时报》这样的Alexa排名接近一万的出版商修改头条新闻的速度比在线存在更大的出版商要低得多。此外，通过注意修改的标题与所有修改的标题的平均BERTScore的比率，我们可以推断出特定新闻渠道的预期一致性例如，我们发现BuzzFeed在我们的数据收集期间修改了44%文章的标题。在这些文章中，我们观察到标题变化产生最低的平均BERTScore（即修改后的标题与原始标题显著不同）。相比之下，在我们的数据收集期间，《赫芬顿邮报》只修改了3%的观察文章的标题这些变化的平均BERTScore最高因此，我们可以得出结论，就标题修改而言，与Buz- zFeed相比，《赫芬顿邮报》是一个更一致的新闻媒体。然而，我们注意到，标题的这种一致性并不一定意味着标题的准确性。4.2新闻标题变化的分类为了发现文章标题变化的趋势，以及负责的出版商的行为，我们根据新闻知识创建了一个九级编辑类型分类法（例如，唯意志论，等），维基百科电子编辑的现有分类[8，32]，以及我们观察到的最常见的编辑（例如，释义、动态更新等）. 我们设计分类如下：Paraphrase：如果更改的对具有大于0.8的相似性得分（BERTScore-F1），则分配标签Paraphrase。动态更新：如果旧的和新的标题都包含关键字，如周一简报，更新，现场，流等。关键词是手动选择的。主观主义[17]：只要新闻标题包含主观词典中的任何一个中性化：如果只有旧标题包含上述主观性词语。前向引用：前向引用[7，17]是新闻标题中的常见特征，激起读者的好奇心。只有当更改后的标题包含诸如why、when、which、how等关键字时，我们才分配此标签。个性化[17]：个性化是用来保持听众，使读者感到参与新闻。只有当新标题包含关键字时，我们才会分配此标签，例如您，我们，她/他，您的等。引用：引用是新闻标题中的一种常见技术，使它们看起来更可靠。我们分配这个标签只有当新的标题包含关键字，如说，说，告诉，等简洁：如果新的标题删除一些文本，和剩余的文本与旧的标题对齐（P <0。6，R>0。5）。BERT分数精确度/召回率在等式1中定义：如果新标题添加了文本，并且在语义上与旧标题对齐：P>0。6，R <0. 5）。这九个类别使我们能够更好地理解标题修改，通过将它们分类到与其感知目的相对应的组中。通过BERTScore，StanzaPipeline [24]，单词情感词典[27]和手工规则的组合，我们能够使用我们提出的NLP管道自动分配标签。我们根据经验确定了数据百分比（%）数据百分比（%）········机构是说中值跟踪Mod.Ratio赫芬顿邮报0.82920.89664,8750.0357大纪元0.82600.89084,7650.1442山上0.80870.86445,6760.0592福克斯新闻0.76590.864511,0030.0486纽约邮报0.73050.817413,8810.0665国家评论0.72680.83053,3240.0126大火0.72000.81454,4010.0400CNN0.68880.74936,3440.2030华盛顿邮报0.68400.79166,0760.1508Newsmax0.67330.73191,1150.0233每日野兽0.65840.76934,3590.1308MarketWatch0.65510.70117,5030.3453BBC0.60310.62605,8540.2277雅虎新闻0.59850.6160227,2460.0846每日邮报0.59360.634875,1180.0756OAN0.58300.59108,3230.2616卫报0.55790.58266,9160.1975纽约时报0.52340.55959,7460.1892BuzzFeed0.50850.48724,5450.4438·WWWXingzhi Guo，Brian Kondracki，Nick Nikiforakis，and StevenSkiena593表3：按修改类别从我们的数据集中采样的修改标题的示例标签“其他”的例子涉及词汇表外的单词（J.&J）和音调的变化“Concision”的例子去掉了具体的人，而“Escort”的例子用一个定语从句扩展了原来的标题。“前引”和“个性化”都是在标题中添加了一个问号和替代读者，这都引起了读者的好奇心“Neutralize”示例从原始标题中删除了“long”，使其主观性降低而“情绪化”的例子增加了“戏弄，大”，这使得标题更具煽动性。BERT前后-F1标签一个剂量的J.& J. 疫苗对德尔塔无效J.和amp; J. 疫苗可能对Delta不太有效0.6830其他参议员卡皮托说，共和党人计划新的美国基础设施美国参议院共和党人准备新的基础设施提供0. 5434简洁的报价劳尔·卡斯特罗证实他第四次刺激检查更新：你的下一次付款可能是第四次刺激检查？这些付款已经在 0.4479正向参考这些管道最新消息：联合国：38,000名巴勒斯坦人在加沙流离失所最新消息：拜登表示“支持”加沙停火。更新MAGA 2.0“一个新的讨价还价”：拜登的2024戏弄赌注大怀旧0.0257情绪来自Hot Fuzz的23个惊人的笑话，人类将在未来10，000年内观看杰夫·贝佐斯今天发射到太空小行星47150.6179个性化阿富汗警卫被杀：交火造成至少一人死亡，其他人死亡美国大使馆的“背叛”阿富汗工作人员说，“在塔利班统治下死去，比在喀布尔机场的崩溃中受伤更好”0.0656引文表4：各新闻机构编辑类型的细分每个标题修改可以属于多个标签。我们突出显示每列中的顶部。机构释义动态更新拟订简洁情感中和前向参考个性化引文BBC0.31960.38480.02780.01130.10430.08180.01800.01880.0540BuzzFeed0.15870.02030.03120.11010.10260.18940.07090.06990.0238CNN0.42620.09160.04040.01480.06990.07380.01710.03420.0435每日野兽0.47540.10350.02460.01750.11230.09120.03860.03510.0298每日邮报0.28010.11580.03570.01440.09930.12180.02410.05210.0422福克斯新闻0.60560.19250.01870.00930.07100.06170.01680.02240.0262赫芬顿邮报0.73560.06900.00000.00000.03450.06320.00000.03450.0230MarketWatch0.38670.08720.04130.01780.09650.07990.03630.01540.0247国家评论0.54760.38100.04760.00000.07140.04760.00000.02380.0000纽约邮报0.52110.09970.03360.00760.07150.06180.03360.02930.0141纽约时报0.29230.11710.01080.01080.11230.14320.03800.01840.0331Newsmax0.38460.30770.03850.00000.00000.07690.00000.00000.0385OAN0.26920.01560.02800.01840.10290.09880.00320.00230.0271大火0.53410.32390.06250.02270.06820.03980.02270.03980.0455大纪元0.68560.16590.01460.02040.02770.04220.00440.00870.0364卫报0.29500.41000.02710.01240.12150.11640.01900.01900.0688山上0.66370.20240.02680.03270.02080.04460.00890.00600.0179华盛顿邮报0.48910.22050.01860.01090.08840.07970.02070.04370.0371雅虎新闻0.32560.18460.01500.01260.10470.09770.01560.01610.0340通过找到那些最有意义的手动检查来使用。附录表9列出了每一类别的更多例子。图5（右）显示了最终的标签覆盖率。我们提出的分类规则覆盖了大约70%的新闻标题更改（更改的对至少有一个指定的类别）。中30%的修改没有被我们的管道覆盖，我们发现缺失的案例通常BERTScore小于0.8，涉及更复杂的句子结构变化（双重否定），或词汇表外的单词（其中大多数是与 COVID-19，J.& amp; J. ，AstraZenecVerba Volant，ScriptaVolantWWW594·（）模型）。我们在附录的表3中列出了几个示例，在表9中列出了更多示例。我们还发现，最常见的变化属于“释义”和“动态更新”类别（44.24%），这并没有显着改变标题的语义。这些类别的变化通常对应于正在进行的事件的更新和语法/拼写更正。然而，我们注意到，我们分类中的所有其他类别可能包含至少对某些读者有害的标题更改在我们的数据收集期间，我们观察到“中立主义”和“中立化”标题变化的平均分布，这表明出版商在首次出版后添加情感词以吸引更多读者的可能性与删除它们的可能性一样大。然而，由于这两个类别都将标题从挑衅性状态转换为非挑衅性状态，反之亦然，因此这两组可以对不同的1.00.80.60.40.20.01.00.80.60.40.20.0CDF of edittime转推拟合曲线：Retweet编辑时间CDF拟合曲线：收藏夹0 5 10 15 20 25已用小时数读者群体在“中立化”变化的情况下，在修改后查看标题的读者可能会对主题产生更情绪化的反应，而“中立化”变化将对查看修改前标题的读者产生相同的影响。这两组加起来占我们数据集中所有标题变化的20.13%。表4显示了每个出版商在我们的分类法中属于九个类别的文章的百分比由于它反映了标题变化的解释，因此百分比并不反映一般媒体的偏见，这可能嵌入静态新闻标题中。我们观察到，《赫芬顿邮报》、《大纪元时报》和《希尔报》发表的文章中，超过70%属于“释义”或“动态更新”类别，这表明它们的标题通常不会发生变化，从而导致读者之间的意见大相径庭。我们还注意到BuzzFeed在三个变化类别中领先，包括与点击诱饵最密切相关的类别：“转发参考”和“个性化”。通过观察每个出版商的分类，可以开发一个关于其整体标题修改策略的模型。例如，我们的分类法中的“引用”类别允许我们推断出《卫报》最有可能在出版后的头条新闻中包括证人或专家证词，其文章中有6.8%属于这一类别。相反，我们发现出版商《国家评论》不太可能做出这样的标题改变，因为我们在数据收集期间没有观察到任何出版商修改的情况。这些观察结果量化了出版商修改标题的规律性，并可作为未来数字新闻和公众对新闻信任度研究的补充特征。4.3Twitter上的新闻传播近年来，社交媒体服务已成为新闻出版商快速与公众分享故事的重要工具由于用户能够与在线连接到他们的其他人共享和“重新发布”文章的链接，信息可以比以往任何时候都更快地传播。由于这种用户辅助的放大，文章标题中的虚假或误导性信息可以在标题更改发生之前传播给大量读者，放大了意外标题更改的负面影响。图6：归一化的转发（顶部）和收藏夹（底部）汤姆）新闻发布时间蓝色实线是拟合曲线y = a 1 + e−b（x−c）−1，近似于新闻达到最大影响力的速度。我们根据用户参与度来跟踪Twitter上新闻的可达性。如第3节所述，我们的数据收集基础结构记录了与来自每个发布者的帐户的具有修改的标题的新闻文章相关联的推文的喜欢和转发的数量在数据收集期间，我们总共检测到5，384条与修改标题的文章相对应的推文我们注意到，这些推文对应于原始文章的标题行，它们的不变性阻止了出版商简单地编辑其内容以反映标题的变化。相反，发布者必须首先删除原始的、过时的推文，并用新的推文替换它。然而，令人震惊的是，我们发现只有0.15%的此类推文在相应文章的标题更改后被删除。此外，我们发现这些推文平均获得39次转发和137次收藏。这意味着绝大多数与过时和潜在误导性信息相关的推文无限期地保留在网上，并受到用户的关注，然后将这些信息传播给其他人。图6显示了与标题变化相关的推文被用户“转发”和“收藏”的时间分布。我们观察到一个明显的趋势，即新闻故事在社交网络上逐渐失去流行性，因为它们变得不那么新颖。人们通常会在前十个小时内分享（转发）与新闻故事相关的推文，并在前五个小时内做出反应（收藏）。根据图3中的观察，我们发现几乎80%的标题更改发生在发布后的前五个小时内。这些发现令人震惊，因为它们表明，许多标题变化发生在大多数社交媒体活动停止后。这意味着，社交媒体用户目前要么在发布者通过修改标题来纠正错误或误导性信息之前传播错误或误导性信息，要么分享文章，当他们的追随者在稍后的时间点查看时，这些文章将描绘完全不同的情绪反应这两种情况都可能导致同一篇文章或标题的不同读者会根据他们遇到的时间得出不同的结论。标准化达到人群（%）WWWXingzhi Guo，Brian Kondracki，Nick Nikiforakis，and StevenSkiena595图7：BBC Poli- tics发布的文章的Twitter URL预览文章标题在Twitter上过时，由于缓存是URL卡。URL预览卡片Twitter的一个流行功能是呈现卡片，预览位于推文中链接的URL处的内容这些卡片的工作原理是解析和渲染来自链接网页的HTML源的Open Graph [3]元数据，直接在推文文本下方。通常，呈现网页缩略图、标题和描述。此元数据会为每个特定URL缓存大约一周;仅在URL被修改时更新[5]。这种缓存行为可能会放大发布后标题更改的负面影响，因为任何包含在标题更改之前发布的文章URL的推文将显示过时的标题至少一周。这是我们在热门新闻出版商的Twitter账户上观察到的一种行为图7展示了这种行为的一个示例，其中BBC更改了标题，并添加了一条包含BBC官方Twitter帐户发布的文章链接的tweet。Twitter用户只阅读位于呈现的卡片上的标题和描述，将消费关于情况的过时信息，而不是那些点击文章网页的用户。5讨论标题变更。互联网极大地缩短了有新闻价值的事件之间的时间，以及公众对这些事件的信息消费。这一点，加上人们倾向于简单地浏览标题，而不是阅读完整的文章[6]，已经形成了一种环境，在这种环境中，文章标题的出版后更改可能会导致读者之间的世界观分歧。在这项工作中，我们研究了新闻出版商的行为，并开发了一个分类的文章标题修改。我们发现，受欢迎的新闻出版商经常在出版后修改其标题，其中一些修改了近一半。此外，我们将这些更改分类到定义良好的组中，使我们能够量化每个发布者的行为。我们发现大部分标题的变化都与正在发生的事件的最新情况相对应。然而，令人震惊的是，20.13%的标题更改是为了增加或减少标题的重复性，向不同的读者群体呈现对主题的扭曲看法。使用这种分类法，我们能够量化不同的标题更新策略的每个新闻媒体的研究，发现出版商之间虽然这项研究中提出的新闻媒体似乎没有明显的恶意意图，但他们的行为导致数百万人消费的信息的完整性整体下降为了减缓错误信息在社会中的传播，新闻媒体应该限制其文章标题的修改率。随着新闻传播的速度，标题的变化会对读者的理解产生破坏性的影响。我们认为，如果一个标题必须改变，新的标题应该保持高的词汇相似性，原来的标题，只有增加新的信息，以加强读者的理解。社交媒体上的信息旅行通过社交媒体上的分享和转发，信息的快速传播只会加剧新闻文章标题修改的负面影响。通过观察与修改标题的新闻文章相关的推文的参与度，我们确定大多数收藏和转发发生在推文发布后的10小时内。由于Twitter上的文章元数据和预览的缓存，大多数文章共享将包含与发布者网站上活动的标题不同的虽然社交媒体平台不可能持续监控所有帖子链接的每个网页，但减少内容缓存有助于减少网上错误信息的传播此外，还值得探讨对过分改动标题的行为进行处罚的想法。也就是说，如果一篇文章在标题发生重大变化之前收到了1万次转发，那么这篇文章是否应该保留前一个标题产生的所有影响力？惩罚大的变化有可能作为一个不必要的出版行为的威慑，并鼓励出版商在发布一篇文章6结论2022年，对媒体的信任度处于历史低点。在本文中，我们探讨了一个维度，我们认为有可能进一步降低公众对新闻媒体的信任：出版后的标题变化。通过对数十家新闻媒体超过41.1万篇文章进行为期七个月的监测，我们发现7.5%的标题在发布后至少更改过一次。这种标题修改的速度并不均匀，某些受欢迎的媒体在出版后几乎改变了一半的标题。我们使用BERTScore指标，并设计了一个分类法来自动表征发布后更改的类型。我们发现，49.7%的变化超出了良性更正和更新，23.13%对应于情感主义，中性化和个性化等类别。我们还描述了与社交媒体相关的出版后标题变化的影响。除此之外，我们发现Twitter上最大的新闻传播Verba Volant，ScriptaVolantWWW596----在用户消费和放大了不准确的标题之后，将出现延迟的标题更正最后，我们讨论了社交网络中的内容缓存问题，以及它如何进一步加剧陈旧标题的传播。鸣谢：这项工作得到了美国国家科学基金会（NSF）的支持，资助 CMMI-1842020 ， CNS-1941617 ， CNS-2126654 ， IIS-1926781，IIS-1927227，IIS-1546113和OAC-1919752。可用性为了帮助理解网络上错误信息的传播，我们开放了我们的新闻标题数据集：https://scripta-volant.github.io/引用[1] [n. d.]。Alexa顶级网站。 https://www.alexa.com/topsites。[2] [n. d.]。媒体偏倚图。https://www.adfontesmedia.com/intro-to-the-media-bias-chart/.[3] [n. d.]。开放图形协议。 https://ogp.me。[4] [n. d.]。 Python新闻图书馆 https://newspaper.readthedocs.io/en/latest/。[5] [n. d.] 。 Twitter 卡故障排除 https://developer.twitter.com/en/docs/twitter-for-websites/cards/guides/twitter-cards #outdated.[6] 2014.美国人如何获取新闻https://www.americanpressinstitute.org/publications/reports/survey-research/how-americans-get-news/.[7] Jonas Nygaard Blom和Kenneth Re

下载后可阅读完整内容，剩余1页未读，立即下载