推特上的信息流估计及其对新闻研究的影响

155 浏览量更新于2023-12-05 收藏 14.14MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

0在线社交网络和媒体31 (2022) 1002310eativecommons.org/licenses/by/4.0/）的开放获取文章。0ScienceDirect提供的内容列表0在线社交网络和媒体0期刊主页:www.elsevier.com/locate/osnem0信息流估计:推特上的新闻研究0Tobin South a，b，c，�，Bridget Smart a，b，Matthew Roughan a，b，Lewis Mitchell a，b0a 阿德莱德大学数学科学学院，澳大利亚 b 澳大利亚数学和统计前沿卓越中心 c麻省理工学院媒体实验室，美国0文章信息0关键词:信息流熵估计新闻分析机器人检测影响检测0摘要0新闻媒体长期以来一直是一个创作、复制和评论的生态系统，在这个生态系统中，新闻媒体报道当前事件并对正在发生的故事进行评论。了解新闻信息创作和传播的动态对于准确归因有影响力的工作并了解社会叙事的发展方式至关重要。这些动态可以通过信息论自然语言处理和网络的组合来建模;并且可以使用大量的文本数据进行参数化。然而，在一片噪音中看到‘‘树木’’是具有挑战性的，即在一片噪音中检测到小但重要的信息流。在这里，我们开发了新的比较技术，用于估计文本生产者之间的时间信息流。使用模拟和真实文本数据，我们比较了估计文本信息流的方法的可靠性和灵敏度，结果显示通过局部邻域结构进行归一化的度量提供了大型网络中信息流的稳健估计。我们将这个度量应用于推特上的大量新闻机构语料库，并展示了它在识别信息生态系统内的影响力方面的有用性，发现网络的平均信息贡献与关注者数量或推文数量不相关。这表明，小型地方组织和关注者数量较少的右翼组织仍然对生态系统做出了重要的信息贡献。此外，这些方法被应用于特定新闻事件在新闻网站和推特上的小型全文数据集。信息流估计揭示并量化了这些事件的发展特征以及推特账户组在设置虚假信息叙述中的作用。总之，这项工作提供了一种检查任何自然语言连接系统中内容生产者之间传输的信息的新方法，这是一个在我们在线世界的许多网络话语中应用的工具包。01.介绍0新闻通过对事件的观察和对事件的影响在社会中发挥着基本作用。数字新闻的兴起及其相应的数据使得可以进行更多的定量分析[1,2]，然而，新闻机构之间信息传播的动态在更大的新闻生态系统中并不为人所了解。通过分析新闻机构之间信息流的动态，我们可以更好地理解公共话语生态系统的机制和新闻报道的及时性。信息流的机制已被证明影响了真假新闻在社交媒体上的传播[3]，组织内消息的传播[4]以及研究和发展实验室内的信息流[5]。尽管有价值，但许多这些模型和实证研究都共享一个共同的主题:它们侧重于单一思想或信息包的传输和扩散。0� 通讯作者：美国麻省理工学院媒体实验室MIT Media Lab。电子邮件地址：tsouth@mit.edu（T.South）。0特别是在Twitter上，有大量研究研究各种情境下的信息流动，这无法简单总结。然而，可以说在Twitter上的信息流往往通过标签或关键词的传播来建模[6-8]。从建模的角度来看，这是有吸引力的，因为它使得信息流动力学可以通过传染模型进行分析，而这方面有深厚的文献[9]。不幸的是，基于关键词或标签的分析必然会丢弃推文中的大部分数据，即与所讨论的标签或关键词无关的内容。我们在这里采用的信息论方法旨在在估计信息流时利用更多的数据。有一些研究使用信息论方法来分析各种Twitter数据，包括推文数量的时间序列数据[10]，事件时间序列[11]，以及推文的主题模型表示[12]。此外，并非所有的建模方法都属于传染建模框架，一些基于代理的方法也被采用[13]。然而，这些方法再次模拟的是标签的移动，而不是完整语言。0https://doi.org/10.1016/j.osnem.2022.1002312021年8月31日收到；2022年7月20日修订后收到；2022年8月20日接受2calSeveral models have been proposed to understand this information flowin networks [18–21]. Here we adapt these approaches to analysingthe news ecosystem. The information flow between news organisationsis vital to the public discourse and the timeliness of news reportingis highly valued. Social media exemplifies this, where news is oftenbroken and spread virally through the social media ecosystem as storiesunfℎ() = 𝑁 log 𝑁𝑁𝑖=0 𝛬𝑖,(1)ℎ() =𝑁 log2 𝑁𝑁,(2)0在线社交网络和媒体31（2022）1002310T. South等0信息流的统计和信息论测量[10,14-17]。已经提出了几种模型来理解网络中的信息流[18-21]。在这里，我们改编这些方法来分析新闻生态系统。新闻机构之间的信息流对公共话语和新闻报道的及时性至关重要。社交媒体是其典范，新闻往往通过社交媒体生态系统以0更一般的信息流可以通过统计学来理解0新闻生态系统具有挑战性，特别是通过观察0社交媒体。推文很短，数据量很大，而有意义的数据在这个大语料库中可能很少，其中还包括了来自人类和非人类行为者的对话、模因、广告和垃圾邮件。用于分析这样的数据的任何度量都需要既敏感又稳健。特别是，它需要能够比较大型和小型新闻机构。帮助相对比较的一种方法是标准化，但是（i）标准化指标是否确实优越并不明显，（ii）在网络环境中有许多不同的标准化方法。因此，这项工作的第一步是评估七种不同的标准化和非标准化网络信息流度量。结果表明，一种通过本地邻域结构进行标准化的新指标提供了大型网络中信息流的稳健估计。该指标的性能，按照皮尔逊相关系数衡量，为0.97，而下一个最佳指标为0.94，而朴素估计器为0.05。0该工作的第二个主要组成部分是对这些内容的应用0首先，我们对大型Twitter数据集进行分析，以研究2019年新闻机构之间的关系。该分析证实了一些直观的结果，例如，最大的流量来自华尔街日报到其观点专栏WSJOpinion；而DefenceOne是一个重要的信息“吸收者”，因为它专注于其他新闻机构不关注的一个利基领域，因此它的内容很少被复制。但有些结论令人惊讶。例如，对网络的平均信息贡献与追随者数量或推文数量没有相关性。这为支持小型地方组织和追随者数量较少的右翼组织仍然对生态系统做出重要贡献提供了一些定量证据。0其次，我们分析了来自主要新闻组织的全文文章0收集了三个特定新闻事件的数据，并应用这些度量来分析如何可以归因和量化每种情况。0第三，该度量被应用于来自0俄罗斯的链接喷子从互联网研究机构在2016年选举期间，以确定哪些账户组推动了积极传播的虚假信息叙述。该分析显示，信息通常从冒充右倾真实账户的账户流向冒充为 LeftTroll 和 HashtagGamer的账户。还观察到从冒充新闻来源的账户流向冒充商业用户的账户的净信息流。不同组之间的中位数净信息流显著不同，突显了我们的度量对表征网络机器人账户在线行为的实用性。我们的结果揭示了这一不真实账户组模拟的复杂互动动态网络，并暗示了互联网研究机构正在部署的潜在在线社交影响策略。0本文的主要贡献是：0• 介绍和测试新的信息度量0使用信息论方法来识别文本生成网络中的文本影响的方向和大小的流动。0• 对用于识别文本生成网络中文本影响方向和大小的方法的灵敏度和可靠性进行检验0估算在存在嘈杂文本数据的情况下的信息流，从而产生一种新的归一化信息流度量。0• 推特上的新闻组织的大型策划数据集以及所有0他们在2019年日历年内的推文，以及与特定新闻事件相关的一部分文章的全文。0• 应用新的度量来研究信息0在全年时间尺度和特定新闻事件的新闻组织之间的信息流关系，并应用于研究信息流如何与行为模式相关联，以确定哪些网络喷子在2016年选举期间的俄罗斯活动中推动了虚假信息传播的叙述。02. 背景02.1. 测量信息流0考虑一个网络，其中每个节点产生文本段0自然语言文本在离散（可能是随机的）时间点上产生。基于频率的熵的简单度量[25]无法描述整体文本生成者的复杂性，因为信息存在于单词的顺序以及可能是文本每个部分产生的顺序。更好的衡量这种信息内容的方法是熵率估计器，0对于大的 � ，其中 � � 是从位置 � 开始的最长子序列的长度，它作为前面 �个符号中的连续子序列出现，而 � 是数据的长度。Kon-toyiannis等人[26]首次引入了这个估计器，用于估计文本序列的熵率，该估计器已被用于找到运动模式序列的复杂性[27]和社交媒体可预测性[17]。0然后可以将此估计器概括为创建一个具有时间意识的0交叉熵度量[17,28]。时间同步的交叉熵率，0通过查找 � � ( � | � ≤ � ( � � ) ) 计算得出，这是从目标 � 中以位置 �开始的最长子序列，它作为源 source � 中在文本 �创建之前创建的部分的连续子序列出现。在其原始上下文中，这意味着目标推文中文本的匹配长度仅针对在目标推文创建时间之前由源创建的推文进行计算。实际上，这确保了信息流只在时间向前流动时进行测量（例如，如果两个节点推文中有完全相同的单词序列，则将记录信息从首先推文的节点流向推文的第二个节点）。图1 直观地表示了这些 � � 在序列之间的流动及其在估计中的作用。0请注意，尽管该度量提供了一个方向的概念，但它0基于单一信息源对的假设，缺乏网络环境中所需的某些特性。特别是，它缺乏目标之间的对称性和归一化。在这项工作中，我们通过以各种方式组合 (2)来适应和扩展它，从而创建具有这些期望特性的新指标。我们通过比较这些简单熵率计算的朴素差异度量与将估计与隐含的局部网络结构或在孤立过程上计算的熵率的更复杂组合相结合，来实现这一点。3in order that net flow between two potential sources is zero. Weseek to understand relationships in terms of provider–consumer,and the nature of an asymmetric raw metric like Kontoyiannis’is that it can indicate consumer–consumer relationships that arenot helpful in understanding the overall ecosystem.2. A metric should be real-valued: we seek not just to measure thata relationship exists, but also how strong that relationship is.3. A metric should not allow a user to enter a network and suddenlyappear to contribute significantly to it. If the flow measure wasnot temporal, it would be possible to create a new user thatappeared to contribute a large amount of information purely bycopying everything anyone else said; being first matters.̂ℎ(𝑇𝑆)̂ℎ(𝑆)−̂ℎ̂ℎ(𝑇𝑆)̂ℎ(𝑇 )−̂ℎ(𝑆 𝑇 )̂ℎ(𝑆).(5)0在线社交网络和媒体31 (2022) 1002310T. South等人0图1. 三家新闻机构文本流之间引用的视觉描述（左），以及生成的信息流网络（右）。02.2. 引用者模型0引用者模型旨在模拟网络上信息流动的动态[29]，在在线社交媒体上的朋友之间。它旨在模仿社交媒体上账户的信息生成过程，其中一个账户（节点）通过向平台添加新信息或复制/引用已在其动态中看到的信息来创建内容。我们在这里使用它来评估信息流指标在新闻网络生态系统中的有效性和稳健性，在这里类似的过程在新闻机构之间正在发生。引用者模型预设由有向边连接的一组参与者的网络。这些边表示从源 � 到目标 �进行引用过程。每个这样的边都被分配一个引用概率 ��，并且每个节点都有一个自生成概率 � ��，使得 ∑ � � � �� =1。这些概率用于决定模拟的每个时间步骤中节点的行为。该模型重复执行 �步的文本生成过程。在每个时间点 �，每个节点通过两种过程之一创建文本。01. 从 � = 0 开始，以概率 � �� 节点自动生成一个长度为 �(�)��的新单词序列。概率分布 �(�)可以是代表自然文本长度的任何长度分布。这可能会随着 �的变化而变化，但在这项工作中，我们仅在所有时间步长 �上使用泊松分布。使用长度�(�)，根据任何单词或序列的分布生成给定长度的序列。生成的序列中的每个单词都共享相同的时间步骤索引�，在以后当我们想要仅从节点的过去中抽取时，这将变得有用。这些生成的序列及其相关的时间索引被连接成每个节点的单个长时间戳序列。2.或者，在每个时间点 � = 1 开始，节点可以执行“引用过程”。以概率 ��，目标可以从源 � 中随机选择源的序列中的一个点。源的序列仅包括在时间 �之前生成的单词。从源历史中选择的点开始，长度为 �(�)��的子序列从源历史复制到目标的现在，并在目标的时间戳序列中添加时间 �。0值得注意的是，引用过程会不加区分地从源的过去中抽取，并且可能会复制源先前从其他地方引用的文本序列。这个序列本身最初可能是由目标生成的，并且通过一系列随机引用回合到达源的历史中。一般来说，这导致信息在网络中的节点之间传递的系统，取决于边上的引用概率。该模型是对真实社交媒体和新闻流程的极端简化，但它是一个有用的概念模型，因为我们了解底层网络，因此可以创建信息流度量的准确度量。因此，我们可以使用它来评估度量是否能够从可用数据的规模中实际估计新闻生态系统中的流动，并且可以提供哪些度量是优越的相对估计。值得注意的是，尽管上述模型可能看起来过于简化，我们在0模型的生成部分，确保信息流具有足够的结构，需要更复杂的Kontoyiannis信息速率指标（正如我们将在后面的比较中展示的那样）。0材料和方法03.1.流量测量0为了更好地捕捉网络中信息的真实流动，需要更健壮的测量。重要的是，信息流测量应具有几个属性：01.指标应该是（反）对称的，即，0�� ( � → � ) = − �� ( � → � ) ,0考虑到上述条件，合理地构建信息流的测量是通过结合在节点之间计算的时间同步交叉熵率。我们引入的第一个测量是最简单的，即取两个方向上的交叉熵率之间的差异，0为了使两个潜在来源之间的净流为零。我们试图从提供者-消费者的角度理解关系，而Kontoyiannis的一个不对称的原始指标可以指示出并不有助于理解整体生态系统的消费者-消费者关系。2.指标应该是实值的：我们不仅希望衡0记住，该测量需要识别边缘之间的方向和大小，测量的正值表示从 � 流向 �，当测量为负时，从 � 流向 �。该测量未经归一化。如果一个源具有复杂的语言（例如大量词汇）导致高信息含量，那么交叉熵率自然会膨胀，而不考虑引用概率。因此，通过熵率的归一化可能会改善检测。因此，第二和第三个测量通过源的自熵率对交叉熵率进行归一化，0�� ( � )，（4）0和目标，0理论上，这些自熵率可以帮助在每个方向上创建交叉熵率之间的公平比较——因为在目标中编码信息的能力受到两者复杂性的影响4̂ℎ(𝑇 𝑆)̂ℎ(𝑋 𝑆)−̂ℎ(𝑇 𝑆)̂ℎ(𝑇 𝑋)−0在线社交网络和媒体31（2022）1002310T. South等0源自归一化信息流（SSNIF）和自归一化信息流（SNIF）。0最终一组测量旨在解决熵的问题0归一化，以及较大网络带来的引用动态增加复杂性的挑战（例如引用循环和引用链的存在）。这些指标旨在使用本地邻域网络信息对交叉熵率进行归一化，通过除以源端的平均交叉熵率，0∑ � �� ( � || � )，（6）0或者进入目标，0∑ � �� ( � || � )，（7）0与上述类似，我们将这些称为源邻域归一化信息流（SNNIF）和邻域归一化信息流（NNIF）。这些指标旨在解决更深层次的挑战，0即在密集连接的网络中，可能存在反馈循环和信息流链。使用局部网络信息进行归一化可能会为更大网络中单个边上的流提供额外的见解。0此外，我们引入了两个基准度量：第一个度量0使用时间同步的交叉熵度量，但只考虑最小的有向交叉熵率，0min( � � ( � ‖ � ) , � � ( � ‖ � )) . (8)0可以想象，这样可以避免在不重要的方向信号中的一些噪音元素。0第二个基准度量使用Shannon交叉熵率0词语在每个节点内容中的频率分布之间，0�� ( �, � ) − �� ( �, � ) , (9)0其中 � � ( �, � ) = − E � log � , and � and � are the probability distributions words in the source and target respectively and E � is the expected valuewith respect to � . This metric is used primarily as a strawman to show theimportance of using the more sophisticated Kontoyiannis- derivedinformation-rate metrics in this (or any other textual) analysis.03.2. 新闻数据0本研究使用了三个从Twitter派生的数据集进行分析。0首先是大量的在线新媒体推文语料库。从新闻媒体分析网站AllSides收集了一份主要在线新闻媒体组织的名单。在这个名单中，每个组织都使用AllSides的评级系统[30]被标记为左、偏左、中立、偏右或右的政治偏见。02019年的每条推文都被收集了所有或0使用Twitter API关注者超过50,000人的Twitter账户。 2估计需要大量数据，因此我们将注意力限制在平均每天发布超过10条推文的组织上。这个数据集包括123家主要新闻媒体组织的2,846,284条推文。Twitter0选择了其开放可用性和代表性的数据，这些数据是新闻机构积极推广的故事。这些数据减轻了从社交媒体用户那里收集开放文本数据的道德问题，因为这些数据是公开产生的，供大量人明确观察。这个完整的数据集和计算出的数量可通过Figshare[31]获得（见表1）。01 www.allsides.com 2https://developer.Twitter.com/en/docs0表1 每种偏见的组织数量及其推文和关注者总数。0偏见计数总推文总关注者0中立 32 938613 149186122 偏左 34 798057 165407942 偏右 12 228644 4958618 左 29571974 97645740 右 16 308996 84848820为了补充Twitter数据，我们还收集了新闻报道0数据集中关注度最高的20家新闻机构的文本。选择了2019年的三个主题不同的重大新闻事件：新西兰基督城大屠杀、大学招生贿赂丑闻和格雷塔∙桑伯格被评为时代年度人物。这些事件之所以被选择，是因为与新闻报道相关的推文的流行程度以及这些事件的时间演变性质导致了更多的文本数据（需要收敛的估计）和更复杂的信息动态（超出了单个组织分享单个事实的范围）。0对于每个新闻事件，我们手动选择了一组广泛的关键词0我们用它来过滤来自关注度最高的新闻机构的推文。关注这些推文的文章链接，并抓取新闻文章的文本。新闻事件和账户的有限范围使我们能够克服网络抓取作为收集工具的缓慢和不可靠的特性。对于每个故事，我们使用一组更有限的相关关键词来检查故事的相关性，并进行最终的手动检查，以验证从这些主要媒体收集的文章是否与正确的新闻事件相对应。由于发布日期通常更难抓取，我们将一篇文章的最早推文与其发布日期关联起来。这个收集的文本语料库可通过Figshare[32]获得。0最后，我们的第三个数据集使用了大约300万条俄罗斯网络喷子0在2016年选举期间由FiveThirtyEight [ 33]发布的推文。尽管这个数据集本身不是新闻，但涉及到机器人分享信息（或者更确切地说是虚假信息）内容，并且设置在不同的时间段，以便与上述数据进行对比，并展示这些信息流方法的更广泛适用性。我们使用FiveThirtyEight而不是原始的Twitter数据，是因为它方便地将每个账户定义为五个不同的喷子类别。03.2.1. 文本生成0在报价者模型中，网络中的节点可以引用0相邻节点或自动生成文本。这种自动生成过程可以使用任意的方法在每个时间点生成文本。在原始报价者模型的情况下，使用了两种方法；从固定词汇表均匀抽取和根据Zipf分布从排名有序的词汇表中抽取。在这里，我们以两种方式构建我们的文本生成。我们的第一种方法是均匀地、不重复地从所有新闻媒体组织的推文池中抽取真实的推文。这提供了真实的自然语言文本，用于引用和从所有来源均匀抽取有助于平均化组织之间可能存在的任何潜在信息流。0第二种方法使用了适合数据的Zipf定律。正如已经0在新闻推文语料库中，与其他语料库[ 34 , 35]中看到的情况类似，文本的排名-频率分布呈现出两个不同的缩放规律；常见词的缩放参数为 � ≈ 0 . 8 ，不常见词的缩放参数为更高的 � ≈ 2，导致整体的缩放参数为 � = 1 . 2 ，我们在这里使用这个参数来生成合成文本。5T. South et al.4. Resultsaraperformance measures in both the real and synthetic text networksin Fig. 2 the relative performance rankings are the same between0在线社交网络和媒体 31 (2022) 10023103.3. 网络实验0我们在更大的网络上使用报价者模型模拟来研究0各种度量在各种网络条件下的表现。进行了两个这样的实验：对具有不同参数的大样本网络进行度量性能评估，以及对只有一个参数变化的网络进行灵敏度分析。0为了比较不同条件下的性能，我们生成ER( � , � )0在参数网格上生成引用者网络， � ∈ [10 , 40] , � ∈ [0 . 08 , 1] .进行了两个这样的实验，一个是节点使用上述真实文本数据自动生成，另一个是节点使用合成文本数据自动生成。0在这两种情况下，报价过程基于随机选择的边缘0权重相同。自动生成和引用持续7500个时间步，以确保有足够的文本数据来确保交叉熵率估计器完全收敛。度量标准是引用概率与信息流度量之间的Pearson相关系数 � 和Spearman相关系数 �。准确度得分是由信息流被确定为在引用方向上的正确方向的边的数量确定的。0为了测试灵敏度，运行了四个实验。第一个模拟0与上述相同的引用者模型，在每个边随机分配方向和U(0,1)权重的团中运行。自生成概率保持在0.5不变，并且引用概率与此进行了归一化，使其总和为1。为了确保对每个大小计算的Pearson相关系数的信心，对每个网络大小重复生成网络，对大小为2的网络生成500个网络，对大小为50的网络生成4个网络，以确保生成了足够的边和网络结构。0第二个实验与第一个实验类似，但是将团体大小固定为20个节点，并改变自生成概率。这样做的主要效果是减少平均引用0[ 36]网络，其中有20个节点和起始度为4。我们变化重连参数�来研究网络密度对信息流量度量的影响。0基于此，第三个实验使用了一个Watts–Strogatz[ 360�和固定的自生成概率为0.5，以研究在不同密度的网络中改变引用概率的影响。在这些实验中，网络被重复生成，以便估计至少7500条边。0最后，对于不同的ER（20，�）引用者模型网络进行模拟0使用模拟网络实验的结果，我们确定03.4. 应用于真实数据0首先，我们将流量估计应用于所有新闻媒体的成对组合0确定最佳的信息流量度量并将其应用于三个不同的数据集。0其次，我们获取链接的全文新闻文章数据，并进行类似的信息流分析。0使用他们的Twitter时间线来识别组织。通过这样做，我们试图回答平均来说，哪些组织对生态系统贡献了最多的信息，并评估是否存在主要国家新闻组织的主导地位等结构性趋势。0最后，我们在第三个数据集上重复这个分析，该数据集包含0每对新闻机构之间的类似信息流分析。这些故事的受限范围允许对估计的流量进行定性检查，以确定观察到了什么信息趋势，以及这些趋势如何影响了估计的流量数量。为了对这个应用中的异常信息流进行对比，我们将使用所有新闻事件的成对信息流作为分布，以比较大流量并计算z分数。0表2。0来自与互联网研究相关的账户的300万条推文0�％准确率��％准确率�0测量合成真实0��（� || �）0��（� || �）− ��（� || �）0.859 0.598 0.762 0.864 0.584 0.7640��（�）− 0��（�）− ��（� || �）0�0��（� ）0��（�）0.940 0.655 0.887 0.938 0.638 0.8780∑ � ��（� || �）0∑ � ��（� || �）− ��（� || �）0min（ � �（� || �））0.519 0.590.510 0.584 0.300∑ � ��（� || �）0.969 0.668 0.925 0.968 0.654 0.9180��（�，�）− ��（�，�）0.048 0.358 0.003 0.057 0.345 0.0050代理，一个已知的俄罗斯“网络喷子工厂”[ 33]。该数据集中的每个账户都有标签，我们评估了每个标记账户类型之间的中位数净信息流量度量是否显著不同。这是通过对数据集上的标签进行排列来计算经验�值来实现的，这种方法可以在不假设正态性的情况下建立统计显著性[ 37 ]。0测量之间的性能比较显示出明显的分离。0归一化信息流（NNIF），�� ( � || � ) ∑ � �� ( � || � ) − �� ( � || � ) ∑ � �� ( � || � )，而04. 结果0�� ( � ) − � )0这些测量的性能优于没有任何归一化的测量。0第二高性能的测量只是通过目标上计算的熵率进行归一化，而不与其他节点进行比较，即自归一化信息流（SNIF），�� ( � || � )0基准测量性能不佳，最小值为0归一化本身的性能出人意料地优于通过源的熵率或邻域交叉熵率进行归一化的测量。0另一个值得注意的是，在合成文本和真实文本网络中的相似性。0交叉熵率测量表明，通过使用熵率差异而不是单一的交叉熵计算，性能显著提高。使用香农熵的基准测量能够准确识别信息流的方向，但在很大程度上无法估计该流的大小。能够识别方向的能力很大程度上归因于引用率的增加将目标的词汇量减少到与源相比较小，因为从有限源中重复随机抽样将导致较小的状态空间。04.1. 敏感性分析0不同网络条件下的性能。图3（a）表明，网络规模的增加使得信息流量估计更加困难。对于NNIF和SNIF，性能略微下降，而其他测量在大型网络中的性能大幅下降。NNIF测量的扩展性最好，但对于60在线社交网络和媒体31（2022）1002310T. South等人0图2.信息流量测量的性能比较。网络是从这些引用模型中重建的，并且比较了合成文本数据（b）和来自新闻机构的真实文本数据（c）的测量性能。通过对目标的熵速率进行归一化的测量（e）比基准测量（d）和不进行归一化的测量表现显著更好。ER( � , � ) 引用网络是通过参数 � ∈ [10 , 40] , � ∈ [0 . 08 , 1] 的网格重复生成，以提供估计的置信度。0图3.信息流量测量的敏感性分析。引用模型网络在（a）中模拟了不断增加的团体，并在归一化之前随机选择方向和权重连接所有成对边。对于邻域归一化信息流（NNIF）和自归一化信息流（SNIF），性能略微下降，而其他测量的性能大幅下降。虽然排名是一致的，但在（b）中可以看到，在大小为20的团体中，增加自生成概率，从而减少归一化边引用概率，会显著降低性能，因为引用信号与文本信息的自然噪声的比率减小。在（c）中可以看到类似的效果，以证明网络规模性能的降低。70在线社交网络和媒体31（2022）1002310T. South等0图4. NNIF应用于每对新闻媒体组织。出站信息流的平均值与粉丝数量和推文总数（显示为大小）进行比较，（a）中没有发现粉丝数量或推文数量与平均流出量之间的显著相关性。（c）显示了每个新闻组织的出站信息流分布，并将同一网络拥有的新闻组织识别为异常值。这些平均信息流出量用于排名新闻来源的信息贡献（c），并且显示了边缘加权定向流的骨干网络（b）。0对真实数据应用这些指标产生了有趣的结果。首先，通过估计所有新闻组织Twitter信息流的信息流量，我们可以找到哪些组织之间的信息流量最大。最大的流量来自《华尔街日报》到其观点专栏《华尔街日报观点》。同样，第二大信息流来自《塔拉哈西民主报》到CommercialAppeal（@memphisnews），它们是《今日美国》网络中的姐妹频道。在这两种情况下，大量的净流量不仅表明了重复发布的数量，还表明了哪些04.2. 应用于新闻组织的推文0...0账户通常首先发布。这两种流量都出现在图4（c）中源流出箱线图中的异常值中。相比之下，第三大流量不是异常值，来自Yahoo News到DefenceOne的大流量。YahooNews的平均流出量很高，因为它经常发布广泛相关的信息。DefenceOne是一个重要的信息吸收者，至少有两种影响：它的活跃度低于许多其他组织，并且有一个特定的主题焦点。后者很重要，因为很少有其他组织在国防方面如此活跃，因此从DefenceOne流出的信息较少。除了个别流量，我们可以通过它们的平均流出量来排名新闻组织对网络的净影响。在图4（c）中，我们看到了这样一个排名，有几个最大的美国新闻组织（今日美国，华盛顿邮报，纽约时报）并不太令人惊讶。然而，在前十名中有几个较小的组织，尤其是DeseretNews，尽管是一个小组织，但通过产生及时且与更广泛网络相关的信息，它对信息生态系统做出了重要贡献，同时几乎不从更大的来源吸收信息。只有KSL News- 另一个总部位于犹他州的新闻组织 -对Deseret有重要的信息贡献。更广泛地，图4（a）显示了每个新闻Twitter账户的粉丝数量、推文总数和平均信息流出量之间的关系。我们发现粉丝数量或推文数量与平均流出量之间没有显著的相关性。右翼和右倾账户的平均Twitter粉丝数量要小得多，但仍然为新闻生态系统贡献了大量信息。04.3. 申请到全文文章0除了分析主要新闻来源的推文外，我们还分析了一小部分出现在主要新闻来源中的新闻文章文本。在格雷塔∙桑伯格被评为《时代》年度人物的故事中，《时代》杂志的输出略高于平均水平，尽管不显著 ( � =80在线社交网络和媒体 31 (2022) 1002310T. South 等人0图5. 通过账户组的净信息流量测量来区分和描述恶意俄罗斯喷子在Twitter上的活动。按组类型分布的外部净信息流量 (a) 表明这个指标捕捉到了不同组之间的不同行为类型。最引人注目的是，标记为 RightTroll的账户的净信息流量似乎主导了外部信息流。这在考虑了按账户类型的平均信息流量的网络中是显而易见的 (b)，显示了从标记为 RightTroll 的账户到标记为 LeftTroll 和 HashtagGamer的账户之间存在着强大的信息流。我们还看到了从标记为 NewsFeed 的账户到标记为 Commercial 的账户的大量信息流 (c)。使用100,000个样本计算的两组之间净信息流量中位数差异的经验零分布。让 � �为两组之间净信息流量中位数的差异。红色显示了两组之间中位数的观察差异。为每个标记组之间中位数信息流量的差异创建了一个经验 � -value，显示了除了 Commercial 和 RightTroll组之外，所有其他组之间的中位数信息流量存在显著差异。（有关本图例中颜色的参考解释，请参阅本文的网络版本。）0. 269 ) –所有来源的输出信息流。然而，流网络显示了信息流的更有趣的进展。《名利场》向大多数来源的平均输出信息流更大，同时从《时代》到《名利场》有一个大而显著的流量（ � = . 0135）。这个网络显示，虽然《时代》创作了原始故事，但《名利场》传播了“格雷塔∙桑伯格说她‘不会浪费时间’和特朗普谈论气候变化”的框架，将特朗普的讨论引入了故事信息生态系统。这一进展突出显示，从原始来源到整个网络的流量估计可能会因其他来源对故事进行改编而减弱，添加新的框架，这些框架变得更受欢迎，因此引起更多的子字符串匹配和更低的熵计算。相比之下，基督城清真寺枪击事件的故事没有任何一个单一的来源具有明显高于平均水平的输出信息流。个别组织会根据资源限制和出版时间在彼此之前发布文章，但随着全球话语的进行，谁贡献了什么信息以及谁还复制了这些信息的平衡在不同的媒体之间发生了变化。这在很大程度上受到故事性质的驱动，其中大量的新信息源自新西兰政府（其新闻稿未包含在分析中），而所有其他新闻机构都从中获取了信息。在“大学入学舞弊行动”丑闻中也可以得出类似的结论，因为大多数信息没有明确的起源者，因为公开的联邦调查局新闻稿和其他来源对所有新闻机构都是可获得的。虽然一些流边缘0明显大于边缘权重分布的其余部分——比如《赫芬顿邮报》到《今日美国》（z分数为2.73）——这些可以通过文章的发布顺序和它们在语言使用上的强烈重叠来解释。04.4. 申请不真实的俄罗斯喷子活动0在已知的俄罗斯‘‘网络喷子’’[ 33]的第三个300万条推文数据集中，该网络在2016年美国总统选举期间活跃，净信息流揭示了不同账户类型的行为差异。该数据集中的每个账户都使用账户和内容级特征进行分类，包括账户名称和行为。账户分类标签的命名旨在代表账户试图模仿的真实用户群体。这些账户共同合作形成一个网络，围绕从2016年美国政治选举到社会运动（如黑人的命运运动）等话题建立自己议程的可信度[ 38 – 40]。在每对喷子账户之间应用净信息流，然后按类型分组，揭示了该网络中信息流动的模式，大量信息从标有 RightTroll 和 NewsFeed 标签的账户类型流出，如图5所示。从中我们可以观察到，这些账户类型正在推动该网络中的讨论和想法，这意味着虽然这些账户表现出各种不同的行为，但在这个过程中存在着整体结构90在线社交网络和媒体31（2022）1002310T. South 等人0随后是恶意活动。总体上，净信息流量从 RightTroll群组中流出最多，这很有趣，表明恶意工厂正在采用一种有意的策略，模仿左倾账户对右倾账户广播的新内容做出回应。这种行为是否也在真实的政治讨论中观察到，这是未来研究的问题；以及对正在部署的基础社会影响策略的更深入理解，这些经验性结果是暗示性的。0为了支

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

推特上的信息流估计及其对新闻研究的影响

推特安装包

在推特上使用grok

python爬取推特评论

推特对string优化的原理

推特oauth_token

Python爬虫爬取推特

推特 使用国际SIM卡

推特有哪些nlp算法代码？

js推特怎么带图片分享

如果应用商店没有推特怎么办

推特有哪些nlp算法？

python爬取推特推文

如何在华为p30p上安装推特

python爬取推特图片

基于Transformer的疫情期间推特情感分析-GPU

python爬取推特的详细教程

html点击推特号跳转推特

使用oath1.0a访问推特v1.1api

推特爬虫python

马斯克发布了推特的新架构图

最新资源

推特使用国际SIM卡