在线政治互动的调用结构映射

56 浏览量更新于2023-10-15 收藏 13.42MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6290在线政治互动的调用结构映射0Manish Raghavan康奈尔大学Ashton Anderson多伦多大学Jon Kleinberg康奈尔大学0摘要0过去几年来，政治信息、言论和互动的激增是社交媒体中最重要的发展之一。在意识形态光谱上，不同观点之间的互动存在丰富的结构。然而，我们对这些观点互动方式的表达仍然只有有限的分析词汇。在本文中，我们开发了基于网络的方法，用于处理用户共享内容的方式；我们构建了Web域上的调用图，显示了用户调用来回复包含来自其他域的页面的帖子的程度。当我们根据数据构建政治光谱上的域时，我们得到了一个嵌入图，显示了这些互动链接在光谱上跨越不同距离的方式。这个嵌入网络的结构以及它随时间的演变，帮助我们推导出关于2016年政治互动如何展开的宏观层面的见解，以及美国总统选举。特别是，我们发现在接近选举的几个月里，回复中调用的域跨越了越来越大的光谱距离，并且左右两侧的链接模式存在明显的不对称性。0ACM参考格式：Manish Raghavan，Ashton Anderson和JonKleinberg。2018年。在线政治互动的调用结构映射。在WWW2018：2018年Web会议上，2018年4月23日至27日，法国里昂。ACM，美国纽约，10页。https://doi.org/10.1145/3178876.318612901 引言0政治互动长期以来一直是社交媒体的重要用途，对其结构进行研究的历史也相应丰富，这一研究延续了关于媒体在政治过程中的作用的更长历史[6, 14, 23,25]。这一系列工作中的一个关键问题是社交媒体上的政治互动在多大程度上主要发生在意识形态相似的用户之间，还是跨越了政治光谱。早期对政治博客的分析表明，它们具有聚类结构，意识形态相似的博客之间的链接密度较高，而具有强烈不同观点的博客之间的链接密度较低[1]。随后的研究关注于在社交媒体进化的更进一步的平台上，表明正在发展出一种更复杂的结构，其中观点的同质性仍然是一个强大的力量，但平台为用户提供了一定程度的交叉曝光[3, 4]。0本文发表在Creative Commons Attribution 4.0 International (CC BY4.0)许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂© 2018IW3C2（国际万维网会议委员会），根据Creative Commons CC BY 4.0许可发布。ACMISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31861290这些问题很重要，因为它们询问在线政治互动是否由相互对立的双方组成，还是由“回音室”或“过滤泡沫”中相互隔离的集群组成[11,27,30]。对这些问题的答案在很大程度上取决于所考虑的交互类型。在线领域的现有工作隐含地关注两种标准形式的交互：页面对页面的交互，通过文档之间的超链接来表达[1]；用户对用户的交互，通过社交平台上的人与人之间的交流来表达[3, 4,9]。每种交互都在一组实体（源和用户）上引发了一个网络，可以相对于潜在的政治光谱进行分析。0用户调用的源网络。在这里，我们考虑一种不同类型的政治互动网络，定义如下。当用户u分享页面A时，用户v通过分享页面B进行回复，不仅仅是用户u和v之间的互动；页面A和B之间也会产生互动。随着转发成为社交媒体内容生产的一种广泛方式[8, 10, 17,24]，用户使用页面引用作为讨论中的代理变得非常容易，我们通过对推特数据进行大规模分析发现，在用户互动时，这种A-B互动是普遍存在的。页面A和B之间的调用互动与用户对用户和页面对页面的交互网络有着根本的区别。与自由形式的用户对用户交互不同，它们在信息源之间创建了逻辑关系，而不仅仅是这些源的消费者和分享者。但它们也不像传统的页面对页面交互，因为它们不是基于从A到B的超链接，并且通常不是由A或B的作者决定的；决定如何在讨论中使用A和B的逻辑链接的是读者。从这个意义上说，A和B之间的调用互动并不直接受到A和B的作者的控制；它们形成了一种对A和B进行“揭示性解释”的方式，一旦它们被发布到社交媒体上。回复页面A与页面B之间可以创建一个语义上有意义的连接，这是Frigerri、Adamic、Eckles和Cheng[12]提出的一种优雅技术的基础，用于识别广泛传播的谣言。根据snopes.com是一个评估互联网谣言的广泛使用的网站这一事实，他们证明了许多（B，A）对的存在，其中A是出现在Facebook帖子中的页面，B是snopes.com上的一个页面，这是B对A的可靠性提供了强有力的证据。通过扫描A出现的帖子的回复，寻找位于snopes.com上的页面，可以提供一种自动识别可以帮助用户评估A真实性的页面B的方法。0主题：社交网络分析和Web上的图算法WWW 2018，2018年4月23日至27日，法国里昂6300图1：包含我们数据示例中的实例的调用图的一部分。在每种情况下，来自域B的文章回复域A的文章，对从B到A的链接做出贡献。来自Breitbart到The New YorkTimes的链接来自这里显示的一对文章，即一篇关于时报税收的Breitbart文章回复一篇关于唐纳德∙特朗普税收的时报文章。其他链接展示了一种支持性互动，例如，作为对俄罗斯信息行动的卫报文章的回应，分享了一篇纽约时报的文章，对从The Times到TheGuardian的链接做出了贡献。0鉴于页面A和B之间的调用交互通常非常丰富，超越了任何一个特定的领域或用例，如果我们将所有这些交互作为一个独立的网络来考虑，它是否存在于社交媒体平台中？0本文的工作：调用图的结构。我们对调用互动网络的全局结构感兴趣，并开发可以探索这种结构的方法，特别是与政治互动相关的问题。由于我们在这项工作中的主要关注点是新闻和博客源的粒度，而不是它们产生的个别页面，我们将在域的层次上考虑这个网络：使用覆盖2016年美国总统选举之前的整个年份的大规模推特数据集，我们说从域B到域A的调用互动发生在用户回复包含来自域A的页面的推文时使用来自域B的页面。我们如下定义了感兴趣的域的调用图：对于所有存在至少一个从B到A的调用互动的域A和域B的对，我们包括一个加权有向边（B，A），其权重等于这种调用互动的数量。因为我们想研究调用图的部分如何反映政治互动的方面，我们选择了一个预处理步骤来选择节点集（即感兴趣的域），该步骤仅包括那些与希拉里∙克林顿和唐纳德∙特朗普的官方推特账户广泛转发的域，并应用一些我们在下一节中描述的进一步过滤启发式方法。经过这种过滤，我们得到了一个调用图，反映了Twitter用户在2016年期间通过调用来自不同政治相关域的内容相互交互的方式。图1显示了一些域的这样一个调用图，其中包含了我们数据的一些示例互动。我们可以看到这些互动可以是支持性的，例如，对同一主题上卫报的俄罗斯信息行动的深入报道的回复，或者是对抗性的，例如，对唐纳德∙特朗普税收的时报文章的回复中的Breitbart文章。这些回复0展示了丰富的结构，并对社交媒体上复杂的政治互动方式有了一定的了解。因此，我们可以回到最初的激励问题，询问这种互动相对于一个政治光谱是如何结构化的，该光谱包含左派对克林顿的支持和右派对特朗普的支持。我们使用从数据中导出的政治光谱来进行这个分析，而不是依赖于外部领域知识。有多种方法可以做到这一点[5, 11,14]，这些方法产生了广泛一致的结果，我们采用了Benkler等人的方法（在下一节中进一步描述），该方法基于与克林顿和特朗普Twitter账户的共同推文的相对频率[5]。0将调用图嵌入到政治光谱中。在政治光谱上定位域之后，我们现在有了调用图的嵌入版本：节点代表域，嵌入在一维光谱中，加权的有向边跨越这个光谱中的点对。现在我们可以询问这些边在光谱上的距离上是如何分布的，从连接具有相似政治取向的域的短程互动到跨越两侧的长程互动。在研究这些问题时，重要的是记住，这些域之间的链接不是通过这些域上的超链接定义的，而是通过用户在讨论中调用这些内容时所做的回复：不是域之间互相回复，而是它们被用户在回复中调用。因此，数据反映了内容的消费者所做的选择，而不是内容的作者所做的选择。在第3节中，我们提出了一套方法来分析调用图的边如何跨越底层光谱。这些方法的一个核心组成部分是，对于一个域x，考虑其出链分布-所有从x出去的链接在政治光谱上的“着陆点”的分布。当我们沿着光谱从左到右移动时，跟踪我们遇到的域的出链分布的平均值是否也倾向于从左到右移动，还是倾向于从右到左移动？前一种情况表明调用互动（B，A）的源和目标的位置之间存在正相关性，表明链接被用于连接到政治光谱的相似侧面；后一种情况对应于负相关性，因此跨越光谱的连接，左侧的域被调用以回复右侧的域，反之亦然。我们无法预先确定我们应该期望看到哪种类型的相关性；事实上，作为对这一事实的加强，我们发现在2016年美国总统选举前的过程中，相关性的性质实际上发生了反转。在2016年的早期阶段，我们有一个正相关性，政治上相似的域被调用以互相回复；但是当我们到达直接在选举前几个月时，这个相同的相关性度量变为负值，表明大部分链接现在是跨越光谱的。我们使用多种指标验证了这种效应，包括与我们在嵌入图的随机重连版本中观察到的光谱趋势进行比较的一种指标。我们还提出了一套方法来识别链接模式中固有的不对称性：从左到右的回复是否与从右到左的回复具有相同的结构？使用我们的指标，我们发现2016年Twitter数据中存在明显的不对称性，光谱右侧的域在调用图中具有不成比例的高出链率，而光谱左侧的域在调用图中具有不成比例的高入链率。这种从右到左的回复流在整个时间范围内持续存在，是结构的一个关键特征。由于我们分析中的一个重要主题是回复在2016年的进行中越来越多地涉及到政治光谱的相反侧面，所以有趣的是问我们是否在更传统的用户-用户互动图中看到了类似的效应，其中节点对应于用户，有向边表示从一个用户到另一个用户的回复。为了探索这一点，我们将为Twitter调用图开发的技术适应到Reddit的用户-用户图中。具体来说，我们分析了Reddit的政治子论坛r/politics在2016年选举前的同一时期的快照；我们根据用户是否发布过克林顿或特朗普的子论坛来对用户进行分类，然后观察不同类型用户之间的回复率。我们发现Reddit上的趋势与从Twitter构建的调用图中的趋势非常相似，两侧之间的链接在选举临近时增加。总的来说，我们的方法表明，域上的调用图及其嵌入到一维光谱中，捕捉到了社交媒体上政治互动的重要方面-用户通过调用链接到作者内容进行互动的倾向，以及利用这些互动模式来揭示基于日常讨论中的使用情况的内容之间的关系。0跟踪：社交网络分析和Web上的图算法WWW 2018，2018年4月23日至27日，法国里昂Isolating Political Domains. The first issue we encounter isthat Twitter contains a wide range of URLs, not just pages frompolitically relevant domains. We could select only known politicaldomains by whitelisting them, i.e. only considering the subgraphover a predefined set of domains; however, this approach will in-evitably miss out on influential but less well-known news sources.On the other hand, there are challenges to a completely unsu-pervised approach. URLs on Twitter are dominated by social mediasites (e.g. twitter.com, facebook.com) as well as content-hostingsites (e.g. imgur.com, bitly.com) which produce virtually no contentof their own, but instead host user-uploaded content such as im-ages, links, and text. While the usage of these content-hosting siteswould be interesting to study, this is outside the scope of our work.We begin by blacklisting several known social media and content-hosting domains and remove them from the graph. However, thereare plenty of domains that appear on Twitter that are not politicallyrelevant, and we cannot individually remove each such domain.To filter out such domains, we need some measure of politicalengagement for each domain. We can construct such a measureby using the observation that politically relevant domains shouldfrequently co-occur with known political entities – in our case, theofficial Twitter accounts of Hillary Clinton and Donald Trump.Our measure of political engagement for a domain, then, is sim-ply the number of times a user posted a tweet with that domain onthe same day that he or she retweeted either Clinton’s or Trump’sofficial Twitter account. Intuitively, the more politically engaginga domain is, the more it will co-occur with these political enti-ties. With this proxy, we can select domains with high politicalengagement, excluding social-media and content-hosting domains.As a final filter, we require that each domain have an edge of atweight leastW to some other domain in the political subgraph. Thisrestricts our attention to the most actively used political domains.Based on this, we can formally define the invocation graph. Everydomain in the invocation graph6310我们从一个包含有关推文-回复对的聚合级别信息的Twitter数据集开始。对于2016年1月到11月的每个月（2016年美国总统选举于2016年11月8日举行），数据集包含一对域x1和x2以及一个伴随的计数，即包含来自域x1的页面的推文被回复包含来自域x2的页面的推文的次数。此外，对于每个月，我们还有一个辅助数据集，其中包含每个域x的共现次数：用户在同一天内发布包含该域的推文的次数，同时转发克林顿或特朗普的官方Twitter账户。02个基本定义0隔离政治域。我们首先遇到的问题是Twitter包含各种URL，不仅仅是来自政治相关域的页面。我们可以通过白名单方式选择已知的政治域，即只考虑预定义的一组域上的子图；然而，这种方法不可避免地会错过有影响力但不太知名的新闻来源。另一方面，完全无监督的方法也面临挑战。Twitter上的URL主要由社交媒体网站（如twitter.com、facebook.com）和内容托管网站（如imgur.com、bitly.com）主导，这些网站几乎不产生自己的内容，而是托管用户上传的内容，如图像、链接和文本。虽然研究这些内容托管网站的使用情况是有趣的，但这超出了我们工作的范围。我们首先将一些已知的社交媒体和内容托管域列入黑名单，并将它们从图中删除。然而，Twitter上出现了许多与政治无关的域，我们无法逐个删除每个这样的域。为了过滤掉这些域，我们需要一些衡量每个域的政治参与度的指标。我们可以通过观察到政治相关域应该经常与已知的政治实体（在我们的情况下，希拉里∙克林顿和唐纳德∙特朗普的官方Twitter账户）同时出现来构建这样的指标。因此，我们对于一个域的政治参与度的衡量就是用户在同一天内发布包含该域的推文的次数，同时转发克林顿或特朗普的官方Twitter账户。直观上，一个域的政治参与度越高，它就越可能与这些政治实体同时出现。有了这个代理，我们可以选择具有高政治参与度的域，排除社交媒体和内容托管域。作为最后的过滤器，我们要求每个域在政治子图中至少与另一个域有权重为W的边。这将限制我们关注最活跃使用的政治域。基于此，我们可以正式定义调用图。调用图中的每个域0用户在同一天内发布包含来自x页面的推文的次数，这些推文是在用户转发希拉里∙克林顿或唐纳德∙特朗普个人Twitter账户的推文之后发布的。最后，我们有每个月克林顿或特朗普的转发次数。我们从这些数据构建的调用图是一个有向图，其中域作为顶点，每个域对应一个新闻来源。我们绘制一条边x1→x2，如果包含来自域x1的URL的推文是作为回复包含来自域x2的URL的推文发布的。这条边的权重是这样的推文-回复对的数量。初步检查时，这个图的最显著特征是自环（由一个域x到自身的链接）的权重比其他边要高得多。由于我们的目标是研究域之间的政治互动，我们从图中删除了所有的自环。0• 未被列入黑名单（社交媒体和内容托管域名）•具有高于某个阈值 p 的政治参与度•在调用图中至少有一条边与另一个域名相连，且权重至少为 W0主题：社交网络分析和网络图算法的Web WWW 2018，2018年4月23日至27日，法国里昂sT (x) =PT (x|T )PT (x C) + PT (x T )(1)D(G\x) =x′∈G\xvol(x ,G x),δout(x) = µout(x)µout(G x)6320图2：2016年9月的 P T ( x | C ) vs. P T ( x | T )0政治谱。为了描述这个图的政治性质，我们需要一种将域名沿着政治谱组织起来的方式。借鉴[5]中的技术和我们对政治参与的定义，我们为每个域名x定义了量P T ( x | C )和P T ( x | T)，它们分别是用户在同一天内转发克林顿或特朗普的官方账户的推文中包含来自域名x的URL的经验概率。直观地说，如果一个用户在某一天内转发了克林顿的推文，那么他/她调用的域名更有可能位于克林顿的政治谱末端，对特朗普也是如此。图2显示了结果值，其中蓝线是 P T ( x | C ) = P T ( x | T )。有趣的是，大多数域名位于这条线的上方，这表明转发克林顿和特朗普的用户群体存在差异。0s T ( x ) = P T ( x | T )0此外，我们可以将这些信息压缩成每个域名的单一政治分数：0注意，s T ( x ) ∈ [0 , 1]，s T ( x ) 越大，x距离特朗普的政治谱末端越近。在本节中，我们使用了建立在2016年1月至9月的谱。03 方法论0有了这些定义，我们可以分析调用图的各种属性，特别是它与政治谱的相互作用。0谱。新闻文章和其他政治内容的使用模式是否在政治谱上有所不同？这些模式在选举前如何变化？通过同时使用调用图和政治谱，我们可以对这些问题进行阐明。0出链分布。我们研究的一个关键特征是域名 x 的出链分布：从 x发出的边在政治谱上的位置分布。一个域名的出链描述了它被用来回复其他域名的方式。例如，如果一个域名有很多指向政治谱上附近的其他域名的出链，人们可能会认为它被用来加强某个观点；然而，如果它有很多指向政治谱另一端的出链，它可能被用来与对立观点进行争论。为了利用这种直觉，我们问 x的出链分布如何根据它的政治分数 s T ( x )变化。作为比较的基线，我们计算全局出链分布——G中边落在政治谱上的分布。与这个基线进行比较将使我们对 x的链接模式与“平均”链接模式有一些了解。然而，由于 G中没有自环，x 不会链接到自己，而全局出链分布包含链接到 x的边。为了防止这对比的偏见，我们将 x 的出链分布与 G \ x的出链分布进行比较，即 G 中去掉 x 和与 x 相连的所有边。因此，x的出链分布 d ( x , G ) 是一个分布，将概率质量分配给 [0 , 1] 中的 y，其与 x 相连的边的权重与 s T ( x ′ ) = y的概率成比例。全局出链分布 D ( G \ x ) 可以表示为0其中 vol ( x ′ , G \ x ) 是 G \ x 中离开 x ′的边的总权重。换句话说，D ( G \ x ) 是 G \ x 中 d ( x ′ , G \ x )的加权平均，其中 x ′ ∈ G \ x。我们通过以下方式将这些分布进行比较：对于每个 x ，让 µ out (x ) 是 x 链接到的域名的加权平均政治分数，即 µ out ( x ) = E [ d( x , G ) ] 。这给出了 x 用来回复的域名类型的估计——如果 µ out (x ) 接近0，那么 x主要用于回复与克林顿相关的域名，而如果接近1，则主要用于回复与特朗普相关的域名。稍微滥用一下符号，让 µ out ( G \ x ) 是 G \x 中所有边的端点的加权平均政治分数，因此 µ out ( G \ x ) = E [D ( G \ x ) ]。那么，0是一个衡量 x在政治谱特朗普一端与其他域名偏离程度的指标。根据过去关于在线政治活动中同质性的研究[1]，人们可能会预期一个域名主要用于与政治上相似的域名互动，这意味着 s T ( x ) 与 δ out ( x )是正相关的。此外，不明显的是这种趋势在选举前是否会变得更加明显——对立政党是否越来越多地内部对话，还是彼此互动？图3显示了一月份，域名更有可能在图中与政治上相似的域名有链接，因此 sT ( x )0主题：社交网络分析和网络图算法的Web WWW 2018，2018年4月23日至27日，法国里昂6330(a) 2016年一月0(b) 2016年十月0图3：一月和十月的 s T ( x ) 与 δ out ( x ) 的相关性0而 δ out ( x ) 与 s T ( x )之间是正相关的。然而，到了十月份，这种相关性发生了逆转：平均而言，域名被用来回复跨越政治谱而不是与政治上相似的域名。回复似乎是对抗性的，如图1中的 breitbart.com → nytimes.com边缘。为了理解这种随时间变化的相关性变化，我们定义一个 ( G m) 为月份 m 中 s T ( x ) 与 δ out ( x )之间的相关性的斜率。图4显示了从一月到十月 a ( G m )有显著下降。这表明随着选举日期临近，相反极端之间的互动比例增加，两个对立方的域名实际上更经常被调用来相互回复。0图4：一月至十一月的 a ( G )0边长和交叉点。描述调用图的政治方面的另一种方法是考虑政治谱上边的长度和位置。随着相反观点之间的互动增加，我们预计在调用图中会看到更长的边跨越政治谱而不是停留在一侧。图5显示了这一趋势在一月到十月之间是成立的——虽然大多数链接在一月份与政治谱的关系上长度接近0，但到了十月份，许多更长的边出现了。0图5：1月与10月的边缘长度分布0为了使我们能够可视化边缘位于谱上的位置，我们进行以下定义。对于y∈[0，1]的点，令f→（y，G）是满足sT（x1）y>sT（x2）的边的数量。换句话说，f→（y，G）是从左到右穿过y的边的数量，而f←（y，G）是从右到左穿过y的边的数量。为了解释这些函数，我们需要一个基准进行比较。在这种情况下，一个自然的基准是随机重连图ˆG，其思想可以追溯到[26]。在ˆG中，每个顶点的入度和出度与G中的相同，但每条边都有一个随机选择的端点。请注意，这可能会创建自环，而G在构造时没有自环；但是，ˆG中的自环数量很小（对于给定的随机化通常为0），因此它们对此分析的影响可以忽略不计。图6显示了G和ˆG的f →和f←，其中ˆG的值是期望值。在一月份，G和ˆG的f →和f←都被其重连对应物所主导，而在十月份，情况正好相反。这表明在年初，领域被用于回复政治上相似的领域，导致较随机基线更短的边缘，而接近选举时，领域被用于跨政治谱回复。这种比较使我们能够0跟踪：社交网络分析和Web上的图算法WWW 2018，2018年4月23日至27日，法国里昂6340（a）2016年1月0（b）2016年10月0图6：G和ˆG的f →（y）和f ←（y）0了解实际行为与随机行为的偏差程度以及这种偏差随时间的变化。0出链的不对称性。图6的另一个引人注目的特征是f ←优于f→，表明从右到左的链接比从左到右的链接更多。直观上，似乎有更多的边从右边开始并在左边结束，对应于右倾领域被用于回复左倾领域。我们可以通过定义r（x）为indegree（x）/（indegree（x）+outdegree（x））来准确地描述这一点，并分析r（x）如何随sT（x）变化。图7显示r（x）与sT（x）呈负相关，意味着政治谱右侧的领域产生了比左侧领域更多的出链。换句话说，右侧的领域更常用于回复其他领域，而左侧的领域更常作为回复的接收者。0图7：10月的sT（x）与r（x）04与用户级别进行比较0在Twitter上建立调用图的结构的一系列结果后，我们希望验证我们的发现是否0与我们在社交媒体上更传统的用户之间的交流图中看到的情况相qualitatively一致。由于我们的Twitter数据集不包含有关个别用户的信息，因此我们转而使用公开可用的Reddit数据集1。Reddit是一个社区讨论网站，组织成帖子或“提交”以及对这些提交的评论。评论是线程化的，因此评论要么是回复顶级帖子，要么是回复另一个评论。数据包括2016年Reddit的每个帖子和评论，以及其作者的用户名。Reddit被细分为特定主题的论坛，称为subreddits。我们特别关注三个subreddits：r/politics，r/hillaryclinton和r/The_Donald，它们分别致力于政治、希拉里∙克林顿和唐纳德∙特朗普。这三个subreddits在2016年是最活跃的subreddits之一。请注意，除了在Reddit上研究用户之间的动态之外，原则上我们还可以使用Reddit数据在域级别复制我们的Twitter调用图分析；然而，事实证明，Reddit包含的带有URL的评论太少，无法出现稳定的域级别趋势。0用户级别的互动。为了测试与我们在域级别发现的类似趋势是否存在于用户级别，我们需要修改我们的方法。特别是，我们现在需要关于用户的某种政治信息。在第2节中，我们将政治谱锚定在官方的克林顿和特朗普Twitter账户上，而在这里，我们将我们对政治倾向的概念锚定在r/hillaryclinton和r/The_Donald上。由于大多数用户最多只在这两个subreddits中活跃，我们对政治得分有一个更简单的概念：我们定义了一个在r/hillaryclinton中发帖但没有在r/The_Donald中发帖的用户集合UC，以及一个在r/The_Donald中发帖但没有在r/hillaryclinton中发帖的用户集合UT。UC中有22,164个用户，UT中有281,334个用户（UC的规模是UT的十倍以上）。我们假设UC中的大多数用户是支持克林顿的，而UT中的大多数用户是支持特朗普的（这与参与这些subreddits的明确规则一致）。01 https://files.pushshift.io/reddit/0跟踪：社交网络分析和Web上的图算法WWW 2018，2018年4月23日至27日，法国里昂6350Twitter Reddit01 donaldjtrump.com thegatewaypundit.com02 thegatewaypundit.com zerohedge.com03 breitbart.com breitbart.com04 dailycaller.com donaldjtrump.com05 zerohedge.com dailycaller.com06 foxnews.com dailymail.co.uk07 nypost.com foxnews.com08 dailymail.co.uk nypost.com09 thehill.com bbc.co.uk010 politico.com theguardian.com011 cbsnews.com cbsnews.com012 nbcnews.com cnn.com013 cnn.com thehill.com014 washingtonpost.com nbcnews.com015 bbc.co.uk huffingtonpost.com016 theguardian.com washingtonpost.com017 nytimes.com nytimes.com018 huffingtonpost.com politico.com019 politifact.com newsweek.com020 newsweek.com politifact.com021 hillaryclinton.com hillaryclinton.com0表1：Twitter和Reddit政治谱的比较0验证Subreddits中的政治信息。我们通过将我们从Twitter中的方法调整到Reddit上构建Reddit上的域谱，并将此谱与从Twitter构建的谱进行比较，来验证r/hillaryclinton和r/The_Donald是否包含有关政治取向的强烈信号。为此，我们定义P R（x |C）为r/hillaryclinton中的帖子或评论包含来自域x的URL的经验概率（类似地定义P R（x |T）和r/The_Donald）。与（1）一样，我们可以从Reddit定义一个政治得分，即0s R（x）0P R（x | C）+ P R（x | T）。（3）0表1显示了21个领域的Twitter和Reddit谱的排序情况。两个排序之间的Spearman等级相关性[28]（平方距离的度量）为0.871（与10,000个随机洗牌排序的最大值0.757相比）。因此，这两个设置很好地对齐，证明了我们对政治倾向的概念适用于Reddit，并且包含了强大而一致的信号。0在Reddit上构建用户到用户的图。有了这种政治归属的概念，我们现在可以研究Reddit上的一些基本政治话语的属性。就像我们首先将注意力集中在Twitter上的政治域名一样，在这里我们将注意力集中在主要的政治子论坛r/politics上。由于只有r/politics中的一部分用户属于UC或UT，我们将重点放在涉及UC或UT中的两个用户的评论-回复对上。有4种可能的互动类型：UC→UC，UC→UT，UT→UC和UT→UT，其中p→q表示p中的用户对q中的评论进行回复。让np→q表示给定时间段内p→q互动的数量。我们将数据组织成30天的滑动窗口。在下面的图中，特定日期的值表示以该日期结束的30天窗口。图8a显示了整个2016年的评论计数02016年平均值在接下来的30天内，图8b显示了每种类型的互动评论的比例。图8b显示，从2016年初到11月初的选举之前，交叉评论的数量稳步增加（例如，类型为UC→UT和UT→UC的评论），然后回到基线水平。图8c进一步强调了这一点，显示了从1月到11月8日选举期间，同一政治倾向的用户和不同政治倾向的用户之间的边缘比率的强烈负斜率。这些结果与我们在Twitter上的发现一致，在选举之前，越来越多的政治互动跨越了Twitter上的政治光谱。为了解释这些结果的意义，我们通过将用户随机重新分配给评论来将我们的随机重连技术调整到用户级别，保持每个用户发布与原始数据中相同数量的评论不变。无论是全局随机化（评论随机分配给2016年的任何用户）还是每月随机化（评论随机分配给同一月份中随机选择的用户），结果都是相同的-观察到的斜率比100次随机试验中的最小值更为负。使用我们的Reddit数据集，我们已经证明了我们的调用图方法可以用于分析传统的用户-用户通信图。特别是，我们使用共现来确定关于用户和域的政治信息。用户级别的月度趋势与我们在Twitter上的发现相一致-在选举前几个月，网络政治互动越来越多地跨越了政治光谱。05二维对齐0我们在这项工作中对政治光谱的制定表明它具有自然的二维结构，其中一个维度对应于与一个候选人相关的内容的共现概率，另一个维度对应于与另一个候选人相关的内容的共现概率。在第4节中，当我们确定我们的调用图方法可以自然地扩展到传统的用户级设置时，我们的分析的一部分涉及测量在表1中显示的一维光谱sT（∙）和sR（∙）的对齐程度。在这里，我们考虑如何测量相应的二维光谱的对齐。为了进行比较，我们需要考虑到轴可能具有不同的比例尺（例如，Reddit上的帖子包含的URL比Twitter上的帖子更频繁）。这意味着我们需要对P R（x | C）和P R（x |T）进行缩放，以便找到两个光谱之间的“最佳匹配”。我们将其形式化为以下优化问题，最小化每对点的平方ℓ2距离：0mina，b：a，b ≥ 00x ∈ D（PT（x | C）− aPR（x | C））2 +（PT（x |T）− bPR（x | T））2（4）0其中D是域的集合。由于所有点都位于第一象限，我们可以放弃约束a，b≥0。注意（4）可以分为两个相同形式的优化问题0minc0x ∈ D（u x − cv x）2。（5）0Track：Social Network Analysis and Graph Algorithms for the Web WWW 2018，2018年4月23日至27日，法国里昂6360（a）评论计数0（b）互动类型0（c）跨越政治光谱的回复比率0图8：Reddit数据集中的用户级趋势。在图8c中，（n C → C + n T → T）/（n C → T + n T → C）的减少显示出更多跨越光谱的互动。0如果u和v是向量[ux：x∈D]�和[vx：x∈D]�0分别，这可以写成min c � x ∈ D ∥ u − cv ∥ 22。这是凸的，并且具有导数d dc ∥ u − cv ∥ 2

下载后可阅读完整内容，剩余1页未读，立即下载