没有合适的资源?快使用搜索试试~ 我知道了~
社交媒体上的政治话语:回音室与门户
voiced such concerns.1 If echo chambers exist, then they mighthamper the deliberative process in democracy [36].In this paper, we study the degree to which echo chambers existin political discourse on Twitter, and how they are structured. Weapproach the study in terms of two components: the opinion that isshared by a user, and the “chamber”, i.e., the social network aroundthe user, which allows the opinion to “echo” back to the user as itis also shared by others. The opinion corresponds to content itemsshared by users, while the underlying social network is what allowstheir propagation. We say that an echo chamber exists if the politicalleaning of the content that users receive from the network agrees withthat of the content they share.As there is no consensus on a formal definition in the literature,we opt for this definition, which is general enough and reasonablycaptures the essence of the phenomenon. There are, however, a fewprevious works that have studied echo chambers under differentperspectives. For instance, previous works have focused either onthe differences between the content shared and read by partisansof different sides [3, 20, 21, 35]; the social network structure [23];or the structure of user interactions, such as blog linking [1] andretweets [10, 15]. We adopt a definition which is broader in terms ofcontent it is based on (it considers all content shared and produced,not only content pertaining to specific types of interactions, e.g.,retweets), and which is defined jointly on content and network.Specifically, we define production and consumption measuresfor social media users based on the political leaning of the contentshared with and received from their network. We apply them toseveral datasets from Twitter, including a large one consisting ofover 2.5 billion tweets, which captures 8 years worth of exchangesbetween politically-savvy users. Our findings indicate there is largecorrelation between the leaning of content produced and consumed:echo chambers are prevalent on Twitter.We then proceed to analyze partisan users, who produce contentwith predominantly one-sided leaning,2 and bipartisan users, whichinstead produce content with both leanings. Our analysis indicatesthat partisan users enjoy a higher “appreciation” as measured byboth network and content features. This finding hints at the exis-tence of a “price of bipartisanship,” required to be paid by users whotry to bridge echo chambers.9130社交媒体上的政治话语:回音室、门户和两党合作的代价0Kiran Garimella阿尔托大学kiran.garimella@aalto.fi0Gianmarco De Francisci Morales卡塔尔计算研究所 gdfm@acm.org0Aristides Gionis阿尔托大学aristides.gionis@aalto.fi0Michael Mathioudakis赫尔辛基大学michael.mathioudakis@helsinki.fi0摘要0回音室,即只接触与自己意见一致的观点的情况,是许多民主国家政治话语的一个日益关注的问题。本文研究了社交媒体上的政治回音室现象。我们确定了现象中的两个组成部分:共享的观点和允许观点在社交网络中“回响”的“房间”(即社交网络)-并且密切研究了这两个组成部分的相互作用。我们为社交媒体用户定义了一个生产和消费度量,该度量捕捉了他们分享和接收到的内容的政治倾向。通过比较这两者,我们发现Twitter用户在很大程度上接触到与自己意见一致的政治观点。我们还发现,试图通过分享具有不同倾向的内容来弥合回音室的用户在网络中心性和内容欣赏方面需要付出“两党合作的代价”。此外,我们研究了“门户”的角色,这些用户消费具有不同倾向的内容,但产生具有单一倾向的党派内容,以形成回音室。最后,我们将这些发现应用于从社交和内容特征中预测党派和门户的任务。虽然相对容易识别出党派用户,但门户用户更具挑战性。0ACM参考格式:Kiran Garimella,Gianmarco De Francisci Morales,AristidesGionis和MichaelMathioudakis。2018年。社交媒体上的政治话语:回音室、门户和两党合作的代价。在WWW2018:2018年万维网会议上,2018年4月23日至27日,法国里昂。ACM,美国纽约,10页。https://doi.org/10.1145/3178876.318613901 引言0本文发表在知识共享署名4.0国际许可证(CC BY4.0)下。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW2018,2018年4月23日至27日,法国里昂,© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.318613901 例如,奥巴马基金会试图解决回音室问题。https://www.engadget.com/2017/07/05/obama-foundation-social-media-echo-chambers 2我们使用“倾向”作为衡量与一方政治立场一致程度的分数。文献中类似的术语包括“意识形态”、“极性”或“意识形态立场”。0论文题目:Web and Society WWW 2018, April 23-27, 2018, Lyon, France9140此外,我们更详细地研究了同时消费两种倾向内容但只产生单一倾向内容的“守门人”用户。这些用户在社交网络中的位置上是“边界跨越者”,他们了解双方的立场,但将自己的内容与一方对齐。他们是一个小团体,享有高于平均水平的网络中心性,但并不是非常嵌入在他们的社区中。最后,我们利用这些发现来预测党派用户和守门人用户,使用他们产生的内容和社交网络的特征。虽然相对容易识别党派用户,但守门人用户更具挑战性。我们的研究为进一步调查回音室现象铺平了道路。在基于大量数据的广义定义和测量的基础上,虽然确认了Twitter上存在政治回音室,但它也邀请对这种现象进行更细致的分析 -不是根据党派性将用户分类,而是考虑到各种用户态度(例如党派、守门人和双党派)。这种分析对于了解如何引导用户消费挑战他们观点的内容,从而弥合回音室现象,可能至关重要。此外,我们的研究显示了内容产生与消费以及网络属性在回音室背景下的相互依赖关系。这一发现有助于重新审视现有的社交网络上意见形成和极化动态模型[11,34],这些模型不仅考虑到意见(内容)在社交网络上的传播,还考虑到其对网络结构的影响。02 相关工作0回音室。该术语指的是人们“听到自己的声音”或者特别是在社交媒体的情况下,用户消费表达与自己持有或表达的相同观点的内容。回音室已被证明存在于各种形式的在线媒体中,如博客[21,37]、论坛[13]和社交媒体网站[7, 23,35]。以前的研究试图量化在线回音室的程度。例如,在博客的背景下,Gilbert等人[21]研究了一组政治博客上的评论,并发现评论与博客作者不成比例地一致。类似的发现由Lawrence等人[26]报告,他们发现党派博主与狭窄政治观点谱系的博客互动,与他们自己的观点一致。在Twitter的背景下,An等人[2]分析了参与政治新闻的用户的活动,并发现“90%的用户[直接关注]只有一种政治倾向的新闻媒体”,而“他们朋友的转发使他们多样化的新闻消费”。在Facebook的背景下,Bakshy等人[4]衡量了具有声明政治倾向的用户消费交叉内容的程度,即主要由对立政治倾向的用户发布的内容。内容消费在三个层面上进行研究:(i)潜在暴露,包括用户朋友分享的所有内容;(ii)暴露,包括用户动态中出现的所有内容;(iii)参与,包括用户点击的所有内容。研究发现,尽管用户接触到大量的交叉内容,但是用户更倾向于接触与自己观点一致的内容。0用户选择参与较少交叉内容的行为与有偏见同化理论[28]相一致。在我们的工作中,我们研究了潜在暴露的内容消费,因为研究剩下的两个层面需要访问不公开的数据。然而,在文献中对回音室的定义并不一致。上述研究衡量回音室的不同方面,重点要么在内容[4, 21,26]上,要么在网络[1,2]上。在本文中,我们提出了一些措施来通过同时使用被阅读/分享的内容和传播内容的网络来识别回音室的存在。与许多以前的工作只关注测量内容消费以量化回音室效应不同,我们同时研究了个体用户的内容消费和产生,并研究了不同内容配置与用户的网络位置之间的相关性。尽管我们不是第一个研究Twitter上回音室的人,但据我们所知,这是第一项同时使用内容和网络来表征回音室的研究。0心理和算法机制。选择性暴露理论[14]提出了选择性暴露、选择性感知和选择性保留的概念,它是个体倾向于偏好与其现有观点一致的信息,同时避免矛盾信息的倾向。另一方面,有偏见的同化[28]是一个相关现象,个体接触到来自各方面的信息,但倾向于以支持现有观点的方式解释信息。所有这些心理机制,以及其他偏见,如算法过滤和个性化[9],都与回音室现象相关。了解所有这些现象如何相互作用以及精确的因果关系超出了本文的范围。0节点和网络属性之间的关系。我们的一个目标是了解节点属性(用户消费和生产)与网络属性(例如PageRank和聚类系数)之间的关系。同质性是社交网络研究中的一个核心概念。在给定网络和节点特征的情况下,同质性指的是网络中相邻节点倾向于呈现相似的给定特征值的现象。一些研究已经提供了社交网络中同质性的证据[31]。例如,在Twitter的背景下,转推网络中的群集已被发现与Twitter用户的政治意识形态相关[7,10,15]。我们在这里研究的回音室概念可以看作是同质性的一种形式,其中我们将用户共享内容的政治倾向视为一种特征。0两党制的代价。Hetherington [24]认为,政党通过更加党派化在大众中提高了自己的知名度。Prior [33]分析了党派媒体的作用,回答了一个问题:“党派媒体是否导致了政治极化,并导致美国公众支持更多的党派政策和候选人?”他们没有找到支持这一说法的证据。相反,DellaVigna和Kaplan [12]表明,党派和偏见的FoxNews可能会影响参议院的选票份额和选民投票率。他们估计,FoxNews说服了3%到8%的观众投票给共和党。0论文主题:网络与社会WWW 2018,2018年4月23日至27日,法国里昂Table 1: Description of the datasets.6https://en.wikipedia.org/wiki/Chris_Murphy_gun_control_filibuster7http://www.bbc.com/news/world-us-canada-332699918https://www.nytimes.com/2016/06/28/us/supreme-court-texas-abortion.html9150在本文中,我们首次研究了社交网络中的两党制的代价。我们表明,产生与政治分歧两方观点一致的内容,在网络中具有中心性和内容参与率方面的代价。0门户。门户是传播学中常用的术语,用来指代作为信息过滤器的新闻媒体来源[27]。Barzilai-Nahon[8]提出了一个基于网络理论的门户模型,该模型将门户的概念推广到互联网,并适用于所有信息类型(不仅仅是新闻)。一些研究已经研究了Twitter上的门户实践[25,39],并得出结论,与传统媒体不同,任何普通用户都可以成为社交媒体上的门户。社交媒体上的这些门户的定义也与传统媒体组织中的传统门户不同,这是由于社交媒体用户可用的替代信息路径。在我们的案例中,我们将门户定义为从两个政治倾向接收内容,但只从一个倾向产生内容的用户,从而“过滤”一方的信息。据我们所知,这是第一篇研究回音室内信息门户角色的论文。03 数据0我们使用了来自Twitter的十个不同数据集的集合,每个数据集都包含了一组关于特定讨论主题的推文。这些数据集跨越了很长一段时间,涵盖了广泛的用户和主题,如下所述。根据讨论主题是否具有政治争议,将集合分为两组,政治和非政治。此外,除了推文之外,对于每个数据集,我们构建了一个代表用户之间社交连接的网络。每个数据集的推文数量和不同用户数量在表1中显示。对于所有数据集,我们执行简单的检查以删除机器人,使用每天推文数量、关注者、好友的最小和最大阈值,并确保在数据收集时帐户至少一年以上。有关数据集的更多详细信息如下。0政治。十个Twitter数据集中有五个与众所周知的政治争议有关。其中三个数据集,即guncontrol,obamacare和abortion,讨论了特定的主题。每个数据集都是通过收集在特定事件期间发布的推文来构建的,这些事件导致了对这些主题的兴趣增加(见表1)。我们使用Archive Twitter Streamgrab,选择在事件周围的一个星期内(事件前3天和事件后3天)发布包含与每个主题相关的关键词的推文。为了关注那些在讨论每个主题中积极参与的用户,我们确定在此时间窗口内至少有5条关于该主题的推文的用户子集。我们通过Twitter的RESTAPI收集这些用户发布的所有推文。0这些数据集是由Garimella和Weber[19]获得的,并且已经在之前的研究中进行了验证[16]。第四个数据集名为combined,采用类似的方式收集,只是它包含了在2016年美国总统选举期间活跃的用户的推文。最后,第五个数据集名为large,是一个包含超过25亿条推文的大型数据集,涵盖了近8年的时间(2009年至2016年)。具体而言,该数据集包含了2008年至2016年期间在美国至少有5次转发总统或副总统候选人的用户生成的所有推文。该数据集已经在之前的研究中使用过[19],更多细节请参考原始论文。03 https://archive.org/details/twitterstream4我们使用Lu等人提出的关键词列表[29]。5https://developer.twitter.com/en/docs/tweets/timelines/overview0主题 #推文数 #用户 事件0guncontrol 19M 7506民主党为控枪改革进行的阻挠(2016年6月12日至18日)0obamacare 39M 8773奥巴马医改补贴在美国最高法院裁决中得以保留(2015年6月22日至29日)0abortion 34M 3995最高法院推翻德克萨斯州的堕胎限制(2016年6月27日至7月3日)0合并的数据集:19M 63912016年美国大选结果之夜(2016年11月6日至12日)大规模数据集:2.6B676996来自转发美国总统/副总统候选人的用户的推文(来自[19],2009年至2016年)0ff 4M 32040过滤这些标签的推文数量:gameofthrones 5M 2159 love 3M 2940tbt 28M 12 778 foodporn 8M 390402016年美国总统选举结果(2016年11月6日至12日),并且至少发推5次关于guncontrol,obamacare和abortion这三个有争议的主题之一的用户的推文。我们还通过Twitter的RESTAPI收集了这些用户的所有推文。最后,第五个数据集名为large,是一个大型数据集,包含了在近8年的时间内(2009年至2016年)积极参与政治的用户生成的超过25亿条推文。具体而言,该数据集包含了在美国至少有5次转发总统或副总统候选人的用户生成的所有推文。该数据集已经在之前的研究中使用过[19],更多细节请参考原始论文。0非政治。为了对政治数据集进行测量,我们还使用了与非政治主题相对应的五个数据集,具体包括:tbt(“回忆星期四”),ff(“跟随星期五”),gameofthrones,love和foodporn。每个主题都与特定的标签关联(例如tbt的#tbt)。数据集的构建如下:首先,我们解析互联网档案馆收集的推文,并选择在2016年6月期间包含相应标签的推文。其次,我们过滤掉发推少于5次的用户。然后,我们获取这些用户生成的所有推文。每个主题的推文集合构成一个数据集。0网络。对于每个数据集,我们构建用户之间的有向“关注”图:边(u→v)表示用户u关注用户v。0政治倾向分数(来源极性)。我们的分析依赖于对每个用户所消费和产生内容的政治倾向进行表征。对于短文本片段(如推文)的政治倾向进行表征是一个非常具有挑战性的问题。为了应对这个挑战,我们使用了Bakshy等人从社交媒体上获得的各种新闻机构的政治倾向分数的真实数据[4]。具体来说,该数据包含了500个在Facebook上分享最多的新闻领域(例如nytimes.com)的政治倾向分数。0Track: Web and Society WWW 2018, April 23-27, 2018, Lyon, Francethe political spectrum, where as δ-bipartisan ones do not. Figure 1shows an illustration of δ-partisan and δ-bipartisan users.c(u) =t ∈Cu ℓ(t)Cu(3)min{c(u),1 − c(u)} ≤ δ.(4)9160得分取值介于0和1之间,表示访问这些页面的Facebook用户中将自己标识为保守派的比例。接近1(0)的值表示该域在其报道中具有保守(自由派)的倾向。有关数据集的详细描述,请参阅原始出版物[4]。我们删除了一些不属于新闻机构的域名(例如wikipedia.org或reddit.com),并将新闻域名的缩写版本添加到列表中(例如fxn.ws代表foxnews.com)。图2显示了这500个域名的来源极性分布。04 测量0本节描述了我们分析中使用的测量方法。这些测量方法旨在从两个角度捕捉用户活动:(i)用户产生和消费的内容,以及(ii)用户的网络位置,包括他们与他人的互动。04.1 内容0内容在衡量回音室效应方面起着核心作用。在意见在两个观点之间极化的情况下 - 在我们的案例中是“自由派”和“保守派” -我们说回音室的存在程度取决于用户消费与其表达观点一致的内容。为了使这个定义可操作并量化回音室效应,我们需要对用户产生和消费的内容的政治倾向进行建模。对于用户u的内容产出,我们考虑用户u发布的推文。对于用户u的内容消费,我们考虑用户u关注的其他用户发布的推文。为了量化Twitter上发布的内容的政治倾向,我们只考虑包含已知和独立得出的政治倾向的在线新闻机构链接的消息。特别地,我们使用第3节中描述的新闻机构政治倾向得分数据集。基于这些得分,我们为用户产生和消费的内容定义了一个极性得分。0产出极性。对于给定数据集中的每个用户u,我们考虑用户u发布的包含已知政治倾向ln的新闻机构链接的推文Pu的集合。然后,我们将每个推文t ∈ Pu与倾向ℓ(t) =ln相关联。用户u的产出极性p(u)定义为Pu上的平均政治倾向,即,0p(u) = � t ∈ Pu ℓ(t)0| Pu | . (1)0产出极性的值范围在0和1之间。对于经常分享自由派来源内容的用户,产出极性接近0,而对于分享保守派来源内容的用户,产出极性接近1。我们希望量化用户产生单方面内容的程度。我们说用户是δ-党派的,对于某个值0 ≤ δ ≤ 1。02,如果他们的产出极性与两个极值之间的δ相差不超过δ。0min { p(u), 1 - p(u) } ≤ δ. (2)0δ的值越小,用户越党派化。还要注意,如果用户u是δ-党派的,那么对于δ < δ' ≤02.不是δ-党派的用户被称为δ-两党派的。直观地说,δ-党派用户只从政治谱系的一个极端端产生内容,而δ-两党派用户则不是这样。图1显示了δ-党派用户和δ-两党派用户的示例。0图1:示例显示了δ-党派用户的定义。虚线红线在δ和1-δ处绘制。位于最左边虚线红线左侧或最右边虚线红线右侧的用户是δ-党派的。0生产方差。除了产生的推文的平均政治倾向之外,我们还测量了相同一组推文的政治倾向的方差。目标是量化用户通过产生的内容所覆盖的意见范围。0消费极性。与生产极性类似,我们根据用户从他们关注的用户的推文中接收到的推文集C(u)定义消费极性。我们再次关注包含指向具有已知来源极性的新闻文章的推文。用户u的消费极性c(u)定义为接收到的推文C(u)的平均政治倾向。0接近0的值表示消费自由派内容,而接近1的值表示消费保守派内容。尽管消费极性的定义是基于推文的来源极性,但它也考虑了网络结构并形成了理解内容和网络之间相互作用的基础。为了量化用户消费单方面内容的程度,我们说用户是δ-消费者,对于某个值0 ≤ δ ≤ 102,如果他们的消费极性与任一极值相差δ0消费方差。除了消费的推文的平均政治倾向之外,我们还测量了相同一组推文的政治倾向的方差。目标是量化用户通过消费的内容所覆盖的意见范围。0门户。在媒体和传播研究中,门户被定义为充当信息的过滤器(或“门户”的)的媒体来源[27]。在我们的案例中,我们同时考虑内容的消费和生产,并将门户定义为从政治光谱的两个方面消费内容但只生产一方面内容的用户。这些用户阻止或过滤来自一方面的信息,因此可以被认为是门户。形式上,我们说用户u是δ-门户,如果u是δ-党派但不是δ-消费者,即0min { p ( u ) , 1 − p ( u ) } ≤ δ 且 min { c ( u ) , 1 − c ( u ) }> δ . (5)0主题:Web和社会WWW 2018年4月23日至27日,法国里昂91704.2 网络0我们的目标是理解用户在网络中的位置和全局网络结构与内容消费和生产之间的相互作用。因此,为了补充使用内容定义的上述度量,我们定义了捕捉用户在网络中的位置和与其他用户的互动的度量。我们考虑以下网络度量。0用户极性。我们采用Barberá等人提出的潜在空间模型[7]来估计用户极性得分。该得分基于Twitter用户倾向于关注在潜在意识形态维度上与他们相似的政治家的假设。有关政治家列表和估计极性的详细信息,请参阅原始论文[7]。用户极性分数的负(正)值表示民主党(共和党)倾向,而极性的绝对值表示对相应政党的支持程度。0网络中心性。我们采用著名的PageRank度量[32]来表征网络中节点的中心性。PageRank反映了节点在关注网络中的重要性,较高的PageRank可以解释为用户将其内容传播给其社区的机会较高。0聚类系数。在无向图中,节点u的聚类系数cc(u)定义为其直接邻域中封闭三角形的比例。具体而言,设u的度为d,T为涉及u和其两个邻居的封闭三角形的数量。聚类系数定义为cc(u) = 2T0d(d-1)。请注意,由于我们的数据集中的网络是有向图,我们考虑它们的无向版本来计算聚类系数。节点的高聚类系数表示相应用户的自我网络紧密相连,即节点嵌入在一个连接紧密的社区中。0转发/收藏率。对于给定的数据集,用户的转发率(收藏率)是该用户的推文中至少收到一次转发(收藏)的比例。0转发/收藏量。对于给定的数据集,用户的转发量(收藏量)被定义为其推文收到的转发(收藏)数量的中位数。这与转发/收藏率不同,因为它表示内容的受欢迎程度,而转发/收藏率则捕捉了用户内容的“接受度”。05 分析0在本节中,我们使用第3节中描述的数据集和第4节中定义的度量标准来回答以下问题:0(1)是否存在回音室,或者用户是否接触到表达相反立场的内容?我们通过分析产生和消费极性的联合分布来回答这些问题。(§ 5.1)0(2)党派立场是否有优势?我们通过网络中心度(PageRank)和连通性(聚类系数)以及内容欣赏度(转发和收藏的推文数量)来量化优势。(§ 5.2)0图2:当前工作中考虑的500个新闻来源的极性分布[4]。0(3)在网络中,谁是信息守门人?我们探讨这些用户的特征,并研究他们与其他用户的区别。(§ 5.3)0(4)仅通过检查用户的推文,我们能否预测用户是党派还是信息守门人?我们构建了一个分类模型,利用上述分析提取的特征来预测用户是党派还是信息守门人。(§ 5.4)05.1 回音室:内容的产生和消费0如第4节所讨论的,根据引用的新闻来源的倾向性来衡量产生和消费内容的政治倾向。图2显示了新闻来源的极性分数分布。分布显示存在许多保守派媒体和相当数量的中立派和自由派媒体。为了探索数据集中的产生和消费极性的值,让我们来看一下图3。顶部行显示了政治数据集的五个图,底部行显示了非政治数据集的图。每个图包含三个子图:中心的二维散点图和沿着散点图的两个轴的两个一维子图。图3的散点图显示了各个数据集中用户的产生和消费极性的分布。散点图中的每个点对应一个用户。请记住,较低的极性表示自由派用户,较高的极性表示保守派用户。每个点的颜色表示用户极性分数的符号,由Barberá[6]定义并在第4节中描述(灰色=负面=民主党,黄色=正面=共和党)。两组数据集之间的差异明显:政治数据集的产生和消费极性高度相关,这意味着用户确实倾向于消费与自己政治倾向一致的内容。而非政治组则不然,其中的相关性很低或不存在。产生和消费极性如何与用户极性分数对齐?为了探索这一点,让我们转向伴随每个散点图的一维子图。沿着x轴(y轴)的子图显示了民主党和共和党的产生(消费)极性的分布,如前所述,以用户极性的符号来定义[6]。我们观察到政治数据集的产生和消费极性呈现出0会议主题:Web和社会WWW 2018,2018年4月23-27日,法国里昂9180对于非政治数据集,分布明显分离且呈双峰分布,而对于非政治数据集,分布非常吻合。这种双峰分布也表明了所产生和消费内容倾向的分歧。此外,让我们注意到,当将产生和消费极性的分布与图2中的源极性得分进行比较时,它们看起来非常不同。产生/消费极性更集中于光谱的中间部分(即,几乎没有极端用户),而模式本身与极端相对较远。此外,分布的集中度在与源极性的分布相比时显示出对一种倾向的偏好。这种偏好可以归因于用户的个人选择(对于产生)以及同质性和网络相关性等网络效应(对于消费)。最后,我们检查了产生和消费极性的方差。我们询问是否更党派的用户在其极性方面也呈现出较低的方差,这意味着他们从更窄的来源光谱中产生和消费内容。图4显示了每个用户的消费和产生方差(y轴)与相应(平均)极性度量之间的关系。该图显示了明显的“向下U”趋势,从而证实了前面提到的假设:双支持者用户关注具有更广泛政治倾向的新闻来源,而不仅仅是从中心选择,这使得他们的新闻饮食在质量上与支持者用户不同。当我们根据用户极性分数[6]检查产生和消费极性的方差时,我们得到类似的结果(由于空间限制而省略)。这些结果的一致性加强了我们产生和消费极性度量的有效性。05.2 支持者用户分析0回想一下,δ-支持者用户是指倾向于仅从政治光谱的一侧产生内容的用户。在本节中,我们研究支持者用户与双支持者用户的差异。我们关注比较的三个主要元素:0(a)网络:PageRank(全局中心度度量),聚类系数(局部中心度度量)和绝对用户极性(较高的值表示较高的极化)。0(b)个人资料:粉丝数量(受欢迎程度的代理),好友数量,推文数量(活动的代理),Twitter账号年龄(用户在Twitter上的周数)。0(c) 互动:转发/点赞率,转发/点赞量。0支持者和双支持者由阈值δ参数化,并且我们考虑δ在0.20到0.45之间以0.05的步长的不同值。对于每个δ值,我们探索这两组用户的上述特征的值分布,并测试它们是否不同。表2(第二列)总结了支持者用户的结果,并列出了在大多数数据集上差异在多数δ阈值上显著的特征。表中的“ �”表示该属性(例如,PageRank)在至少4个6个δ阈值的大多数数据集上对支持者用户显著较高(在大多数情况下,我们发现所有数据集都有一致的行为)。0表2:支持者和双支持者以及门户和非门户的各种特征比较。A �表示相应的特征在至少4个6个阈值δ上(大多数数据集)的一组中显著较高(p <0.001)。检查标记(-)旁边的减号表示该特征显著较低。0特征 支持者 门户0PageRank � � 聚类系数 � (-) � (-) 用户极性 � (-) �(-) 度 � � 转发率 � � 转发量 � � 点赞率 � � 点赞量 � � #粉丝 � � # 好友 � � # 推文 � � 推特账号年龄 � �0数据集)。9“�(-)”表示该属性在党派人士中显著较低。“�”表示我们没有发现显著差异。对于一些在两个群体之间显示显著不同分布的特征,我们在图5(用户极性)和图6(PageRank)中展示了分布情况。每个图显示了一组beanplot,每个政治数据集一个。每个beanplot显示了在数据集上计算的一个度量的估计概率密度函数,个体观测值在一维散点图中显示为小白线,均值显示为较长的黑线。beanplot分为两组,一组是党派用户(左侧/深色),一组是两党用户(右侧/浅色)。根据绝对用户极性得分,党派用户比两党用户更极化,如图5所示。我们看到党派用户在网络中处于更中心的位置,PageRank更高(图6)。同样,党派用户与自己的社区联系更紧密,聚类系数更高。最后,他们的推文更受欢迎,即更高比例的推文被转发,尽管在这种情况下效果大小较小。关于转发次数和收藏次数的趋势也类似(由于空间限制而省略)。这些结果与定义δ-党派用户的δ阈值的值无关。在个人资料特征方面,我们没有发现任何一致的趋势。表2总结了这些趋势。05.3 信息门户0现在我们将注意力转向δ-信息门户用户,即消费的中心内容多于生产的用户。与前一节一样,我们在0.20到0.45之间以0.05的间隔变化δ,并将信息门户用户与非信息门户用户进行比较。由于空间限制,我们不显示信息门户用户的beanplot。我们只在表3中总结结果。信息门户用户与党派人士一样,在网络中占据具有高中心性的位置,即PageRank和入度高于平均水平。09 使用Welch's t检验检验均值是否相等(p < 0.001)[38]。10Beanplot是箱线图的替代品,用于在组之间进行单变量数据的可视化比较。0Track: Web and Society WWW 2018, April 23-27, 2018, Lyon, France9190(a)0(b)0(c)0(d)0(e)0(f)0(g)0(h)0(i)0(j)0图3:政治(第一行)和非政治(第二行)数据集的生产和消费极性分布。散点图显示数据集中每个用户的生产(x轴)和消费(y轴)极性。颜色表示用户的极性符号,参考[6](灰色=民主党,黄色=共和党)。沿坐标轴的一维图显示了民主党和共和党的生产和消费极性的分布。0(a)0(b)0(c)0(d)0(e)0(f)0(g)0(h)0(i)0(j)0图4:上图:生产极性方差与生产极性(均值);下图:消费极性方差与消费极性(均值)。0然而,与他们所支持的其他一方不同的是,他们显示出较低的聚类系数,这表明他们并没有完全嵌入到一个单一的社区中。考虑到他们也从对立方接收内容,这个结果是可以预料的:大部分跨越两个社区的链接将保持开放(即不形成三角形)。同样,他们的极性得分平均来说也不如他们所在群体的其他成员极端。与党派人士不同的是,我们无法找到与转发和收藏率和数量等交互特征一致的趋势。门户的个人资料特征也没有一致的差异。结果见表2。0最后,鉴于党派和门户的中心性都较高,我们直接比较它们的PageRank值,并发现存在显著差异:党派的PageRank比门户更高(未显示图表)。这种效应在阈值δ较高时更为明显,可能表明即使在产生极化内容的用户中,纯度(不关注相反立场的用户)也是受到奖励的。05.4 预测0鉴于党派和门户在网络和内容方面具有明显不同的特征,我们能否预测一个0Track: Web and Society WWW 2018, April 23-27, 2018, Lyon, France0.01.02.00.20.30.40.01.02.00.20.30.40.20.30.40.01.02.00.20.30.40.01.02.00.20.30.40.20.30.40.20.30.40.20.30.40.20.30.40.20.30.4p (net)д (net)p (n-gram)д (n-gram)pдcombined0.710.670.730.650.810.67guncontrol0.700.640.760.620.830.67obamacare0.750.650.780.640.830.66abortion0.710.630.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功