没有合适的资源?快使用搜索试试~ 我知道了~
1086Twitter上有毒对话的结构马丁·萨韦斯基MITmsaveski@mit.edu布兰登·罗伊MITbcroy@media.mit.eduDeb RoyMITdkroy@media.mit.edu摘要社交媒体平台有望实现丰富而充满活力的在线对话;然而,它们的潜力往往受到反社会行为的阻碍。在本文中,我们研究了Twitter上的对话中的结构和毒性之间的关系。 我们收集了118万次对话(5850万条推文,440万用户),这些对话是由一年内发布或提到主要新闻媒体的推文以及在四个月内参加2018年美国中期选举的候选人引发的。我们分析了个人,二分体,和组水平的对话在个人层面上,我们发现,毒性是分散在许多低到中度毒性用户。 在二元层次上,我们观察到有毒回复更有可能来自那些没有任何社会联系或与发帖者有许多共同朋友的用户。 在组级别,我们发现有毒对话往往有更大,更宽,更深的回复树,但稀疏的后续图。为了测试会话结构的预测能力,我们考虑两个预测任务。在第一个预测任务中,我们证明了结构特征可以用来预测对话是否会在前十个回复中变得有毒。在第二个预测任务中,我们发现对话的结构特征也可以预测特定用户发布的下一个回复是否有毒。我们观察到,在两个预测任务中,会话的结构和语言特征是互补我们的研究结果为更健康的社交媒体平台的设计提供了信息,并表明基于对话结构特征的模型可用于检测毒性的早期迹象,并可能将对话引导到毒性较小的方向。ACM参考格式:马丁·萨维斯基布兰登·罗伊和黛布·罗伊2021年Twitter上有毒对话的结构。 在网络会议2021(WWW '21)的会议记录,2021年4月19日至23日,斯洛文尼亚卢布尔 雅 那 。 ACM , 纽 约 州 纽 约 市 , 美 国 , 12 页 。https://doi.org/10.1145/3442381.34498611引言社交媒体平台在全球拥有数十亿用户,已经成为我们生活的重要组成部分,现在构成了我们公共领域的一个重要方面它们允许用户分享他们的观点,并就他们关心的问题进行对话 在Twitter的情况下,用户可以发布推文,任何看到推文的其他用户都可以回复,分享他们的观点,将内容带入他们的追随者网络,并扩大对话。回复的连锁反应以复杂的方式传播本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3449861通过Twitter网络,可以在可能紧密联系的人之间进行对话交流,或者同样与从未见过面并且在Twitter上几乎没有联系的人进行对话交流。这种在不同人群中进行大规模对话的潜力有望支持丰富和充满活力的公共话语,但也允许人们之间的文明退化网上的反社会行为非常普遍[48],可能会损害心理和情绪健康[1,43]。以前的工作主要集中在描述和检测各种类型的反社会行为,包括仇恨言论[19,37],骚扰[22],网络欺凌[52]或更普遍的有毒行为[6,51]。这些方法通常是孤立地和事后分析内容[21]。 虽然这些方法可用于监测毒性水平和限制接触有毒物质,但在预测毒性和预防毒性行为发生方面的潜力有限[30]。预测毒性需要考虑发生毒性行为的讨论的社会和会话背景。以前的会话分析工作已经研究了各种会话结果,例如会话是否会增长[4,54],参与者是否会重新进入会话[4,46],会话是富有成效的[40]还是有争议的[18,27],以及它是否会导致分歧[49]。最近的一系列工作集中在基于语用线索[53]和在对话的初始交流中使用的语言的习得表征[12]来预测毒性。 正如我们在后面的预测分析中所展示的那样,对话的语言特征与本研究的重点结构特征是互补的。对会话结构的研究主要集中在评论之间的关系上,包括各种类型会话的结构特征[24,26],会话线程结构的生成模型[2,25,32],以及不同会话界面设计的影响(例如, 分层与线性)[3,8]。然而,很少有人关注的对话结构和对话参与者之间的社会关系如何影响对话动态,以及它们是如何与有毒行为。目前的工作。本研究的出发点是观察到交际是一种社会行为,会话参与者之间的关系可能会影响他们的行为。 为了系统地研究Twitter上对话的结构和毒性之间的关系,我们收集了118万次对话(5850万条推文,440万用户)的样本,这些对话由五个主要新闻媒体(CNN ,纽约时报,华尔街日报,福克斯新闻和Breit-bart)发布或提及,以及1,430名参加2018年美国中期选举的候选人。1 复 制 我 们 的 分 析 所 需 的 代 码 和 ( 匿 名 ) 数 据 可 在 以 下 网 址 获 得 :https://github.com/msaveski/toxic_conversation_structure/WWWMartin Saveski,Brandon Roy和Deb Roy1087(A) Twitter用户界面(B)回复树(C)回复图(D)关注图图1:由@foxnews tweet开始的Twitter对话的四个视图(A)对话参与者通过Twitter UI体验的对话的草图(B)回复树,根节点是提示对话的推文红色节点代表被归类为有毒的推文。(C)回复图,以用户为中心的回复树视图,其中如果一个用户回复另一个用户,则两个用户连接,以及(D)会话参与者之间的跟随关系的图。C和D中节点的大小与它们的PageRank成正比我们以三种方式表示对话的结构:使用回复树(图1B),其编码帖子之间的关系,其中如果一个帖子是对另一个帖子的回复,则两个帖子是连接的;回复图(图1C),捕获用户之间的对话交互的有向图,其中如果一个用户回复另一个用户,则两个用户是连接的;以及关注图(图1D),其捕获对话参与者之间的社交连接其中如果一个用户关注另一个用户,则一个用户连接到另一个用户。本研究的目的有两个:(1)研究会话结构与毒性之间的关系;(2)检验会话结构观在预测会话发展过程中的毒性方面的价值为了研究结构和毒性之间的联系,我们分析了三个层次的对话:个人,二分体,和组的水平。 为了测量对话结构特征的预测能力,我们考虑两个预测任务。在第一个任务中,我们根据对话的初始阶段,预测对话是否会变得更有害在第二个任务中,我们预测特定用户发布的下一个回复是否是有毒的,考虑到目前为止的对话以及用户与对话参与者的关系。在我们对对话的分析中,我们发现,在个体层面上,毒性并不集中在少数高毒性使用者中,而是分散在许多低毒性到中等毒性使用者中(§4.1)。 我们还观察到,在发布至少一条(或至少四条)有毒推文的用户中,有适度的同质性。在二元水平上,我们发现有毒帖子比无毒帖子更容易引起有毒回复(§4.2)。有毒回复更有可能来自与发帖者没有任何社会关系的其他用户,没有太多共同的朋友,并且拥有较少的追随者。在群体层面,我们发现有害对话的回复树往往更大、更宽、更深(见4.3节)。然而,在会话参与者之间的跟随图更密集的会话中,具有更少的连接组件,并且具有更低的模块化倾向于毒性较小(§4.4)。在第一个预测任务中,我们发现我们可以预测一个对话是否会变得更有毒或更少,在新闻中的准确率为61.6%(AUC:66.2%),在期中考试数据集中的前十个回复中的准确率为59.9%(AUC:64%),仅使用对话的结构特征,并在控制了前十个回复中的毒性之后(§5.1)。 在第二个预测任务中,我们发现我们可以预测特定用户发布的下一个回复是否有毒,在新闻中的准确率为68% ( AUC : 75.3% ) , 在中 期数据 集中为 70.5% ( AUC :79.9%),即使在控制了促使对话的推文内容之后(§5.2)。 在这两个预测任务中,我们观察到将结构特征与编码会话的语言特征的特征相结合进一步提高了分类性能,这表明这两种类型的特征捕获了会话的不同和互补的方面。这些结果表明,社交媒体平台的设计可以大规模降低毒性2数据帐户选择。 为了捕捉各种各样的对话,我们收集了主要新闻媒体和2018年美国中期选举期间竞选公职的候选人的对话。 我们选择了五个横跨政治光谱的新闻媒体-左边是纽约时报和CNN,中间是华尔街日报,右边是福克斯和布莱巴特[5,9]-并且拥有大量追随者的Twitter帐户。我们收集了这些账户发布的推文和其他人发布的@提到这些账户的推文所引发的对话。我们跟踪了一年的新闻账户,从2018年5月到2019年5月,捕获了51万次对话(3260万条推文,240万用户),以及中期候选人的账户,为期五个月,选举前一个月和选举后四个月,捕获了676.8万次对话(2580万条推文,200万用户)。我们两个都跟着Twitter上有毒对话的结构WWW1088候选人在竞选期间使用的个人帐户和他们在就职后创建的官方帐户我们获得了候选人的个人Twitter帐户从Wikipedia,和官方帐户从国会议员Github存储库。在3,339名候选人中,有1,430人拥有Twitter账户。综合来看,这两个数据集包含了长时间内的大量对话。此外,收集到的对话在几个重要方面各不相同。 它们捕捉了由政治上多样化的账户引发的讨论,包括左倾和右倾的新闻媒体以及中期候选人。一些对话是由具有高度影响力的账户发起的,如新闻媒体和拥有大量粉丝的候选人,其他对话则是由普通用户@提到新闻媒体或候选人的。候选人在推特上数据收集管道。收集与同一对话相关的推文的关键技术挑战是Twitter API只提供从回复到原始推文的链接,而不是相反。因此,给定根tweet,不能简单地查询所有后续回复。为了克服这个问题,我们依赖于这样一个事实,即每次用户回复一条推文时,他们都会隐含地@所有在回复链中发布或提到的用户。我们使用Twitter PowerTrack API来收集研究期间所选帐户的所有帖子和提及为了将回复串在一起并构建完整的回复树(图1B),我们扫描完整的数据集并使用reply-to字段递归地将帖子链接到回复。 我们只保留以所选帐户发布或@提及的推文为根的回复树,并排除没有回复或只有一个用户回复的推文。为了收集参与这些对话的用户的社交图,我们设置了一个日常工作,扫描过去24小时内收集的所有tweet,编制至少发布一条tweet的所有用户的列表,并使用Twitter REST API下载每个用户因此,我们可以使用用户的关注图快照对应于他们的我们不收集受保护帐户的数据。3毒性注释为了给tweets贴上毒性标签,我们使用了Google我们选择这个API是因为它的模型是在维基百科的评论上训练的,维基百科的评论就像推文一样简短而非正式。最初的Perspective API模型是在10万条注释上训练的,每条注释被注释了10次,据报道,它的准确性相当于三个注释器的综合性能。从那时起,该模型在更大的数据集上进行了重新训练,并进行了修改,以解决其他研究人员报告的一些弱点(例如,[45])。其他几项研究使用了Perspective API,并证明其预测是准确的[28,42]。由于我们的分析的其余部分依赖于Perspective API 为此,我们部署了Amazon Mechanical Turk注释任务,以在随机选择的推文上获取人类毒性标签。除了评估注释的质量之外,我们还依赖于人工注释来调整Perspective API得分阈值,该阈值用于将tweet分类为有毒和有毒。无毒的(API返回2我们注意到,在我们收集数据后,Twitter引入了一个新的API端点,可以轻松检索会话线程估计读者会认为评论是有毒的概率,而不是二元毒性标签。Mechanical Turk的注释任务由五条随机选择的推文组成。我们在每条tweet旁边显示了一个输入标签,供注释者在“有毒”和“无毒”之间进行选择为了避免由于排序效应引起的任何注释偏差,我们将任务之间的标签顺序随机化(即,一批五条推文),但在一个任务中保持顺序一致。为了帮助澄清什么是有毒的tweet,我们为注释者提供了简单的说明。我们使用了与Perspective API相同的毒性定义:“可能会让您离开讨论的粗鲁,不尊重或不合理的评论”[ 51 ]。 为了确保标签的质量,我们只从美国招募了在以前的Mechanical Turk任务中表现出色的注释员。 我们每项任务补偿他们20美分(即,五条推文)。在注释者开始任务之前,我们警告他们可能会看到冒犯性的内容。该方案得到了麻省理工学院机构审查委员会的批准我们从新闻数据集的前五个月随机抽取了3,000条推文进行注释。我们确保样本代表毒性评分的总体分布,如Perspective API所预测的(K-S检验,D =0.01,p = 0.89)。每个tweet都由三个不同的工作人员独立标记,这样我们就可以测量注释者之间的一致性,并使用投票方案来获得单个“地面真相”标签。为了评估注释者之间的一致性,我们使用Krippendorff以获得单个对于每条推文的标签,我们使用了多数票。我们调整了Perspective API毒性分数阈值,超过该阈值我们认为推文是有毒的,并测量了预测的质量。我们使用了600条带注释的推文(20%)作为开发集,我们选择了阈值,其余的推文作为测试集。我们选择了一个阈值(T = 0.531),它在开发集的精确度和召回率之间取得了平衡在测试集上,该阈值产生的分类准确度为0.82,AUC为0.86,F1得分为0.63。当我们只考虑注释者达成共识的测试集子集时,预测性能的所有指标都显着增加,准确度:0.91,AUC:0.95,F1:0.73。我们注意到,更保守的毒性阈值(T = 0.6或T = 0.7)在所有后续分析中导致相同的模式。4分析在本节中,我们将在多个尺度上研究转换结构与毒性行为之间的关系。首先,我们研究了个人用户第二,我们调查的二元关系,考虑对用户的推文和回复。最后,我们看看整体的转换结构,包括回复树和跟随图结构。为了提高文本的可读性,我们以图形方式传达了点估计的不确定性,并在随后的图中显示了95%的置信区间。4.1个人层面我们首先分析两个数据集中每个用户在图2(左)中,我们根据tweet和toxic的数量将用户放入WWWMartin Saveski,Brandon Roy和Deb Roy1089()下一页()下一页()下一页()下一页1061041021061041021001011021031040.20.10.00.20.10.01010 10100.20.10.00.20.10.0100101102103104同性恋 我们测试Twitter关注图中的用户之间是否存在同质性[36],即, 有毒使用者是否更可能跟随其他有毒使用者,以及无毒使用者是否更可能跟随其他无毒使用者。我们注意到,我们只对测量同质性感兴趣,并不打算区分同质性和社会影响。为了在用户之间构建完整的关注图,我们使用每个用户朋友的最早快照为了衡量同质性的水平,我们使用定义的同质性系数,Num. Twitter/用户(日志)Num.有毒推文/用户(日志)Num. Twitter/用户(日志)在[38]中,它量化了是否具有相同属性的图2:每个用户的tweet和toxic tweet数量分布(左)。具有不同毒性水平的使用者在总体毒性中所不同活动水平用户的有毒推文平均比例(右)。误差带代表95% CI。他们发布的推文(x轴),并显示落入每个桶的用户数量(y轴)。 正如人们所料,我们发现这两个分布都是长尾的,即,有许多用户发布了几条推文,也有少数用户发布了许多推文。在所有用户中,44.71%的新闻用户和38.85%的中期数据集中只发布了一条推文。大多数用户--59.26%的新闻用户和56.15%的中期选举用户--没有发布任何有毒的推文。毒性分布接下来,我们来看看总体toxi- city是如何在至少发布了一条有毒tweet的用户中传播的。特别是,我们感兴趣的是毒性是集中在少数用户中还是分散在整个人群中。这对该平台如何减少有毒行为具有重要意义例如,如果只有一小部分用户是有毒的,则人们可能希望改变他们的行为或将他们从平台上完全移除可以不适当地降低整体毒性并显著改善平台上其余用户的体验。在图2(中)中,我们根据用户发布的有毒推文数量将用户放入大小合适的桶中,并计算每个桶中用户发布的有毒推文(在数据集中的所有有毒推文中)的比例。我们在两个数据集中发现了一个非常相似的模式:包含中度有毒用户的桶占有毒推文的最大比例,每个桶的比例从15%到18%不等。 虽然在较低毒性桶中有更多的用户,但在中等毒性桶中每个用户的有毒推文数量较高,导致有毒推文数量较多。这表明,毒性并不集中在少数高毒性使用者中,而是分散在许多低毒性至中等毒性使用者中。毒性率接下来,我们研究每个用户的有毒推文的比例如何因用户的活动水平不同而变化。 在图2(右)中,我们根据用户发布的tweet数量将用户放入大小相同的桶中,并测量他们的tweet是有毒的频率。我们在两个数据集中发现了类似的模式:中等活跃用户的有毒推文比例高于低活跃和高活跃用户。 我们还发现,高活跃度用户的有毒推文平均比例低于低活跃度用户。我们注意到,高度活跃用户的桶的估计具有更宽的置信区间,因为属于这些桶的用户较少。联系的频率比我们预期的要多或少,即,in a random随机network网络.折射率系数可以取-1之间的值:完美折射率(即,用户仅与不同于他们的其他人连接)和1:完美的可重复性(即,用户只与像他们一样的其他人连接)。我们首先将用户分为两类:(i)没有发布任何有毒推文的用户和(ii)发布至少一条有毒推文的用户,并计算相应的不确定性系数。我们发现,在两个数据集中,用户之间存在中等程度的同质性,新闻数据集为0.15,中期数据集为0.125。如果我们只考虑没有发布任何有毒推文的用户和发布至少四条有毒推文的用户,这样我们就排除了用户可能属于有毒类别的情况,因为他们的一些推文被错误分类,则不确定性系数增加到在新闻中是0.228,在中期数据集中是0.2我们还使用有毒推文的数量作为属性来计算用户之间的传播系数这使我们能够测试有许多有毒推文的用户是否倾向于跟随其他有许多有毒推文的用户。由此产生的重复系数非常接近于零,新闻中为0.006,中期数据集中为0.034。如果我们只对至少有一条有毒推文的用户进行分析,那么反病毒系数甚至更接近于零。这些结果表明,高毒性用户与其他高毒性用户的联系既没有积极的也没有消极的亲和力总之,我们发现没有有毒推文的用户和至少有一个或至少四个有毒推文的用户之间存在中等程度的同质性。然而,我们没有发现任何证据表明剧毒使用者更有可能与其他剧毒使用者联系4.2二合体接下来,我们重点讨论了毒性与应答二联体的特征之间的关系。 回复二元体i,j由两个对话参与者用户i和用户j组成,其中用户j回复了用户i的推文。 我们称用户i为父用户(或发帖者),用户j为子用户(或回复者),因为i的tweet是回复树中j的tweet的父用户。注意,用户i可能是另一个二元体中的孩子,例如,x、i或用户j可以是二元组j、y中的父(例如,如果回复树具有分支x,i,j,y)。 我们排除了自我回复或直接回复根tweet的回复二元组,因为我们有兴趣了解对话参与者之间的关系。过滤后,我们最终在新闻中获得了920万个二元组,在中期数据集中获得了800万个二元组。二分体特征 我们定义了四个二元特征:(i)毒性类型,(ii)边缘类型,(iii)影响间隙,(iv)嵌入性。每一个二元体都可以通过父母的帖子是否有毒和孩子的回复是否有毒来表征,从而导致四个●●有毒+无毒●●●●●有毒●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●● ●●● ●●●●●●●●●●●●0123●●●●●●●●●●●●●● ●●●●●●新闻用户数(log)中期选举总体毒性有毒推文的平均比例Twitter上有毒对话的结构WWW1090→→←←→←←0.40.30.20.10.00.4期中考试:0.11;或O O,新闻:0.10,期中考试:0.09)。 这表明,更有影响力的用户更有可能成为有毒回复的目标。我们接下来研究这个假设影响力差距。我们将影响力差距定义为父母和孩子的追随者数量之间的比率。由于追随者数量的分布是长尾的,我们计算log0.3100- 10|父母的追随者|)-log 10(|儿童追随者|).0.20.10.0O OO==OO OO O边缘类型-5.0-2.50.02.55.0父/子关注者(日志)100101102103嵌入性(log)104尽管大多数二元交互发生在具有相似数量的追随者的用户之间,但用户更有可能回复由比他们拥有更多追随者的其他人发布的推文。在新闻数据集中,当父母的帖子是有毒的,有毒回复的概率大致相同,无论影响力差距如何(图3,图3:根据边缘类型、影响力差距(log 10(|父母的追随者|)-log 10(|儿童追随者|)和嵌入性(共同朋友的数量)。可能的毒性类型。根据以下图表中的二元用户之间的关系,二元也可以具有四种边缘类型之一:(i)它们可以相互跟随(O = O),(ii)子(回复者)可以跟随父(但反之亦然)(OO),(ii)父(回复者)可以跟随子(O O),以及(iv)它们可能根本不连接(O O(注意,在我们的符号中,父用户总是在左边。 二分体的影响力差距是父母和孩子的追随者数量之间的比率。最后,二元嵌入测量二元用户的社会背景重叠的程度。我们将其定义为二元用户之间的共同朋友的数量,即,这两个用户的数量。毒性类型。我们首先分析有毒回复的概率如何根据父帖子是否有毒而变化。 我们发现,在新闻和中期数据集中,有毒推文比无毒推文引起有毒回复的可能性分别高出65%和64%。在新闻中给出有毒帖子的有毒回复的概率是0.3,在中期数据集中是0.27,而在新闻中给出无毒帖子的有毒回复的概率是0.18,在中期数据集中是0.16。毒性类型是二分体最明确的特征 我们发现,在其他二分体特征的模式显着不同,这取决于父职位是否有毒或没有。因此,在随后的所有分析中,我们报告了这两种情况下我们的发现是如何不同的。边缘类型。接下来,我们来看看不同边缘类型的毒性是如何变化的。 我们发现,有毒回复的概率根据边缘类型而显著变化(图3)。对于一个有害的帖子,有害的回复更有可能来自另一个既不关注也不被父母关注的用户(新闻:0.30,中期:0.28)。 其他边缘类型(O = O、O O或O O)中有毒回复的概率相似,在新闻中介于0.22和0.24之间,在中期数据集中介于0.2和0.24之间。对于一个无毒的帖子,与发帖者没有任何关系的另一个用户更有可能发布有毒的回复(新闻:0.18,中期:0.17)。然而,在这种情况下,与其他两种边缘类型(O = O,news:0.12,中)。相比之下,在中期数据集中,当父母的追随者比孩子多时,有毒回复的概率会增加。当父母的帖子是无毒的,那么影响力差距就更重要了在这两个数据集中,当父母比孩子有更多的追随者时,回复是有毒的概率更高。有趣的是,这种关系是不对称的,即,当孩子比父母有更多的追随者时,有害回复的概率不会降低我们发现,影响力差距的效果是最明显的两个用户之间没有任何遵循关系(O O),当回复遵循海报,但不是反之亦然(O O)。嵌入性。我们将二元体的嵌入度定义为发布者和回复者之间的共同朋友的数量。较高的嵌入性表明两个用户有相似的兴趣和重叠的社会背景。 这可能会影响回复者的行为:他们潜在的有毒行为更有可能被发帖者和回复者都意识到的其他人观察到,并可能增加有毒行为的社会成本[17]。我们发现,无论父帖子是否有毒,随着嵌入性的增加,有毒回复的概率显著降低(图3,右)。对于一个有毒的帖子,如果发帖者和回复者有100对100,那么新闻中有毒回复的概率会降低11%(从0.315下降到0.206),中期数据集中有毒回复的概率会降低9%(从0.29下降到0.2)1共同的朋友类似地,对于无毒帖子,有毒回复的概率从新闻中的0.191到0.134,中期数据集中的0.178到0.123,当二元用户有100对1共同的朋友与影响差距一样,嵌入效应在两个用户没有任何追随关系(O O)的二元组中最为明显,并且,给定一个无毒的帖子,在只有回复者追随帖子的二元组中也是如此(O←O)。4.3回复树结构当用户发布推文时,其他用户可能会发布回复推文,这反过来又会导致后续的回复。结果是一个以原始tweet为根的回复树(图1B)。在这里,我们调查回复树的结构特征和对话的整体毒性之间的关系。我们将回复树的毒性定义为有毒推文的比例给出的结果也与使用毒性评分的平均值或中位数的略有不同的定义一致尺寸首先,我们考虑回复树的大小,即,对话中的推文数量我们发现大小和毒性之间存在明显的正较大的树木往往毒性更大,●●●● ● ● ●● ● ●●●●●●● ●●●●●●●●● ●● ●●●●●●●●●●●●●●●后=毒性后=无毒●●●●●●●● ●●●●●●●●●●●●●●●●●●● ●● ●●●●●●● 后=毒性●后=无毒●●●●●●后=毒性●后=无毒新闻p(回复=有毒|员额)中期选举WWWMartin Saveski,Brandon Roy和Deb Roy1091()下一页.()下一页.()下一页0.30.20.20.10.10.010 010 110 210 310 010 0.510 110 1.5100 101 1021030.010010 0.410 0.810 1.210 0100.4100.810 1.210 0100.4100.810 1.2尺寸(log)深度(log)宽度(log)图4:回复树的大小(tweets的数量)、深度和宽度与对话中的毒性级别之间的关系误差带为95% CI。新闻和期中考试数据集(图4,左)。如果我们将大小定义为对话中的用户数量,我们会发现类似的结果深度和宽度。接下来,我们考虑回复树的深度和宽度。我们将树的深度定义为最深节点的深度,树的宽度定义为树中任何深度处的最大节点数。我们发现,在这两个数据集中,回复树更宽、更深的对话往往更具毒性(图4,中间和右边)。我们注意到,这两个指标都与树的大小正相关(新闻:r深度= 0.53,r宽度= 0.97;中期:r深度= 0.48,r宽度=0.97),可能是大小的代理。在第5.1节中,我们将评估它们在预测任务中的有用性维纳指数 我们调查的维纳指数,一个度量,帮助我们描述的内部结构和复杂的回复树。回复树T的维纳指数w T被定义为所有节点对之间的平均距离Wiener指数(log)图5:回复树Wiener指数与有毒推文的平均分数之间的关系,总体(左)以及新闻(中)和中期(右)数据集中的树大小发现毒性随着维纳指数的增加而降低(图5,中间)。在中期数据集中,对于所有大小的树,随着维纳指数的增加,对话中有毒推文的比例都会减少,尽管对于较大的树,负相关性更强(图5,右)。 回归分析证实了毒性和维纳指数之间的负相关关系时,控制的鸣叫的数量。4.4遵循图形结构接下来,我们研究了对话参与者之间的跟随图(图1D)结构与对话的整体毒性之间的关系和前面一样,我们将对话的总体毒性定义为有毒推文的比例我们注意到,对话参与者只有关注图的本地视图;他们可能会认出他们的朋友或关注者,1Nw(T)=n(n−1)nD1J,但不太可能知道其他参与者是如何连接的。图形大小和密度。我们首先调查i=1j= 1其中dij表示节点i和j之间的最短路径的长度。 维纳指数最初是在数学化学中提出的,用于表征分子的结构[50]。最近,它已被用于表征信息扩散级联的结构,特别是量化信息是以广播还是病毒式传播[23]。Wiener指数介于两个极端之间:回复树,其中参与者仅对原始推文做出响应,并且彼此不参与(低w T),以及回复树,其中参与者具有许多来回交换的单个分支(高w T)。在新闻数据集中,我们发现具有较大维纳指数的回复树往往更具毒性;而在中期数据集中,具有不同维纳指数的回复树的平均毒性基本相同,除了具有较低维纳指数的树的小波动(图5,左)。当我们绘制不同大小的回复树的维纳指数和毒性之间的关系时,一个更复杂的画面出现了在图5(中间和右边)中,我们根据它们的大小将所有的reply树分成五个按顺序大小的组。 我们选择了最大数量的组,这将为我们留下足够的数据点来比较维纳指数和毒性之间的关系。在新闻数据集中,我们发现,对于较小的回复树,对话的毒性不会随着维纳指数的变化而变化;然而,对于较大的回复树,我们图中所示与总体毒性有关毫不奇怪,根据我们的回复树分析,较大的关注图往往更具毒性。然而,我们发现参与者的联系密度也很重要(图6,左)。在下图中,参与者联系更紧密的对话在两个数据集中的毒性往往更小。较大的跟随图密度表明对话参与者彼此更熟悉,这增加了有毒行为的社会成本。虽然很明显,对话参与者之间较高的连接密度与整体毒性呈负相关,但尚不清楚这些连接在下图中的分布方式是否会影响毒性。跟随图可以具有高密度,因为在用户之间存在紧密结合的组或许多均匀分布的连接。接下来,我们分析以下图的连通分量和模块度来回答这个问题。连接的组件数 我们首先来看看下图中连接组件的数量与整体毒性之间的关系。一个图的连通分支是一个子图,其中在子图中的任何一对节点之间存在一条路径,而在图的其余部分中没有到节点的路径。 我们计算以下图的弱连通分量,即,我们忽略边缘的方向连接组件的数量最近已被用于量化个人自我图的结构多样性●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●新闻●中期选举●●●●●●●●●●●●● ●●●●●●新闻●中期选举●●●●●●●●●●Num.推文●[1、5]●(第5、30页)●(30,166]●(166,913]●(913、5020]●●●●●●●●●●●●●●● ●●Num.推文●[1、5]●(第5、34页)●(34,203]●(203,1200]●(1200,7067]●● ●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●中期选举新闻●有毒推文有毒推文Twitter上有毒对话的结构WWW10920.30.20.10.010−3 10−2 10−1 100 100 101 102 103 0.0 0.2 0.40.6除了让我们评估哪些指标是未来毒性的良好指标外,这项任务还有几个实际应用。首先,对未来毒性的准确预测可以用来决定应该给予对话多少可见性例如,如果我们怀疑一个对话会变得非常有害,我们可能会决定降低用户提要中的根tweet的这些预测也可以与参与预测相结合,以显示相关但无毒的对话。第二,可以通过出轨的预警,促使谈话的发起者适度密度(对数)Num. (log)模块化避免讨论变得有害这是特别图6:连接组件的密度、数量、会话跟踪图的模块性和有毒推文的平均分数之间的关系解释自我所做的产品采用决定[47]。 在会话跟随图的上下文中,较大数量的连接分量表明存在彼此认识但不认识任何其他会话参与者的许多参与者组。我们发现,在新闻和期中考试数据集中,连接组件的数量与对话的整体毒性呈正相关(图6,中)。模块化。 给定一个图的划分,模块性度量在划分中是否有比我们随机期望的更多或更少的边[39]。如果分区内的边比我们偶然期望的多,则取正值,如果少,则取负值我们首先使用Louvain算法[7]划分会话跟随图,然后计算最佳划分的模块度使用Louvain划分图是一种比计算连接组件更灵活的用户分组方式,允许不同组的用户之间存在一些边。我们发现,在参与者中,下图具有更高模块性的对话往往更具毒性(图6,右)。 这种模式在两个数据集中都存在,但在中期数据集中更为明显。 我们注意到,由于许多跟随图的稀疏性,很大一部分对话的模块化值为零,新闻中为69.1% ,中期数据集中为76.35%。5预测毒性到目前为止,我们已经证明,在对话结束后,毒性和对话的各种结构测量之间存在很强的相关性接下来,我们考虑两个预测任务,这将使我们能够测量这些结构特性在预测毒性中的效用。在第一个任务中,我们专注于预测整个对话是否会变得更有毒或更少 在第二个任务中,我们专注于预测个人用户的行为,以及他们的下一个回复是否会有毒。5.1对话毒性预测我们从第一个任务开始考虑到对话的初始阶段,例如, 前十个回复,我们有兴趣预测谈话的其余部分是否会比预期的更有害或更少。为了进行预测,我们将计算各种度量,这些度量表征了tweets和会话前缀中的用户之间的关系。对于经常发布消息的帐户(如新闻媒体)很有用,但没有能力监控对话。Twitter最近发布了新功能,允许用户通过隐藏一些回复来主动调节推文提示的对话。控制前缀毒性。对于我们感兴趣的预测问题,制定任务的一种常见方法是预测会话后缀中的毒性水平是高于还是低于所有会话的毒性中位数例如,这种设置已被用于预测会话线程是否会增长[4]或信息级联是否会增长[14]。然而,我们的情况略有不同,因为后缀中的毒性被前缀中的毒性混淆。即使我们固定了前缀的大小,不同的对话可能会在前缀中包含不同数量的有毒推文比较前缀中的毒性之间的关系(即,在前K个推文中)和在后缀中其余的对话),我们发现前缀中含有更多毒性的对话往往具有更高的毒性分数后缀中的tweets为了解决这个问题,对于每个前缀大小,我们首先根据前缀中有毒推文的数量对对话进行分类,然后根据后缀中有毒推文的比例是否高于或低于桶中所有对话的中位数来分配标签。例如,给定对话的前十个回复,其中四个是有毒的,我们的目标是预测对话后缀中的毒性是否会高于训练集中所有对话的毒性中位数,前十个tweet中有四个有毒tweet。为了确保每个桶中有足够的正面和负面例子,我们只考虑至少有200个对话的桶。 我们还排除了小于前缀大小两倍的对话,以确保我们对后缀中有毒推文的比例有一个合理的估计。这个过程会产生一个平衡的数据集,其中标签和前缀中有毒推文的数量之间没有相关性用于学习的方法我们测试了各种线性和非线性机器学习方法,包括Logistic回归、线性SVM、随机森林和梯度提升回归树(GBRT)。我们发现,非线性模型表现得更好(准确度提高2%至5%),其中,GBRT表现最好。为了简化结果的说明,我们只报告了GBRT模型的性能为了评估模型的性能,我们使用了嵌套交叉验证:在内部循环中,我们执行5倍交叉验证以选择最佳超参数并使用最佳设置重新拟合模型,而在外部循环中,我们执行10倍交叉验证以测量调整后的模型在看不见的数据上的性能。该过程导致超参数调整后模型预期精度的无偏估计[10]。我们只调了●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●新闻●中期选举有毒推文WWWMartin Saveski,Brandon Roy和Deb Roy1093−}联系我们表1:在未来的转化毒性预测任务中使用的特征功能集功能内容毒性前缀tweets毒性评分的平均值/标准值/最小值/最大值/四分位数。树深度·宽度·维纳指数·深度i处的节点数·每个深度处的节点数的平均值/var/h-idx/gini/熵• 深度/大小比·所有节点和叶节点的深度的平均值/var/h-idx/gini/熵·每个节点的子节点的数量的平均值/var/h-idx·直接回复总数和回复的分数·gini/深度1处的子树的熵·最大子树的深度/大小比·政治联盟中的重复性·每个用户的推文数量的平均值/var/h-idx/gini/熵关注/回复图节点数·num.边缘数·密度·平均值/方差/分数正/h-idx/gini节点入/出/总度·度和入/出度的重复性·没有/单向/双向边缘的节点对的数量/分数·连接节点对的分数·介数/接近度/特征值/pagerank中心化·最大CC的代数连接性·局部/全局聚类系数·最佳
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功