Twitter对话结构揭示毒性：个体、互动与群体层面的关联

PDF格式 | 941KB | 更新于2025-01-16 | 45 浏览量 | 举报

在"Twitter对话结构与毒性关系研究"中，作者马丁·萨韦斯基、布兰登·罗伊和黛布·罗伊深入探讨了社交媒体平台Twitter上的对话特征与其潜在毒性之间的关联。这项研究基于大规模数据集，包括118万个对话（涉及5850万条推文和440万用户），这些对话围绕一年内的主要新闻事件和2018年美国中期选举候选人展开。在个人层面的研究发现，毒性言论往往分散在众多用户中，表现为低至中度的毒性行为。而在二元层次上，有毒回复的趋势更明显，这类回复通常来自那些与发帖者无社会联系或者与发帖者有很多共同好友的用户。这种结构揭示了毒性可能在缺乏连贯性和社交支持的互动中更容易滋生。在群组级别的分析中，有毒对话展现出更广泛的参与度，体现在更大的回复树和较深的信息流，但后续的回应往往较为稀疏。研究者设计了两个预测任务来验证对话结构对毒性的影响：一是预测对话在前十个回复中是否会变为有毒，二是预测特定用户发布的下一个回复是否具有毒性。结果显示，对话的结构特征与语言特性在预测有毒行为时互为补充，这为设计更加健康的社交媒体平台提供了洞察。通过在WWW'21网络会议上发表的论文，该研究强调了对话结构在识别和预防社交媒体毒性方面的潜力，暗示着利用这些结构特征的模型可以早期预警并引导对话走向更少有毒性的方向。这一研究为社交媒体平台的监管策略和用户互动设计提供了实证依据，提醒我们在享受社交互动的同时，也要关注和管理其中的负面行为。

Twitter

上有毒对话的结构

WWW

1088

候选人在竞选期间使用的个人帐户和他们在就职后创建的官方帐

户我们获得了候选人的个人

Twitter

帐户从

Wikipedia，和官方帐

户从国会

议员

Github

存储库。在

3,339

名候选人中，有

1,430

人拥

有

Twitter

账户。

综合来看，这两个数据集包含了长时间内的大

量对话

。此外，收集到的

对话在几个重要方面各不相同。它们捕捉

了由政治上多样化的账户引发的讨论，包括左倾和右倾的新闻媒

体以及中期候选人。一些对话是由具有高度影响力的账户发起

的，如新闻媒体和拥有大量粉丝的候选人，其他对话则是由普通

用户

提到新闻媒体或候选人的。

候选人在推特上

数据收集管道。收集与同一对话相关的推文的关键技术挑战

是

Twitter

API只提供从回复到原始推文的链接，而

不是

相反

。因

此，给定根

，不能简单地

查询所有后续回复。为了克服这

个问题，我们依赖于这样一个

事实，即每次用户回复一条推文

时，他们都会隐含地

所有在回复链中发布或提到的用户

。我们

使用

Twitter PowerTrack API

来收集研究期间所选帐户的所有帖

子和提及为了将回复串在一起并构建完整的回复树（图

），我

们扫描完整的数据集并使用

reply-to

字段递归地将帖子链接到回

复。我们只保留以

所选帐户发布或@提及的推文为根的回复树，并

排除没有回复或只有一个用户回复的推文。

为了收集参与这些对话的用户的社交图，我们设置了一个日常

工作，扫描过去

小时内收集的所有

，编制至少发布一条

的所有用户的列表，并使用

Twitter REST API

下载每个用

户因此，我们可以使用用户的关注图快照对应于他们的我们不收

集

受保护帐户的数据。

毒性注释

为了给

tweets

贴上毒性标签，我们使用了

Google

我们选择这个

API

是因为它的模型是在维基百科的评论上训练的，维基百科的评论

就像

推文一样简短而非正式。最初的

Perspective API

模型是在

万条

注释上训练的，每条注释被注释了

次，据报道，它的准确性相当

于三个注释器的综合性能

。从那时起，该模型在更大的数据集上

进行了重新训练，并进行了修改，以解决其他研究人员报告的一些

弱点

（例如，

[45]

）。其他几项研究

使用了

Perspective API

，并证

明其预测

是准确的[28，42]。

由于我们的分析的其余部分依赖于Perspective API 为此

，

我们部署了

Amazon Mechanical Turk

注释任务，以在随机选择

的推文上获取人类毒性标签。除了

评估注释的质量之外，我们还依

赖于人工

注释来调整Perspective API得分阈值，

该阈值用于将

分类为有毒和有毒。无毒的（

API

我们注意到，在我们收集数据后，

Twitter

引入了一个新的

API

端点，

可以轻松检

索会话线程

估计读者会认为评论是有毒的概率，而不是二元毒性标签。

Mechanical Turk

的注释任务由五条随机选择的

推文组成。我们

在每条

旁边显示了一个输入标签，供注释者在

“

有毒

”

和

“

无

毒

”

之间进行选择为了避免由于排序效应引起的任何注释偏差，

我们将任务之间

的标签顺序随机化（即，一批五条推文），但在

一个任务中

保持顺序一致。为了帮助澄清什么是有毒的

，我

们为注释者提供了简单的说明。我们使用了与

Perspective API

相

同的毒性定义：

“可能会让您离开讨论的粗鲁，不尊重或不合

理的评论”[ 51 ]。为了确保标签的质量，我们

只从美国招募了

在以前的

Mechanical Turk

任务中表现出色的注释员。我们每项

任务补偿他们

美分

（即，五条推文）。在注释者开始任务之

前，我们警告他们可能会看到冒犯性的内容。

该方案得到了麻

省理工学院机构审查委员会的批准

我们从新闻数据集的前五个

月随机抽取了3,000条推文进行注释

。我们确保样本

代表毒性评

分的总体分布，如

Perspective API

所预测的（

K-S

检验，

0.01

，

= 0.89

）。每个

都由三个不同的工作人员独立标记，

这样

我们就可以测量注释者之间的一致性，并使用投票

方案来

获得单个

“

地面真相

”

标签。为了评估注释者之间的一致性，我们使

用

Krippendorff

以获得单个

对于每条推文的标签，我们使用了多数票。

我们调整了Perspective API毒性分数阈值，超过该

阈值我

们认为推文是有毒的，并测量了预测的质量。我们使用了

600

条带

注释的推文

（

20%

）作为开发集，我们选择了阈值，其余的

推文作

为测试集。我们选择了一个阈值（

T = 0.531

），它在开发集的精

确度和召回率之间取得了平衡在测试集上，该阈值产生的分类准

确度为

0.82

，

AUC

为

0.86

，

得分为

0.63

。当我们只考虑注释者

达成共识的测试集子集时，预测性能的所有指标都显着增加，准

确度：

0.91

，

AUC

：

0.95

，

：

0.73

。我们注意到，更保守的

毒

性阈值（T = 0.6或T = 0.7）在所有后续分析中导致相同的模式。

4 分析

在本节中，我们将在多个尺度上研究转换

结构与毒性行为之间的

关系。首先，我们研究了个人用户第二，我们调查的二元关系，

考虑对用户的推文和回复。最后，我们看看整体的转换结构，包

括回复树和跟随图结构。为了提高文本的可读性，我们以图形方式

传达了点估计的不确定性，并

在随后的图中显示了95%的置信区

间。

4.1

个人层面

我们首先分析

两个数据集中每个用户在图2（左）中，我们

根

据

和

toxic

的数量

将用户放入

剩余11页未读，继续阅读

cpongm

粉丝: 6

Twitter对话结构揭示毒性：个体、互动与群体层面的关联

Twitter系统结构分析

Treeverse：浏览器扩展，用于导航Swift发展的Twitter对话

论文研究 - 体重偏重：Twitter作为在广泛受众之间开展对话的工具

TwEater：从Twitter抓取对话的Python Bot

Twitter好友关系数据

论文研究 - 作为众包的标签：Twitter上阿拉伯标签的案例研究

Twitter专题研究报告

twitter

Twitter的Follow关系和Retweet关系对比 (2014年)

Twitter的Follow与Retweet关系对比分析

最新资源