候选人在竞选期间使用的个人帐户和他们在就职后创建的官方帐
户我们获得了候选人的个人
Twitter
帐户从
Wikipedia,和官方帐
户从国会
议员
Github
存储库。在
3,339
名候选人中,有
1,430
人拥
有
Twitter
账户。
综合来看,这两个数据集包含了长时间内的大
量对话
。此外,收集到的
对话在几个重要方面各不相同。 它们捕捉
了由政治上多样化的账户引发的讨论,包括左倾和右倾的新闻媒
体以及中期候选人。一些对话是由具有高度影响力的账户发起
的,如新闻媒体和拥有大量粉丝的候选人,其他对话则是由普通
用户
@
提到新闻媒体或候选人的。
候选人在推特上
数据收集管道。收集与同一对话相关的推文的关键技术挑战
是
Twitter
API只提供从回复到原始推文的链接,而
不是
相反
。因
此,给定根
tweet
,不能简单地
查询所有后续回复。 为了克服这
个问题,我们依赖于这样一个
事实,即每次用户回复一条推文
时,他们都会隐含地
@
所有在回复链中发布或提到的用户
。我们
使用
Twitter PowerTrack API
来收集研究期间所选帐户的所有帖
子和提及为了将回复串在一起并构建完整的回复树(图
1B
),我
们扫描完整的数据集并使用
reply-to
字段递归地将帖子链接到回
复。 我们只保留以
所选帐户发布或@提及的推文为根的回复树,并
排除没有回复或只有一个用户回复的推文。
为了收集参与这些对话的用户的社交图,我们设置了一个日常
工作,扫描过去
24
小时内收集的所有
tweet
,编制至少发布一条
tweet
的所有用户的列表,并使用
Twitter REST API
下载每个用
户因此,我们可以使用用户的关注图快照对应于他们的我们不收
集
受保护帐户的数据。
3
毒性注释
为了给
tweets
贴上毒性标签,我们使用了
Google
我们选择这个
API
是因为它的模型是在维基百科的评论上训练的,维基百科的评论
就像
推文一样简短而非正式。最初的
Perspective API
模型是在
10
万条
注释上训练的,每条注释被注释了
10
次,据报道,它的准确性相当
于三个注释器的综合性能
。从那时起,该模型在更大的数据集上
进行了重新训练,并进行了修改,以解决其他研究人员报告的一些
弱点
(例如,
[45]
)。其他几项研究
使用了
Perspective API
,并证
明其预测
是准确的[28,42]。
由于我们的分析的其余部分依赖于Perspective API 为此
,
我们部署了
Amazon Mechanical Turk
注释任务,以在随机选择
的推文上获取人类毒性标签。除了
评估注释的质量之外,我们还依
赖于人工
注释来调整Perspective API得分阈值,
该阈值用于将
tweet
分类为有毒和有毒。无毒的(
API
返回
2
我们注意到,在我们收集数据后,
Twitter
引入了一个新的
API
端点,
可以轻松检
索会话线程
估计读者会认为评论是有毒的概率,而不是二元毒性标签。
Mechanical Turk
的注释任务由五条随机选择的
推文组成。我们
在每条
tweet
旁边显示了一个输入标签,供注释者在
“
有毒
”
和
“
无
毒
”
之间进行选择 为了避免由于排序效应引起的任何注释偏差,
我们将任务之间
的标签顺序随机化(即,一批五条推文),但在
一个任务中
保持顺序一致。为了帮助澄清什么是有毒的
tweet
,我
们为注释者提供了简单的说明。我们使用了与
Perspective API
相
同的毒性定义:
“可能会让您离开讨论的粗鲁,不尊重或不合
理的评论”[ 51 ]。 为了确保标签的质量,我们
只从美国招募了
在以前的
Mechanical Turk
任务中表现出色的注释员。 我们每项
任务补偿他们
20
美分
(即,五条推文)。在注释者开始任务之
前,我们警告他们可能会看到冒犯性的内容。
该方案得到了麻
省理工学院机构审查委员会的批准
我们从新闻数据集的前五个
月随机抽取了3,000条推文进行注释
。 我们确保样本
代表毒性评
分的总体分布,如
Perspective API
所预测的(
K-S
检验,
D
=
0.01
,
p
= 0.89
)。每个
tweet
都由三个不同的工作人员独立标记,
这样
我们就可以测量注释者之间的一致性,并使用投票
方案来
获得单个
“
地面真相
”
标签。为了评估注释者之间的一致性,我们使
用
Krippendorff
以获得单个
对于每条推文的标签,我们使用了多数票。
我们调整了Perspective API毒性分数阈值,超过该
阈值我
们认为推文是有毒的,并测量了预测的质量。 我们使用了
600
条带
注释的推文
(
20%
)作为开发集,我们选择了阈值,其余的
推文作
为测试集。我们选择了一个阈值(
T = 0.531
),它在开发集的精
确度和召回率之间取得了平衡在测试集上,该阈值产生的分类准
确度为
0.82
,
AUC
为
0.86
,
F1
得分为
0.63
。当我们只考虑注释者
达成共识的测试集子集时,预测性能的所有指标都显着增加,准
确度:
0.91
,
AUC
:
0.95
,
F1
:
0.73
。 我们注意到,更保守的
毒
性阈值(T = 0.6或T = 0.7)在所有后续分析中导致相同的模式。
4 分析
在本节中,我们将在多个尺度上研究转换
结构与毒性行为之间的
关系。首先,我们研究了个人用户第二,我们调查的二元关系,
考虑对用户的推文和回复。最后,我们看看整体的转换结构,包
括回复树和跟随图结构。为了提高文本的可读性,我们以图形方式
传达了点估计的不确定性,并
在随后的图中显示了95%的置信区
间。
4.1
个人层面
我们首先分析
两个数据集中每个用户在图2(左)中,我们
根
据
tweet
和
toxic
的数量
将用户放入