社交媒体仇恨言论数据集的影响及实验：跨国实证与社区受众参与

6 浏览量更新于2023-12-01 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文倾听受影响的社区定义极端言论：数据集和实验Antonis Maronikolakis 1分 Axel Wisiorek1，2 Leah Nann3 Haris Jabbar1Sahana Udupa3 Hinrich Schütze11CIS，信息和语言处理2数字人文中心3慕尼黑大学社会与文化人类学研究所akis@cis.lmu.de摘要在目前关于多语言仇恨言论的工作的基础上（例如，Ouyhoum等人（2019））和仇恨言论减少（例如， Sapet al.（ 2020 ）），我们提出了 XTREMESPEECH，1一个新的仇恨言论数据集，包含来自巴西，德国，印度和肯尼亚的20，297个社交媒体段落。关键的新颖之处在于，我们直接让受影响的社区参与收集和注释数据，而不是让公司和政府控制定义和打击仇恨言论。这种包容性方法产生的数据集更能代表实际发生的在线言论，并且可能有助于删除被边缘化社区视为造成最大伤害的社会媒体内容。基于 XTREMESPEECH，我们建立了带有基线的新任务，证明了由于国家之间的文化差异，跨国培训通常是不可行的，并对BERT的预测进行了可解释性分析1介绍从基础工作（Waseem和Hovy，2016; Davidsonet al. ， 2017 ）到最近，更广泛的（ Sap etal. ，2020年）以及多语种（Ouhoum et al. ，2019年）接近。然而，仇恨言论所针对的人和那些创建数据集的人的人口统计数据往往是完全不同的。例如，在Founta et al. （2018），66%的注释者是男性，在Sap et al. 2020年，82%是白人。这可能导致不希望的偏置（例如，不成比例地将非洲裔美国人的英语标记为可恨的（萨普等人，，2019; Davidsonet al. ，2019 a））和收集不代表针对目标群体的评论的数据;例如，一个白人可能看不见，1代码和数据可从https://github.com/antmarakis/xtremespeech获得图1：仇恨言论数据收集概述。我们不是自己查询数据，而是与事实核查人员合作，倡导目标社区收集和标记他们有机接触到的数据。这种包容性方法使数据集更能代表社区接触到的在线言论有关XTREME SPEECH标签的定义，请参见§3.2。可以接触到针对特定种族群体的仇恨言论。我们数据集中的一个例子是肯尼亚社会媒体帖子. . 我们被告知，这种可怕的事情只能在Luo Nyanza找到卢奥人是肯尼亚的一个民族;尼安扎是肯尼亚的一个省。这篇文章具有煽动性，因为它暗示罗家应该对可怕的事情负责，暗示对他们的报复可能是合理的。只有一群深深扎根于肯尼亚的人才能收集这样的例子并理解它们的意义。XTREME SPEECH。在本文中，我们介绍了XTREME SPEECH，这是一个新的仇恨言论数据集，包含来自巴西，德国，印度和肯尼亚的20，297个社交媒体段落。关键的新颖之处在于，我们授权当地受影响的社区（而不是公司和政府）收集arXiv：2203.11764v1[cs.CL] 2022年3月+v：mala2277获取更多论文并对数据进行注释，从而避免了雇用外部团体来创建仇恨言论数据集的方法中固有的问题。更详细地说，我们建立了一个由来自四个不同国家的事实核查小组组成的注释者团队。这些注释者从最适合其各自社区的渠道收集并注释数据。他们还参与了XTREME SPEECH创建的所有阶段，从设计注释方案到标签。我们的包容性方法产生了一个更好地代表针对这些社区的内容的数据集，并最大限度地减少了对他们的偏见，因为事实检查员经过培训，能够客观地了解当地情况。图1给出了XTREME SPEECH的数据收集和注释的高级概述。XTREME SPEECH也是一种宝贵的资源，因为现有的仇恨言论资源并不能代表全球范围内的问题言论：它们主要覆盖西方民主国家。相比之下，我们的选择更加平衡，包括三个来自全球南方的国家和一个西方民主国家。我们在附录A中提供了数据声明（见Bender和Friedman（2018））。从人类学的角度。有人认为，NLP社区没有充分参与解决仇恨言论重要方面的其他领域的跨学科工作（Jo和Gebru，2020）。在这项工作中，我们采取了人类学的视角：我们提出的研究是人类学家和计算语言学家的合作。作为一门通过探索人们生活世界来研究社会和文化的学科，并致力于应用知识来解决人类问题，社会文化人类学可以为调查和理论化仇恨言论及其文化差异提供一个高层次的框架。我们也从人类学的角度来定义本文中的术语。潜在有害的网络言论通常被NLP研究人员和一般媒体称为仇恨言论。仇恨言论从其最初的、基于文化的含义演变成一个主要的法律和政治术语，根据使用者的不同，其定义也不同（ Bleich ， 2014;Saltman 和 Russell ，2014;Bakalis，2018）。因此我们2https://items.ssrc.org/disinformation-democracy-and-冲突预防/仇恨言论的强度分类和识别/使用人类学中的极端言语概念，并将其定义为推动公民语言边界的言语（ Udupa 和 Po-hjonen，2019; Udupa等人。，2021年）。在调查极端言论时，人类学家关注的是形成有害言论的文化差异和历史条件极端言论类别。我们区分极端的语音，需要删除（表示R）和语音的节制（表示M）是足够的。M类的极端言论包括贬损性言论-粗略地说，是对一个群体的不尊重和负面评论，这些评论不太可能直接转化为具体的我们进一步将R极端言论细分为排斥性极端言论（大致为：煽动歧视的言论）和危险性极端言论（大致为：煽动暴力的言论）;定义见第3.2节。当考虑去除极端言论时，这种区别很重要;例如，危险言论可能比排除性言论更需要立即和严厉的行动。XTREME SPEECH不包含中性文本，仅关注M和R极端言论。中性文本已经被证明更容易为人类和模型标记，同时识别和子分类非中性文本（即，极端语言）仍然是自然语言处理模型的致命弱点（大卫 - 森等人。， 2017;Ranasinghe and Zampieri，2020）.最后，我们还对极端言论的目标进行了注释;例如分类任务。我们定义了三个分类任务。(i)的拔除. 双向分类M与R。(ii) 上肢的根据极端程度的三种分类：贬损的、排斥的(iii) 目标目标群体分类。我们提出了一系列的基线，并表明模型性能是平庸的删除，穷人的极端和良好的目标。此外，我们表明，基于BERT的模型无法在跨国和跨语言环境中推广，证实了这项任务需要文化和世界知识的直觉。我们还使用 LIME（Ribeiro et al. ，2016年），以揭示潜在的模型偏差和缺陷。捐款. 总之，我们（i）建立一个社区优先的数据管理框架，+v：mala2277获取更多论文（ii）呈现XTREME SPEECH，这是来自巴西、德国、印度和肯尼亚的20，297个极端言语段落的数据集，捕获目标群体和多个极端水平，（iii）提出一系列任务和基线，作为与未来工作进行有意义比较的基础，（iv）显示除了目标群体分类外，模型和人类的性能在任务中均较低，（v）确认极端言语依赖于社会和文化知识的直觉，跨语言和跨国性能较低2相关工作仇恨言论检测的早期工作集中在数据收集，策展和注释框架上（ Waseem 和 Hovy ， 2016;Davidson 等人， 2017 ）。， 2017; Founta etal. ，2018）。最近的工作扩展了捕获标签的集合，以包括更多相关信息，例如目标和其他形式的滥用（Sap et al. ，2020; Hede et al. ，2021; Guest 等人， 2021; Grimminger andKlinger，2021; Ross et al. ，2017）以及基准测试（Röttger et al. ，2021; Mathew et al. ，2021年）。也对数据集进行了分析（Madukweetal. ，2020; Kim等人，2020; Wiegand et al. ，2019; Swamy et al. ，2019; Davidson et al. ，2019 a）。还开展了将研究扩大到多种语言的工作（ Ouhoum et al. ， 2019; Ranasinghe andZampieri，2020; Ross et al. ，2017; Nozza ，2021; Zoph等人，2016; Marivateet al. ，2020;Nekoto等人，2020）。XTREME SPEECH通过提供巴西语、德语、印地语和斯瓦希里语数据为这一目标做出了贡献还进行了研究以调查注释偏倚和注释者池（ Al Kuwatlyet al. ， 2020; Waseem ， 2016;Ross等人，2017; Shmueli et al. ，2021; Posch等人，2018年），以及偏见（特别是种族）在现有的数据集（大卫 - 森等人。， 2019 b;Laugier et al. ，2021年）。结果发现，数据可以反映和传播注释者的偏见。为了解决这个问题，我们在工作中使注释者池多样化在另一项工作中，正在以分类法的形式建立理论基础（ Banko et al. ， 2020 ）、定义（ Wiegand et al. ， 2021; Waseem et al. ，2017）和理论（Price et al. ，2020; Laaksonenet al. ，2020）。我们正在增加基于实地调查和基础研究的定义，受到人类学和民族志工作的启发，这些工作调查了网络仇恨和极端言论的社会影响（Boromisza，Habashi ， 2013;Donovan 和 danah boyd ，2021;Haynes ， 2019;Udupa 和 Pohjonen ，2019;Hervik，2019）。此外，人工智能的道德规范也取得了长足的进步。谁应该收集数据，谁负责模型部署决策？已经有人呼吁建立更具包容性的注释者和监督NLP项目的领域专家库，以及探索其他伦理困境（ Leins et al.（ 2020 ） ; Jo 和 Gebru（2020）; Mitchell et al. （2020）; Vidgen et al.（ 2019 ） ; Gebru （ 2019 ） ; Mohamed et al.（2020年），除其他外）。由于我们专注于社区嵌入式事实检查，我们的框架比以前的工作更具包容性。3数据集3.1数据集描述XTREME SPEECH由20，297代组成，每代靶向一个或多个组（例如，移民）。数据收集自巴西、德国、印度和肯尼亚。段落用巴西语、德语、印地语和斯瓦希里语以及英语书写。英语既可以单独使用，也可以与当地语言以代码转换的形式结合使用。我们用一种符号来捕捉这一点：包含英语的段落-表1显示了语文的分布情况此外，XTREME SPEECH不受平台限制，从多个在线平台收集文本，以及从2020年第三季度到2021年底的直接消息（匿名）更详细地说，巴西注释者从What-sApp组中收集数据，德国团队从 Facebook ， Instagram ， Telegram ，Twitter和YouTube收集数据，印度注释者从Facebook和Twitter收集数据，肯尼亚注释者从Facebook，Twitter和WhatsApp收集数据。虽然极端言论的形式可能来自一个地方，但传播到其他平台是迅速的（罗杰斯，2020）。专有的努力也采取了平台不可知的方法。3在内容物和目标水平上标记传代就其内容而言，它们被贴上了贬损、排斥或危险的标签。在目标层面上，我们区分了针对受保护群体和权力机构的文本我们考虑到以下受保护群体：少数民族、移民、宗教少数群体，3https://www.perspectiveapi.com/+v：mala2277获取更多论文性少数群体、妇女、种族化群体、历史上受压迫的种姓群体、土著群体和大型族裔群体。我们还为注释器提供了输入任何其他组的选项。对于权力机构来说，可能的目标是政客、传统媒体和国家。为了允许政治言论，反对权力机构的极端言论不应被过滤掉，因此这种言论被标记为贬义。3.2极端语音定义在Benesch（2018）和Udupa（2021）的基础上，我们将极端语音标签定义如下：4贬损性极端言论：在特定语境中跨越文明界限并基于受保护的特征（例如，种族和宗教信仰）或权力机构（国家、媒体、政治家）。包括对抽象类别/概念的贬损表达排斥性极端言论：呼吁或暗示基于受保护属性（例如种族、宗教和性别）排斥弱势群体排斥性文本使目标群体边缘化、丧失合法性和受到歧视针对抽象概念或机构的文本不具有排他性，除非有理由相信此类攻击要求或暗示排除与这些抽象概念或机构相关的弱势群体危险极端言论：有合理机会对目标群体造成伤害的文本（例如，放逐和驱逐出境）。一段被归类为危险的段落应符合以下所有标准：（i）内容要求伤害，（ii）演讲者对听众有很高的影响力，（iii）听众有演讲者可以培养的不满和恐惧，（iv）目标群体在历史上处于不利地位，容易受到伤害，(v)有影响力的手段来传播言论。贬损性极端言论是一种需要节制但一般不需要删除的言论形式（用M表示），而排斥性和危险性言论是在大多数情况下确实需要删除的言论形式（用R我们对排他性言论和危险言论进行了区分，以便引入更细粒度的程度，从而可以制定更有针对性的政策（例如，更严厉的惩罚可能是适当的，4定义作为注释说明共享。危险言论）。在大量的工作中已经表明，虽然中性文本更容易检测（Davidson et al. ，2017年 ;Ranasinghe 和 Zampieri ， 2020 年 ;Risch 和Krestel，2020年），模型发现很难区分不同类型的极端言论（例如，我们对M或R的定义之间，或者仅仅是攻击性言论与仇恨言论之间），这是一项即使对人类也具有挑战性的任务。通过关注非中性文本中的困难区分，我们希望能够为未来能够正确分类潜在有害语音类型的研究做出贡献，这既是极端语音研究的关键点，也是有效过滤的主要障碍。与注释者详细讨论了三种标签（减损、排除、危险）的示例性情况。我们相信，我们的跨学科方法将使数据与现实世界更加一致，并将使目标群体和社区受益更大。3.3数据收集3.3.1注释器配置文件我们选择了巴西、德国、印度和肯尼亚，以涵盖一系列文化和社区。每个注释者都是事实检查者，i）是本地的，ii）是独立的（即，不受雇于社交媒体公司或大型媒体公司）和iii）调查新闻文章的真实性，包括针对当地社区或与当地社区相关的文章。有8名女性和5名男性注释员（按国家计算，巴西的女性/男性人数为2/1 ，德国为 4/0 ，印度为 2/2 ，肯尼亚为0/2）。我们的人类学团队对事实核查公司进行了调查，并对个人事实核查员进行了访谈，以验证他们对极端言论的熟悉程度、他们在当地社区事务方面的专业知识以及他们在我们的项目中担任注释者的能力。我们认为独立的事实核查者是一个关键的利益相关者社区，它为网络极端言论的文化差异提供了一个可行的和有意义的门户。作为事实核查员，他们经常接触极端言论、兜售极端言论的社区以及极端言论的目标社区（附录C中有更多细节）。3.3.2注释计划通过一个在线界面，输入在线媒体中的数据。该界面（以网页的形式，见附录C.4）既作为数据输入点又作为注释表单。后+v：mala2277获取更多论文如果发现一段极端言论，注释者会将其输入我们的表格，并被提示给它贴上标签（参见第3.1节中的类别）。3.4注释者间协议为了验证XTREME SPEECH的质量，我们计算了注释者之间的一致性。将从一个注释者处收集的数据显示给另一个注释者进行验证（详见附录C.2）。只有文本通道显示给注释者，而没有预先的类别分配。我们测量的一致性得分是：Cohen对于三个极端的语音标签， κ=0 。 23 ，α=0。24且ICC（3，k）= 0。41（被认为总体准确率为 63% ，贬损性为 78%，排除性为40%，危险性为19%。对于M与R任务的正确率分别为78.4%和46.3%。对于极端语音的目标的分类，κ= 0。69岁与其他NLP任务相比，分数很低巴西德国印度肯尼亚当地510949222778405英语0610562695两07111742081表1：每个国家和语言组合的XTREMESPEECH关于目前掌权的群体，特别是基库尤族和卡伦津族的协议（更多信息见附录D）。一位注释者认为他们是少数民族，因为大多数其他民族都反对他们。另一位注释者不认为他们是少数民族，因为他们是（i）人口最多的两个族裔群体，（ii）在权力职位的代表性方面不是少数民族。达成了一项共识，即增加一个新的目标标签按照惯例，我们没有将重新注释限制在注释者不同意的段落上，而是提供了所有可能受影响的段落进行重新注释，即，所有不幸的是，这是仇恨言论研究中的一个普遍现象。在Founta et al.（2018）中，只有55.9%的段落至少有5分之4的注释者同意。在Sap等人（2020）中，α评分为0.45，“攻击性”一致率为76%，“目标群体”一致率在Davidson et al.（2017），有90%的人同意文本是中性的，冒犯性的，还是仇恨的。在Ross等人（2017）的德国数据集中，α介于0.18和0.29，而在Ouhoum et al. （2019），多语言数据集，α在0.15和0.24之间。我们认为，在我们的工作中，我们不仅要处理一个严重不平衡的数据集，而且这项任务比之前的工作更具挑战性，后者收集了中性段落和仇恨言论（例如，Davidson等人（2017））。我们只收集极端语音，因此在之前的工作中，注释者需要区分中性和极端语音（相对容易的任务（Ranasinghe和Zampieri，2020;Risch和Kres-tel，2020）），我们的注释者只在确定不同程度的极端语音的困难任务上做出决定。上肢的3.5重新注释在与注释者讨论了标记不一致的段落后，我们发现存在差异-3.6数据集分析3.6.1极限语音分析XTREME SPEECH包含来自四个国家的20，297个段落。在每个国家，我们选择只收集一种当地语言和英语的数据语言分布情况见表1。在德国和巴西，英语很少使用，而在印度和肯尼亚，无论是英语本身还是在语码转换中，英语都更为重要。表2所示的标签分布在不同国家有很大差异。例如，在德国，注释者将更少的段落标记为危险言论，反映出与其他国家相比，对言论的监管控制更严格。巴西的数据也很不平衡，大多数段落都是贬义的。各国具体目标的分布情况（见表4）再次表明，各国之间存在很大差异在德国，移民是主要的目标群体，因为右翼反对最近的移民。在印度，由于印度教徒和穆斯林之间的冲突，因此，XTREME SPEECH在合理的程度上反映了一个国家+v：mala2277获取更多论文巴西德国印度肯尼亚总德。477426432225338913031Exc.1152340142210244901Dan.2201613617682365表2：XTREME SPEECH中极端语音标签的分布（Der=贬损，Exc =排除，Dan =危险）3.6.2词频表3显示了这四个国家的三个极端语音标签的最常见单词。我们看到，表明社会政治冲突的词语经常出现：巴西的 “comunista” 和 “feminista”;“merkel”（德国政治家）和“deutsche”（意思是：“德国人”），以及犹太人的单词，德国的“jude”;涉及宗教的单词（例如，在肯尼亚，政治实体（“Kikuyus”, “Kalenjins”, two power- ful groupsin Kenya) are among the most frequent words,withethnicgroupsappearingparticularlyprominently in the two forms of extreme speechthat should be removed4实验我们为大型预训练模型和传统机器学习模型建立了XTREMESPEECH基线（详见附录E）。年引入之§1，我们解决了三个新的任务：预测言语的极端（EXTREMITY），一段话是否应该被删除（ REMOVAL ）和极端言语的目标（TARGET）。除非另有说明，我们的措施是微平均F1。我们将每个国家 / 地区集 80 ： 10 ： 10 分为train：dev：test，对所有标签进行平等采样5在表5、6、7、8、9中，我们显示了开发集的结果（附录G中的测试集结果）。4.1极限任务表 5 显示，基线性能在三向分类（EXTREMITY）中相当低。在印度和肯尼亚，性能是可以接受的;在德国，如果我们排除危险的标签，它只有16个段落。然而，在巴西，主要类别是贬义言论（超过90%的段落被标记为贬义），性能很低，没有模型能够检测到排斥性言论。XLM-R表现相对较差，只有scor- ing在低资源肯尼亚集竞争力。langBERT对巴西和德国来说是有竞争力的这可以通过预训练和XTREME SPEECH 文本的分歧来解释：所有langBERT模型都在单一语言（巴西葡萄牙语，德语，印地语和斯瓦希里语）上进行预训练在巴西和德国的集合中，主要只使用一种语言，因此langBERT在这些集合中表现得更好，而在英语作为独立语言和代码转换更占优势的国家中，它表现得更差，这是印度和肯尼亚的情况4.2删除任务表6显示，二元任务M（适度）与R（删除）的结果总体上优于细粒度EXTREMITY任务。基于BERT的模型表现得特别好。mBERT在印度的表现特别好，单语言langBERT模型在巴西和德国的表现也很好LSTM表现良好，在某些情况下与变压器竞争。XLM-R似乎没有计算出良好的表示，除了低资源的肯尼亚数据集，所有语言的表现都很差我们评估了多语言（ mBERT ， XLM-R（ Conneau et al. ， 2020 ））和单语（langBERT）模型。每个单语模型都是根据我们在每个相应国家使用的当地语言进行预训练的;例如，印度模型预先接受了印地语训练。对于基于BERT的模型的微调和分类，添加了一个特定于任务的头部，该头部将[CLS]令牌表示作为输入。[5]德语子集只包含16个危险段落，因此危险言语的结果用处有限。4.3目标任务表7显示了变换器对于目标的8向多标签分类是有效的。在表3和表10中，我们分别根据数据集中的频率和对EXTREMITY任务中mBERT预测的贡献显示了热门词汇。表示种族（“kikuyu”）、宗教（“印度教”、“穆斯林”）和性别（“puta”、“女孩”）的词语+v：mala2277获取更多论文巴西德国印度肯尼亚德。妈的，瓦伊，filho，arrombada，pra，vc，comunista，cu，traveco，tomarMehr，德国，默克尔，schon，mal，ja，immer，deutsche，land，negerke，nahii，muslims，bhiimaTa，穆斯林，穆拉，印度教，印度，德沙，印度教徒鲁托，大家，拉伊拉，知道吗，鲁托，肯尼亚，从来没有，甚至，乌胡鲁，我们Exc.puta ， feminista ， pra ，bichona，ucranizar，nojenta ， ser ， marmita ，bandido，cu德国， mehr ， darf ， ja ，antwort ， land ，德国，juden，德国，malmuslims ， hindu ， desha ，bhimte ， india ， bhiima ，hindus ， bhaarata ， mulla ，countryKikuyus ， Ruto ， Kenya ，kikuyu ， Raila ， people ，never ， Uhuru ， Luos ，KalenjinsDan.fechar，stf，pra，povo，ucranizar，vai，q，ser，hora，bolsonarojude，europa，darf，juden，mus-lim，scheiss，freiheitskampf，völker，fällt，niemals穆斯林，穆斯林，印度教，hin- dus，印度，女孩，爱，desha，妇女，宗教鲁托，人，被杀，基库尤，拉伊拉，肯尼亚，知道，裂谷，必须，时间表3：XTREME SPEECH中每个标签和国家的最常见单词。印地语文本原本是梵文，后来被转换成拉丁字符（斜体），以符合arxiv巴西德国印度肯尼亚共计n%n%n%n%n%宗教少数群体160.5126923.8352264.71112.2491825.4任何其他106630.5340.63566.5153430.3299015.5移民280.8235544.11092.02925.8278414.3妇女147942.33676.94187.73967.8266013.8大族群00.000.000.0227344.8227311.8性少数群体67419.33476.5891.6801.611906.2历史上受压迫的种姓群体451.310.085315.7330.79324.8种族化的群体782.25279.830.1801.66883.6少数民族581.74308.1891.6771.56543.4土著群体501.460.150.11953.82561.3表4：XTREME SPEECH巴西德国印度肯尼亚德。Exc.Dan.德。Exc.Dan.德。Exc.Dan.德。Exc.Dan.人类97.221.20.073.061.60.091.116.94.968.910.757.2大多数100.00.00.0100.00.00.0100.00.00.0100.00.00.0SVM100.00.035.667.862.90.076.729.865.689.641.938.8LSTM98.40.80.059.468.60.056.364.80.064.963.40.0langBERT99.70.054.862.070.60.087.40.053.483.338.545.2mBERT98.90.049.356.372.40.060.945.581.383.548.448.8XLM-R100.00.00.058.776.40.089.16.756.188.346.940.0表5：EXTREMITY（三向极端语音分类任务）的BrazIL德国印度肯尼亚MRMRMRMR人类97.225.073.061.791.123.268.943.1大多数100.00.0100.00.00.0100.0100.00.0SVM100.026.467.862.467.377.484.955.5LSTM98.420.857.871.561.980.286.146.8langBERT99.241.562.073.466.059.686.758.4mBERT100.030.361.169.166.778.881.761.9XLM-R100.00.0100.00.00.0100.082.061.9表6：用于REMOVAL（双向极端语音分类任务）的F1 on dev巴西德国印度肯尼亚langBERT95.492.185.583.1mBERT94.190.392.885.6XLM-R94.188.293.084.8表7：目标组分类任务TARGET的开发上的LRAP（标签排名平均精度）巴西德国印度肯尼亚德。Exc.Dan.德。Exc.Dan.德。Exc.Dan.德。Exc.Dan.巴西98.90.049.3100.00.00.0100.00.00.0100.00.00.0德国94.10.00.056.372.40.080.030.80.082.929.00.0印度95.50.011.096.30.00.060.945.581.370.440.86.3肯尼亚94.93.09.679.610.40.083.714.429.083.548.448.8表8：F1在跨国迁移中的极端发展（所有语言）火+v：mala2277获取更多论文→→→INen克恩德。Exc.Dan.德。Exc.Dan.INen60.044.80.060.950.80.0克恩85.00.018.878.261.974.5表9：F1开发中的EXTREMITY用于英语跨国传输（IN/KE =印度/肯尼亚）4.4零杆越野分级4.4.1所有语言我们评估mBERT的零杆越野转移，即，在一个国家进行培训，在其他国家进行测试（结果见表8）。性能一般较差，表明mBERT不能从一个国家推广到另一个国家。该模型在巴西进行了训练，无法对其他国家进行从肯尼亚到印度，我们看到了一些可转移性潜力，该模型正确识别了所有三个类别中的通道（尽管以非竞争性的低速率）。这些结果证实了我们的直觉，即检测极端言论取决于社会和文化信息，因此在无法获得有关目标国家的特定信息的情况下，零镜头转移不是一种有希望的方法。4.4.2英语我们研究了英国模式BERT的跨国迁移我们只对两个有大量英语段落的国家进行实验，印度（IN）和肯尼亚（KE），将数据集限制在英语部分（分别用INen和KEen虽然这两个国家的越野性能都很低，但我们看到KEen KEen性能很高。我们注意到，在KEen KEen中的性能比在先前检查的KEall KEall（其中KEall是整个肯尼亚集合）中的性能更好。这表明，对于一个国家内的单一语言，BERT确实可以以足够的准确度对极端语音进行分类。4.5LIME预测分析为了阐明在EX- TREMITY任务中mBERT的预测（在§ 4.1中描述），我们用LIME提取了贡献最大的单词（Ribeiro et al. ，2016）。具体来说，我们计算每个段落中对mBERT预测贡献最大的单词该列表如表10所示。印度和德国的情况主要是重新-表10：有助于预测极端的mBERT的热门词。印地语文本原本是梵文，后来被转换成拉丁字符（斜体），以符合arxiv宗教团体（“穆斯林”，“穆斯林”）。在印度，种族术语（在巴西，我们看到了政治上的分歧术语（在肯尼亚，我们看到直接的侮辱，如5结论我们已经展示了XTREME SPEECH，一个极端的语音数据集，包含来自巴西，德国，印度和肯尼亚的20，297段。我们通过参与受影响社区内的注释者团队，捕获极端言论的粒度级别和目标。在人类学家和计算语言学家的共同努力下，我们建立了一个基于社区的框架，目标是管理更能代表现实世界危害的数据我们介绍了三个新的任务，包括极端的语音和目标群体分类的基线我们的直觉，极端的语音分类是依赖于文化知识，目前的NLP模型没有捕捉到这一点，实验支持最后，我们对BERT的预测进行了可解释性分析我们希望我们的社区驱动工作将有助于有效消除针对目标群体的极端言论，不仅在西方民主国家，而且在更多国家火巴西德国印度肯尼亚费查尔乌克拉尼扎尔·萨法达·普伦德·利索coisakkkkkVagabundoTraveco政治家格吕嫩穆罕默达纳JudenMerkelsMerkelRegierungOpferIslamMuslems穆斯林Muslim穆斯林穆斯林罗兴亚人奶牛鲁托洛wajingakikuyu愚蠢的白痴抢劫tangatangaujinga+v：mala2277获取更多论文国际吧6致谢这项研究已经收到了欧盟研究委员会概念验证基金的资助（协议编号：957442）。有关该项目的更多信息，请参见https://www.ai4dignity 。 gwi.uni-muenchen.de网站。第一和第四作者部分由欧洲研究理事会（#740516）支持。7伦理考虑和限制7.1道德声明这里提供的数据包含可能令人震惊和有害的极端言论。我们提出这个数据集作为一种方式来剥离极端言论的面纱对选定的代表性不足的社区在世界各地。我们希望推动对这一被忽视的领域进行整体分析，并对在线社交媒体中发现的各种极端言论（贬损，排斥和危险）进行调查。这些数据并不打算也不应该用于应用于现实任务的预训练模型，因为在这些数据上预训练的模型可能会表现出并传播我们收集的段落中发现的极端语音此外，虽然我们希望尽可能多地包括世界各地的社区，但我们收集的数据和我们所包括的社区列表当然不是详尽无遗的。对于每个国家，我们都有一个紧密的注释者圈子，因此这些国家的其他边缘化群体可能没有被覆盖（尽管我们努力将其保持在合理的最低限度）。7.2限制由于时间和预算的限制，我们只收集了没有负面言论的极端言论中性语言）。这些中立的段落形成了社交媒体上的大部分内容（Founta etal. ，2018; Sap et al. ，2020）。尽管有大量这样的段落，但使用我们目前的方案注释它们将是费时费力的（我们的注释者自己从他们自己的网络收集数据，而无需我们查询和向他们提供数据）。因此，为了保持注释者手中的控制权，同时将他们的工作量保持在合理的最小值，妈妈，我们决定只收集极端的演讲片段。引用Hala Al Kuwatly ， Maximilian Wich ， and GeorgGroh. 2020. 基于注释者的人口统计特征识别和测量注释者偏见在线滥用和伤害第四次研讨会的会议记录，第184-190页，在线。计算语言学协会。Chara Bakalis。2018. 重新思考网络仇恨法。信息通信技术法，27（1）：86-110。米歇尔·班科布兰登·麦基恩和劳里·雷2020. 有害内容的统一分类。在线滥用和伤害第四次研讨会的会议记录，第125-137页，在线。计算语言学协会。艾米丽·M本德尔和巴蒂亚·弗里德曼。2018. 自然语言处理的数据语句：减轻系统偏见，实现更好的科学。 Transactions of the Association forComputational Linguistics，6：587苏珊·贝尼斯。2018. 危险的演讲：实用指南。埃里克·布莱奇2014年。表达自由与种族仇恨言论：解释美国和欧洲高等法院法规。种族和移民研究杂志，40（2）：283大卫·博罗米萨·哈巴希2013. 仇恨地说话：匈牙利的文化，沟通和政治行动。宾夕法尼亚州立大学出版社.多梅尼克·西凯蒂1994.心理学中评价规范化和标准化评估工具的指南、标准和经验法则。心理学评估，6：284Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020. 大规模无监督跨语言表征学习。第58届计算语言学协会年会论文集，第8440- 8451页，在线。计算语言学协会。托马斯·戴维森，德芭丝米塔·巴塔查亚，英格玛·韦伯. 2019年a。仇恨言论和辱骂性语言检测数据集中的种族偏见。在第三次在线辱骂语言研讨会的会议记录中，第25-35页，意大利佛罗伦萨。计算语言学协会。托马斯·戴维森，德芭丝米塔·巴塔查亚，英格玛·韦伯.2019年b. 仇恨言论中的种族偏见，+v：mala2277获取更多论文滥用语言检测数据集。在第三次在线辱骂语言研讨会的会议记录中，第25-35页，意大利佛罗伦萨。计算语言学协会。托马斯·戴维森，达纳·沃姆斯利，迈克尔·梅西，英格玛·韦伯。2017. 自动仇恨言论检测和攻击性语言问题。国际AAAI网络和社交媒体会议。布鲁诺·赫里

下载后可阅读完整内容，剩余1页未读，立即下载