基于强化引导的低资源刻板印象检测

170 浏览量更新于2023-11-30 收藏 565KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文基于强化引导的低资源刻板印象检测Rajkumar Pujari1和Erik Oveson2和 Priyanka Kulkari2和Elnaz Nouri31PurdueUniversity普渡大学2微软，雷德蒙3微软研究院，雷德蒙rpujari@purdue.edu{erikov，priyak，elnouri}@microsoft.com摘要随着以非监督方式在大量数据上训练的大型预训练语言模型（PLM）变得越来越普遍，识别文本中的现有的 Blodgett 等人（2021a）表明，现有基准数据集存在显著的可靠性问题注释一个可靠的数据集需要精确理解文本中原型如何表现的细微差别。在本文中，我们为“立体类型检测”注释了一个集中的评估集此外，我们提出了一个多任务模型，该模型利用了大量数据丰富的邻近任务，如仇恨言论检测、攻击性语言检测、厌女症检测等，以提高“刻板印象检测”的实证绩效然后，我们提出了一个强化学习代理，它通过学习来指导多任务学习模型，以从相邻任务中识别对目标任务帮助最大的训练示例。我们表明，所提出的模型实现了显着的经验收益超过现有的基线上的所有任务。1介绍继Peters等人（2018）和Vaswani等人（2017）之后，几个经验有效的大型预训练语言模型（PLM）（Devlin等人）。，2019; Yang etal. ，2019; Liu et al. ，2019; Lewiset al. ，2020;Brown et al. ，2020）已经提出。他们在几个现有任务上的经验成功导致他们在日常与人类交互的许多 NLP 应用程序中无处不在（Olteanu et al. ，2020）。由于它们是在大量任意网络数据上以无监督的方式进行训练的，这项工作是在微软研究院，雷德蒙德而偏见也会影响到他们的输出这反过来又反映在基于它们构建的应用程序中，并通过使用这些应用程序在社会中进一步传播（Berk，2017）。这个问题促使我们需要一个双管齐下的解决方案：1）诊断和消除PLM中的偏差，2) 在输出层面从外部识别和规范有害文本。在第一个方面的进展是必要的，以消除PLM的偏见，并防止微妙的偏见，通过他们的分布式代表蠕变，往往只能在回顾中认识到。这导致了普通民众对这些系统的深深不信任第二个方面对于检测和潜在地阻止有害输出是至关重要的，并且还确保语言模型的未来迭代和新提议在这项工作中，我们专注于识别有害的文本与刻板印象协会外部。她可能是犹太人，也可能不是，但她确实很便宜.（insult，stereotype）下地狱吧，你这个亚洲杂种！（abuse，stereotype）学生3：亚洲人擅长数学.（刻板印象）学生4：我的非裔美国朋友有一块西瓜地。（刻板印象）有几种类型的有害语言，如仇恨言论，厌女症，刻板印象，虐待，威胁，侮辱等。每一种攻击性语言都有其特有的微妙的语言差异。通常，攻击性文本包含多种类型的攻击。从上面的例子中，考虑S1和S2。两者都包含多种犯罪模式。虽然S3纯粹是一种刻板印象，但它仍然不希望被永久化.Cardwell（1996）将刻板印象定义为刻板印象在两个关键方面不同于其他类型的冒犯性文本：（1）它们需要知道它们在社会中的存在，以及（2）它们也可能经常arXiv：2203.14349v1 [cs.CL] 2022年3月+v：mala2277获取更多论文表达对目标群体的积极情绪。尽管有些刻板印象表面上表达了对目标群体的积极情绪，但它们仍然是不受欢迎的，因为它们在社会中传播了错误的偏见，并冒犯了目标群体。考虑句子S3和S4从上面的例子。虽然S3表达了积极的情绪，但它仍然是虚假的和不受欢迎的。S4需要了解特定刻板印象需要先验知识使得为“刻板印象检测 ” 任务注释数据变得更加困难（Czopp，2008年）。最近的两项工作已经提出了用于测量大型PLM 的刻板偏见的开拓性诊断数据集（ Nadeem et al. ， 2020; Nangia et al. ，2020）。但是，Blodgett等人（2021 b）已经证明，这些数据集存在两种主要类型的问题：（1）概念性：包括无害的刻板印象，人为的反刻板印象，混淆国籍与种族等，以及（2）操作性：无效的扰动，不自然的文本，不可接受的目标群体等。此外，诊断数据集还缺乏对文本中刻板印象表现的微妙细微差别的足够这使得它们不太适合训练有效的判别分类器。因此，我们进行了集中的注释工作，以创建一个细粒度的评估数据集。我们的主要目标是缓解反与非刻板印象的概念问题，包含不相关的刻板印象和非自然文本的操作问题，无效的扰动。我们实现这一目标的混合（1）选择更合适的数据候选人和（2）设计一个有针对性的问卷的注释任务，打破了不同层面的语言挑战的从社交论坛Reddit收集真实世界的数据进行注释也可以更好地覆盖文本中刻板印象的微妙表现尽管刻板印象在很多方面不同于其他类型的攻击性语言，但它们在很大程度上也是通常，各种类型的攻击性文本，如辱骂、厌女症和仇恨言论，都包含了刻板的关联。高质量的注释数据集的摘要可用于这些相邻的任务。我们利用这种独特的性质刻板印象检测任务，提出了一个多任务的学习框架工作的所有相关任务。作为重叠之间任务只是部分的，然后我们提出了一个rein-task学习代理，它通过从相邻的任务数据集中选择有意义的数据示例来学习引导多任务学习模型我们表明，这两个修改，提高了所有的任务显着的然后，我们通过一套消融研究来更仔细地研究自主学习代理概括起来，我们的主要贡献是：1. 我们设计了一个集中的注释工作的刻板印象检测，构建一个细粒度的评估集的任务。2. 我们利用几个相关的相邻任务的独特存在，提出了一个协同学习引导的多任务框架，学习识别对目标任务有益的数据示例。3. 我们进行了详尽的实证评估和消融研究，以证明框架的有效性，并展示其学习过程的内在细节。12相关工作随着社交媒体和在线仇恨言论的兴起（Phadke和Mitra，2020;Szendro，2021），攻击性语言检测变得比以往任何时候都更加重要。最近的几项工作集中在表征各种类型的防御性语言检测（ Mishra 和 Nunes ， 2018; Shushkevich 和Cardiff ， 2019; Mishra 等人。， 2019; Parekhand Patel，2017）.但是，专门研究英语语言中的刻板印象识别的著作却很少。这部分是因为与其他类型的冒犯性语言相比，立体类型往往是更微妙的冒犯，因此不那么直接关注，部分是因为需要了解刻板印象在社会中的存在，以可靠地注释任务数据。我们通过分解刻板文本的各个方面来解决这个问题，并且只针对需要语言理解而不是世界知识的方面进行众包注释。最近很少有研究仅仅关注刻板印象，一些研究提出了开创性的诊断数据集（Nadeem etal. ，2020; Nangia et al. 、1我们的代码和数据可在https://github.com/pujari-rajkumar/rl-guided-multitask-learning+v：mala2277获取更多论文示例1. 外显刻板印象（Explicit Stereotype）2. 律师歪曲了情况，欺骗了那个人（隐式刻板印象联想）3. 犹太人花钱吝啬（反刻板印象）4. 有一个亚洲家庭，住在街上（非刻板印象）表1：具有常规关联的各种文本类别的示例2020），而其他人则致力于基于知识和半监督学习的模型（Fraseret al. ，2021; Badjatiya等人，2019年）用于识别刻板印象文本。基于计算模型的工作要么使用用于其他任务（如仇恨言论检测等）的数据集，要么主要关注为分类任务修改的但是，诊断数据集由于其众包构建过程而缺乏对自然发生的文本的足够覆盖（Blodgett et al. ，2021b）。我们在工作中通过从社交论坛Reddit收集自然文本数据，通过挖掘主要包含微妙刻板文本的特定子Reddit来解决这些问题多任务学习（Caruana，1997），可以大致分为两种范式（Ruder，2017）：硬参数共享（Caruana，1997）和软参数共享（Yang和Hospedales，2016; Duong et al. ，2015）。我们实现了硬参数共享的多任务模型为我们的实验。鉴于刻板印象检测任务的低资源设置，半监督数据标注是该问题的一个可行的解决方案。最近的几项工作也集中在强化学习引导的半监督（ Ye et al. ， 2020; Konyushkova et al. ，2020; Laskin et al. ，2020）。特别是Ye等人（2020），使用单任务和无监督数据为新示例生成自动注释。相比之下，我们使用来自具有不同标签的相邻任务的数据进行多任务学习，并应用RL代理来选择用于以最有利于目标任务的方式训练相邻任务的示例3我们的数据集Blodgett et al. （2021 a）表明，现有的诊断数据集，如Stereoset（Nadeem et al. ，2020）和CrowS对（Nangia et al. ，2020）从几个概念和操作问题中脱颖而出。此外，诊断数据集本质上也缺乏对文本中刻板印象的微妙表现的覆盖。但是，这是强制性的在用于训练有效的判别分类器的数据集中在日常与人类交互的下游应用程序中遇到的示例中经常是这种情况。Nadeem et al. （ 2020 ）和 Nangia et al.（2020）都遵循以下数据集构建过程：他们提供一个提示词或短语，这是刻板印象的目标群体，并要求人群工作者构建一个包含所提供提示的刻板印象然后，他们要么翻转目标群体的身份（Nangia et al. ，2020），该组或两者的相关特征/作用（Nadeem et al. ，2020年），以获得负面（反定型观念）的例子。尽管由于所提供的提示的多样性，该过程很好地覆盖了社会中现有的刻板印象来自Stereoset数据集（Nadeem et al. ，2020），以说明这一点。1是一个明确陈述的刻板印象，而2和3不太可能出现在常规话语中。1. 他是阿拉伯人。一定是恐怖分子。（刻板印象）2.他是个阿拉伯人，一定是个和平主义者。（反刻板印象）3. 他是个阿拉伯人。狗需要遛。（无关）我们通过从Reddit的实际讨论中额外注释文本来解决这个问题我们使用收集的示例进行众包注释任务来构建数据集。注释任务将在下面进一步详细解释。我们使用Nadeem等人的提示。（2020）和Nangiaet al. （2020年）从选定的子reddit中收集候选人，这些子reddit可能包含很好的陈规定型和非陈规定型文本。我们还使用Stereoset和CrowS Pairs数据集的显式原型然后，我们为这些候选者设计了一个集中的注释任务+v：mala2277获取更多论文−识别各种类型的刻板印象。3.1施工程序我们的主要观察结果是，存在三大类包含潜在有害的过度简化信念的文本：1）主要旨在表达刻板印象的文本（显式立体类型），2）主要不旨在传达刻板印象但仍然传播立体典型联想的文本（隐式刻板联想），以及3）表达不广为人知的过度简化信念的文本，因此不被认为是刻板印象（反刻板印象）。此外，还有一段文字我们称这种类型的文本为非刻板印象。表1列出了不同类型文本的例子。Nadeem et al. （ 2020 ）和 Nangia et al.（2020）主要由外显刻板印象和反刻板印象组成。它们缺乏隐含的覆盖面-注释允许我们将文本分为上述4类之一。我们的数据集包括742个显性刻板印象，282个隐性刻板印象和1197个非刻板印象。我们在表2中显示了注释数据集的汇总统计数据。3.2道德声明我们进行了资格测试，以根据他们的表现选择工人们得到了0美元的奖金。10、考资格证书。我们付了0美元。25为一批10个样本，每批平均耗时45-60这相当于USD15 20/小时。我们在任务上显示了一个警告，说任务可能包含潜在的冒犯性语言。我们我们将工人的地点限制在美国，至少有5000个批准的HIT和98%的HIT批准率。陈规定型观念协会和非陈规定型观念由于其构造过程和诊断数据集的性质。这些是构建任务代表性分类数据集所必需的因此，在我们的注释任务中，我们的目标是添加非常规示例，这些示例包含与用于创建常规示例的提示相同的提示。为此，我们从两个reddit子论坛/r/Jokes和/r/AskHistorians. 我们观察到，/r/Jokes由高比例的具有刻板联想（包括显式和隐式刻板印象）的文本组成，而/r/AskHistorians倾向于主要由经过精心构建以避免刻板联想的事实文本组成我们收集了包含Nadeem等人（2020）数据集中提供的提示的示例我们还使用Stereoset和CrowS-Pairs数据集的显式原型我们使用Amazon Mechanical Truk执行注释。对于每个候选句子，我们要求注释者回答以下问题：1. 是否有一个过于简单化的信念，关于一个特定类型的人2. 文本中是否存在一种3. 这句话看起来是编造的吗（不太可能出现在常规话语中）？每个例子都由三个注释者注释，我们使用大多数答案作为黄金标签。这数据类型大小明确的刻板印象742隐性刻板印象282非陈规定型观念1197实施例总计2，221表2：注释数据集4模型正如第1节所讨论的，用于刻板印象检测的高质量黄金数据很少。但是，具有相关目标的几个任务具有丰富的高质量注释数据集。我们观察到，在冒犯性语言检测的总体保护伞下的几个任务，例如滥用检测、仇恨语音检测、厌女症检测，包括具有刻板印象关联的文本，如第1节中的示例S1和S2所示。我们称这些任务为相邻任务。我们利用邻近任务数据集来提高刻板印象检测的低资源设置的性能。首先，我们提出了一个多任务学习模型的所有任务。然后，我们提出了关键的ob-best，此外，我们提出了一个启发自Ye et al.（2020）的学习代理，它学习从与目标任务的学习目标最相关+v：mala2277获取更多论文11 111客观的。我们通过基于共享模型对目标任务的评估数据的性能的奖励分配来指导智能体我们用4个流行的大型PLM作为基础类，并使用这个框架证明了经验收益的设置。在第4.1小节中，我们描述了多任务学习（MTL）模型，然后在第4.2小节中描述了强化学习引导的多任务学习模型（RL-MTL）。然后，在5.1小节中，我们描述了我们在实验中使用的基线分类器4.1多任务学习模型我们的多任务学习模型背后的动机是利用相邻任务的迁移学习收益来改进目标任务。由于任务具有部分重叠的目标，有效地解决所选择的相邻任务需要理解与目标任务在很大程度上相似的语言特征。因此，利用来自相邻任务的文本的中间表示来提升分类器预计将使目标任务受益。遵循这一动机，我们提出的多任务模型包括一个固定的基于PLM的表示层，其次是共享的参数，是共同的所有任务。然后，我们为每个任务添加单独的分类头。我们在模型中实现了硬参数共享（ Caruana ， 1997;Ruder ，2017）。共享参数计算文本输入的中间表示。这些中间表示由所有任务共享。共享表示层的参数首先通过对相邻任务进行训练来优化然后，它们被用作用于在目标任务数据上训练的更有益的参数初始化。多任务模型的输入是数据示例的文本和任务ID。模型的输出是指定任务上的模型中的每个任务可以是单类分类任务，也可以是多标签分类任务。单类分类任务的分类头多标签任务在分类头的最后一层中首先，我们以顺序的方式在每个相邻任务然后，4.2强化学习引导的MTL图1：强化引导的多任务学习模型，用于低资源分类任务和与核心相关的相邻任务RL引导的多任务模型在MTL模型之上具有附加的RL代理，以从将用于训练共享分类器的相邻任务数据集中选择示例。引入RL代理背后的关键直觉是，并非来自邻居任务的所有数据示例在学习目标任务时都同样有用。RL引导MTL模型的架构如图1所示。根据上述观察，我们采用代理来识别对目标目标有用的示例，并丢弃分散分类器对目标任务的注意力的示例。使用演员-评论家强化范式（Konda和Tsitsiklis，2000）训练代理对于邻居任务中的每个示例，Actor决定是否使用它来训练共享的分类器。Critic根据Actor在使用选定的示例进行训练后，我们通过评估代理的性能来分配目标任务上的共享分类器如果对于b个小批量（每个小批量的大小为z）的估值集的F1得分是{F0，F1，. . . ，F b}，并且由评论家预测的预期奖励是{e0，e1，. . . ，e b}，则保单损失计算如下：我们在目标任务上训练多任务模型，在目标任务的测试集上评估它F=Fi−µF（一）1σF+Δ1+v：mala2277获取更多论文J1JKp=−1<$b（F<$i-e）×1<$zlog（P[ai]）（2）针对每个任务的基于PLM的微调分类器，bi=1 1iv1bzj=1j吉吉基线。在第二阶段，我们使用多任务学习对所有任务进行=bi=1L1-loss（1，F1）（3）总损失=保单损失（p）+价值损失（v）（4）其中，α i是平滑常数，αi是由执行者针对最小的第j个示例批次i、µF1和σF1为平均值和标准差，宏-F1分数，分别。RL引导的多任务学习的算法如算法1所示。RL-MTL模型的输入是一组相邻任务数据集，目标任务数据集。输出是经过训练的分类器C.我们用MTL模型的训练参数初始化RL-MTL基础分类器的参数。随后，我们通过第7.1节中的消融研究评价了这种初始化的影响。算法1RL引导的MTL要求：邻居数据集{N 0，N 1，. . . ，Nd}，目标数据集T参数：包括行动者网络A和批评者网络R1：选择基线分类器C2：对于事件i = 1，2，. . . ，edo3：对于相邻数据集j = 1，2，. . . ，d do4：对于小批量k = 1，2，. . . ，b do5：行动者网络A对Njk中的每个示例进行二进制SE-LECT/RESIDENT决策6：评论家网络 R 基于由行动者 A=E[r]ijk7：在选定的小批量上训练C子集NSEL8：对目标数据集T进行评估，并在目标数据集评估集上获得F1ijk19：结束图10：根据公式4，使用Fijks和E[r]ijks计算11：更新A和R12：结束13：结束14：return训练分类器C5实验我们在三个数据集上进行了实验，阶段。在第一阶段，我们尝试模型，每个PLM作为基本分类器。在第三阶段，我们为所有任务训练了基于学习引导的多任务学习框架（第4.2节），其中每个PLM作为基本分类器。5.1基分类器我们选择了四个流行的PLM作为我们的实证实验的基础分类器，即BERT-base，BERT-large（Devlin et al. ，2019）、BART-大型（Lewiset al. ，2020）和XLNet-large（Yang et al. ，2019 ）。我们使用 Wolf 等人的实现。（2020）的huggingface transformers library 2用于实验。我们在每个PLM的表示上微调分类层作为基线来评估我们的框架。5.2数据集我们使用六个数据集进行实证评估，即JigsawToxicity Dataset ， Hate Speech Detection （ deGibert et al. ，2018），厌女症检测（Fersini etal. ，2018），冒犯性语言检测（Davidson etal. ， 2017 ）、粗粒度的立体类型检测（ Stereoset 、 CrowS-Pairs 和 Reddit 数据的组合）以及最后的细粒度的立体类型检测数据（如第3节中所述）。我们在下面简要描述每个数据集。仇恨语音检测（de Gibert et al. ，2018年）数据集由10，944个从Stromfront（一个白人至上主义者论坛）提取的文本数据示例组成。每一段文字都被标记为仇恨言论或不是。厌女症检测（Fersini et al. ，2018年）数据集由3251个文本数据示例组成，这些文本被标记为厌恶女性或不厌恶女性的二元标签。攻击性语言检测（Davidson et al. 、2017年）数据集是使用众包仇恨词典收集推文，然后将每个示例手动标记为仇恨言论之一，只有攻击性语言或两者都没有。这个数据集包含24783个例子。粗粒度的刻板印象检测：我们认为，通过结合Stereoset和CrowS-Pairs数据集的典型示例来获得正面示例，然后添加来自subreddit/r/AskHistorians的负面示例。2https://github.com/huggingface/变压器F+v：mala2277获取更多论文我们在这个数据集中不使用众包标签我们使用原始数据集的标签。该数据集由23，900个数据示例组成。细粒度的刻板印象检测：这个数据集是我们在第3节中注释的结果。它由2221个例子组成，每个例子都有三个可能的标签：外显刻板印象，内隐刻板印象和非刻板印象。Jigsaw毒性数据集3由159，571个训练样本和153，164个测试样本组成，这些样本被标记为七个标签中的一个或多个：有毒，严重有毒，淫秽，威胁，侮辱，身份仇恨，无。这些数据仅用于训练。我们6结果我们在表3中列出了经验评估任务的结果。在仇恨语音检测任务中，我们观察到RL-MTL学习导致所有基线分类器的显著改进普通MTL模型也改进了基线分类器，除了在BART-大的情况下。该任务的最佳模型是BERT-基础+RL- MTL，其实现了72的宏观F1得分。06比68最佳基线分类器获得的91。最佳MTL模型获得69. 78辆F1。对于仇恨言论和攻击性语言检测任务，基线、MTL和RL-MTL模型的相应数量为66。13，68。57和68九十七模型实现了74. 十六，七十四。40和7521对厌女症检测任务，分别。在粗粒度刻板印象检测任务中，他们的得分为65. 71，68。29&74.18，这是一个显着的grada- tion在每一个以前的类模型。在我们的细粒度刻板印象检测的焦点评估集上，我们实现了61。三十六，六十五。00&67. 94在每一类的模型。该数据集的结果是在零激发设置中获得的，因为我们仅使用该数据集进行评估。7分析讨论在第7.1小节描述的第一个消融研究中，我们研究了使用MTL模型的训练参数初始化RL-MTL模型的重要性。接下来，我们将通过消融研究来更详细地研究相邻任务对目标任务的有用性，我们将在7.2小节中对这些实验进行更详细的描述。3https://tinyurl.com/2vjmprnh7.1MTL先验对RL-MTL在我们最初的实验中，我们用MTL模型的训练参数初始化这允许RL代理从参数样本空间中的良好优化的点开始在本消融研究中，我们从头开始初始化RL-MTL模型，以了解其如何影响RL-MTL模型的性能。我们用BERT基作为基本分类器进行这个实验。没有初始化的RL-MTL模型的性能下降到70. 23在HS任务上，67岁。23关于HSO任务，71。MG任务10，60。42对第57章. 第32章任务完成MTL初始化模型的相应数量为72。06，68。97，74。78，74。18和65。72. 初始化-影响最大的是粗和细，粒度化的 Stereotype Detection任务。总的来说，使用MTL训练参数的初始化导致RL-MTL模型的更好的收敛点7.2 邻近任务消融研究在这个任务中，我们的目标是研究对每个目标任务最有用的邻居任务。对于每个数据集，我们只使用一个其他邻居数据集来训练RL-MTL框架。我们看到哪个任务对每个目标任务产生最大的改进。我们对这个数据集的各种数据集组合进行了实验该消融研究的结果如表4所示。本消融研究中的所有实验均使用BERT基础作为基础分类器进行。表 4 中的结果示出，对于仇恨语音检测（ HS ）和仇恨语音和攻击性语言检测（HSO）任务，粗粒度刻板印象检测（C-ST）相邻任务产生最佳改进，达到71。1和67。39macro-F1。所有其他三个neighboring任务是有用的，以提高性能的基础分类器从66。47和6613辆F1对于厌女症检测（MG）任务，HSO相邻任务的结果从74。16到7587，而其他两个任务则会影响任务的绩效同样值得注意的是，使用所有三个数据集的任务的综合性能较低（74。78）比单独使用HSO数据对于粗粒度和细粒度刻板印象检测（F-ST）任务，HS和HSO数据集提高了基线的性能，而MG恶化了性能。所有相邻任务的组合改进高于HS+v：mala2277获取更多论文示范仇恨言论进攻厌女粗罚款表3：各阶段所有数据集的结果已报告Macro-F1评分†表示根据McNemar统计显著性检验，相对于上一节中相应模型的改进具有统计学显著性N不HSHSOMGC-STHS-69岁69七十。0771岁。10HSO66岁71-66岁5667岁。39MG七十。98七十五。87-七十三。89C-ST66岁1567岁。4063岁82-F-ST63岁8063岁6559.94五十六12表4：每个相邻任务在任务消融研究中每个目标任务的宏观F1得分。T：目标任务，N：相邻任务，HS：仇恨语音检测，HSO：仇恨语音和攻击性语言检测，MG：厌女症检测，C-ST：粗粒度刻板印象检测，F-ST：精细-粒度刻板印象检测或HSO相邻任务单独。同样有趣的这可能是由于存在的反定型观念和其他几个问题指出，在布洛杰特等人。（2021b年版）。8结论本文从数据标注和低资源计算框架两个方面解决了刻板印象检测问题首先，我们讨论了使这项任务独特和资源少的关键挑战。然后，我们设计了一个集中的注释任务，结合选定的数据候选集合，以创建一个细粒度的评估。为任务而设。此外，我们利用与我们的目标任务“刻板印象检测”相关的几个相邻任务我们提出了一个强化学习引导的多任务学习框架，该框架学习从相邻任务中选择相关示例，以提高目标任务的性能。最后，我们进行了详尽的实证实验，以展示框架的有效性，并通过几个消融研究深入到学习过程的各种细节。致谢我们感谢匿名审稿人和Meta审稿人的深刻评论，帮助改进了我们的论文。引用Pinkesh Badjatiya ， Manish Gupta 和 VasudevaVarma。2019.使用基于知识的一般化消除仇恨言论检测任务的刻板偏见。万维网会议，第49Richard A. Berk. 2017.机器学习风险预测对假释委员会决定和累犯的影响评估。 Journal ofExperimental Criminology，13：193Su Lin Blodgett ， Gilsinia Lopez ， AlexandraOlteanu，Robert Sim和Hanna Wallach。2021年a.刻板印象检测检测检测定型观念定型观念Bert-base66岁4766岁1374岁1665岁7161岁。36BERT-large67岁。0563岁9072. 1359. 63五十五42BART-大号68岁。9165岁86七十三。1263岁4054号64XlNet-large59. 14四十八。3363岁1663岁71五十三80多任务学习BERT-base + MTL69岁21†68岁。57†七十三。4868岁。29†65岁00†BERT-large + MTL69岁78†65岁14†七十三。94†61岁。96†61岁。65†BART-大号+MTL67岁。7968岁。03†74岁40†65岁77†64岁90†XlNet-large + MTL61岁。68†四十六3564岁42†65岁21†五十七00†+v：mala2277获取更多论文ing normalized salmon：An inventory of pitfallsinfairness benchmark datasets.在ACL-IJCNLP2021中。Su Lin Blodgett ， Gilsinia Lopez ， AlexandraOlteanu，Robert Sim和Hanna Wallach。2021b的最后一页。StereotypingNorwegian salmon：Aninventory of pitfalls infairness benchmark datasets.在第59届计算语言学协会年会和第11届自然语言处理国际联合会议的会议录（2001年：长文），第1004计算语言学协会.汤姆湾 Brown ， Benjamin Mann ， Nick Ryder ，MelanieSubbiah ， JaredKaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，GirishSastry ， AmandaAskell ， SandhiniAgarwal，ArielHerbert-Voss，GretchenKrueger，Tom Henighan，Rewon Child，AdityaRamesh ， Daniel M. Ziegler ， Jeffrey Wu ，Clemens Winter ， Christopher Hesse ， MarkChen ， Eric Sigler ， Mateusz Litwin ， ScottGray，Benjamin Chess，Jack Clark，ChristopherBerner，Sam Mc- Candlish，Alec Radford，IlyaSutskever，and Dario Amodei. 2020年。语言模型是少数的学习者。arXiv.迈克·卡德威尔1996. 心理学词典。路- ledge。瑞奇 · 卡鲁阿纳 1997. 多任务学习。 Machinelearning，28（1）：41亚历山大·佐普2008. 什么时候赞美不是是赞美吗评价正面定型观念的表现。 Journal ofExperimental Social Psychology，44：413托马斯·戴维森，达纳·沃姆斯利，迈克尔·梅西，英格玛·韦伯。2017.自动仇恨言论检测和攻击性语言问题。第11届国际AAAI网络和社交媒体会议论文集，ICWSM'17，第512-515页。Ona de Gibert、Naiara Perez、Aitor García-Pablos和Montse Cuadros。2018. 来自白人至上论坛的仇恨言论数据集。在第二次研讨会上滥用语言在线（ALW 2），第11-20页，比利时布鲁塞尔。计算语言学协会。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Long Duong，Trevor Cohn，Steven Bird，and PaulCook.2015. 低资源依赖解析：神经网络解析器中的跨语言参数共享.在第五十三届年会的会议记录中，计算语言学协会和第七届自然语言处理国际联合会议（第二卷：短文），第845-850页，北京，中国。计算语言学协会。ElisabettaFersini ， PaoloRosso ， andMariaAnzovino. 2018.在ibereval 2018上自动识别misog-yny的任务概述。见IberEval@ SEPLN，第214保拉·德·拉和塞尔吉奥·努内斯。2018年文本中仇恨言论的自动检测研究。ACM计算。监视器，51（4）.凯瑟琳 ·C Fraser ， Isar Nejadgholi ， and SvetlanaKiritchenko. 2021. 理解和反对刻板印象：立体类型内容模型。在计算语言学协会第59届年会和第11届自然语言处理国际联合会议的会议记录（第1卷：长文）中，第600-616页，在线。计算语言学协会。Vijay Konda和John Tsitsiklis 2000.演员-评论家算法。在SIAMJournalonControlandOptimization，第1008-1014页中。麻省理工学院出版社.KseniaKonyushkova ， KonradZolna ， YusufAytar，Alexander Novikov，Scott Reed，SerkanCabi，and Nando de Freitas. 2020.离线强化学习的半监督奖励学习。 arXiv 预印本 arXiv ：2012.06899。Michael Laskin、Kimin Lee、Adam Stooke、LerrelPinto、Pieter Abbeel和Aravind Srinivas。2020.增强数据的强化学习。 arXiv 预印本 arXiv ：2004.14990。Mike Lewis，Yinhan Liu，Naman戈亚尔，Mar-jan Ghazvininejad ， Abdelrahman Mohamed ，Omer Levy ， Veselin Stoyanov ， and LukeZettlemoyer. 2020. BART：用于自然语言生成、翻译和理解的去噪序列到序列预。在计算语言学协会第58届年会的会议记录中，第7871-7880页，在线。计算语言学协会。Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Man-dar Joshi，Danqi Chen，Omer Levy，MikeLewis ， LukeZettlemoyer ， andVeselinStoyanov.2019. Roberta：一个鲁棒优化的bert预训练方法。ArXiv，abs/1907.11692。Pushkar Mishra ， Helen Yannakoudakis 和 EkaterinaShutova。2019. 解决在线滥用：自动滥用检测方法的调查。CoRR，绝对值/1908.06024。Moin Nadeem，Anna Bethke，and Siva Reddy. 2020.Stereoset：在预训练的语言模型中测量刻板偏见。arXiv.+v：mala2277获取更多论文Nikita Nangia，Clara Vania，Rasika Bhalerao，andSamuel R.鲍曼2020. Crows-pairs：一个用于测量掩蔽语言模型。arXiv.Alexandra Olteanu Fernando Diaz 和 Gabriella Kazai2020. 什么时候搜索完成查询有问题？Proceedings of the ACM on Human-ComputerInteraction，4（CSCW 2）：1Pooja Parekh和Hetal Patel。2017.有毒评论工具：案例研究。 International Journal of AdvancedResearch in Computer Science，8（5）.Matthew E Peters，Mark Neumann，Mohit Iyyer，Matt Gardner，Christopher Clark，Wendon Lee，and Luke Zettlemoyer. 2018.深层语境化的词表征。arXiv预印本arXiv：1802.05365。Shruti Phadke和Tanushree Mitra。2020.许多人面临仇恨：对在线仇恨团体的内容框架和信息共享的

下载后可阅读完整内容，剩余1页未读，立即下载