评估QA模型的社会偏见：BBQ基准与刻板印象的影响

34 浏览量更新于2024-06-19 收藏 798KB PDF 举报

NLP模型社会偏见的研究领域正在逐渐受到重视，特别是在问答（QA）系统中。本文的标题"QA（BBQ）偏见基准对模型响应的评估，揭示模型对社会偏见的依赖"着重探讨了大型语言模型在处理社会问题时可能存在的偏见及其对模型输出的影响。作者Alicia Parrish、Angelica Chen等人，来自纽约大学的语言学、数据科学和计算机科学部门，共同开发了一项名为BBQ（Bias Benchmark for QA）的手工构建的问题分类偏差基准。 BBQ是一个专门设计的评估工具，它关注的是美国英语环境中的9个社会维度，这些维度涉及受保护群体的刻板印象和偏见。研究主要分为两个层面来考察模型的响应： 1. 信息量不足的情况：研究人员测试模型在缺乏足够上下文信息时，其输出如何反映出社会偏见。他们发现，当上下文信息不足时，模型倾向于依赖于预先存在的刻板印象，即使这些刻板印象可能导致错误的答案。在这种情况下，模型在提供与社会偏见相符的答案时，准确率平均比提供冲突答案时高出3.4个百分点。 2. 信息量充足的情况：进一步，他们探究了模型在获得充足上下文信息时的偏见情况。尽管此时模型能够得到更精确的信息性答案，但它们依然显示出对社会偏见的依赖，这表明即使在理想条件下，模型也存在潜在的社会偏见倾向。这项研究的意义在于，它填补了现有研究在评估QA模型社会偏见方面的空白，提醒我们在将这些技术应用到现实世界时，必须谨慎对待可能带来的潜在伤害。通过BBQ基准，研究人员希望能够促进更公正、无偏见的NLP系统的开发，从而提高模型在处理社会问题时的公平性和准确性。

+v：mala2277获取更多论

文

(iii)证明偏差的来源。

BBQ测试模型

预测

中的偏差，使我们能够

研究社会偏见如何在下游任务中表现出来这与

UnQover

形成对比，

UnQover

测量模型

似然

性

，从而合并有偏差的模型行为，这些行为会

改变模型输出，也不会改变模型输出。尽管他

们的测量可能识别出BBQ没有的代表性偏差，

但这仅适用于模型行为和伤害之间无法建立联

系的情况;我们只关注模型行为发生变化的情

况此外，

BBQ

总是为模型提供正确的答案选

项，使我们能够研究在什么情况下模型的偏差

会这再次与UnQover形成对比，UnQover测量

分配给两个不正确选项的相似性。由于我们始

终提供正确答案选项，因此我们包含了一种方

法，用于模型指示答案未知。为了不过分依赖

词汇项“cannot

3.1

覆盖

我们纳入了九大类社会偏见（表1），主要来

自美国平等就业机会委员会（

EEOC

，

2021

）

定义的受保护人口统计类别。对于物理外观，

我们扩展了

EEOC

体重）与报告的偏倚。在每

个例子中，否定问题都明确地陈述了针对该类

别成员的社会偏见。例如，在宗教内部，一些

模板测试对穆斯林的偏见（例如，与恐怖主

义、暴力或厌女症的联系），以及其他测试对

犹太人的偏见（例如，与贪婪或双重忠诚的联

系）。

我们包括两个交叉的偏见：种族

民族的性

别和种族

民族的社会经济地位。我们将该子

集与其他类别分开分析，因为非目标识别不可

能是随机的，因为目标和非目标之间通常共享

一个相关的人口特征，使得对比度比BBQ的

非交叉子集更相似。

3.2

模板施工

表1显示了BBQ中九个偏差类别中每一个的模

板示例每个模板都是手工制作的-

提交人所写的，并提到据报对特定受保护类别

成员不利或造成伤害的具体我们将以下任何内

容作为伤害的证据或文件：记录刻板印象和偏

见影响的研究文章、讨论特定刻板印象或偏见

影响的新闻文章、列出与特定群体负面相关的

刻板印象和偏见的维基百科页面，以及提供刻

板印象和偏见造成伤害的第一手资料的个人博

客对于两个交叉类别，我们创建了具有三个比

较的模板例如，如果偏置目标是黑人男性，则

比较可以在黑人男性与（a）黑人女性、（b）

亚洲男性和（c）亚洲女性之间进行。

问题示例分为四组，有

否定

和

非否定

的问题变

体，有或没有消除歧义的上下文。否定问句是

指美国的社会价值观受到侵犯

，

它所反映的偏

见对某些群体有害。非否定疑问句是否定疑问

句的补充，并不意味着它是无害的。这使我们

能够判断给定标签的响应率是否有偏差，因为

某些标签在模型如果我们只使用否定性问题，

我们就无法判断答案的选择是出于对弱势群体

的

问题不可知论

偏好（本身是一种偏见，但不

是我们正在测量的偏见）还是问题旨在引出的

特定偏见联想。

有些疑问句包含表示可能性判断的词语，如

我们包括这些，以允许一定程度的语用推理，

虽然在某些情况下，我们测试的偏见对应于现

实世界的差异（例如，平均而言，与年轻人相

比，老年人确实更有可能有听力障碍）。然

而，即使在这些情况下，在模糊的上下文中，

也不能保证将文本中的特定属性归属于个体，

这在我们的示例验证中得到了验证（

§4

）。

歧义语境歧义语境用于（

）介绍问题所指的

一般背景和两个群体类别，

剩余19页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

评估QA模型的社会偏见：BBQ基准与刻板印象的影响

自然语言处理-基于预训练模型的方法-笔记

预训练语言模型的地域偏见：ALBERT与BART的对比

ChineseGLUE：中文语言理解评估基准：数据集，基线，预训练模型，语料库和页首横幅

媒体偏见：衡量Twitter对政客的公众情绪

AIGC与NLP大模型实战：CV与NLP应用探索

探索大型语言模型的未来：从自然语言处理到伦理挑战

NLP语言模型：概率建模在自然语言处理中的应用

ChatGPT如何帮助消除偏见：六点看法解析

NLP分类新方法：通用语言模型微调

达摩院深度语言模型体系AliceMind：NLP的新范式探索

最新资源