维基百科中的社会偏见分析

137 浏览量更新于2023-11-29 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2624→WikipediaBios中的社会偏见控制分析摘要anjalief@cs.cmu.edu卡内基梅隆大学凯文·ZLinkevinL1@wharton.upenn.edu宾夕法尼亚大学美国chanyoun@cs.cmu.edu美国卡内基梅隆大学YuliaTsvetkovyuliats@cs.washington.edu华盛顿大学美国1介绍维基百科是一个广泛阅读的全球平台，其社会偏见可能会极大地影响公众舆论。虽然先前的研究已经研究了传记文章中的男性/女性性别偏见，但其他人口统计属性的可能影响限制了结论。在这项工作中，我们提出了一种方法来分析维基百科页面的人，隔离感兴趣的维度（例如，性别），从其他属性（例如，职业）。给定用于分析的目标语料库（例如，关于女性的传记），我们提出了一种方法，用于构造一个比较语料库，该比较语料库在尽可能多的属性上匹配目标语料库，除了目标语料库。我们开发了评估指标来衡量比较语料库与目标语料库的一致性，然后检查关于性别和种族少数群体的文章（cis. 女性，非二元人群，跨性别女性和跨性别男性;非洲裔美国人，亚裔美国人和西班牙裔/拉丁裔美国人）与其他文章不同。除了识别可疑的社会偏见，我们的研究结果表明，未能控制协变量可能会导致不同的结论和面纱偏见。我们的贡献包括促进进一步分析维基百科文章中的偏见的方法，可以帮助维基百科编辑减少偏见的发现，以及指导该领域未来工作的框架和评估指标。CCS概念• 以人为本的计算协作和社会计算的实证研究;·计算方法→自然语言处理;·信息系统→维基。关键词维基百科，NLP，性别偏见，种族偏见，匹配ACM参考格式：作者：陈永朴，凯文Z. Lin，and Yulia Tsvetkov. 2022年维基百科Bios中的社会偏见的受控分析。在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，纽约州纽约市，美国，12页。https://doi.org/10.1145/3485447.3512134本作品采用知识共享署名国际协议（ Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512134自成立以来，维基百科吸引了各学科研究人员的兴趣，因为它独特的社区和脱离传统的百科全书[27，29]。协作知识平台允许快速和廉价的信息传播，但它有引入社会和文化偏见的风险[29]。这些偏见会影响读者，并被计算模型吸收和放大，因为维基百科已经成为一个流行的数据源[6，36，42，47，63]。考虑到维基百科的大量数据，自动化方法对于识别平台上的社会和文化偏见至关重要在这项工作中，我们开发的方法来识别内容偏见：系统的差异，在文本中的人与不同的人口统计特征。之前关于维基百科偏见的计算工作主要集中在二元性别上，并检查了关于男性和女性的文章中的差异，例如，女性页面讨论个人关系的频率高于男性页面[1，20，60]。然而，人们的性别以外的属性限制了从这些分析中得出的结论。例如，维基百科上的男性运动员多于女性运动员，因此，如果由于女性和男性的呈现方式不同，或者由于非运动员和运动员的呈现方式不同而出现差异，则很难区分[20，26，60]。现有工作已将协变量作为统计变量纳入回归模型中，这将分析限制在回归模型中，并需要枚举所有属性[60]。相比之下，我们开发了一种匹配算法，通过隔离目标维度（§3）进行分析。给定包含目标属性（例如，对于顺性别女性的页面），我们的算法构建了不匹配的传记页面（例如，给犯罪调查处的。男性）。我们构造这个语料库密切匹配的目标语料库上的所有已知属性，除了目标的一个（如性别），通过使用双斜率TF-IDF加权属性向量。因此，检查两个语料库之间的差异可以揭示与目标属性相关的内容偏见[61] 我们开发了一些框架来评估我们的方法学，这些方法学衡量构建的比较语料库与模拟目标语料库的匹配程度（§4）。我们最终使用这种方法来分析维基百科编辑或读者可能认为描述性别的传记页面妇女，非二元人群，跨性别妇女和跨性别男子）和种族（非裔美国人，亚裔美国人，他-恐慌/拉丁美洲人）少数群体（§5）。我们还交叉这些方面，并检查非裔美国妇女的写照[14]。我们的分析集中在已经使用的统计数据2625WWW作者：Yulia Tsvetkov在之前的工作中评估条目质量，包括英文维基百科上的条目长度、章节长度和编辑次数我们还考虑了其他语言版本中的语言可用性和长度统计[59]。这种分析揭示了系统性的差异：例如，关于cis的文章。与有关独联体的文章相比，妇女往往篇幅较短，可用的语言较少。男性;关于非洲裔美国妇女的文章往往比其他可比的美国男性有更多的语言，但比其他可比的美国妇女少。差异可能是编辑偏见的迹象，表明维基百科编辑撰写的文章与其他文章不同，他们认为是性别或种族少数群体，或者它们可能是维基百科反映的社会不平衡的迹象。虽然我们不能总是区分这些来源，但在可能的情况下，我们针对编辑偏见，编辑可以调查和减轻。据我们所知，这是第一个研究维基百科传记页面中性别差异的工作。女性，第一次大规模的种族差异分析[1]，并在维基百科传记页面中首次考虑交叉性。总的来说，我们的工作为揭露维基百科上的内容偏见提供了方法论和初步发现，以及这一领域未来工作的框架和评估指标。2相关工作维基百科对不同类型的人的覆盖范围的系统差异可能会对读者产生不利影响或无意中影响读者，并可能使依赖维基百科数据的机器学习模型和社会科学研究中的偏见和刻板印象永久化[5，19，40，47，63]。大多数关于维基百科偏见的先前工作集中在性别和覆盖偏见，结构偏见或内容偏见。覆盖偏见涉及到检查有多少可能显着的男性和女性是维基百科的文章和文章长度[46，59，61]。平均而言，关于女性的文章比关于男性的文章更长[20，46，59，61]。结构偏差表示文章元属性的差异，例如文章之间的链接，引用的多样性和编辑次数[59，61]。调查发现，对妇女存在结构性偏见（例如，所有传记文章倾向于链接到关于男性的文章多于关于女性的文章）[18，59- 61 ]。最后，内容偏见考虑文章文本本身。潜变量模型[2]，词汇量和逐点互信息（PMI）得分[20，60]表明，女性页面比男性页面更频繁地讨论个人关系。过去，对维基百科偏见的研究引起了编辑社区的注意，并导致了平台的变化[32，46]，这可以解释为什么类似的研究有时会有不同的发现，也激励了我们的工作。然而，许多研究得出有限的结论，因为数据混淆。例如，单词统计表明，男性页面上最多的单词是体育术语：“足球运动员”，“棒球”，“联赛”[ 20，60 ]。这一结果并不一定表明存在偏见;维基百科的编辑并没有忽略女性的足球成就。相反，在社会和维基百科上，男性足球运动员比女性更多。因此，这些词汇统计数据可能反映了职业而不是性别的不平衡。尽管体育领域的性别不平衡以及编辑们对足球运动员的认可足以让维基百科的文章值得关注，但这些问题本身也值得研究在我们的背景下，它们限制了我们研究编辑如何以不同的方式撰写关于男性和女性的文章的能力一些特征可以解释，例如。在回归模型中使用解释变量[60]，但很难明确列举所有可能的特征，并将分析限制在特定模型中。这些特征也影响了对不同语言版本的分析，这些版本通常侧重于“当地英雄”，以及语言版本如何倾向于在文章覆盖范围，长度和可见性方面支持其国籍与语言相关的人[ 10，18，23 ]。在调查跨语言的性别偏见，霍林克等人。[26]认为他们的研究结果受国籍和出生年份的影响比受性别的影响更大，这说明了“地方英雄”效应如何由于不同的读者群和文化规范，语言版本也可能存在系统性差异这些差异通常是合理的，因为语言版本服务于不同的读者[10，23]，但可能混淆研究问题。英文女性传记中与家庭相关的词汇比西班牙语更多，是因为英文中存在更大的性别偏见吗？还是因为英语编辑通常比西班牙语编辑更关注家庭，无论性别如何？比较每种语言的男性和女性的简历页面部分地解释了这种模糊性，但其他因素也可能有影响[30]。虽然我们的工作重点是分析维基百科文章中的偏见，无论其来源如何，但我们简要讨论了作为动机的偏见的可能来源。首先，调查表明维基百科编辑社区缺乏多样性，主要是白人和男性[25，29，54]，1尽管努力提高多样性，编辑人口统计数据可能在过去十年中发生了变化[13，16，30，31]。第二，偏见可以从编辑根据维基百科的“非原创研究”政策所获取的第二来源传播最后，维基百科上的偏见可能反映了更广泛的社会偏见。例如，在维基百科上，女性可能被描绘成不如男性强大，因为编辑撰写的文章不平衡，因为其他对女性的报道，如报纸文章，淡化了她们的权力，或者因为社会限制阻止女性获得与男性相同的高权力职位[1]。最后，几乎所有被引用的工作都集中在男女性别偏见上。几乎没有计算研究在维基百科传记中沿着其他维度大规模地检查偏见，即使观察到的种族偏见促使编辑马拉松纠正遗漏。[2]两个值得注意的例外：Adams et al.[1]在关于社会学家和帕克等人的页面中检查性别和种族偏见[41]检查页面中关于LGBT人群的不同内涵。3方法3.1匹配方法我们提出了一种方法，用于为与目标属性对齐的每个页面识别比较传记页面，其中比较页面在除目标属性之外的所有已知属性上与目标页面紧密匹配。3这一概念起源于调整观察数据以重现随机试验的条件;根据观察数据，研究人员构建治疗组和对照组，1https://meta.wikimedia.org/wiki/Research:Wikipedia_Editors_Survey_2011_April2https://en.wikipedia.org/wiki/Racial_bias_on_Wikipedia3所有代码和数据可在https://github.com/anjalief/wikipedia_bias_public上获得2626C∈T∈A∈（）C不|禁止酷刑和其他残忍、不人道或有辱人格的待遇或处罚（c）|我（−）|（）下一页|2022年4月25日至29日，法国里昂虚拟活动，Wikipedia Bios WWW'22中的社会偏见的受控分析除目标变量外，所有协变量的分布在两组之间尽可能相同[49]。4.通过对构建的实验组和对照组的比较，研究者可以将目标属性的影响从其他混杂变量中分离出来。匹配在语言分析中也越来越受到关注[11，15，17，28，48]。在这里，我们的目标属性是编辑和读者可能感知到的性别或种族我们的目标是创建语料库，平衡其他特征，如年龄，职业和国籍，这可能会影响文章的写作方式给定一组目标物品T（例如，所有关于女性的传记在我们的设置中，首先，因为它是为低维协变量设计的，并且已经被证明在高维数据中失败，其次，因为它不一定产生有意义的匹配对，这排除了手动检查匹配[48]。尽管如此，我们还是将其作为基线，因为它是控制混杂变量的常用方法。TF-IDF倾向我们构造了一个额外的倾向得分模型，其中我们使用TF-IDF加权类别向量作为特征，而不是独热编码向量。Pivo t-SLOPE TF-IDFTF-IDF和PeR cent均包括我们的目标是从一个集合构造一组比较物品C，候选人A（例如，所有关于男人的传记），这样C有term|1CAT（ci）|为了对具有不同编号的物品进行标准化除目标属性外，所有协变量的协变量分布相似我们使用贪婪匹配来构造对于每个t，我们最好识别c与t最匹配，加上c，. 如果t是关于一个美国女演员，c最好可能是关于美国男演员。为了最好地识别c，我们利用与每篇文章相关的类别元数据。例如，史蒂夫·乔布斯的页面包括类别虽然文章并不总是正确分类或具有相同的细节，但使用此元数据可以让我们专注于可能反映文章撰写方式的协变量。人们可能有一些相关的特质，但这些特质并没有列在维基百科的页面上，但如果没有编辑指定一个与这些特质相关的类别，我们就没有理由相信编辑们知道这些特质，也没有理由相信这些特质影响了编辑。我们描述了6种鉴定c最佳A的方法。CAT c表示与c相关联的类别的集合。我们选择cbest作为与t共有类别数量最多的文章，这是直观上的最佳匹配。PercentTN umB eR青睐更多类别的文章。例如，具有30个类别的候选者ci比仅具有10个类别的候选者cj更可能具有与t共同的更多类别。然而，这并不一定意味着Ci与T人有更多的共同特征-它表明文章写得更好我们可以通过将这些标准化来减少这种偏袒。普通类别数除以类别总数的类别。然而，信息检索研究表明，它过度纠正并导致算法偏向于类别较少的文章[55]。相反，我们采用斜率归一化[55]并使用调整值对TF-IDF项进行1 .一、0斜率pivot+斜率CAT ci.这种方法需要设置坡度和枢轴，它们控制加强结构性改革根据Singhal et al.[55]，我们将枢轴设置为所有文章中类别的平均数量，并在开发集上调整斜率。调整斜率很重要，因为更改参数确实会更改选定的匹配。 P I vot-Slope TF-IDF是我们提出的新方法。在实践中，很可能无法为每个目标文章确定密切匹配，即。目标语料库中的人的特征可能不被比较语料库中的任何人共享为了解释这一点，我们放弃<了“弱匹配”：对于直接匹配方法，具有2个共同类别的配对，对于倾向匹配方法，倾向得分的差异与平均差异>1个标准差的配对。我们在附录A中提供了有关实验设置的更多详细信息。3.2模型假设和局限性在本节中，我们将澄清我们的方法所需的一些假设如何限制它的使用方式首先，我们的匹配方法依赖于类别，这是不完美的控制。当我们采取一些措施来解决这个问题时，例如，排除条款候选项C1，即，cbest=arg maxciTF-IDF|1|1在类别较少的情况下，类别标记的系统差异可能会降低匹配的可靠性（我们没有观察到两种现有方法都假设所有类别都是平等的。有意义，但这是一种过度简化。与t有共同点的候选人c i与共同点为“美国短篇小说作家”的候选人c i相比，与共同点为“活人”的候选人ci更可能是一个很好的匹配。我们使用TF-IDF加权来增加稀有类别的权重[52]。我们代表每个ci∈A作为稀疏类别向量，其中每个元素是这）。使用类别作为协变量也使我们无法识别文章类别分配方式的系统差异相反，我们的工作集中在文章的差异，给定当前的类别分配。其次，我们的方法只有在能够建立高质量匹配的情况下才有意义。如果有在C中的类别的频率之间的乘积i，（|该类别属于《禁止酷刑公约》（c）CAT（ci）|如果在我们的目标语料库中具有特征的人，在我们的比较语料库中，我们无法进行受控比较。i，否则为0）和类别的逆频率，其对广泛的公共类别进行下加权。我们选择cbest作为其向量与t的类似构造的向量之间具有最高余弦相似性的c i。对于每篇文章，我们构建了一个倾向得分，这是文章包含目标属性的概率的估计[49，50]，使用在一个热编码类别特征上训练的逻辑回归分类器。然后，我们选择c最好的文章最接近的倾向得分的t倾向匹配不理想4我们使用目标/比较而不是治疗/对照来澄清我们的工作不涉及任何实际的在实践中，我们通过丢弃匹配不佳的文章对（如第3.1节所述），仅计算存在协变量重叠的文章集的分析来实现这一限制。第三，我们注意到，虽然我们从因果推理中借用了一些方法和术语，但我们的设置不利于严格的因果框架，我们并不认为所有结果都意味着因果关系。正如第2节所讨论的，很难确定条目不平衡是维基百科编辑，社会偏见或其他因素的结果，这意味着存在我们无法控制的混淆变量。总而言之，我们的目标是识别关于不同人群的文章中的系统差异，1WWW作者：陈永朴，凯文Z.作者：Yulia Tsvetkov2627我们模型的主要用例是识别可能受益于手动调查和编辑的文章集3.3评价框架我们设计方案来评估每个匹配度量如何创建具有与目标组相似的属性分布的比较组，以及度量是否引入不平衡，例如。通过偏爱类别较少的文章。给定匹配的目标集和比较集，我们使用几个指标来评估匹配：标准化均值差（SMD）SMD（治疗组和对照组之间的均值差除以合并标准差）是用于匹配后评价协变量平衡的标准方法[62]。我们将每个类别视为一个二元协变量，可以存在或不存在的每篇文章。然后，我们计算每个类别的SMD，并报告所有类别的平均值（平均SMD）以及SMD> 0.1的类别的百分比没有广泛接受的标准化偏倚标准，但先前的工作建议0.25或0.1作为合理的临界值[22]。高值表明目标组和对照组之间的类别分布差异很大。类别的数量如§3中所讨论的，所提出的方法可能倾向于具有更多或更少类别的文章因此，我们计算目标组和比较组中类别数量之间的SMD。高值表示偏爱。文本长度前两个指标关注的是类别，但类别是文本中混淆的代理。我们最终寻求评估匹配控制在实际文章中的差异我们首先使用SMD比较文章长度（字数）Polar Log-odds（PLO）我们使用Dirichlet先验的对数几率[35]比较文章之间的词汇差异，其中高对数概率极性表示不同的词汇。5除了单词级别的差异之外，我们还计算了从LDA模型[4]中导出的100维主题向量之间在目标比较（KL）和比较目标方向（KL 2）上的KL分歧我们在三种类型的目标集上计算这些指标文章抽样我们通过随机抽样1000篇文章来构建模拟目标集。因为我们不固定目标属性，所以我们期望高质量的匹配算法来识别与目标集非常接近地匹配的比较集，而不会产生不平衡，例如，更长的文章和更多的类别。类别抽样我们随机抽取一个至少有500个成员的类别，然后从该类别中抽取500篇文章我们不希望有任何偏见，对一个单一的类别，因为大多数类别是非常具体的，例如。来自宾夕法尼亚州的美式足球运动员虽然足球运动员的文章可能有不同的特点比其他文章，我们不会期望文章的球员从宾夕法尼亚州是实质上不同的球员从纽约或新泽西州的文章因此，在文章抽样设置中，我们可以评估属性分布和人为的不平衡。然而，这种设置更接近于复制预期的分析，因为我们确保目标群体中的所有人都有一个共同的特征。我们评估每种方法在我们的分析设置中平衡协变量的程度比较文章5PLO和KL Divergence的详细信息见附录A关于女人和男人。在这种情况下，我们只考虑该方法如何平衡协变量（SMD），使用统计学来排除我们预期在组间存在差异的类别（例如，当比较顺式时。男性和女性，我们排除了包含“女性”一词的类别）。我们不能检查其他标准，如文本长度，因为我们无法区分目标集和比较集之间的差异是否是社会偏见或匹配不良的迹象，特别是考虑到先前的工作表明不同性别的人的文本长度不同[20，46，59，61]。相反，我们使用综合构建的文章抽样和类别抽样来检查算法中的偏袒迹象以及文章文本中的混淆匹配控制情况。3.4数据我们于2020年3月在英文维基百科收集了所有“活人”类别的文章我们丢弃了包含<2个cat-egories、<100个token或标记为stubs（包含类似“Actorstubs”的类别）的文章。我们使用英语类别进行匹配，我们希望这是最可靠的，因为英语拥有最活跃的编辑器社区。我们忽略关注文章属性的类别，而不是使用分类法的人的特征，例如，包含“包含”的页面我们的最终语料库由444，045篇文章组成，平均包含9.3个类别和628.2个标记。被认为可进行匹配的类别总数为209 613。6我们简要总结了推断人种和性别的方法，并在附录B中提供了更多详细信息。身份特征是流动的，难以操作，并取决于社会背景[9，21]。我们的目标是识别维基百科编辑所观察到的性别和种族，这些编辑分配了文章元数据或可能查看它们的读者，而不是假设地面真实值[51]。因此，我们直接从维基百科的文章和相关的元数据中获得种族和性别。我们认为身份在数据收集时是固定的，并警告说，在这项工作中推断的身份特征在其他时间段或背景下可能不正确我们主要从维基数据推断性别-维基百科页面对应的众包数据库[58]，重点关注维基数据中常见的5种性别。我们用顺式。男性作为对照组，并分别从该组中为每个其他性别确定匹配由于种族是一个没有全球定义的社会结构，7并且考虑到我们收集数据的起点是英文维基百科，我们专注于美国人的传记，并使用美国人口普查中常用的种族/民族类别：西班牙裔/拉丁裔，非裔美国人和亚洲人我们使用这些类别是因为我们预计美国占主导地位-基于英语的维基百科编辑熟悉它们，但我们并不认为它们是自然发生的或在其他上下文中有意义的。为了识别每个目标群体的页面，我们主要使用类别信息，将每个种族群体的文章识别为包含术语“美国”和[“亚洲”，“非洲”或“西班牙裔/拉丁裔”]或特定国家名称的类别我们承认，我们使用“种族”一词是对我们语料库中各条之间区别的过度简化。尽管如此，我们相信它反映了维基百科用户可能持有的看法。6我们根据需要收集其他语言版本的文章以供分析。关于关注哪些数据和类别的决定是在与维基媒体基金会的研究7https://unstats.un.org/unsd/demographic/sconcerns/popchar/popcharmethods.htmWikipedia Bios中的社会偏见控制分析WWW26280.0020.001平均值（SMD）0.000250.00000%SMD>0.110#目录文本长度20PLO平均值PLO标准品0.050.00的k11KL 20.0010.000平均值（SMD）0.0040.0020.000%SMD>0.1210猫文本长度50PLO平均值PLO标准品210的k11KL 2图1：使用文章抽样（顶部）和类别抽样（底部）评估匹配方法，通过100次模拟计算99%置信区间较低的分数表示较好的匹配;双斜率TF-IDF整体表现最好我们省略了文章抽样中的倾向匹配，因为它没有意义。最后，比较的一个自然选择是关于白人/高加索美国人的文章。然而，我们遇到了“标记”的障碍：虽然关于少数民族的文章经常被明确标记为这样，但白度被假定为如此通用，以至于很少被明确标记[ 8，56 ]。我们在数据中看到了这一点：巴拉克·奥巴马的文章属于“非洲裔美国参议员”类别，而乔治·W·布什的文章属于“非洲裔美国参议员”类别。布什因此，我们认为标记性本身是一个社会指标，并使用“未标记”的条目作为候选比较：所有包含“美国”类别，但不包含指示非白人种族的类别或维基数据条目属性的页面。[8]根据维基百科以外的来源和图片，我们手动审查了比较语料库，估计其中90%是白人。4评价结果图1报告了100篇文章抽样和分类抽样模拟的评价结果。除了所描述的匹配算法，我们显示的结果随机抽样一个COM-100组。所有评估指标都衡量目标组和对照组之间的差异：较低的值表示更好的匹配。在所有评估中，除非明确指出，我们不排除弱匹配，以保留可比较的目标集。排除可能导致在不同的匹配方法下丢弃不同的目标文章所有方法在减少协变量不平衡方面都优于随机方法，P I vot-Slope TF-IDF 最好地减少了高度不平衡类别的百分比年龄（%SMD> 0）。①的人。在类别抽样模拟（底部）中，其更好地模拟了具有共同的特定特征的目标群体，所有方法在基于文本的度量（PLO和KL）中也比随机表现得更好，并且PVOT-SLOPETF-IDF总体上表现得最好。在文章抽样模拟（顶部）中，随机提供了一个强有力的基线。这并不奇怪，因为随机选择的1000篇文章不太8（包括中东人、美洲原住民和太平洋岛民）我们也排除了足球/篮球运动员，因为这些文章通常没有标记，就像关于爵士音乐家的文章一样。我们建议进一步调查为未来的工作。0.0030.0020.0010.000无与伦比Number折TF-IDF倾向性TF-IDF枢轴TF-IDF枢轴TF-IDF（带丢弃）图2：关于非裔美国人的文章与匹配比较之间的SMD，各类别平均值， 99%置信区间。分数越低表示匹配越丢弃）差异很大。然而，P I vot-Slope TF-IDF在协变量平衡和基于文本的度量上优于random。正如预期的那样，Num B e R对类别较多的文章表现出偏见，而Pe R cent和TF-IDF对类别较少的文章表现出偏见，导致在类别数量（#Cat.）上比随机表现更差。度量（图1报告了绝对值）。这些差异也反映在文本长度上，因为类别更多的文章也往往更长。在类别抽样中，斜率归一化校正了这种长度偏差，并且优于随机。在文章抽样中，PI vot-Slope TF-IDF的表现优于其他指标，而随机抽样的分类数和文本长度偏差最小然而，如前所述，随机是这种设置中的一个强基线。在图2中，我们提供了一个属性特定的评价：在不同的匹配方法下，非裔美国人和比较文献之间的SMD平均值（附录D中其他目标人群的评价显示了类似的模式）。如图1所示，我们通常不排除弱匹配，以便具有直接可比的目标集，尽管我们确实在排除后报告了P I vot-Slope TF-IDF的SMD，以便在我们的最终分析数据中准确反映SMD。我们进一步注意到，如果我们丢弃所有方法的弱匹配，则P I vot-Slope TF-IDF导致最少量的丢弃数据。但不包括随机数TF-IDF百分比枢轴TF-IDF随机数TF-IDF百分比倾向性TF-IDF枢轴TF-IDFWWW作者：陈永朴，凯文Z.作者：Yulia Tsvetkov2629∈R图3：TF-IDF加权类别的UMAP可视化，其中每个点代表一篇文章，红色到黄色的颜色描绘了由白色轮廓强调的文章的低到高密度（A）和（B）分别显示了非裔美国人和（不匹配）比较文章的类别分布（C）-（E）示出了通过不同匹配方法生成的比较集中的类别分布百分比和倾向方法（为简洁起见未显示）的表现严格较差。Pivot-Slope TF-IDF（D）导致具有与目标集（B）最相似的类别分布的比较集PR打开Ity，与不使用匹配相比，所有方法都改善了协变量平衡，并且PI vot-Slope TF-IDF表现最好。为了补充定量结果，我们还通过UMAP提供定性结果[34]。给定具有n行的矩阵Xnk（即，文章）和K列（即，类别），UMAP非线性地将每一行映射到保留最近邻几何形状的二维空间中。UMAP通常优于其他非线性降维方法，因为其在可视化数据和评估聚类结构方面的有效性，例如，在文本分析[7，39]和基因组学[3]中。我们将X设置为所有方法的TF-IDF加权类别的矩阵，以获得n个坐标的全局集合（每篇文章一个）。详情见附录C。图3显示了非裔美国人的UMAP可视化。在没有匹配的情况下，所有比较文章（A）的集合具有与关于非裔美国人的文章（B）明显不同的关联类别的分布，这激励了我们的工作。在匹配方法中，P I vot-Slope TF-IDF（E）产生具有与来自非裔美国人的文章的关联类别的分布最相似的分布的比较集。虽然N UM-Be R（C）也产生类似的类别分布，但图1表明该方法更倾向于具有更多类别的文章。TF-IDF（D）的表现特别差。由于这种方法过于偏爱类别太少的文章，因此类别很少的比较文章出现在不成比例的匹配中。5分析最后，我们使用P I vot-slope TF-IDF匹配来促进沿着性别和种族维度的可能的偏见和内容差距的检查。我们计算了从先前工作中提取的英语文章的几个指标[59]，包括文章长度，语言可用性，编辑计数，文章年龄，文章中单词的对数几率分数[35]，以及用于公共部分的文章百分比。此外，对于编辑次数最多的前10种语言（英语，法语，阿拉伯语，俄语，日语，意大利语，西班牙语，德语，葡萄牙语和中文），对于所有目标比较对，其中对的两个成员都可用语言，我们比较文章长度和规范化的部分长度。虽然可以在这些数据集上检查许多指标，但我们选择的指标很可能揭示了先前工作中发现的内容偏见例如，语言可用性和文章长度揭示了维基百科如何为某些群体提供比其他群体更多的信息。章节结构的差异反映了文章的质量[43]，并可能反映先前观察到的内容偏见，例如，如果关于女性的文章比关于男性的文章更频繁地讨论个人关系，我们可以预期它们会有更长的文章年龄和编辑计数可以提供一些洞察观察到的差异是否可能反映编辑习惯或其他因素。通常，我们使用连续值的配对t检验（例如，平均制品长度）和 McNemar 如果文章有德语版本或没有）。我们使用Benjaminin Hochberg多重假设校正具有许多假设的度量（例如，如果目标或比较文章更有可能以50种语言中每一种语言提供由于空间限制，我们讨论了一个子集的结果，并提供了一个完整的指标网页。9匹配减少数据混淆首先，我们通过考虑在没有匹配的情况下结果如何不同来重新审视我们的动机。表1列出了与cis相关的传记页面最相关的词汇男性和女性使用对数赔率计算[35]。如之前的研究所示，在没有匹配的情况下，与男性高度相关的词包括许多体育术语，这表明直接比较这些传记可以捕捉运动员/非运动员的差异，而不是男性/女性的差异。匹配后，这些体育术语被“他自己”和“妻子”等过度性别化的术语所取代，这表明匹配有助于将性别作为两个语料库差异的主要变量。除了最高的对数赔率得分，体育术语也会出现，但它们往往更具体，并代表双方，例如“WTA”是女性相关的，“NBA”是男性相关的。表2显示了人种亚组和整个候选对照组之间的文章长度比较结果，而不是与匹配文章子集进行比较。所有人种亚组的文章均显著长于对照文章。9https://anjalief.github.io/wikipedia_bias_viz/Wikipedia Bios中的社会偏见控制分析WWW2630Unmatched（M）he/He，his/His，season，him，League，clubUnmatched（W）her/Her，she/She，women，actress，husbandMatched（M）he/He，his/His，him，himself，wife，Men Matched（W）her/Her，she/She，women，husband，female表1：顺式之间的对数比值分数男性和女性页面从左到右按最大到最小极性排序。匹配减少了体育术语（粗体），支持明显性别化的术语。目标比较非裔美国人902.0711.4亚裔美国737.5711.4西班牙裔/拉丁裔美国人972.5711.4表2：不匹配的平均产品长度所有目标集均出现显著性差异（p< 0. 05）。05）比比较长。然而，匹配后（表3），我们没有发现匹配的比较文章与关于非洲裔美国人和西班牙裔/拉丁裔美国人的文章之间存在显著差异。相反，我们发现关于亚裔美国人的文章通常比比较文章短。我们在表3中展示了几个高级统计数据，这些统计数据可以识别可能的内容差距和可能从额外编辑中受益的文章集关于亚裔美国人和独联体的争论女性往往比对照品矮。较短的文章可能表明文章写得不太仔细，例如，编辑可能花了较少的时间来发现文章中包含的细节，尽管矛盾的是，由于编辑经常花时间削减“臃肿”的文章，较短的文章也可能反映了编辑的注意力增加。这也表明信息的呈现不够细致--在配对研究中，我们经常发现亚裔美国人的文章中的信息是以表格的形式呈现的，而对比文章中的信息是以描述性段落的形式呈现的。表3中的中间列通过比较每篇文章的平均编辑次数和年龄（以月为单位;在收集编辑数据时）提供了额外的背景。[10]值得注意的是，所有关于性别和少数种族的文章都是最近撰写的，而不是匹配比较，这可能反映出人们对维基百科上的偏见和纠正措施的认识不断提高11此外，关于独联体的文章。女性的编辑量确实比对照组少，而关于亚裔美国人的文章的编辑量并没有明显减少（尽管两者都比对照组写得更近）。虽然先前的工作表明，有关独联体的文章妇女往往比关于独联体的文章更长，更突出。男人，我们的工作有相反的发现[20，46，59，61]。我们的工作有几个不同之处：使用匹配，丢弃不完整的“存根”文章，关注“活着的人”，并考虑性别作为非二元。此外，维基百科是不断变化的，和以前的工作，确定在维基百科上的女性缺失的页面已经导致编辑创建他们[46]。然而，我们的研究表明，10编辑数据于9月收集。2020年，原始数据后6个月;不包括在收集时间之间删除或URL更改的一些文章。11示例：https://meta.wikimedia.org/wiki/Gender_gap关于CIS的高质量文章之间的差距男人和女人仍然存在。鉴于编辑数量的差异，更多的编辑关注关于cis的文章妇女可以缩小这一差距。相比之下，需要对亚裔美国人文章中的差异进行更多的调查，因为每篇文章的编辑数量没有显着差异。编辑计数提供了一个过于简单的编辑过程视图，更深入的分析可以提供更多的见解。尽管如此，我们的研究结果支持了与“模范少数族裔神话”相矛盾的工作[12]，这表明亚裔美国人并没有免于偏见和种族差异。非英语统计数据揭示“地方英雄”我们接下来考虑其他语言版本。从表3最右边的栏开始，是关于非裔美国人、亚裔美国人和独联体国家的文章。与比较者相比，妇女提供的语言通常较少。相比之下，关于非二元人群和跨性别女性的文章有更多的语言版本（下文讨论）。语言可用性可能表明代表性不足-用户在非英语维基百科版本中搜索不太可能找到非裔美国人的传记页面而不是其他美国人。当我们检查每种语言的目标文章与比较文章的百分比时，我们发现许多语言之间存在广泛的差异。关于非裔美国人的文章更有可能有海地语、约鲁巴语、斯瓦希里语、旁遮普语和伊多语版本，而其他47种语言的版本则更少关于亚裔美国人的言论更有可能有印地语、旁遮普语、汉语、泰米尔语、泰语和其他42种语言的版本，而不太可能有其他语言的版本。同样，关于CIS的文章妇女在18种语言中的可用性较高，在63种语言中的可用性较低作为参考，关于拉丁裔/西班牙裔人群的文章，我们没有看到整体语言可用性的显著差异（表3），西班牙语和海地语版本的可能性明显更高，其他8种语言版本的可能性更低。这些结果支持了先前关于“地方英雄”的工作，表明一个人的传记更有可能以该人国籍的共同语言提供[ 10，18，23 ]。我们的研究结果表明，这种模式适用于一个人的种族和背景，而不仅仅是当前的国籍。这些结果还表明，减少这些观察到的语言可用性差距需要大量的努力，因为它需要增加用各种语言撰写文章，而不仅仅是几种语言。我们可以通过考虑不同语言之间相同文章的长度差异来虽然条目长度可能因多种因素而不同，但一种语言中的长度差异在另一种语言中不存在，这表明可以通过额外编辑来解决内容差距-我们知道这种差异不会因为独立于维基百科的因素而发生，因为它不存在于另一种语言中。我们注意到两个观察到的差异。对于240篇关于非洲裔美国人的文章，文章及其匹配都有中文版本非裔美国人的文章显著短于中文（目标长度：25.7，比较长度：36.0，p-val：0.044），而英文则不然（t：2，725.3，c：2，500.4，p：0.22）。同样，在西班牙语的912个匹配对中，关于非洲裔美国人的文章在西班牙语中明显较短（t：659.8，c：823.9，p：0.003），但不是英语（t：1639.2，c：1544.1，p：0.18）。统计学与社会理论保持一致虽然我们的目标不是对社会理论进行彻底的调查，但我们简要地讨论WWW作者：陈永朴，凯文Z.作者：Yulia Tsvetkov2631分析的配对文章目录编辑历史文章年龄语言数目标比较目标比较目标比较目标比较非洲美洲8,404942.9959.2243.4245.8128.5136.26.26.8亚洲美洲人3,473792.3854.1193.2198.5123.2130.36.07.1Hisp.拉丁美洲3,8131017.21026.8293.4277.8130.0137.47.57.6非二元1271086.5914.9374.0189.195.0119.77.85.9顺位妇女64,828668.9792.4126.1147.2110.6128.75.46.1译妇女1341115.3837.1270.5151.6119.6135.38.35.52译

下载后可阅读完整内容，剩余1页未读，立即下载