形态句法学中性别偏见的多维度评价：言语翻译中的影响和发现

94 浏览量更新于2023-12-18 收藏 909KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文在形态句法学的镜头下：言语翻译中性别偏见的多角度评价Beatrice Savoldi1，2，Marco Gaido1，2，Luisa Bentivogli2，Matteo Negri2，MarcoTurchi21特伦托大学2布鲁诺·凯斯勒基金会beatrice. unitn.it{mgaido,bentivo,negri,turchi}@fbk.eu摘要性别偏见在很大程度上被认为是一种影响语言技术的问题现象，最近的研究强调它可能在不同的语言中表现得不同。然而，目前的评价实践大多采用词层面的评价方法，在综合条件下只关注一组狭窄的职业名词。这种协议忽略了语法性别语言的关键特征，其特征是性别协议的形态句法链，标记在各种词汇和词性（POS）上。为了克服这一限制，我们丰富了自然的、性别敏感的Must-SHE语料库（Ben-tivogliet al. ，2020），并探讨性别偏误对不同词汇类别和一致现象的影响程度。专注于语音翻译，我们对三种语言方向（英语-法语/意大利语/西班牙语）进行了多方面的评估，模型在不同的数据量和不同的分词技术上进行了训练。通过揭示模型行为、性别偏见及其在多个粒度级别上的检测，我们的发现强调了专门分析的价值，而不仅仅是聚合的整体结果。1介绍正如Matasovic（2004）所指出的：“性别也许是唯一能唤起激情的语法范畴--而且不仅仅是在语言学家中。” That is because, 因此，性别特征与个人的社会文化和政治感知和代表性相互作用（Gygaxet al. ，2019年），通过促进对性别群体及其语言可见性的适当承认的讨论（ Stahlberg et al. ， 2007; Hellinger andMotschenbacher，2015; Hord，2016）。这种关注也投资了语言技术（Sun et al. ，2019年; Cao和Daumé III，2020年），其中已经表明，自动翻译系统在翻译成语法性别语言时倾向于过度代表男性形式并放大刻板印象（Savoldi et al. ，2021年）。目前用于评估机器翻译（MT）和语音翻译（ST）中性别偏见的评估实践通常只关注有限的一组来检查此类相关行为的职业名词（如护士，医生），并在合成基准（ Stanovsky et al. ， 2019; Escudé Font andCosta-jussà，2019; Renduchin-tala et al. ，2021年）。此外，即使依赖于词汇更丰富的自然基准，设计的指标仍然在单词级别工作，不加区别地对待所有性别标记的单词（ Alfrenietal. ，2020; Bentivogli et al. ，2020）。因此，当前的测试集和协议：i）不允许我们检查不同的词类别是否以及在多大程度上参与性别偏见，ii）忽略了一致链上语法性别的潜在形态句法性质，这不能在单个孤立的词上监测（例如， en ： a strange friend;it ： una/o strana/oamica/o）。事实上，为了语法正确，链中的每个词都必须具有相同的（阳性或阴性）性别形式。1我们认为，包括分析不同词性（POS）的性别一致性在内的细粒度评估不仅有助于更深入地了解语法性别语言中的偏见，而且有助于为缓解策略和数据管理程序提供信息。为实现这些目标，我们的贡献如下。（1）我们丰富了Must-SHE（Bentivogli et al. ，2020年）--M T 和 ST 的唯一自然性别敏感基准 -- 具有两层语言信息：POS 和协议[1]作为类比，考虑以下（缺乏）数字一致性的情况：arXiv：2203.09866v1 [cs.CL] 2022年3月+v：mala2277获取更多论文店2（2）鉴于最近的研究探索模型设计和整体表现如何与性别偏见相互作用（ Roberts etal. ，2020; Gaido等人，2021），我们依靠我们的手动策划的资源来比较三个ST模型，这些模型是在不同的数据量上训练的，并且是用不同的分割技术构建的：字符和字节对编码（BPE）（Sennrich et al. ，2016）。我们进行了一项多方面的评估，包括对三种语言对（en-es，en-fr，en-it）的自动和广泛的人工分析，我们始终发现：i）并非所有的POS都受到性别偏见的影响;ii）翻译一致的单词并不成为一个系统性问题;（三）ST系统产生了大量中性的改写，而不是性别标记的解释，而目前的二元基准没有认识到这一点。最后，根据并行研究，我们发现，iv）字符为基础的系统有优势，翻译性别现象，有利于形态和词汇的多样性。2背景虽然自然语言处理（NLP）的研究最初优先考虑狭隘的技术干预，以解决语言技术的社会影响，但我们最近证明了向更全面理解偏见的转变（ Shah et al. ， 2020; Blodgett et al. ，2020）。沿着这条线，重点放在模型内部和输出的偏差分析上（Vig et al. ，2020; Costa-jussà et al. ，2022），并确定偏差测量实践的有效性（Blodgett et al. ，2021; Antoniak andMimno ， 2021; Goldfarb-Tarrant et al. ， 2021年）。越来越多的补充证据表明，- 性别偏见检测应结合上下文和语言的特殊性（González et al. ，2020; Ciora et al. ，2021;Matthews 等人， 2021; Malik et al. ， 2021;Kurpicz-Briki和Leoni，2021），然而，由于对英语NLP的高度关注而很少受到关注（Bender和Fried-man，2018）。所谓的不可知论方法和评估（Bender，2009）可能会妨碍得出可靠的结论和减轻建议，正如对语法性别语言的单语研究所证明的那样（ Zhou et al. ， 2019;Gonen et al. ，2019; Zmigrod et al. ，2019年）和2注释层是Must-SHE v1.2的扩展，可在以下网站免费下载：ict.fbk.eu/must-she/，使用相同的Must-SHE许可证（CC BY NC ND 4.0）图1：从自然MuST-SHE语料库的平行en-it部分翻译的性别映射示例。与英语不同，在英语中，性别只在少数词汇和代词项目（she，woman）上表达，在语法性别语言中，如意大利语，性别屈折变化（这里女性-a）在几个语言项目（例如动词-sentita，形容词-sicura）上表达一致。自动翻译场景（Vanmassenhoveet al. ，2018;Moryossef et al. ，2019）。与英语不同，语法性别语言表现出复杂的形态和句法系统，其中性别明显地标记在数字POS上（例如，动词、限定词、名词）和相关词必须在相同的性别特征上达成一致（参见图1的示例）。然而，目前的语料库和评估实践并没有完全提前系统WinoMT（Stanovsky et al. ，2019）代表了标准语料库，以评估在英语语法性别语言场景中的MT性别偏见。它已经逐渐丰富了新的功能（桑德斯等人。， 2020; Kocmi et al. ，2020 ），并适用于 ST（ Costa-jussà et al. ，2020）。虽然此资源可用于大规模诊断性别刻板印象，但它排除了语言的特殊性，因为它是建立在为英语单语任务3 - WinoGender设计的两个语料库的连接上的（Rudinger et al. ，2018）和WinoBias（Zhao et al. ，2018年）-由具有相同结构的合成句子组成，预先选定的职业词汇（例如，一份糟糕的工作”）。4为了增加可变性，Troles和Schmid（2021）通过伴随具有高度性别刻板印象的动词的职业来扩展WinoBias[3] González等人（2020）指出，用于定义刻板印象关联的美国劳动力市场统计数据并不总是与其他国家的性别统计数据一致，因此它们可能会在其他语言场景中强加以英语为中心的框架来检测偏见。4Levy et al.（2021）最近在自然英语数据上创建了BUG，但仍然限于职业评估+v：mala2277获取更多论文和形容词然而，他们的评估仍然只考虑翻译的专业，以验证是否同现词可能会扭曲模型的假设。然而，性别标记还涉及其他几个迄今为止较少考虑的POS类别，但它们是否同样有问题尚不清楚。现有双语（Alfreni et al. ，2021年），和多语种（本蒂沃利等。，2020），而是人工地策划自然基准，以识别在所述语言上具体地建模的各种性别现象。因此，他们最大限度地提高了词汇和语境的可变性，以考察翻译模型是否会在类似现实世界的场景中产生女性的代表性不足（Savoldi et al. ，2021年）。然而，由于这种可变性没有映射到细粒度的语言信息中，因此对此类语料库的评估并没有挑出哪些实例可能对性别偏见更负责。最后，由于孤立地考虑每个词，他们忽视了性别一致的潜在特征，而这些特征决定了翻译的语法可接受性。据我们所知，目前只有两部作品涉及句法一致性和性别偏见问题Renduchintala和Williams（2021）设计了一组包含句法结构的英语句子，要求根据其明确的那个护士是个有趣的人）。虽然他们发现机器翻译即使在这样一个简单的环境中也很难，但他们只检查了一个消歧词（护士）的翻译，而不是一整组一致的词。更接近我们的意图，Gaido et al. （2020）分析了不同ST系统的输出，并注意到他们的模型似乎错误地为同一句话中不相关的词选择了不同的性别变化（例如， en ： As aresearcher ， professor;fr ： EntantquechercheuseF，professeurM），但不适用于与依赖性相关的人（例如：en：The classic Asianstudent;it：[Laclassicastudentessaasiatica]F）。虽然范围有限，但他们的观察值得系统地因此，我们进行了第一项研究，交叉POS，协议和性别偏见。3Must-SHE富集鉴于上述情况，对以POS和性别协议为重点的偏见进行细粒度评估需要创建一个新的专用资源。我们没有从头开始构建它，而是在现有的Must-SHE工作台上添加了两个注释层发言部分(a)SRC作为第一批女性之一。REFfrEntantquel ' une P r o n des premièr es A d j − de tfemmes..(b)SRC作为一个在尼日利亚长大的孩子.REF它尼日利亚的婴儿名词cresciutoVerb(c)SRC然后一个了不起的同事.REFesLu e goun aA rtasomb r osaA dj-descol eg a.协议(d)SRCI是第一位穆斯林返校节皇后，索马里第一位学生参议员REFesFui [la primerareinamusulmana] delbaile，[la primera senadora] somalíestudiantil.(e)SRC她也对研究感兴趣。REF它他[他的名字]是一个很好的名字。(f)我也成了一名高中教师。REFfr我也是高中生。表1：根据POS和[一致性链]注释的MuST-SHE目标性别标记词为了简单起见，没有示出替代的错误性别标记的词>Mark（Bentivogli et al. ，2020年），这是建立在从TED演讲检索的口语数据。可用于en-es/fr/it ，它代表了唯一的多语言 MT 和STGBET5，展示了自然多样的性别现象，在女性和男性形式之间保持平衡。在语料库的参考译文中，每一个目标性别标记词--<<如第4.2节中进一步讨论的，这样的特征可以对性别实现进行细粒度分析，这也可以区分系统– over feminine forms – in因此，Must-SHE允许在真实条件下识别和精确评估大量和定性不同的语法性别实例。此外，Must-SHE（es，fr，it）中涵盖的目标语言特别适合关注语言特异性。事实上，正如Gygax et al. （2019）建议，在具有相似类型学特征的语言中考虑性别可以进行适当的比较。65性别偏见评估测试集（Sun et al. ，2019）。6我们强调，我们的专用资源和实验有意解释了三种（可比较的）语法性别语言的特殊性因此，我们仍然谨慎地将我们的注释和实验结果默认扩展到任何其他语言。+v：mala2277获取更多论文3.1现象分类词性。我们在Must-SHE中用词性信息标注每个目标性别标记词。如表1（a-c）所示，我们区分了六个POS类别：7i）文章，ii）代词，iii）名词，和iv）动词。对于形容词，我们进一步区分v）具有次要语义意义的限制性形容词，这些形容词决定了例如拥有，数量，空间（我的，一些，这个）;以及vi）表达属性和品质的描述性形容词，例如高兴，疲惫。这种区分使我们能够将我们的POS类别整齐地分类为功能词的封闭类，或内容词的开放类（Schachter和Shopen，2007）。由于这两类词在变异性、频率和语义上有很大的不同，我们认为它们代表了一个相关的协议我们还丰富了Must-SHE与相关的语言信息，以调查语法性别一致的形态句法性质。性别一致或和谐（ Corbett ， 2006;Comrie ，1999）要求相关的词匹配相同的性别形式，如短语，即构成单个语言单位的单词组。[8]因此，如表1所示，我们将构成短语的性别标记词（如名词加修饰语（d）和复合时态的动词短语（e））识别并注释为一致链。此外，涉及性别标记（半）系动词及其表语补语的结构被注释为链（f），埃内en-fr恩伊特M-SHE全部POS（总计）2099190620266031艺术4873254131225代词1046148213拉克代118106149373拉斯代6765764481700名词6073443461297动词1074946221223AGR-CHAIN4202934211080表2：每种语言和整个Must-SHE语料库中的POS和协议链的分布。指定的目标语言。对于每一对语言，他们都根据详细的指导方针（见附录A）独立地注释了整个语料库。对于POS，我们使用kappa系数（在Scott的π公式中）计算了标签分配的注释者间一致性（IAA）所得值为0.92（en-es）、0.94（en-fr）和0.96（en-it）对应于对于性别一致性，根据两个注释中完全链的精确匹配计算IAA。由此得出的Dice系数（Dice，1945）为89.23%（en-es）、93.0%（en-fr）和94.34%（en-it），考虑到后一项任务的更复杂性质，可以认为是非常令人满意的。除了从数据集中排除的少数临界病例外，所有不一致均得到了协调。我们在表中显示了最终的注释统计信息二、语言之间的差异是由于固有的跨语言差异。[10]虽然他们的讨论超出了本书的范围，但总的来说，这些数字强调了迄今为止在很大程度上未考虑的性别在词汇类别中的变化。尽管在这种情况下，协议约束“较这个注释让我们验证一个模型是否始终为链中的所有单词选择相同的性别范式，从而能够评估其组合行为。3.2人工注释词性标注和一致性标注由6名标注者（每对语言2名）手动完成，他们拥有语言学/翻译研究硕士学位，并且在7一些POS类别（例如，连词、副词）不被考虑，因为它们不受性别变化的影响。[8]如果不遵守约定，这个单位就不符合语法，例如es：*elMbuenMninãF（en：好孩子）。4实验环境4.1语音翻译模型我们的实验借鉴了探索整体系统性能、模型大小和性别偏见之间关系的研究 Vig et al.（2020）指出，偏差随着模型大小的增加而增加，因为较大的系统可以更好地模拟有偏差的训练数据。在 WinoMT/ST 上， Kocmi 等人（2020）将更高的BLEU分数与性别刻板印象联系起来，而Costa-jussà等人（2020）表明，性能较低的系统倾向于产生较少的职业女性翻译，但较少依赖于立体声典型线索。为了解释这些发现，并在自然条件下观察不同模型的行为，9这种结构，由于某些连系动词的语义可以实现更大的灵活性。例如在法语中， Elle estdevenueFunMcanardM（她变成了一只鸭子）是语法上的，尽管un canard（鸭子）在形式上是阳性的。[10]例如，西班牙语不像法语或意大利语那样依赖于性别强制作为助动词，导致带有性别标记的动词较少（fr：est parti/ie; it：è partita/o; es：se ha ido）。+v：mala2277获取更多论文我们使用三种端到端ST解决方案进行实验，即：LARGE-BPE、SMALL-BPE和SMALL-CHAR（有关模型和训练设置的完整详细信息，请参见附录B为实现最先进的性能而开发的LARGE-BPE模型依赖于Transformer （Vaswani等人，，2017），并通过应用BPE分割（Sennrich etal. ，2016）。为了实现高性能，我们利用了：i）所有可用的ST训练语料库的语言解决，即 Must-C （ Cattoni et al. ， 2021 ）和Europarl-ST（Iranzo-Sánchez et al. ，2020）;ii）合并数据增强方法（Nguyenet al. ，2020;Park等人，2019; Jia et al. ，2019年）;以及iii）来自ASR和MT的知识转移技术，即组件预培训和知识蒸馏（ Weiss et al. ， 2017 a;Bansal et al. ，2019）。11在BLEU评分方面-en-es为34.12，en-fr为40.3，en-it为27.7-我们的LARGE-BPE模型与最近发表的关于MuST-C测试数据的结果（ Le 等人， 2021 12 和Bentivogli等人，2021 13）相比毫不逊色。2021年13）。其他系统（ SMALL - BPE 和 SMALL -CHAR）也采用相同的（基于transformer的）核心技术构建，允许在BPE和字符级标记化的不同功能之间进行苹果对苹果的比较，即：i）BPE在管理几种协议现象方面的句法优势（ Sennrich ， 2017; Ata-man 等人， 2017年）。，2019），和ii）在概括形态学方面的字符水平的更高能力（ Be-linkovet al. ，2020）。鉴于性别的形态和句法性质，这种差异使它们成为进一步分析的诱人候选人。到目前为止，Gaido等人（2021）进行了唯一一项研究，将两种分割方法和性别偏见相互作用，并发现-尽管总体性能较因此，为了与（Gaidoet al. ，2021年），我们在相同的（受控）数据条件11我们知道，Must-C和Europarl-ST的特点是大多数（ 70% ）男性发言者（ Gaido 等人）。， 2020;Vanmassenhove et al. ，2018）。尽管其他ASR和MT培训资源的综合统计数据不可用，但我们可以合理地假设它们具有类似的偏倚。12en-es为28.73美元，en-fr为34.98美元，en-it为24.96美元。1332.93在en-es，28.56在en-it。即只在Must-C语料库4.2评价方法我们采用丰富的Must-SHE语料库，作为- sess通用性能和性别翻译在几个级别的粒度。在自然条件下评价性别翻译，有利于考察各种信息现象。然而，与此同时，自然语言的内在事实上，发布的 Must-SHE 评估脚本（ Gaido etal. ，2020）首先测量数据集覆盖率，即系统生成的注释单词的比例，因此可以测量性别翻译。然后，它计算性别准确度，即在可测量的词中以正确性别生成的词的比例。因此，所有超出覆盖范围的词都必须不被求值.对于所有字一级的性别平等评价（各节5.1和5.2），我们像在官方Must-SHE脚本中一样计算准确性，并包括基于POS注释的分数相反，对于链级性别一致性评估（第6.1节），我们修改了原始脚本，以处理完整的一致性链，而不是单个单词。14最后，由于我们的目标是获得对系统行为的定性洞察这种广泛的手动评估是通过系统输出的系统注释来完成的因此，我们设法使我们的研究完全详尽，涵盖每一个性别标记的实例必须她。此外，这种辅助手动评估用作概念验证，以确保所采用的辅助评估度量的有效性。14脚本与Must-SHE注释扩展一起发布。+v：mala2277获取更多论文∼∼表3：在Must-SHE上计算的BLEU、覆盖率和性别准确性（百分比）分数。5词级评估5.1总体质量和性别翻译表3列出了SacreBLEU（Post，2018）、15个覆盖年龄和性别在Must-SHE测试集上的准确性评分所有语言方向都呈现出一个一致的趋势：大型BPE系统毫无疑问达到了迄今为止最高的整体翻译质量。此外，与先前的分析（DiGangiet al. ，2020年），SMALL-BPE型号的性能比CHAR型号高出1个BLEU点。LARGE-BPE模型更高的整体翻译质量也反映在覆盖率得分（All-Cov）上，其中它们为所有语言对生成了最多数量的Must-SHE性别标记单词。然而，通过转向整体性别准确性（ All-Acc），以前为更大的最先进系统评估的优势不再明确。对于en-es和en-fr，LARGE-BPE系统仅比并发的SMALL-CHAR高出2分此外，对于en-it来说，SMALL-CHAR被证明是最好的性别翻译。我们进一步放大了女性（F-Acc）和男性（M-Acc）形式的性别转换的比较，在那里我们可以立即评估所有ST模型都倾向于不成比例地产生男性形式（平均而言，F为53.1%，M为81.3%）。然而，关注LARGE-BPE模型，我们发现它们更高的全局性别准确性（ All-Acc）实际上是由于更高一代的男性形式，而当涉及到女性翻译时，它们并不有利。事实上，尽管实现了最低的通用翻译质量，但SMALL-CHAR在处理女性性别翻译方面与LARGE-BPE鉴于上述情况，我们的研究结果重申了专门评估的重要性，与holis不同，15BLEU+c.混合+#.1+s.exp+tok.13a+v.1.4.3图2：女性vs.封闭式和开放式词汇的男性准确性得分。动词F-Acc M-Acc名词F-Acc M-Acc拉斯代F-Acc M-Acc埃内BPECHAR44.460.093.884.221.137.489.089.757.461.280.079.7en-frBPECHAR51.368.479.875.016.427.493.595.350.663.078.681.4恩伊特BPECHAR63.766.783.789.228.633.392.294.362.070.676.784.5表4：每个开放类POS的女性与tic metrics能够解开性别现象。因此，我们可以确认，较高的通用性能并不意味着产生女性性别的优越能力。根据Gaido等人（2021），这不仅出现在（小型）BPE和基于焦炭的ST模型的比较中。相反，即使是更强大的系统，我们证明如何从大量的未经策划的和合成的利润（本德等人。，2021年）-数据并不能提供解决性别偏见的优势。这促使我们继续进行多方面的评估，只考虑小模型--5.2词类和词性在更细的粒度级别上，我们使用我们的扩展Must-SHE来检查开放和封闭类单词中的性别偏见。它们对虚词的覆盖范围在74-81%之间，但对实词的覆盖范围缩小到44-59%（见附录C.1）。考虑到语言中功能项目的变异性有限和频率高，这是意料之中的。相反，女性和男性形式的覆盖率在所有系统的每个类别中都是一样的，因此我们可以在生成的单词的可比比例上评估性别准确性。图2的鸟瞰不同语言和不同系统之间的这种一致性表明，实词在更大程度上参与了Bleu全覆盖所有accF-Acc M-Acc小号-BPE27.665.064.145.879.6埃内小号-字符26.564.267.352.879.6大型-BPE34.172.069.152.883.6小号-BPE25.955.764.950.378.1en-fr小号-字符24.255.968.557.778.2大型-BPE34.364.370.957.183.4小号-BPE21.053.167.752.380.3恩伊特小号-字符20.752.671.657.283.9大型-BPE27.559.269.152.285.4+v：mala2277获取更多论文∼性别偏见因此，我们通过查看每个POS的结果分类来分析这个更有问题的类，而对于虚词的性别准确性表4给出了动词、名词和描述性形容词的结果。首先，在系统性能方面，CHAR仍然是女性翻译最喜欢的模式。然而，值得注意的是，即使在同一个类中，我们也观察到了明显的波动，名词作为最有偏见的词性出现，M和F的准确性之间存在巨大的差距具体而言，低于50%的分数表明女性形式的生成概率低于随机选择，因此表明存在极强的偏差。根据这一发现，我们假设语义和分布特征可能是解释词的性别倾斜的一个具体来说，职业词汇（如律师，教授）构成了Must-SHE中的大部分名词（70%）。虽然TED数据中如此高的职业比例本身并不令人惊讶，但它指出，职业实际上可能代表了一个系统在很大程度上依赖虚假线索来执行性别翻译的类别，即使在自然条件下也不会模糊地提示刻板印象。我们排除了POS的基本标记频率作为解释我们结果的关键因素，因为Must-SHE女性名词并不总是出现在出现次数最少的POS中，它们在Must-C训练数据中也没有最低的F：M比率正如第8节所讨论的，我们相信我们对每个POS的细分是有信息性的，因为它提示了关于如何在模型和语料库中寻求性别偏见缓解的定性考虑（Czarnowska et al. ，2021; Doughman等人，2021年）。5.3人工分析我们手动检查CHAR和BPE系统如表5所示，我们的分析区分了OOC单词，原因是i）翻译错误（Err），17和ii）预期性别标记单词的适当替代翻译（即含义等同）。这些替代方案包括可接受的词语省略的16由于TED演讲是由领域专家主持的，因此提到教育和头衔是很常见的（MacKrill et al. ，2021年）。17错误从拼写错误到完全的胡言乱语。ERRORSSRC罗伯特变得恐惧和退缩。REF它罗伯特·迪维内·蒂莫罗索和雷瑟瓦托。哦，别说了罗伯特和约翰分手了。（罗伯特变得害怕，约翰）替代品他是一个艺术家。REFfr是个艺术家。OUTfrC' était（）艺人。Alt-CSRC这些女孩[.]，他们是如此兴奋... REFesEstas niñas [.]他的表情是. OUTesEstas chicas[.]，estánentusiasmadas.Alt-WSRCMom [.] 成为经理…REF它妈妈[.] vennemessa a capo di. 哦，别说了Lamadre [.] diventamentacionalcapodi.alt-NSRC我感觉很好。REFfrJemesuissentivrajubienOUTfr我感觉很好。表5：OOC词的分类。图3：每个系统中由于翻译错误和替代翻译而导致的OOC单词比例。（Alt-O）（Baker，1992），以及通过同义词或释义改写由于我们的重点仍然是性别翻译，我们区分这种改写时产生的正确（Alt-C）或错误（Alt-W）的性别变化，以及中性表达缺乏性别标记（Alt-N）。请注意-关于英语（Cao和Daumé III，2020 ; Vanmassenhove等人。，2021;Sunet al. ，2021）-克服语法性别语言中性别规范的结构普遍性是极具挑战性的（Gabriel et al. ，2018a），但一些改写可以启用间接中性语言（INL）18（López，2020）。分析结果如图3所示。令人惊讶的是，我们发现BPE模型-19因此，CHAR模型产生的备选方案比例总体较高，更重要的是，其性别转换可接受的备选方案（-N，-C）。这表明，CHAR输出的特点是具有有利的充分可变性，18INL依赖于通用表达，而不是针对性别的表达（例如服务与服务员/女服务员）见第8节。[19]我们注意到，CHAR+v：mala2277获取更多论文∼∼表达词汇意义和性别意识比BPE更好。此外，请注意，手动分析的结果重申了基于单词级别准确性的自动评估所获得的结果，从而证实了其可靠性。最后，我们发现所有系统在其输出中产生相当数量的中性为了深入了解这些中性化，我们审计了它们被实现的POS。因此，我们发现形容词和名词的中和作用相当有限，并且涉及到外音同义词的产生（例如en：happy;es-ref：contento/a;es-out：feliz）。相反，动词在很大程度上与这种现象有关，因为时态和体范式中的屈折变化不表达性别区别的动词（现在的，不完成的）是可行的（见表5中的-N例子）。事实上，动词的这种替代范围也反映在其在所有POS中的覆盖率最低最后，基于动词的释义也代表了在输出中抵消其他POS的最常见方式。由于这样的表达对于几种情况是合适的，甚至是优选的（例如，替代阳性仿制药，以避免做出未经许可的性别假设），我们的发现鼓励创建解释这样的第三个可行方向的测试集，并且可以揭示系统6性别协议评价6.1自动分析我们多方面分析的最后一步超越了词汇层面，检查翻译中的一致为此，我们将覆盖率定义为生成的链与Must-SHE中注释然后，所生成的链的准确性解释了3种不同的情况，其中：i）一致性得到尊重，并且具有正确的性别（C）;ii）一致性得到尊重，但是具有错误的性别（W）;以及iii）女性和男性的性别变化一起发生，因此一致性不被尊重（否）。表6显示了所有MuST-SHE一致性链（All）的准确性评分，也分为阴性（ F）和阳性（M）链。总体结果是有希望的：我们发现很少的情况下（字面上1或2），ST系统产生一个不符合语法的输出，打破性别认同（NO）。事实上，这两个系统往往是一致的，与一个选定的性别为整个设计-所有女性阳刚CW没有CW没有CW没有埃内BPE74.324.61.233.964.41.795.53.60.9char78.421.00.642.457.60.096.62.60.9en-frBPE67.931.01.254.145.90.078.719.12.1char76.722.31.057.540.02.588.911.10.0恩伊特BPE71.727.50.747.450.91.888.911.10.0char78.520.01.554.244.11.797.41.31.3表6：所有匹配链的一致性结果在Must-SHE中，并分裂成女性和男性链。准确性评分为与正确性别（C）的一致性、与错误性别（W）的一致性、不一致性（NO）。悬垂组。因此，尽管先前的机器翻译研究得出结论，基于字符的分割导致更差的句法能力（Belinkovet al. ，2020年），尊重和谐似乎不是一个问题，我们的任何小型ST模型。然而，为了可比性，我们注意到，我们的评估涉及的语言对并不广泛诉诸于长期依赖关系;这可能有助于解释为什么CHAR更好地处理正确的性别协议。20总体而言，与单词水平相比，协议翻译的覆盖率较低（30-50%）（虽然考虑到生成具有多个单词的完整链的严格要求，这是预期的，但我们通过下面讨论的全面手动评估来恢复这样的损失6.2人工分析我们的人工检查从CHAR和BPE输出中总共恢复了1，200个OOC协议链。类似于单个单词的方法（第5.3节），我们区分OOC链是由于：i）翻译错误（Err），ii）保留源含义的替代翻译我们区分不同类型的替代品。第一，没有表现出形态同步策略一致现象的替代词需要判断，如中性释义或由单个词组成的改写（NO链）。相反，当生成的替代链显示性别标记时，我们区分所选择的性别是正确的（C），错误的（W），或者系统是否产生不尊重性别一致性的链，因为它结合了女性和男性的性别变化（NO）。这种OOC链分类的结果[20]由于篇幅所限，我们参考附录D.2来分析主谓一致的较长范围的情况。+v：mala2277获取更多论文图4：每个系统中由于翻译错误或替代协议翻译而导致如图4所示。有趣的是，这些结果只是部分证实了以前的分析。一方面，与5.3节中讨论的OOC单词因此，它似乎是CHAR能力，在生产足够的替代品仅限于单个字的水平，而它表现出更高的故障率较长的序列。另一方面，通过观察替代链，CHAR仍然是最适合正确翻译性别协议的链，具有正确性别（C）的链比例最高，而具有错误性别（W）的链比例最低。最后，再次根据我们的自动评估（表6），我们确认尊重一致性对于我们的ST模型不是问题：我们仅识别出3例（2例为en-frBPE，1例为en-frCHAR）一致性被破坏（否）。鉴于此类情况的罕见性，我们无法对这些异常值的性质得出明确的结论。尽管如此，我们还是会检查协议未得到尊重的情况（包括覆盖范围我们看到，不协调的情况也涉及到极其简单的短语，由一个名词及其修饰语组成（例如：zh ： talk-[1][2][3][4][5] because he; fr ：parler à [cetteFinventeurM].，parce qu' il）。然而，这些异常值中最常见的类型是带有半系动词的结构（例如en：She... [成为兽医];它：. E' [ diventata F un M veterinatrio M ]），如第节所述，3.17结论语法性别语言的复杂系统为不同的词汇范畴带来了几种形态句法含义。在本文中，我们强调了这些含义，并探讨了不同的词性和语法一致性如何参与性别偏见。为此，我们用新的语言信息丰富了Must-SHE基准，并对用不同分割技术和数据量构建的ST模型的行为进行了广泛的评估。在三种语言对（英语-法语/意大利语/西班牙语），我们的研究表明，虽然所有的POS受到男性倾斜，他们没有受到同样程度的影响。相反，在翻译相关词汇时尊重性别一致性，对当前的ST模式来说不是一个问题我们还发现，ST产生了相当数量的中性表达，适合于取代性别变化的，但目前的测试集不承认。总的来说，我们的工作重申了专门分析的重要性，与整体指标不同，它可以挑出系统对性别现象的行为。因此，我们的研究结果与以前的研究结果一致，表明尽管通用性能较低，但基于字符的分割在处理不同粒度级别的fem-inine翻译时表现出更好的能力。由于我们的Must-SHE扩展可用于ST和MT，我们邀请MT研究从我们的发现和资源开始致谢我们要感谢FBK 2021年夏季实习生的贡献：Francesco Fernicola ， Sara Giuliani ， LorenaRocio Martín，Silvia Alma Piazzolla，MélaniePrati，Jana Waldmann。这项工作之所以能够完成，要归功于他们广泛的注释工作和积极参与富有成果的讨论。8影响声明在本文中，我们评估是否以及在何种程度上ST模型表现出偏见的行为，系统地和不成比例地青睐的mascu- line形式在翻译。这种行为是有问题的，因为它通过降低女性的可见度而导致代表性不足的伤害（Blodgettet al. ，2020;Savoldi et al. ，2021年）。更广泛的影响。虽然这项工作的重点是分析本身，但我们的见解引发了更广泛的考虑。具体而言，我们对数据大小/细分技术与性别偏见之间关系

下载后可阅读完整内容，剩余1页未读，立即下载