预训练语言模型的因果关系与评估方法

163 浏览量更新于2023-11-30 收藏 714KB PDF 举报

评估方法

可靠性验证

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文Prompt可以探测预先训练的语言模型吗？从因果关系的角度曹伯熙1，3，李宏宇1，韩贤培1，2，4，李方超1，3，李素1，2，1中国信息处理实验室2中国科学院软件研究所计算机科学国家重点实验室，北京3中国科学院大学，中国4北京人工智能研究院，中国{boxi2020,hongyu,xianpei,fangchao2017,sunle}@iscas.ac.cn摘要基于语义的探测已被广泛用于评估预训练语言模型（PLM）的能力。不幸的是，最近的研究发现这样的评价可能是不准确的，不一致的和不可靠的。然而，缺乏对其内部工作原理的理解，加上其广泛的适用性，有可能导致在现实世界中评估和应用PLM时为了发现、理解和量化风险，本文从因果关系的角度研究了基于风险的探测，(a) 机器学习中的常规评估。(b) 通过基于探针的PLM评估。评估目标评价结果语言表达期望效果语言相关性任务分配相关性本文着重分析了三种可能导致偏倚性结果和结论的关键性偏倚，并提出了通过因果干预来消除偏倚的方法本文为设计无偏数据集、更好的探测框架和更可靠的预训练语言模型评估提供了有价值的见解。此外，我们的结论也表明，我们需要重新思考识别更好的预训练语言模型的标准。1介绍在过去的几年里，预训练语言模型（PLMs）（Devlin et al. ，2019; Liu et al. ，2019; Brownet al. ，2020; Raffelet al. ，2020）引起了人们对评估PLM实际上需要什么知识的广泛关注。最流行的方法之一是基于提示的探测（Petroni et al. ，2019; Davison et al. ，2019;Brown et al. ，2020; Schick and Schütze，2020;Ettinger，2020; Sun et al. ，2021），其通过用任务特定的提示查询PLM来评估PLM对于特定任务例如，为了评估BERT是否知道MichaelJordan的出生地，我们可以用“Michael Jordanwas born in”查询BERT通讯作者1我们在https上公开了源代码和数据：//github.com/c-box/causalEval网站。图1：两种评价标准的图解程序。[MASK]"。目前的研究通常构造基于提示的探测数据集，并将PLM在这些数据集上的表现作为其完成相应任务的能力。这种探测评估已经广泛用于许多基准测试，例如SuperGLUE（Wang et al. ，2019; Brown et al. ，2020）、LAMA （ Petroni et al. ， 2019 ）、 oLMpics（ Tal-mor et al. ， 2020 ）、 LM 诊断（ Ettinger ， 2020 ）、 CAT （ Zhou et al. ，2020）、X-FACTR（Jiang et al. ，2020 a）、BioLAMA（Sung et al. ，2021年）等。不幸的是，最近的研究发现，通过基于探针的探测来评估PLM可能是不准确、不一致和不可靠的。例如，Poerner等人（2020年）发现，per-tension可能被高估，因为许多情况可以通过仅依赖于表面形式快捷方式轻松预测。Elazar等人（2021）表明，语义上等同的提示可能会导致完全不同的预测。 Cao 等人（2021）表明，PLM经常产生不可靠的预测，这些预测与知识相关，但与知识无关。在这些情况下，盲目地使用基于提示的探测来评估PLM，而不了解其固有的脆弱性，风险是很大的。这样有偏见的评价会让我们高估列车数据测试数架构算法假设预测器性能测试数捆绑语言表达预训练数据提示语言化PLM预测器性能arXiv：2203.12258v1 [cs.CL] 2022年3月+v：mala2277获取更多论文或者低估PLM的真正能力，错误地引导我们对模型的理解，导致错误的结论。因此，要对PLM进行可信的评估，有必要深入研究探测标准，并理解以下两个关键问题：1）通过基于探测的探测，当前的评估标准存在哪些偏差？2) 这些偏见从何而来为此，我们比较了PLM评估通过基于机器学习的探测与传统的评估标准。图1显示了它们的分歧。传统的评估旨在评估不同的假设（例如，算法或模型结构）。测试的假设独立于训练/测试数据生成。然而，这种独立性不再维持在基于数据的探测中。预训练模型、探测数据和提示之间存在更复杂的隐式连接，这主要是由于预训练数据与特定PLM捆绑在这些无意识的连接就像一只看不见的手，甚至可以从语言和任务两个方面控制评价标准。从语言学角度看，由于预训练数据、探测数据和提示都是以自然语言的形式表达的，存在着不可避免的语言相关性，这些相关性会误导评价。从任务的角度来看，预训练数据和探测数据通常是从相关分布中采样的。这种无形的任务分布相关性可能会显着偏差的评价。例如，Wikipedia是广泛使用的预训练语料库，并且许多探测数据也从Wikipedia或其扩展（诸如Yago、DBPedia或Wikidata）采样（Petronietal. ，2019; Jiang et al. ，2020a; Sung et al. ，2021年）。因此，这种任务分布相关性将不可避免地通过域重叠、答案泄漏、知识覆盖等混淆评估。为了从理论上确定这些相关性是如何导致偏差的，我们从因果关系的角度重新审视了基于概率的探测。具体来说，我们描述了使用结构因果模型（Pearl et al. ，2000）（SCM），其在图2a中示出。基于SCM，我们发现语言相关性和任务分布相关性对应于图2b-d中的三条后门路径，这导致了三个关键偏差：• 提示偏好偏差，这主要源于潜在的语言相关性，PLM和提示符之间的关系，即，提示对PLM语言偏好的适合度可能会使性能有所偏差。例如，语义等同的提示将导致不同的有偏见的评估结果。• 实例言语化偏差，主要源于PLM和言语化探测数据集之间的潜在语言学偏差，即，评估结果对同一实例的不同表述是敏感的和不一致的代表美国与美国或美国）。• 样本差异偏差，主要源于预训练和探测数据之间不可见的分布相关性，即，不同PLM之间的性能差异可能是由于其预训练语料库的样本差异这种不可见的相关性可能会误导评估结果，从而导致在实际应用中应用PLM的隐性、无意识的风险。我们进一步建议通过后门调整进行因果干预，这可以减少偏倚，并确保在给定假设下进行更准确、一致和请注意，本文并不打算创建一个此外，我们相信我们的发现不仅存在于基于机器学习的探测中，而且还将影响所有基于机器学习的应用程序到预训练的语言模型。因此，我们的结论表明，我们需要重新考虑识别具有上述偏见的更好的预训练语言模型的标准。总的来说，本文的主要贡献是：• 我们研究了基于语义的探测方法评估预训练语言模型的关键偏差，并量化了它们的风险，包括提示偏好偏差、实例语言化偏差和样本差异偏差。• 我们提出了一个因果分析框架，可以用来有效地识别，+v：mala2277获取更多论文--P|ΣP←→治疗结局混杂因素阻止后门路径的变量因果关系真实因果效应后门路径图2：事实知识探索的结构因果模型和SCM中的三条后门路径对应于三种偏见。理解并消除基于提示的探查评估中的偏见。• 我们为设计无偏数据集、更好的探测框架和更可靠的评估提供了有价值的见解，并回应了我们应该重新考虑预训练语言模型的评估标准。2背景和实验装置2.1因果推断因果推理是一种很有前途的技术，用于识别基准测试中的不良偏差和公平性问题（Hardt etal. ， 2016; Kilbertus et al. ， 2017; Kusner etal. ，2017; Vig et al. ，2020; Federet al. ，2021年）。因果推理通常通过结构因果模型（SCM）描述变量之间的因果关系，然后识别混杂因素和虚假相关进行偏倚分析，最后通过因果干预技术消除偏倚来识别真实的因果效应。SCM结构因果模型（Pearl et al. ，2000）描述了系统中的相关特征以及它们如何彼此交互。每个SCM都与图形因果模型G=V，f相关联，该模型由表示变量V的一组节点以及表示函数f的节点之间的一组边组成，以描述因果关系。因果干预为了确定有序变量对（X，Y）之间的真实因果效应，因果干预固定X = x的值，并去除X与其前一个变量之间的相关性，表示为do（X = x）。以这种方式，（Y = y do（X = x））代表治疗X对结果Y的真实因果效应（Pearl等人，2005）。，2016）。后门路径当估计X对Y的因果效应时，后门路径是X和Y之间的非因果路径，其中箭头指向X，例如，XZY.这样的路径会混淆X对Y的影响，但不会传递来自X的因果影响，因此在X和Y之间引入虚假相关。后门标准后门标准是因果干预的重要工具给定SCM中的一对有序变量（X，Y）和一组变量Z，其中Z不包含X的后代，并阻止X和Y之间的所有后门路径，则X=x对Y的因果效应可以通过以下方式计算P（Y = y| do（X = x））=P（Y = y| X = x，Z = z）P（Z =z），（1）z其中（Z=z）可以根据数据估计或预先给定，并且与X无关。2.2实验装置本文研究了基于知识的探究中最具代表性和研究最多的任务之一-等人，2021b）。例如，为了评估BERT是否知道Michael Jordan的出生地，事实知识探测查询BERT“数据我们使用LAMA（Petroni et al. ，2019）作为我们的主要数据集，这是一组从维基数据中采样的知识我们去除N-M关系（Elazar et al.#20201;不适合的。SCM后门路径Da R L DbLLDaDbC P TC PCXC不M I XM IMMXEEEE(a)结构因果模型(b)提示偏好偏差（c）实例语言化偏差（d）样本差异偏差+v：mala2277获取更多论文→联系我们联系我们P|→→联系我们联系我们P@1度量，并在数据集中保留32个探测关系。详情请参阅附录我们在 4 个著名的 PLM上进行探测实验：BERT （ Devlin et al. ， 2019 ）， RoBERTa（Liu et al. ，2019），GPT-2（Rad-ford等人，2019 ）和 BART（ Lewis et al. ，2020），其对应于3种代表性PLM架构，包括自编码器（ BERT ， RoBERTa ）、自回归（GPT-2）和去噪自编码器（BART）。3面向事实知识挖掘的在本节中，我们制定了SCM的事实知识探索过程，并描述了关键变量和因果关系。SCM如图2a所示，其包含11个关键变量：1）预训练语料库分布Da; 2）预训练语料库C，例如，用于GPT 2的Webtext，用于BERT的Wikipedia; 3）预训练的语言模型M; 4）语言分布L，其指导概念如何被口头化为自然语言表达，例如，与提示、要提及的实体的关系;5）关系R，例如，出生地、首都，每个关系对应于探测任务; 6）每个关系的口头提示P，例如，x出生于y; 7）任务特定的预测器I，其是与提示相结合的PLM，例如，作为一个出生地预测; 8）探测数据分布Db，例如，Wiki数据中的事实分布; 9）诸如LAMA的采样探测数据Tin Wikidata）; 10）关系R的动词化实例X，（例如， fromQ41421，Q18419>）; 11）预测因子I在X上的性能E。基于概率的探测评估的因果路径包括：• PLM预培训。路径 Da，LC M表示语言模型M的预训练过程，它首先根据预训练语料分布Da和语言分布L对预训练语料C进行采样，然后在C上对M进行预训练。• 提示选择。路径R，LP表示提示选择过程，其中每个提示P必须精确地表达关系R的语义，并且受语言分布L的影响。• 一代的口头禅路径D b，R不XL表示动词化探测实例X的生成过程，首先根据数据分布Db对关系R的探测数据T进行采样，然后根据语言分布L将采样数据T动词化为X。• 性能评估。的路径M，PIEX表示性能估计过程，其中首先通过组合PLM M和提示P来导出预测器I，然后通过将预测器I应用于语言化实例X来估计性能E。为了评估PLM的事实提取能力，我们需要估计（E do（M = m），R = r）。这种真正的因果效应由路径M I表示在SCM中。不幸的是，在预训练的语言模型M和性能E之间存在三个后门路径，如图2b-d所示。这些虚假的相关性使得M和E之间的观测相关性不能代表M对E的真实因果效应，必然会导致有偏的评价。在下文中，我们确定了三个关键的偏见，在基于知识的探测评估和描述的表现形式，原因，和休闲干预每一个偏见。4提示偏好偏差在基于任务的探测中，特定任务的预测器（例如，关系出生地的知识提取器）是与提示P组合的PLMM（例如，BERT +诞生于）。然而，PLM是在特定的文本语料库上进行预训练的，因此不可避免地会偏好与其预训练语料库具有相同语言规律性的提示这种隐含的即时偏好将混淆PLM对评估绩效的真正因果效应，即，绩效将受到PLM的任务能力和提示符的偏好适合度的影响。在下文中，我们通过因果分析来研究提示偏好偏差。4.1提示偏好导致不一致的性能在事实知识的探索中，我们通常为每个关系指定一个提示（例如，X出生在Y的出生地）。然而，不同的PLM可能更喜欢不同的提示，+v：mala2277获取更多论文70503010→→P→→→→← ← → →→BERT-大号RoBERTA-大号GPT 2-xl BART-大号806040200语言大陆宗教图3：使用语义等效提示时，4个PLM在4个关系上的P@1性能的方差。我们可以看到性能变化很大。无法从最后的表演中分辨出即时服从的影响因此，这种无形的即时偏好将导致不一致的结论。为了演示这个问题，我们使用每个PLM的对于每个关系，我们遵循 Elazar 等人。（2021）; Jiang et al. （2020 b）并设计至少5个语义上等同和忠实但语言表达不同的提示。提示选择显著影响性能。图3说明了几种关系的性能，其中所有PLM的性能在语义上相同的提示上有很大的不同。例如，通过使用不同的提示，在BERT-large上，关系语言的精确度从3.90%急剧变化到65.44%，在BART-large上从0.22%变化到这个结果是令人震惊的，因为同一个PLM可以从“一无所知”评估为“足够好”，只需要改变它的提示。表1进一步显示了定量结果，对于 BERT-large ，不同提示的Precision@1的平均标准偏差为8.75。并且提示选择可能导致比模型选择更大的每单位偏差：在超过70%的关系上，最佳和最差提示将导致在Precision@1处的>10点偏差，这大于不同模型之间的大多数性能差距。即时偏好也会导致不一致的比较。图4展示了一个示例，当应用不同的提示时，PLM的等级发生了显著的变化。定量实验表明，96.88%的关系上PLM的排名是不稳定的型号LAMA P@1最差P@1最佳P@1STDBERT-大型39.08 23.45 46.73 8.75罗伯塔-大32.27 15.64 41.35 9.07GPT2-xl 24.19 11.19 33.52 8.56巴特-大27.68 16.21 38.93 8.35表1：提示选择的P@1性能差异在所有关系上平均，我们可以看到提示偏好导致不一致的性能。BERT-大号RoBERTA-大号GPT 2-xl BART-大号4530150X属于YX是Y的商品 X的所有者是YX属于Y图4：使用4种不同提示的4个PLM的P@1性能，其中4个PLM的排名在不同提示上是不稳定的：提示偏好导致3个不同的当提示不同。这些结果表明，提示偏好偏差会导致不一致的绩效。这种不一致的性能将进一步导致不同PLM之间的不稳定的比较，并且因此显著地破坏了经由基于数据的探测的评估。4.2即时偏好偏差图2b显示了即时偏好偏差的原因。在评估PLM在特定任务上的能力时，我们希望测量路径M I E的因果效应。然而，由于提示P和PLM M都与语言分布L相关，因此存在后门路径MCLP我E在PLM M和性能E之间。因此，后门路径将混淆M的效果我PI E。基于上述分析，即时偏好偏差可以通过经由后门调整阻断该后门路径来消除，这需要分布（P）的先验公式化。在第7节中，我们将介绍一种可能的因果干预方案，该方案可导致更一致的评价。5实例语言化偏差除了提示偏好外，潜在的语言相关性也会导致语言偏好。+v：mala2277获取更多论文P关系提及预测America Chicago伯特首都美国华盛顿中国北京曼谷国泰航空爱因斯坦·柏林罗伯塔GPT2阿尔伯特·爱因斯坦博物馆维也纳艾萨克·牛顿伦敦艾萨克·牛顿爵士镇巴特2040 60 80 100表2：同一实体的不同语言化名称导致对BERT-large的不同预测。实例语言化过程。具体地，探测数据中的实例可以被言语化为不同的自然语言表达（例如，将维基数据中的Q30语言化到美国或美国。不同的PLM可能会因为提及覆盖率、表达偏好等原因而偏好不同5.1实例动词化带来不稳定的预测在事实性知识探索中，每个实体都被口头化为它的缺省名称。然而，不同的PLM可能偏好不同的语言表达，并且这种潜在的相关性是不可见的。由于我们表2显示了一些直观的例子。当我们询问BERT同时，如果我们把美国换成芝加哥，BERT会预测芝加哥。美国的别名。这种不稳定的预测使我们无法获得可靠的结论是否或在何种程度上PLM实际上包含的知识。为了量化实例动词化偏差的影响，我们从Wikidata中为LAMA中的每个主题实体收集最多5个动词化，并计算每个关系上的动词化稳定性，即，当言语化变化时，其预测不变的关系实例的百分比图5中的结果显示，所有四个PLM的平均语言化稳定性为40%，这表明实例语言化偏差会带来不稳定和不可靠的评估。5.2实例言语化偏误的成因图2c显示了实例语言化偏差的原因图5：4个PLM在所有关系上的言语化稳定性我们可以看到，所有4个PLM（BERT-large、RoBERTa-large、GPT 2-xl、BART-large）的言语化稳定性都很差。这源于预训练语料C和动词化探测数据X之间的语言识别混淆。因此，所观测到的M与E之间的相关性并实例言语化偏差可以通过经由因果干预阻断该后门路径来（X）。我们将在第7节中介绍一种可能的干预方案。6样本差异偏倚除了语言解释引起的偏差外，预训练语料和特定任务探测数据之间的分布相关性也会引入样本差异偏差。也就是说，不同PLM之间的性能差异可能是由于其预训练语料库的样本差异，而不是他们的能力差异。在传统的评估中，被评估的假设与训练/测试数据生成无关，并且所有假设都是在从相同分布生成的训练数据和测试数据因此，训练数据和测试数据之间的相关性的影响是透明的，可控的，并且对于所有假设都是相等的。相比之下，在基于预训练的探测中，每个PLM与唯一的预训练语料库捆绑在一起，预训练语料库分布和探测数据分布之间的在下文中，我们将详细研究这种样本差异偏差。+v：mala2277获取更多论文−--ΣΣ← ← ← → →→→ →→← ←→γ%Bert-baseBERT-large基于GPT2的GPT2培养基0%的百分比30.5433.0815.2222.11百分之二十35.7739.5622.0228.21百分之四十38.6839.7524.3230.29百分之六十38.7240.6825.4231.16百分之八十39.7941.4825.6531.88100% 40.15 42.51 26.82 33.12没有一37.1339.0816.8822.60表3：进一步预训练数据与LAMA具有不同相关度γ%的PLM在LAMA上的P@1。BERT-base和GPT 2-base都包含12层，而BERT-large和GPT 2- medium都包含24层。6.1样本差异带来偏差表现在事实知识探测中，LAMA（Petroniet al. ，2019年），从维基数据中抽样的子集，通常用于比较不同的PLM。以前的工作声称，GPT风格的模型具有比BERT更弱的事实知识提取能力，因为它们在 LAMA 上的表现更差（Petroni et al. ，2019; Liu et al. ，2021c）。然而，由于PLM是在不同的预训练语料库上进行预训练的，因此性能差异可能源于预训练语料库和LAMA之间的虚假相关性，而不是它们的能力差异。例如，BERT为了验证样本视差偏差的影响，我们进一步通过构建与LAMA具有不同相关度的预训练数据集来预训练BERT和GPT-2，并报告它们在LAMA上的新具体来说，我们在LAMA中使用维基百科片段，并收集了一个99 k句子的数据集，名为WIKI-LAMA。然后，我们通过将WIKI-LAMA中的句子与WebText 2（GPT 2的预训练语料库）混合来创建一系列预训练数据集。也就是说，我们将所有数据集的大小固定有关预培训的详细信息，请参阅表3显示了样本差异偏倚的影响。我们可以看到，1）样本差异显著影响PLM2http://Skylion007.github.io/OpenWebTextCorpusBERT和GPT-2的性能;2）样本差异导致性能差异。我们可以看到，当使用相同的数据进一步预训练GPT- 2和BERT时，它们之间的性能差距显着缩小此外，在WebText（γ=0）上进一步预训练BERT会显著降低其性能。这些结果有力地证实了样本差异会显著地使探测结论产生偏差。6.2样本差异偏倚由于预训练语料分布Da和探测数据分布Db之间的因果关系不同，样本视差偏差的原因可能与PLM和场景不同。尽管如此，样本差异偏差始终存在，因为后门路径将是M C DaDb不XE当D a是D b的祖先时，或MCDaDb不X当D a是Db的后代时， E 。图 2d 示出了当预训练语料库discriminDa是探测数据discriminDb的祖先时的常见情况。例如，预训练数据包含维基百科，并且探测数据是来自维基百科的采样子集（例如， LAMA ， X-FACTR ，BioLAMA）。因此，在M和E之间存在后门路径，这将误导评估。7通过因果干预本节介绍如何通过阻断其相应的后门路径来消除根据2.1节中的后门危机，我们需要选择一组变量Z，它可以阻止M和E之间包含进入M的箭头的所有路径。由于语言分布L、预训练语料分布Da和探测数据分布Db是不可预测的，我们选择Z=P，X作为变量集，通过进行后门调整来阻塞SCM中（M，E）P（E| do（M = m），R = r）=P（p，x）P（E| m，r，p，x）。（二更）p∈P x ∈X公式2提供了直观的解决方案。为了消除由预训练语料、探测数据和提示之间的虚假相关性引起的偏差，我们需要考虑提示和言语化探测+v：mala2277获取更多论文PPP模型原始随机+干预组Bert-base56.445.486.5BERT-large100.078.1100.0罗伯塔碱75.744.077.8Roberta-large56.142.286.5GPT 2培养基63.540.798.2GPT2-xl74.235.777.8BART基63.461.698.2BART-大号97.761.3100.0总排名25.55.568.5表4：排名超过1000个任务样本（每个任务包含20个LAMA关系）。对于PLM，排名一致性是其在1000个运行时中最受欢迎的排名的百分比对于“总体排名”，排名一致性是1000个运行时中所有PLM的最流行排名的百分比，即，所有PLM的等级保持不变。“原始”意味着我们使用LAMA的原始提示和口头名称，“随机”意味着我们每次都随机抽样提示和口头名称，“+干预”意味着我们应用因果干预。我们可以看到，因果干预后，等级一致性显着提高不考虑其他因素。因此，PLM和评估结果之间的总体因果效应是对所有有效提示和探测数据的加权平均效应不幸的是，（x，p）的精确分布是棘手的，这需要遍历所有有效的提示和所有语言化的探测数据。为了解决这个问题，我们提出了一个基于采样的近似具体地说，给定关于（x，p）的特定假设（在本文中，我们假设均匀分布而不失一般性），我们根据（x，p）对每个关系的Kp个提示和每个实例的Kx种言语化进行采样，然后根据等式2使用这些样本来估计M和E之间的真实因果效应。为了验证因果干预是否能提高评价的一致性和鲁棒性，我们在8个不同的PLM上进行了后门调整实验。我们从LAMA中随机抽取了1000个包含20个关系的子集，并观察评估结论在1000个评估运行时是否一致和稳定具体来说，我们使用排名一致性作为评估指标，它衡量每个模型在1000个运行时中最受欢迎的排名的百分比例如，如果BERT在1000个运行时中的800个中排名第3位，则BERT的排名一致性将为80%。表4显示了结果。我们可以看到因果关系干预可以显著提高评估一致性：1）目前基于随机抽样的探究评估在所有8个PLM上的一致性都很差：当我们在每次抽样中随机选择提示和言语时，总体等级一致性仅为5.5%; 2）因果干预可以显著提高总体等级一致性：从5.5%提高到68.5%; 3）偶然干预可以一致地提高不同PLM的等级一致性：大多数PLM的等级在后门调整后非常稳定。上述结果证实了因果干预是一种有效的技术，可以提高评价的稳定性，并得出更一致的结论。8相关工作近年来，基于探针的探测很流行（Rogers etal. ，2020; Liu et al. ，2021b）用于探测事实知识（Petroni et al. ，2019; Jiang et al. ，2020a;Sunget al. ，2021），常识知识（戴维森等人。，2019），语义知识（Ettinger，2020;Sun et al. ，2021; Brown等人，2020;Schick和Schütze ， 2020 ）和语法知识（ Ettinger ，2020）。一系列的优化研究考虑优化训练数据集上的提示，具有更好的性能，但可能会降低可解释性（Jiang et al. ，2020b; Shin et al. ，2020; Haviv et al. ，2021; Gao等人，2021; QinandReynner，2021; Li and Liang，2021; Zhonget al. ，2021年）。由于这种非线性调优操作会引入额外的参数和更多未知的相关性，本文不将非线性调优引入我们的SCM，将其委托给未来的工作。NLP评估中的偏见评估是NLP进步的基石。近年来，许多研究旨在调查评价中潜在的偏见和风险。相关研究包括调查当前方法中的固有偏差（Coughlin， 2003; Callison-Burch et al. ，2006; Li et al. ， 2017; Sai et al. ， 2019 年，2020年），探索数据收集和注释过程中的数据集工件（Lai和Hockenmaier，2014年; Marellietal. ， 2014; Chen et al. ， 2018; Levy andDagan，2016; Schwartz et al. ，2017; Cirik etal. ，2018; McCoy et al. ，2019; Liu et al. ，2021a;Branco等人，2021），并识别数据和标签之间的虚假干扰，这可能会导致灾难性的模型分布外的鲁棒性（Poliak et al. ，2018;Rudinger et al. ， 2018; Rashkin et al. ，2018）。+v：mala2277获取更多论文以往的研究大多从经验上论证了评价偏差，并直观地解释了其产生的原因.然而，直观的解释也很难批判和扩展。与此相反，本文从因果关系的角度研究了基于知识的探索性评价中的偏差。基于因果分析框架，我们可以从理论上识别，理解和消除偏差，并可以原则性地扩展和适应其他评估设置。我们相信，无论是因果分析工具和有价值的见解，可以有益于未来的研究。9结论和讨论本文考察了目前广泛使用的基于实例的探究性评价中存在的关键偏差，并量化了其风险，包括提示偏好偏差、实例言语化偏差和样本差异偏差。提出了一个因果分析框架，为偏差的识别、解释和消除提供了统一的框架和理论保证。我们的研究可以促进对基于数据的探测的理解，提醒当前不可靠评估的风险，指导无偏数据集的设计，更好的探测框架，更可靠的评估，并推动偏差分析从经验到理论。本文的另一个好处是提醒评估标准从传统的机器学习算法转向预训练的语言模型。如图1所示，在常规评估中，评估的假设（例如，算法、体系结构）独立于训练/测试数据集的生成而产生然而，在评估预训练的语言模型时，预训练语料库与模型架构捆绑在一起。在这种情况下，重要的是要区分你需要做什么（架构，语料库，或两者），以及预训练语料库和测试数据之间的相关性所带来的潜在风险，大多数当前的基准测试都忽略了这一点。因此，这篇文章呼应了有必要重新思考识别更好的预训练语言模型的标准，特别是在基于语义的范式下。在未来，我们希望扩展我们的因果分析框架，以适应基于调优的探测标准和所有基于PLM的评估。3.很大程度上受到了评论者的宝贵意见的启发致谢我们衷心感谢所有匿名评论者的深刻评论和宝贵建议。本研究得到了国家自然科学基金项目（62122077）、中国科学院战略重点研究计划项目（ 2005 ）、国家自然科学基金项目（ 62122077 ）和国家自然科学基金项目（2005）的资助。XDA27020200和中国国家自然科学基金资助号62106251和62076233。伦理思考这篇论文没有特别的伦理考虑。引用鲁本·布兰科，安东尼奥·布兰科，若昂·安东尼奥·罗-德里格斯，和若昂·里卡多·席尔瓦。2021.ShortcutCommonsense：常识推理。2021年自然语言处理，第1504计算语言学协会。汤姆湾 Brown ， Benjamin Mann ， Nick Ryder ，MelanieSubbiah ， JaredKaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，GirishSastry ， AmandaAskell ， SandhiniAgarwal，ArielHerbert-Voss，GretchenKrueger，Tom Henighan，Rewon Child，AdityaRamesh ， Daniel M. Ziegler ， Jeffrey Wu ，Clemens Winter ， Christopher Hesse ， MarkChen ， Eric Sigler ， Mateusz Litwin ， ScottGray，Benjamin Chess，Jack Clark，ChristopherBerner，Sam Mc- Candlish，Alec Radford，IlyaSutskever，and Dario Amodei. 2020年。语言模型是少数的学习者。在神经信息处理系统的进展33：神经信息处理系统2020年年会，NeurIPS2020，December 6-12，2020，虚拟。Chris Callison-Burch ，Miles Osborne，and PhilippKoehn. 2006. 重新评价Bleu在机器翻译研究中的作用。在第11届会议的欧洲分会的计算语言学协会，第249-256页计算语言学协会。曹博喜，林红玉，韩贤培，孙乐，严玲永，廖梦，童雪，徐进. 2021. 知识或受过教育的猜测？重新审视作为知识基础的语言模型。在Proceedings of the 59th Annual Meeting of theAssociation for Computational Linguistics and the11th International Joint Conference on NaturalLanguageProcessing （ Volume1 ： LongPapers），第1860计算语言学协会。Qian Chen，Xiaodan Zhu，Zhen-Hua Ling，DianaInkpen，and Si Wei. 2018. 神经自然语言+v：mala2277获取更多论文用外部知识增强推理模型。第56届计算语言学协会年会论文集（第1卷：长文），第2406-2417页计算语言学协会。Volkan Cirik ， Louis-Philippe Mohammed ， andTaylor Berg-Kirkpatrick. 2018. 视觉指称表达识别：系统实际上学习了什么？在计算语言学协会北美分会2018年会议记录中：人类语言技术，第2卷（短文），第781-787页，路易斯安那州新奥尔良。计算语言学协会。黛博拉·考夫林2003. 将机器翻译质量的自动化和人工评估相关联。机器翻译峰会第九届会议论文集，新奥尔良，美国。乔·戴维森约书亚·费尔德曼和亚历山大·拉什2019.从预训练模型中挖掘常识知识。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP- IJCNLP）的会议记录中，第1173计算语言学协会.Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Yanai Elazar ， Nora Kassner ， Shauli Ravfogel ，Abhi- lasha Ravichander，Eduard Hovy，HinrichSchütze，and Yoav Goldberg. 2021. 测量和改进预训练语言模型的一致性。Transactions of theAssociation for Computational Linguistics ， 9 ：1012艾莉森·艾丁格2020. BERT不是什么：语言模型的心理语言学诊断新套件的教训。Transactions ofthe Association for Computational Linguistics ，8：34Amir Feder，Katherine A Keith，Emaad Manzoor，Reid Pryzant ， Dhanya Sridhar ， Zach Wood-Doughty，Ja- cob Eisenstein，Justin Grimmer，Roi Reichart ， Mar-Cob E Roberts ， et al. 2021.自然语言处理中的因果推理：估计，预测，解释和超越。ArXiv预印本，abs/2109.00725。高天宇，亚当·费舍尔，陈丹琪。2021. 使预先训练的语言模型更好地用于少数学习者。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议的会议录（第1卷：长文）中，第3816计算语言学协会Moritz Hardt，Eric Price，Nati Srebro.2016年。监督学习中的机会均等。在神经信息处理系统的进展29：神经信息处理系统2016年年会，2016年12月5日至10日，西班牙巴塞罗那，第3315阿迪·哈维夫乔纳森·贝兰特阿米尔·格洛伯森2021.学习如何与BERT对话。在计算语言学协会欧洲分会第16次会议的会议记录，第3618-3623页，在线。计算语言学协会。Zhengbao J

下载后可阅读完整内容，剩余1页未读，立即下载