比利时法定条款检索数据集与最先进的检索方法

157 浏览量更新于2023-12-01 收藏 18.9MB PDF 举报

自然语言处理

法律问题

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0法语法定条款检索数据集0安托万∙路易斯（AntoineLouis）和杰拉西莫斯∙斯帕纳基斯（GerasimosSpanakis）法律与技术实验室，马斯特里赫特大学0{a.louis, jerry.spanakis}@maastrichtuniversity.nl0摘要0法定条款检索是自动检索与法律问题相关的法律条款的任务。尽管自然语言处理的最新进展引起了许多法律任务的广泛关注，但法定条款检索仍然主要未被触及，原因是缺乏大规模和高质量的标注数据集。为了解决这个瓶颈，我们引入了比利时法定条款检索数据集（BSARD），该数据集由经验丰富的法学家用来自比利时法律条款语料库的1,100多个法语本地法律问题进行标注。使用BSARD，我们对几种最先进的检索方法进行了基准测试，包括词汇和密集架构，包括零样本和监督设置。我们发现，经过微调的密集检索模型明显优于其他系统。我们最好的基准模型在100个结果中达到了74.8%的R值，这对于任务的可行性是有希望的，并且表明仍有改进的空间。由于领域的特殊性和所涉及的任务，BSARD为法律信息检索的未来研究提供了一个独特的挑战问题。我们的数据集和源代码是公开可用的。01 引言0法律问题是许多人生活中不可或缺的一部分（Ponce等，2019年）。然而，大多数公民对自己的权利和基本法律程序几乎一无所知（Balmer等，2010年）。随着互联网成为解决生活问题的主要信息来源（Estabrook等，2007年），人们在面临法律问题时越来越多地求助于搜索引擎（Denvir，2016年）。然而，搜索引擎的法律帮助结果质量目前令人不满意，因为排名靠前的结果主要是将人们引导到提供基本信息以宣传盈利服务的商业网站（Hagan和Li，2020年）。平均而言，只有五分之一的人能够获得满意的帮助。0人们越来越多地从互联网上获取帮助来澄清或解决他们的法律问题（Ponce等，2019年）。因此，许多无法支付法律专家昂贵援助费用的弱势公民被剥夺了保护甚至被剥削的权利。无法获得法律信息的障碍在法律体系内造成了明显的不平衡，阻碍了所有人平等获得司法的权利。人们并不需要法律服务本身；他们需要法律服务可以提供的结果。自然语言处理的最新进展结合了法律领域中日益增多的数字化文本数据，为人们与法律之间的鸿沟提供了新的可能性。例如，法律判决预测（Aletras等，2016年；Luo等，2017年；Zhong等，2018年；Hu等，2018年；Chen等，2019年）可以帮助公民找到案件和其结果之间的有见地的模式。此外，法律文本摘要（Hachey和Grover，2006年；Bhattacharya等，2019年）和自动合同审查（Harkous等，2018年；Lippi等，2019年）可以帮助人们澄清冗长、复杂和模糊的法律文件。在这项工作中，我们专注于法定条款检索，即在给定一个法律问题（例如“签订终身租赁合同是否合法？”）的情况下，从一系列法律法规中返回一个或多个相关的法律条款（Kim等，2019年；Nguyen等，2020年），如图1所示。一个合格的法定条款检索系统可以为不熟练的人提供专业的协助服务，并在公共利益的情况下帮助弱势群体。找到与法律问题相关的法规是一项具有挑战性的任务。与传统的即席信息检索（Craswell等，2020年）不同，法定条款检索涉及两种语言：问题使用的常见自然语言和法规使用的复杂法律语言。这种语言分布上的差异极大地增加了复杂性。0arXiv:2108.11792v2[cs.CL]2022年3月15日0+v:mala2277获取更多论文Article 87Article 689Article 2274Article 1Article 1Article 10“医生、外科医生、卫生官员、药剂师、助产士和其他所有因其地位或职业而掌握的信息被托付给他们而泄露这些秘密的人，将被判处一到三年的监禁和100到1000欧元的罚款，或者仅处以这些刑罚之一 -除非被传唤作为法庭证人（或在议会调查委员会面前作证）或被法令或命令强制泄露秘密。” — 刑法第458条0相关条款0“如果我违反职业保密，我会面临什么风险？”0法律问题0模型0乡村法典刑法典民法典0立法内容0图1：在比利时法定条款检索数据集（BSARD）上执行的法定条款检索任务的示例，该数据集由法律专家精心标注，包含1,100多个问题，并提供了与比利时法规相关的文章引用。通过BSARD，模型可以学习检索与法律问题相关的法律条款。本文中展示的所有示例都是从法语翻译而来的。0检索任务间接要求具备一种内在的解释系统，该系统能够将非专家的自然问题翻译为法律问题，以便与法规进行匹配。对于熟练的法律专家来说，这些解释来自于他们对问题领域的知识以及对涉及的法律概念和过程的理解。然而，解释很少是唯一的。相反，正是解释者的主观信念赋予问题以意义，并相应地给出了可以找到答案的领域的概念。因此，相同的问题可能会根据其解释产生通往期望结果的不同路径，使得法定条款检索成为一项困难且耗时的任务。0此外，法定法律不是一堆独立的条款，不能单独作为信息的完整来源 -不像新闻或食谱。相反，它是一个结构化和分层的法律规定集合，只有在其整体上下文中才具有完整的意义，即与其相邻条款的补充信息、它们所属的领域和子领域以及它们在法律层次结构中的位置一起考虑。例如，对于问题“我可以终止雇佣合同吗？”的答案通常可以在劳动法中找到。然而，如果雇主与自雇工人签订合同来执行特定任务，则不一定如此，此时答案可能位于合同法的更高层次。这个例子说明了在寻找相关法定条款时考虑问题的上下文和理解法律的分层结构的重要性。0为了研究检索模型是否能够近似法律专家的效率和可靠性，我们需要一个合适的标记数据集。然而，考虑到虽然法律规定通常是公开可访问的（但通常不是以机器可读的格式），但公民提出的问题却不是。本研究的主要贡献是提供了一个新颖的法语本地专家标注的法定条款检索数据集。我们的比利时法定条款检索数据集（BSARD）包括超过1,100个比利时公民提出的法律问题，并由法律专家进行标注，并提供了大约22,600个比利时法律条款的相关文章引用。作为第二个贡献，我们通过比较词汇和密集架构的多样化最新检索方法，在BSARD上建立了强大的基准。我们的结果表明，经过微调的密集检索模型明显优于其他方法，但仍有改进的空间。我们在https:上公开发布我们的数据集和源代码。0//github.com/maastrichtlawtech/bsard .02 相关工作0由于法律文本数据的数字化程度越来越高，自然语言处理（NLP）社区最近引入了越来越多的数据集，以帮助研究人员在几个法律任务上构建可靠的模型。例如，Fawei等人（2016年）介绍了一个基于美国国家律师考试的法律问题回答（LQA）数据集，其中包含400个多项选择题。类似地，钟等人（2020年）发布了一个基于中国律师考试的LQA数据集，包含26,365个多项选择题，以及一个包含3,382个中国法律规定和国家考试辅导书内容的证据数据库。此外，段等人（2019年）提出了一个基于中国最高人民法院1万个案例事实描述的法律阅读理解数据集，包含52,000个问题-答案对。另外，肖等人（2018年）提供了一个用于法律判决预测（LJP）的数据集，其中包含约268万个中国刑事案件，注释有183个法律条文和202个指控。同样，Chalkidis等人（2019a）介绍了一个LJP数据集，包含11,478个欧洲人权法院的英文案例，标有相关的最终决定。与此同时，肖等人（2019年）介绍了一个类似案例匹配的数据集，包含由中国最高人民法院发布的8,964个案例三元组，而Chalkidis等人（2019b）发布了一个文本分类数据集，其中包含57,000个欧盟立法文件，标有来自欧洲词汇表的4,271个标签。此外，Manor和Li（2019年）介绍了一个法律文本摘要数据集，包含446组合同部分及相应的参考摘要，而Holzenberger等人（2020年）提出了一个基于美国税法的法定推理数据集。最近，Hendrycks等人（2021年）提出了一个用于法律合同审查的数据集，包含510份合同，标有41个不同条款，共计13,101个注释。同样，Borchmann等人（2020年）介绍了一个用于合同发现的语义检索数据集，包含约600个文档中的2,500多个注释。最后，COLIEE案例法律语料库（Rabelo等人，2020年）是一个案例法律检索和蕴涵数据集，包含来自加拿大联邦法院的650个基础案例，每个案例都有200个候选案例，需要确定与基础案例相关。关于法定条文检索，唯一其他公开可用的数据集是COLIEE法规法律语料库（Rabelo等人，2020年）。它包含696个来自日本法律考试的问题，标有对日本民法相关条文的引用，其中问题和条文都已从日语翻译成英语。然而，该数据集侧重于法律考试问题回答，与普通公民提出的法律问题有很大不同。后者往往含糊不清且0+v:mala2277获取更多论文multiple-choice questions, together with a databaseof evidence that includes 3,382 Chinese legal pro-visions and the content of the national examinationcounseling book.Furthermore, Duan et al. (2019) proposed a le-gal reading comprehension dataset with 52,000question-answer pairs crafted on the fact descrip-tions of 10,000 cases from the Supreme People’sCourt of China. On a different note, Xiao et al.(2018) presented a dataset for legal judgment pre-diction (LJP) with around 2.68 million Chinesecriminal cases annotated with 183 law articles and202 charges. Likewise, Chalkidis et al. (2019a)introduced an LJP dataset consisting of 11,478 En-glish cases from the European Court of HumanRights labeled with the associated ﬁnal decision.Meanwhile, Xiao et al. (2019) introduced adataset for similar case matching with 8,964 tripletsof cases published by the Supreme People’s Courtof China, and Chalkidis et al. (2019b) released atext classiﬁcation dataset containing 57,000 En-glish EU legislative documents tagged with 4,271labels from the European Vocabulary. Addition-ally, Manor and Li (2019) introduced a legal textsummarization dataset consisting of 446 sets ofcontract sections and corresponding reference sum-maries, and Holzenberger et al. (2020) presented astatutory reasoning dataset based on US tax law.Recently, Hendrycks et al. (2021) proposed adataset for legal contract review that includes 510contracts annotated with 41 different clauses fora total of 13,101 annotations. In the same vein,Borchmann et al. (2020) introduced a semantic re-trieval dataset for contract discovery with morethan 2,500 annotations in around 600 documents.Lastly, the COLIEE Case Law Corpus (Rabeloet al., 2020) is a case law retrieval and entailmentdataset that includes 650 base cases from the Fed-eral Court of Canada, each with 200 candidatecases to be identiﬁed as relevant to the base case.Regarding statutory article retrieval, the onlyother publicly available dataset is the COLIEEStatute Law Corpus (Rabelo et al., 2020). It com-prises 696 questions from the Japanese legal barexam labeled with references to relevant articlesfrom the Japanese Civil Code, where both thequestions and articles have been translated fromJapanese to English. However, this dataset focuseson legal bar exam question answering, which isquite different from legal questions posed by ordi-nary citizens. While the latter tend to be vague and+v:mala2277获取更多论文0直接的、律师考试问题是为有抱负的律师准备的，因此具体而高级。此外，该数据集仅包含封闭问题（即只能回答“是”或“否”的问题），并且比BSARD考虑的法律条文少了近30倍。此外，与BSARD不同，这些数据不是本地句子，而是从一种完全不同的法律体系的外语翻译而来。因此，翻译后的数据集可能无法准确反映原始法律体系和语言的逻辑。这些限制表明需要一种新颖的大规模以公民为中心的本地数据集，用于法定条文检索，这是本研究的核心贡献。03 比利时法定条文检索数据集03.1 数据集收集0我们通过四个阶段创建我们的数据集：（i）编制一个大规模的比利时法律条文语料库，（ii）收集具有相关法律条文引用的法律问题，（iii）完善这些问题，（iv）将引用与我们的语料库中相应的条文进行匹配。0法律条文收集。在民法司法管辖区，法典是一种立法形式，旨在通过将该领域的所有书面法律汇集并重新陈述为一本独特的书籍，详尽地涵盖整个法律领域，如刑法或税法。因此，这些书籍构成了收集各种主题的许多法律条文的宝贵资源。我们考虑了32个公开可用的比利时法典，如附录A的表3所示。除了法律条文，我们还提取了这些条文所在章节的相应标题（即书、部分、法案、章、节和小节名称）。这些标题提供了每个条文主题的概述。作为预处理，我们使用正则表达式清理具有特定措辞的文章，该措辞指示过去法律的一部分发生了变化（例如，嵌套括号、上标或脚注）。此外，我们还识别并删除了被过去法律废止但仍存在于法典中的条文。最终，我们得到了一个语料库C ={a1，∙∙∙，aN}，其中N =22,633个文章，我们将其用作基本的检索单位。0日本是一个主要依赖于法规书面规定的民法国家，而大多数英语国家（例如美国、英国、加拿大和澳大利亚）则采用主要依赖于过去司法决定（称为先例）的普通法制度。2https://droitsquotidiens.be/0我们使用的基本检索单位是22,633篇文章。0问题收集。我们与Droits Quotidiens(DQ)合作，这是一家比利时组织，其使命是为普通人澄清法律。每年，DQ收到并收集大约4000封来自比利时公民的电子邮件，询问个人法律问题的建议。通过这些电子邮件，该组织的六名经验丰富的法学家团队始终了解比利时最常见的法律问题，并尽可能全面地解答这些问题。每位法学家都是某个特定领域的专家（例如“家庭”、“住房”或“工作”），负责回答与该领域相关的所有问题。凭借他们的资格和多年在各自领域提供法律咨询的经验，这些专家可以被认为足够有能力（最终）找到与给定问题相关的正确法律条文。在实践中，他们的法律澄清过程包括四个步骤。首先，他们确定关于某个常见法律问题的最常问问题。然后，他们用自然语言的方式定义一个新的匿名“模型”问题，尽可能接近普通人提问的方式。接下来，他们搜索比利时法律以寻找有助于回答模型问题的条文，并引用它们。最后，他们使用找到的相关条文以普通人可以理解的方式回答问题。在发布到DQ网站之前，这些模型问题、法律参考和答案会进一步分类（例如，“什么是财产查封？”这个问题标记为“金钱→债务追讨”类别）。在他们的同意下，我们收集了3200多个模型问题，以及与相关法律条文和分类标签的引用。假设一个法学家需要花费5到20分钟来找到与给定问题相关的条文并对其进行分类。假设每小时费率为200比利时法郎，那么这些标记问题的金钱价值估计超过105,000比利时法郎-3200个问题，每个问题需要10分钟进行标记。0问题细化。我们发现收集到的问题中约有三分之一是重复的。然而，这些重复的问题带有不同的分类标签，其中一些标签提供了额外的上下文，可以用来细化问题。例如，问题“我应该安装火警探测器吗？”总共出现了四次，分别标记为“住房→租金→我是{租户，房东}→在{瓦隆区，布鲁塞尔}”。我们区分了只有一个或几个词指示问题主题的标签（例如“住房”和“租金”），以及提供个人情况或位置的上下文的短描述句子的标签（例如“我是布鲁塞尔的租户。”）。如果有的话，我们将上下文句子标签附加在问题前面，这解决了大部分重复问题，并通过使问题更具体来提高整体质量。0获取更多论文。0问题过滤。收集到的问题都附有与相关法律条文的纯文本引用（例如，“民法典第8条”）。我们使用正则表达式来解析这些引用，并将其与我们语料库中的相应文章进行匹配。首先，我们过滤掉引用不是文章的问题（例如，整个法令或命令）。然后，我们删除引用了法典以外的法律行为的问题（例如，法令、指令或条例）。接下来，我们忽略了引用了我们最初考虑的法典以外的法典的问题。最后，我们得到了1108个问题，每个问题都仔细标记了与之相关的法律条文的ID。最后，我们将数据集分为训练集和测试集，分别包含886个问题和222个问题。03.2 数据集分析0为了提供更多的洞察，我们对BSARD进行了定量和定性观察。具体来说，我们探索了以下几个方面：(i) 问题和文章的多样性，(ii)问题与相关文章之间的关系，以及(iii)检索相关文章所需的推理类型。0多样性。构成我们语料库的22633篇法律文章来自32个比利时法典，涵盖了大量的法律主题，如附录A的表3所示。这些文章的中位长度为495个单词，但其中25%的文章超过1026个单词，40篇文章超过10000个单词（最长的一篇达到39566个单词），如图2b所示。这些长篇文章主要是“一般规定”，即出现在法典开头并在后面提到许多术语和概念的文章。问题的长度在23到262个单词之间，中位数为83个单词，如图2a所示。它们涵盖了广泛的主题范围0+v:mala2277获取更多论文 050100150200250 0 020406080100 0510152025303540+v:mala2277获取更多论文0一般主题百分比子主题示例0家庭30.6% 婚姻、亲子关系、离婚等是否需要监护？住房27.4% 租房、合租、不健康等谁应该修复公共墙壁？金钱16.0% 债务、保险、税收等什么是财产查封？司法13.6%诉讼、犯罪、法律援助等上诉程序如何工作？外国人5.7% 入籍、非法滞留等我可以来比利时结婚吗？社会保障3.5% 养老金、怀孕、健康等我怀孕期间会被解雇吗？工作3.2%违约、伤害等我可以请假去看医生吗？0表1：BSARD中问题主题的分布。0字数0中位数：830(a) 问题长度。05k010k015k020k025k030k035k040k0字数0中位数：4950(b) 文章长度。0文章数量0中位数：20(c)每个问题的相关文章数量。0引用次数0中位数：20(d)每个相关文章的引用次数。0图2：BSARD的统计数据。0关于主题的数量，其中约85%的问题涉及家庭、住房、金钱或司法问题，剩下的15%涉及社会保障、外国人或工作问题，如表1所述。0问题-文章关系。问题可能有一个或多个相关的法律条文。总体而言，75%的问题有少于5个相关的文章，18%的问题有5到20个相关文章，剩下的7%有超过20个相关文章，最多达到109个，如图2c所示。后者通常有复杂且间接的答案，需要对整个法典部分进行广泛的推理，这解释了这些大量相关文章的存在。此外，被认为与一个问题相关的文章也可能与其他问题相关。因此，我们计算了每个被认为至少与一个问题相关的唯一文章在所有问题中被引用为法律参考的总次数。结果发现，这些文章的引用中位数为2，不到25%的文章被引用超过5次，如图2d所示。因此，在22633篇文章中，只有1612篇被认为至少与一个问题相关，并且这1612篇文章中约80%来自民法典、司法法典、刑事侦查法典或刑法典。同时，180在32个代码中，有少于五篇文章被至少一个问题提及，这可以解释为这些代码关注个体及其关注点较少。04 模型0严格来说，法定文章检索系统R：(q, C) →F是一个函数，它接受问题q和法律文章语料库C作为输入，并返回按照相关性降序排列的较小的过滤集F � C，对于固定的k = |F| �|C|，可以使用多个基于排名的度量标准来单独评估检索器(参见第5.1节)。下一节将描述我们用作任务基准的检索模型。04.1 词汇模型0传统上，基于词汇的方法一直是文本信息检索的事实标准，因为它们具有鲁棒性和高效性。给定查询q和文章a，词汇模型通过计算每个查询词的权重的总和来为配对(q, a)分配一个得分s L：(q,a) → R +，即计算查询词在文章中的权重之和。(3)+v:mala2277获取更多论文0查询词t ∈ q在文章中的权重，即0s L(q, a) =0t ∈ q w(t, a). (1)0首先，我们使用TF-IDF加权方案，其中0w(t, a) = tf(t, a) ∙ log |0df(t), (2)0其中词频tf是词t在文章a中出现的次数，文档频率df是语料库中包含词t的文章数。然后，我们尝试使用BM25加权公式(Robertson等，1994)定义如下：0w(t, a) = 0tf(t, a)+ k1 ∙ (1 − b + b ∙ |a|)0avgal平均0∙ log |C0df(t) + 0.5,0其中k1 ∈ R +和b ∈ [0,1]是要确定的常数参数，|a|是文章长度，avgal是语料库中的平均文章长度。在推理过程中，我们计算语料库C中每篇文章的得分，并将得分最高的k篇文章作为与输入查询最相关的前k个结果返回。04.2 密集模型0词汇方法存在词汇差距问题(Berger等，2000)，只能检索包含查询中存在的关键词的文章。为了克服这个限制，最近的工作(Lee等，2019；Karpukhin等，2020；Xiong等，2021)依赖于基于神经网络的架构来捕捉查询和文档之间的语义关系。最常用的方法是基于双编码器模型(Gillick等，2018)，将查询和文档映射到稠密向量表示中。严格地说，密集检索器通过计算问题q和文章a之间的嵌入hq，h a ∈ R d 的相似性来计算相关性得分sD：(q, a) → R +，即0s D(q, a) = sim(h q, h a), (4)0其中sim：R d × R d →R是一个相似性函数，如点积或余弦相似性。通常，这些嵌入是通过池化操作得到的。0基于词嵌入模型的输出表示：0h a = pool(f(a; θ2)), (5)0其中模型f(∙; θ i)：W n → R n × d具有参数θi，将来自词汇表W的n个术语的输入文本序列映射到d维实值词向量。池化操作pool：R n × d → R d0使用输出的词嵌入来提取文本段落的全局表示-可以使用平均值、最大值或[CLS]池化。需要注意的是，双编码器架构有两种类型：(i)孪生(siamese)架构(Reimers和Gurevych，2019；Xiong等，2021)，它使用唯一的词嵌入模型(即θ1=θ2)，将查询和文章映射到共享的稠密向量空间中；(ii)双塔(two-tower)架构(Yang等，2020；Karpukhin等，2020)，它使用两个独立的词嵌入模型，将查询和文章分别编码为不同的嵌入空间。在推理过程中，文章被离线预编码，并且它们的表示被存储在索引结构中。然后，给定一个输入查询，通过计算查询表示和所有预编码文章表示之间的相似性来执行精确搜索。得到的分数用于对文章进行排序，使得与查询具有最高相似性的k篇文章作为前k个结果返回。04.2.1 零样本评估首先，我们在零样本评估设置中研究了孪生双编码器的有效性，即直接应用预训练的词嵌入模型而无需进行任何额外的微调。我们尝试了两种广泛使用的词嵌入模型：（i）学习上下文无关词表示的模型，即word2vec（Mikolov等人，2013a，b）和fastText（Bojanowski等人，2017），以及（ii）学习上下文相关词嵌入的模型，即RoBERTa（Liu等人，2019）。RoBERTa可以处理最大输入长度为512个标记的文本。尽管存在其他模型来缓解这一限制（Beltagy等人，2020；Ainslie等人，2020），但它们都是在英文文本上进行训练的，目前还没有法语的等效模型。因此，我们使用一个简单的解决方法，将文本分割成重叠的块，并依次将每个块传递给嵌入模型。为了形成这些块，我们考虑了连续的200个标记的文本序列，相邻块之间有20个标记的重叠。对于所有的零样本模型，我们使用平均池化来提取全局表示，并使用余弦相似度来评分文本表示。Thereafter, we train our own siamese and two-towerRoBERTa-based bi-encoder models on BSARD.Let D = {⟨qi, a+i ⟩}Ni=1 be the training data whereeach of the N instances consists of a query qi asso-ciated with a relevant (positive) article a+i . Us-ing in-batch negatives (Chen et al., 2017; Hen-derson et al., 2017), we can create a training setT = {⟨qi, a+i , A−i ⟩}Ni=1 where A−i is a set of nega-tive articles for question qi constructed by consider-ing the articles paired with the other questions fromthe same mini-batch. For each training instance, wecontrastively optimize the negative log-likelihoodof each positive article against their negative arti-cles, i.e.,L�qi, a+i , A−i�= − logexp�sD(qi, a+i )/τ�a∈A−i ∪{a+i } exp (sD(qi, a)/τ),(6)3https://commoncrawl.org/+v:mala2277获取更多论文0然后，我们在BSARD上训练了自己的孪生和基于RoBERTa的双塔双编码器模型。令 D = {� q i , a + i �} N i =1 为训练数据，其中每个 N实例由一个查询 q i 与一个相关（正面）文章 a + i组成。使用批内负例（Chen等人，2017；Henderson等人，2017），我们可以创建一个训练集 T = {� q i , a + i , A − i �} N i =1 ，其中 A− i是与同一小批次中的其他问题配对的文章集合。对于每个训练实例，我们对每个正面文章与其负面文章进行对比优化，即04.2.2 训练0其中 τ > 0是一个要设置的温度参数。这种对比损失允许学习嵌入函数，使得相关的问题-文章对比无关的问题-文章对比具有更高的得分。为了处理超过512个标记的文章，我们使用与零样本评估中相同的解决方法，将长序列分割成重叠的200个标记的块，窗口大小为20。然而，这一次，由于GPU内存有限，我们将文章的大小限制为前1000个单词。尽管不是理想的，但鉴于我们语料库中75%的文章长度小于1026个单词（如第3.2节所述），这样做仍然是合理的。每个块以 [CLS]标记为前缀，并通过对不同块的输出 [CLS]标记嵌入进行平均来提取整个文章的全局表示。在这里，我们使用点积来计算相似度，因为它比余弦相似度稍微好一些。05 实验0我们现在描述我们用于实验的设置，并评估我们模型的性能。05.1 实验设置0度量标准。我们使用三个标准的信息检索度量（Manning等人，2008）来评估性能，即（宏平均）召回率 @ k（R @ k），平均精度 @ k（MAP @k）和平均倒数排名 @ k（MRR @k）。附录B详细描述了这些度量标准在法规文章检索的背景下的含义。我们故意省略报告精确度 @k，因为问题具有可变数量的相关文章（参见图2c），在固定的 k 上报告精确度是没有意义的 -如果 k > r ，具有 r 个相关文章的问题的精确度@ k 总是小于 1。出于同样的原因， k应该足够大以满足召回率 @ k的要求。因此，我们在评估中使用 k ∈ { 100 ,200 , 500 }。0法语词嵌入模型。我们关注的是非英语数据集，因此我们尝试了上述模型的法语变种。具体而言，我们使用了一个在法语语料库上预训练的500维skip-gramword2vec模型（Fauconnier，2015），一个在法国Web数据上预训练的300维CBOWfastText模型（Grave等，2018），以及一个法语RoBERTa模型，即CamemBERT（Martin等，2020），该模型在CommonCrawl中过滤的147GB法语网页上进行了预训练。30超参数和调度。对于BM25，我们在BSARD训练集上优化参数，并发现k1 = 1.0和b =0.6的效果最好。关于双编码器模型，我们使用22个问题-文章对的批量大小和温度为0.05来优化对比损失，共进行100个时期，即约20500个步骤。我们使用AdamW（Loshchilov和Hutter，2019）作为优化器，初始学习率为2e-5，β1 = 0.9，β2 =0.999，权重衰减为0.01，前500个步骤进行学习率预热，学习率线性衰减。训练在一台配备32GB内存的Tesla V100GPU上进行，评估在一台配备双路20核Intel(R)Xeon(R) E5-2698 v4 CPU @2.20GHz和512GB内存的服务器上进行。05.2 结果0在表2中，我们报告了我们的模型在BSARD测试集上的检索性能。总体而言，训练的双编码器模型明显优于所有其他基线模型。两塔模型在召回率@100方面优于其连体变体，但在其他指标上表现类似。尽管BM25的性能明显不及训练的双编码器模型，但其性能表明它仍然是领域特定检索的一个强大基线。这些结果与在其他领域特定数据集上获得的结果一致（Thakur等，2021）。关于连体双编码器模型的零样本评估，我们发现直接使用预训练的CamemBERT模型的嵌入而不针对IR任务进行优化会导致较差的结果。Reimers和Gurevych（2019）在语义文本相似性任务中也注意到了类似的发现。此外，我们观察到基于word2vec的双编码器明显优于基于fastText和BERT的模型，这表明在开箱即用时，预训练的词级嵌入比字符级或子词级嵌入更适合该任务。尽管有希望，但这些结果表明与熟练的法律专家相比，仍有很大的改进空间，后者最终可以检索到与任何问题相关的所有文章，从而获得完美的分数。Siamese bi-encoderword2vec-449.4161.7671.5712.9021.49Siamese bi-encoderfastText-332.9341.3349.266.2911.78Siamese bi-encoderCamemBERT-274.216.0012.820.502.04Siamese bi-encoderCamemBERT110M2871.6378.3883.7735.4443.52Two-tower bi-encoderCamemBERT220M2674.7878.0483.3935.6742.460训练模型编码器参数延迟 R @ 100 R @ 200 R @ 500 MAP @ 100 MRR @ 1000� TF-IDF - - 827 40.13 50.44 59.34 8.69 12.98 � BM25（官方） - - 1342 51.33 56.78 64.71 16.04 24.590表2：各种信息检索方法在测试集上的检索性能（以百分比表示）和查询延迟（以毫秒表示）。最佳结果以粗体标记。0在其他指标上表现类似。尽管BM25的性能明显不及训练的双编码器，但其性能表明它仍然是领域特定检索的一个强大基线。这些结果与在其他领域特定数据集上获得的结果一致（Thakur等，2021）。关于连体双编码器模型的零样本评估，我们发现直接使用预训练的CamemBERT模型的嵌入而不针对IR任务进行优化会导致较差的结果。Reimers和Gurevych（2019）在语义文本相似性任务中也注意到了类似的发现。此外，我们观察到基于word2vec的双编码器明显优于基于fastText和BERT的模型，这表明在开箱即用时，预训练的词级嵌入比字符级或子词级嵌入更适合该任务。尽管有希望，但这些结果表明与熟练的法律专家相比，仍有很大的改进空间，后者最终可以检索到与任何问题相关的所有文章，从而获得完美的分数。06 讨论0本节讨论了我们数据集的限制和更广泛的影响。06.1 限制0由于我们的数据集旨在为研究人员提供一个明确定义的基准，以评估现有和未来的法律信息检索模型，因此需要注意某些限制，以避免得出错误的结论。首先，文章语料库仅限于从附录A的表3中描述的32个比利时法典中收集的文章，其中缺少来自法令、指令和条例的数千篇文章。在数据

下载后可阅读完整内容，剩余1页未读，立即下载