没有合适的资源?快使用搜索试试~ 我知道了~
首页BSARD:比利时法语法定条款检索数据集与深度学习基准
"比利时法定条款检索数据集与最先进的检索方法" 这篇摘要介绍了一个新的数据集——比利时法定条款检索数据集(BSARD),该数据集专为解决法律问题相关的法定条款检索任务而创建。数据集包含了1,100多个由经验丰富的法学家标注的法语法律问题,源自比利时的法律条款语料库。由于自然语言处理技术在法律领域的应用逐渐受到关注,但缺乏大规模的标注数据集,BSARD的发布旨在填补这一空白,促进法定条款检索的研究。 在使用BSARD的基础上,研究人员对多种先进的检索方法进行了基准测试,包括词汇和密集型架构,以及零样本和监督学习设置。结果显示,经过微调的密集检索模型在性能上显著优于其他系统,其最佳模型在返回的前100个结果中达到了74.8%的R值,表明该任务具有可行性,并且仍有提升空间。 论文还讨论了当前法律信息检索面临的挑战,如搜索引擎返回的法律帮助结果质量不高,往往导致用户无法获取满意的法律信息。随着互联网成为获取法律帮助的主要途径,那些无法负担专业法律服务的弱势群体尤其受到影响,这加剧了法律服务获取的不平等问题。 通过BSARD数据集,研究者期望推动法律信息检索技术的进步,尤其是在自然语言处理和法律领域的交叉应用。该数据集和源代码已公开,为后续研究者提供了宝贵的资源,鼓励他们在这一领域进行更深入的研究,以提高法律信息检索的准确性和效率,最终帮助公民更好地理解和解决法律问题。
资源详情
资源推荐
multiple-choice questions, together with a database
of evidence that includes 3,382 Chinese legal pro-
visions and the content of the national examination
counseling book.
Furthermore, Duan et al. (2019) proposed a le-
gal reading comprehension dataset with 52,000
question-answer pairs crafted on the fact descrip-
tions of 10,000 cases from the Supreme People’s
Court of China. On a different note, Xiao et al.
(2018) presented a dataset for legal judgment pre-
diction (LJP) with around 2.68 million Chinese
criminal cases annotated with 183 law articles and
202 charges. Likewise, Chalkidis et al. (2019a)
introduced an LJP dataset consisting of 11,478 En-
glish cases from the European Court of Human
Rights labeled with the associated final decision.
Meanwhile, Xiao et al. (2019) introduced a
dataset for similar case matching with 8,964 triplets
of cases published by the Supreme People’s Court
of China, and Chalkidis et al. (2019b) released a
text classification dataset containing 57,000 En-
glish EU legislative documents tagged with 4,271
labels from the European Vocabulary. Addition-
ally, Manor and Li (2019) introduced a legal text
summarization dataset consisting of 446 sets of
contract sections and corresponding reference sum-
maries, and Holzenberger et al. (2020) presented a
statutory reasoning dataset based on US tax law.
Recently, Hendrycks et al. (2021) proposed a
dataset for legal contract review that includes 510
contracts annotated with 41 different clauses for
a total of 13,101 annotations. In the same vein,
Borchmann et al. (2020) introduced a semantic re-
trieval dataset for contract discovery with more
than 2,500 annotations in around 600 documents.
Lastly, the COLIEE Case Law Corpus (Rabelo
et al., 2020) is a case law retrieval and entailment
dataset that includes 650 base cases from the Fed-
eral Court of Canada, each with 200 candidate
cases to be identified as relevant to the base case.
Regarding statutory article retrieval, the only
other publicly available dataset is the COLIEE
Statute Law Corpus (Rabelo et al., 2020). It com-
prises 696 questions from the Japanese legal bar
exam labeled with references to relevant articles
from the Japanese Civil Code, where both the
questions and articles have been translated from
Japanese to English. However, this dataset focuses
on legal bar exam question answering, which is
quite different from legal questions posed by ordi-
nary citizens. While the latter tend to be vague and
+v:mala2277获取更多论文
0
直接的、律师考试问题是为有抱负的律师准备的,
因此具体而高级。此外,该数据集仅包含封闭问题
(即只能回答“是”或“否”的问题),并且比BS
ARD考虑的法律条文少了近30倍。此外,与BSAR
D不同,这些数据不是本地句子,而是从一种完全
不同的法律体系的外语翻译而来。因此,翻译后的
数据集可能无法准确反映原始法律体系和语言的逻
辑。这些限制表明需要一种新颖的大规模以公民为
中心的本地数据集,用于法定条文检索,这是本研
究的核心贡献。
0
3比利时法定条文检索数据集
0
3.1数据集收集
0
我们通过四个阶段创建我们的数据集:(i)编制
一个大规模的比利时法律条文语料库,(ii)收集
具有相关法律条文引用的法律问题,(iii)完善这
些问题,(iv)将引用与我们的语料库中相应的条
文进行匹配。
0
法律条文收集。在民法司法管辖区,法典是一种立
法形式,旨在通过将该领域的所有书面法律汇集并
重新陈述为一本独特的书籍,详尽地涵盖整个法律
领域,如刑法或税法。因此,这些书籍构成了收集
各种主题的许多法律条文的宝贵资源。我们考虑了
32个公开可用的比利时法典,如附录A的表3所示
。除了法律条文,我们还提取了这些条文所在章节
的相应标题(即书、部分、法案、章、节和小节名
称)。这些标题提供了每个条文主题的概述。作为
预处理,我们使用正则表达式清理具有特定措辞的
文章,该措辞指示过去法律的一部分发生了变化(
例如,嵌套括号、上标或脚注)。此外,我们还识
别并删除了被过去法律废止但仍存在于法典中的条
文。最终,我们得到了一个语料库C=
{a1,∙∙∙,aN},其中N=
22,633个文章,我们将其用作基本的检索单位。
0
日本是一个主要依赖于法规书面规定的民法国家,而大多数英
语国家(例如美国、英国、加拿大和澳大利亚)则采用主要依
赖于过去司法决定(称为先例)的普通法制度。
剩余14页未读,继续阅读
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- zlib-1.2.12压缩包解析与技术要点
- 微信小程序滑动选项卡源码模版发布
- Unity虚拟人物唇同步插件Oculus Lipsync介绍
- Nginx 1.18.0版本WinSW自动安装与管理指南
- Java Swing和JDBC实现的ATM系统源码解析
- 掌握Spark Streaming与Maven集成的分布式大数据处理
- 深入学习推荐系统:教程、案例与项目实践
- Web开发者必备的取色工具软件介绍
- C语言实现李春葆数据结构实验程序
- 超市管理系统开发:asp+SQL Server 2005实战
- Redis伪集群搭建教程与实践
- 掌握网络活动细节:Wireshark v3.6.3网络嗅探工具详解
- 全面掌握美赛:建模、分析与编程实现教程
- Java图书馆系统完整项目源码及SQL文件解析
- PCtoLCD2002软件:高效图片和字符取模转换
- Java开发的体育赛事在线购票系统源码分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功