联合学习驱动的跨领域法律文书中文分词优化

需积分: 0 3 浏览量更新于2024-08-05 收藏 1.15MB PDF 举报

本文主要探讨了中文分词在法律文书处理中的挑战。中文分词作为自然语言处理的基础任务，对于理解文本至关重要。然而，传统的基于统计的方法，如最大匹配、隐马尔可夫模型等，需要大量的标注数据进行训练，这在法律文书中尤其困难，因为法律文本涉及多个专业领域，标记工作既耗时又昂贵。法律文档的多样性使得单一领域的模型在跨领域应用时表现出较差的适应性。针对这个问题，本文提出了一个创新的方法——基于联合学习的跨领域中文分词。这种方法利用联合学习的思想，通过整合大量来源领域的样本，来辅助目标领域的分词过程。具体来说，它允许模型共享和学习不同领域的共性特征，从而提高对目标领域分词任务的理解和准确性，即使在目标领域的标注样本相对匮乏的情况下也能展现出更好的性能。作者江明奇、严倩和李寿山针对这一问题进行了深入研究，他们构建了一个联合学习框架，可能包括了分布式学习、迁移学习或者多任务学习的元素，以便有效地利用不同领域的数据资源。实验结果显示，他们的方法在面对有限的目标领域标注样本时，能显著提升中文分词的精确度和效率，这对于法律文书处理和其他领域文本的分词任务具有重要的实际意义。总结起来，这篇论文的核心贡献在于提出了一种创新的解决方案，解决跨领域中文分词的问题，特别是在法律文书领域，通过联合学习降低了对大量标注数据的依赖，提升了模型的泛化能力。这不仅为自然语言处理领域的研究提供了新的视角，也为实际应用中的文本处理任务提供了实用工具。

第

３３

卷

第

９

期

２０１９

年

９

月

中文信息学报

ＪＯＵＲＮＡＬ

ＯＦ

ＣＨＩＮＥＳＥ

ＩＮＦＯＲＭＡＴＩＯＮ

ＰＲＯＣＥＳＳＩＮＧ

Ｖｏｌ．３３

，

Ｎｏ．９

Ｓｅ

ｐ

ｔ．

，

２０１９

文章编号

：

１００３

－

００７７

（

２０１９

）

０９

－

００１７

－

０７

基于联合学习的跨领域法律文书中文分词方法

江明奇

，

严倩

，

李寿山

（

苏州大学计算机科学与技术学院

，

江苏苏州

２１５００６

）

摘

要

：

中文分词任务是自然语言处理的一项基本任务

。

但基于统计的中文分词方法需要大规模的训练样本

，

且

拥有较差的领域适应性

。

然而

，

法律文书涉及众多领域

，

对大量的语料进行标注需要耗费大量的人力

、

物力

。

针对

该问题

，

该文提出了一种基于联合学习的跨领域中文分词方法

，

该方法通过联合学习将大量的源领域样本辅助目

标领域的分词

，

从而提升分词性能

。

实验结果表明

，

在目标领域标注样本较少的条件下

，

该文方法的中文分词性能

明显优于传统方法

。

关键词

：

中文分词

；

法律文书

；

联合学习

中图分类号

：

ＴＰ３９１

文献标识码

：

Ａ

Ｃｒｏｓｓ

－

ｄｏｍａｉｎ

Ｃｈｉｎｅｓｅ

Ｗｏｒｄ

Ｓｅ

ｇ

ｍｅｎｔａｔｉｏｎ

ｆｏｒ

Ｌｅ

ｇ

ａｌ

Ｄｏｃｕｍｅｎｔｓ

ｗｉｔｈ

Ｊｏｉｎｔ

Ｌｅａｒｎｉｎ

ｇ

ＪＩＡＮＧ

Ｍｉｎ

ｇｑ

ｉ

，

ＹＡＮ

Ｑｉａｎ

，

ＬＩ

Ｓｈｏｕｓｈａｎ

（

Ｓｃｈｏｏｌ

ｏｆ

Ｃｏｍ

ｐ

ｕｔｅｒ

Ｓｃｉｅｎｃｅ

ａｎｄ

Ｔｅｃｈｎｏｌｏ

ｇｙ

，

Ｓｏｏｃｈｏｗ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｓｕｚｈｏｕ

，

Ｊｉａｎ

ｇ

ｓｕ

２１５００６

，

Ｃｈｉｎａ

）

Ａｂｓｔｒａｃｔ

：

Ｔｏ

ｄｅａｌ

ｗｉｔｈ

ｌｅ

ｇ

ａｌ

ｄｏｃｕｍｅｎｔｓ

ｉｎｖｏｌｖｉｎ

ｇ

ｍｕｌｔｉ

－

ｄｏｍａｉｎ

ｔｅｘｔｓ

，

ｔｈｉｓ

ｐ

ａ

ｐ

ｅｒ

ｐ

ｒｏ

ｐ

ｏｓｅｓ

ａ

ｃｒｏｓｓ

－

ｄｏｍａｉｎ

ａ

ｐｐ

ｒｏａｃｈ

ｏｎ

Ｃｈｉｎｅｓｅ

ｗｏｒｄ

ｓｅ

ｇ

ｍｅｎｔａｔｉｏｎ

ｗｉｔｈ

ｊ

ｏｉｎｔ

ｌｅａｒｎｉｎ

ｇ

．Ｉｎ

ｔｈｅ

ｍｅｔｈｏｄ

，

ａ

ｌａｒ

ｇ

ｅ

ｎｕｍｂｅｒ

ｏｆ

ｓｏｕｒｃｅ

ｄｏｍａｉｎ

ｓａｍ

ｐ

ｌｅｓ

ａｒｅ

ｕｓｅｄ

ｔｏ

ａｓｓｉｓｔ

ｗｏｒｄ

ｓｅ

ｇ

ｍｅｎｔａｔｉｏｎ

ｉｎ

ｔａｒ

ｇ

ｅｔ

ｄｏｍａｉｎ

ｔｈｒｏｕ

ｇ

ｈ

ｊ

ｏｉｎｔ

ｌｅａｒｎｉｎ

ｇ

，

ｗｈｉｃｈ

ｉｍ

ｐ

ｒｏｖｅｓ

ｔｈｅ

ｐ

ｅｒｆｏｒｍａｎｃｅ

ｏｆ

ｗｏｒｄ

ｓｅ

ｇ

－

ｍｅｎｔａｔｉｏｎ．Ｅｘ

ｐ

ｅｒｉｍｅｎｔａｌ

ｒｅｓｕｌｔｓ

ｄｅｍｏｎｓｔｒａｔｅ

ｔｈａｔ

，

ｅｖｅｎ

ｗｉｔｈ

ａ

ｆｅｗ

ａｎｎｏｔａｔｉｏｎ

ｓａｍ

ｐ

ｌｅｓ

ｆｒｏｍ

ｔａｒ

ｇ

ｅｔ

ｄｏｍａｉｎ

，

ｔｈｅ

ｐ

ｅｒ

－

ｆｏｒｍａｎｃｅ

ｏｆ

ｐ

ｒｏ

ｐ

ｏｓｅｄ

ｍｅｔｈｏｄ

ｉｓ

ｏｂｖｉｏｕｓｌ

ｙ

ｂｅｔｔｅｒ

ｔｈａｎ

ｔｈａｔ

ｏｆ

ｔｈｅ

ｔｒａｄｉｔｉｏｎａｌ

ｍｅｔｈｏｄ．

Ｋｅ

ｙ

ｗｏｒｄｓ

：

Ｃｈｉｎｅｓｅ

ｗｏｒｄ

ｓｅ

ｇ

ｍｅｎｔａｔｉｏｎ

；

ｌｅ

ｇ

ａｌ

ｄｏｃｕｍｅｎｔｓ

；

ｊ

ｏｉｎｔ

ｌｅａｒｎｉｎ

ｇ

收稿日期

：

２０１８

－

１０

－

１７

定稿日期

：

２０１９

－

０２

－

２２

基金项目

：

国家自然科学基金

（

６１６７２３６６

）

０

引言

中文分词作为中文信息处理的基础任务

，

其准

确性直接影响其它中文信息处理任务的性能

［

１

］

。

基

于机器学习的方法在中文分词领域上有优异的结

果

。

例如

，

最大熵

（

ｍａｘｉｍｕｍ

ｅｎｔｒｏ

ｐｙ

）

模型

［

２

］

、

条件

随机场

（

ｃｏｎｄｉｔｉｏｎａｌ

ｒａｎｄｏｍ

ｆｉｅｌｄ

，

ＣＲＦ

）

模型

［

３

－

５

］

以

及长短期记忆

（

ｌｏｎ

ｇ

ｓｈｏｒｔ

－

ｔｅｒｍ

ｍｅｍｏｒ

ｙ

，

ＬＳＴＭ

）

神

经网络

［

６

］

。

然而

，

传统的方法需要大规模的分词语

料以训练性能优异的分词器

，

分词语料的获得需要

大量人工参与

，

所耗费的成本太高

。

因此

，

传统的方

法在法律文书上不能取得较好的中文分词性能

［

７

］

。

由于法律文书中各领域的语料匮乏

，

学者们使

用跨领域的方法进行分词性能的提升

。

然而

，

不同

领域的样本有一定的差异性

，

因此在跨领域任务上

难以直接使用不同领域的样本提升分词性能

。

其主

要原因在于各领域的词语分布不同

，

当使用源领域

的分词器对目标领域进行分词时

，

未登录词

（

ｏｕｔ

ｏｆ

ｖｏｃａｂｕｌａｒ

ｙ

，

ＯＯＶ

）

的数目快速增加

，

因此该分词器

在目标领域上进行中文分词时无法获得较好的性

能

。

除此之外

，

法律文书中的专有名词的构词规则

和通用领域不同

，

同一个字符在不同领域中具有不

同的标签分布

。

例如

，

在法律文书中

，“

一审

”

和

“

二

审

”

为常用词

。

其中

，“

审

”

为词尾

，

其标签为

“

Ｅ

”。

但该字在通用领域中情况有所不同

，“

审

”

通常以词

首的形式出现

，

如

“

审稿

”，

其标签为

“

Ｂ

”。

鉴于获得法律文书的各个领域的少量已标注语

料的难度较小

，

各领域拥有相同的标注规则

，

本文提

出了一种基于联合学习的跨领域中文分词方法

。

该

下载后可阅读完整内容，剩余6页未读，立即下载

赵小杏儿

粉丝: 25
资源: 314

联合学习驱动的跨领域法律文书中文分词优化

数学建模竞赛方法与实践

中国互联网黑色产业链现状研究 陈明奇

数学物理方程-李明奇-课后习题答案（电子科技大学）

HAIRL:混合对抗逆向强化学习（开发中）

书籍《小公主》的读书笔记_1.docx

读小公主心得体会___五篇.docx

小公主的阅读心得___五篇.docx

小公主苏菲亚读书心得_2.docx

基于HMM的孤立词语音识别系统设计与实现

计算机图形学之动画和模拟算法：粒子系统在自然现象模拟中的应用.docx

最新资源

中国互联网黑色产业链现状研究陈明奇