中古汉语自动分词研究：CRFs与词典结合方法 - CSDN文库

需积分: 0 53 浏览量更新于2024-08-04 收藏 324KB PDF 举报

"这篇研究论文探讨了基于条件随机场(CRFs)模型和词典信息在中古汉语自动分词中的应用，旨在提高分词效率并降低人工校对的工作量。作者通过实验验证了中古时期分词一致性和语料类别对CRFs分词效率的影响，并提出了优化策略。实验结果显示，采用这种方法的分词系统在封闭和开放测试中取得了高精度的分词结果。尽管对于多字词的识别效果稍弱，但整体上，字符分类和词典标记特征显著提高了中古汉语CRFs分词的精确度。该系统适用于处理中古时期的多种语料类别。" 正文: 分词是自然语言处理的基础任务之一，特别是在汉语中，由于词与词之间缺乏明显的边界，使得分词变得更加复杂。中古汉语，作为汉语历史发展的一个关键阶段，其词汇形态处于单字词向双字词转变的过渡期，因此，中古汉语的自动分词更具挑战性。在本研究中，作者关注的是中古时期分词的一致性问题。由于不同的分词原则和个体差异，人工分词常常会出现不一致的情况，这极大地影响了语料库的质量和后续的文本分析。为了改善这种情况，研究人员采用了条件随机场(CRFs)模型，这是一种广泛用于序列标注任务的统计学习方法，特别适合处理分词这类需要考虑上下文信息的问题。在方法上，作者结合了CRFs模型与词典信息，通过优化分词原则来消除中古汉语分词的不一致性。在CRFs模型中，他们引入了字符分类和字典信息作为特征，通过对比实验选择最佳的分词模板，以提高模型的性能。实验结果显示，这种结合策略在封闭测试中达到了99%以上的总F值，在开放测试中的综合测试中也达到了89%-95%，表明该方法在中古汉语分词中具有很高的准确度。尽管如此，研究也指出，当前的系统主要针对双字词进行分词不一致性的研究，对于三字以上的多字词识别效果还有待提升。这意味着在未来的改进中，需要进一步考虑如何处理更复杂的词汇结构。总体来说，这项工作为中古汉语的自动分词提供了有效的工具，有助于减少人工校对的工作负担，同时也为中古时期语料库的构建和后续的语言学研究提供了有力的支持。关键词包括CRFs模型、分词一致性、中古汉语自动分词，表明这些是本文的核心研究内容。此外，文中提及的研究项目，如国家社会科学基金重大项目，强调了该研究的重要性和学术价值。

通讯作者: 李斌, ORCID: 0000-0002-7328-9947, E-mail: libin.njnu@gmail.com。

*本文系国家社会科学基金重大项目“汉语史研究语料库建设研究”(项目编号: 10&ZD117)、教育部人文社会科学青年项目“汉语历

时词汇数据库的构建与计量研究”(项目编号: 16YJC740034)和国家社会科学基金重大项目“基于《汉学引得丛刊》的典籍知识库构建

及人文计算研究”(项目编号: 15ZDB127)的研究成果之一。

62 数据分析与知识发现

研究论文

基于 CRFs 和词典信息的中古汉语自动分词

*

王晓玉李斌

(南京师范大学文学院南京 210097)

摘要: 【目的】验证中古时期分词一致性和语料类别对 CRFs 分词效率的影响, 在此基础上进一步提高分词效

率, 降低人工校对的工作量。【方法】以中古时期的史书、佛经、小说类语料为例, 针对中古汉语的自动分词

问题, 优化分词原则, 运用 CRFs 模型和词典相结合的方法, 消除中古汉语人工分词结果中易出现的分词不一致

问题; 同时在 CRFs 分词中引入字符分类、字典信息两种特征, 并通过对比实验选取每种特征最合适的分词模板。

【结果】实验结果显示, 分词结果的总 F 值在封闭测试中达到 99%以上, 开放测试的综合测试中也达到

89%-95%。【局限】分词不一致研究主要针对双字词, 因此三字以上词语(多字词)的识别效果稍有欠缺。【结论】

在有效提高分词一致性的前提下, 字符分类、词典标记特征能够有效提高中古汉语 CRFs 分词的精确度。同时本

文提出的中古汉语分词系统可以服务于中古时期多类别的汉语语料。

关键词: CRFs 模型分词一致性中古汉语自动分词

分类号: TP391

1 引言

众所周知, 汉语中词与短语之间的界限往往难以

划分清楚, 这一现象在中古汉语中更为突出。在汉语

史上, 中古是指东汉末年至隋朝这段时期, 此时期汉

语正处于质变期, 由于汉语中的词汇在上古时期以单

字词为主, 在近代时期以双字词为主, 而中古时期汉

语正处于由单字词为主向双字词为主转变的过渡期,

该过渡期中存在大量状态介于词和短语之间的字组,

这些字组的情况各不相同, 有的字组正处于词汇化的

进程中, 有的则是由多个汉字临时组合起来作为词使

用。正是这些字组的存在, 使得中古时期词和短语的

边界更加不明确。在构建中古语料库的分词阶段, 由

于各人语感不同, 再加上这些字组发生词汇化的时

期、在具体文献中的词汇化程度难以完全量化, 这必

然会造成中古汉语分词上的困难, 不仅直接导致了人

工分词结果中出现的分词不一致现象, 在以人工分词

结果为训练语料的前提下, 也严重制约着机器分词准

确率和一致性的提高。而分词在汉语语料库建设中是

一项基础性工作, 它对后续标注、语义分析等起着至

关重要的作用。

中古时期的汉语语料相比现代来说不算多, 但其

规模也在数亿字以上, 包含大量史书、佛经及民间文

学、杂著类语料

[1]

。用计算机处理中古语料时不可避

免地要进行中古汉语分词。然而, 目前与古代汉语信

息处理相关的研究成果本就不多, 与中古汉语相关的

分词研究更加少见。王嘉灵

[2]

基于《汉书》进行自动

分词研究, 制定了《汉书》分词规范, 并在加入字符分

类、上古音韵特征的基础上, 用 CRFs 模型进行分词

实验, 实验结果的 F 值达到94.4%, 但该研究仅以《汉

书》为自动分词的实验语料, 一本书难以代表中古时

期的语料全貌, 再加上中古时期语料类别有很多, 各

类别语料间差异比较大, 不仅史书、佛经、杂著等类

别间存在差异, 各类别内部, 如佛经语料内部的译经

下载后可阅读完整内容，剩余8页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

巴蜀明月

粉丝: 42

大学生入口

最新资源