规则+统计的字母词语自动标注算法：92%准确率与应用前景

需积分: 9 9 浏览量更新于2024-08-11 收藏 351KB PDF 举报

本文档探讨了一种针对中文信息处理中特定问题的创新算法——一种字母词语自动标注算法，发表于2007年的厦门大学学报(自然科学版)。在中文自然语言处理领域，自动分词是基础任务，然而未登录词，特别是像字母词语这样的特殊词汇，对分词系统的准确度具有显著影响。字母词语如WTO、CT、HSK等，既包括外来语又包含构词形式，它们在文本分析、机器翻译、信息检索等多个场景中都扮演着重要角色。该算法的设计目标是解决现有分词软件对于字母词语识别的不足。算法首先通过正则表达式识别出原文本中的合法字母串，然后以这些字母串为基准，采用一系列规则，如前后界规则、汉字组成成分规则和例外校正规则，结合搭配概率矩阵来进行识别和标注。这个过程确保了高召回率（达到100%），尽管准确率大约在92%左右，但对于提高中文自动分词的效率和准确性至关重要。实验结果显示，该算法不仅提高了字母词语的识别准确性和覆盖率，而且对于构建字母词语知识库以及对字母词语语言现象的研究具有实际价值。例如，作为专有名词或术语的字母词语在机器翻译中可以保持整体性，提升翻译质量，同时在信息检索中，保持长术语的整体性有助于保持原检索意义，避免歧义。此外，文章强调了字母词语界定的工程性质，它不仅适用于语言学研究，更是为了满足中文信息处理平台的需求。通过这种方式，算法不仅能够处理传统意义上的字母词，还能适应现代信息处理环境下的新词和构词形式。本文提出的方法是对中文自然语言处理领域的一个重要贡献，它提升了处理字母词语的效率和精度，为相关应用提供了强大的支持，如机器翻译、信息检索和自动化文本处理等领域。

第

卷第

期

2007

年

月

厦门大学学报(自然科学版)

Vol.

No.5

Sep. 2007

Journal

Xiamen

University

CNatural Science)

一种字母词语自动标注算法

郑泽芝

(厦门大学中国语言文学系，福建厦门

36100

日

摘要:自动分词是中文信息处理的基础，而未登录词识别是影响分词系统准确率的最主要的因素.字母词语作为中文

信息处理中的一类未登录词语，现有的分词软件仍不能有效识别.为此设计了一个规则+统计的自动标注算法，该算法

首先对原文本进行扫描，依据字母串正则表达式取得合法的字母串

再以字母串为锚点，往两边扫描，依次调用前后界规

则、汉字组成成分规则、例外校正规则，结合搭配概率矩阵对字母词语进行识别和标注.实验结果表明

该算法的召回率

为

100%

，准确率约为

92%.

该算法不仅对中文自动分词有益，而且所开发的软件可用于建设字母词语知识库和对字母

词语语言现象的考察研究.

关键词:字母词语

搭配系数;自动标注

中固分类号

:TP39

1. 1

文献标识码

文章编号

:0438-0479(2007)05-0630-05

字母词语是汉语中出现的一种新型外来语(如

WTO

、

等)和构词形式(如

:HSK

、

等)

其正确识别不仅可用于对语言现象的考察研究，也可

以用于中文信息处理.据我们考察的字母词语中，

60%

以上是名称词或者术语，如:移动

、

IS09000

认证、

ABS

防抱死系统、长征二号

捆绑式大推力运载火

箭、

CDMA20001X

分组数据服务节点系统等.作为字

母词语的专有名词或术语，在机器翻译中，可以整个地

翻译为相应的专业名词或术语，这样做对提高机器翻

译的质量有帮助，相应地也减轻了汉语分析的负担.作

为信息检索使用叙词，这种专指性很强的固定短语一

且分解将失去原有的检索意义，或者产生二义现象.在

自动分类、自动文摘、语音识别中长术语也是不分开比

分开好，为此我们开发了字母词语自动标注系统.

字母词语的界定

传统的语言学对字母词语研究已有很多[口，但基

本上还固于传统的"词"范围，本文的字母词语界定不

仅面向语言学研究，同时也面向信息处理，为中文信息

处理平台建设服务.因此对字母词语我们进行了"工程

定义"以和传统语言学的"字母词"区别，事实上，该字

母词语的工程定义可以涵盖传统语言学的字母词.

我们把工程定义的字母词语命名为

ELWPCEngi-

收稿日期

:2006-11-10

基金项目:国家语言资源监测与研究中心项目(

04L2004-01-01-

03)

，福建省社会科学基金

(2006B086)

，厦门大学科研启

动基金资助

Ema

:zhengzz@xmu.edu.cn

neering

definition

lettered

words

phrases

EL-

WP):

主要指在汉语文本中出现的由文字字母(后面

有定义〉和标记符号，或由文字字母、标记符号同汉语

语素组合而构成的含文字字母的字符串，且该字符串

有确切的语义或语法功能(如

卡拉

、

VISA

卡、

动画、

IS09000

认证、

IEC

标准等)

，在文本中该字符串

的组成成分不能随意加减和调整顺序.

文字字母(以下简称字母)

:指拼音文字或注音符

号的最小书写单位凶，包括:拉丁字母、希腊字母、微软

的西里尔字母、日本片假名、平假名等.

标记符号

指各种标点字符

货币字符

计量单位

字符

数字字符(包括阿拉伯数字和罗马数字

数学运

算字符

以及其他特殊标记字符等.

字母串:我们把由文字字母和标记符号组成的字

符串称为字母串(其形式化的表达参见文献

[3J)

，

自动标注系统

该标注系统的基础是字母词语识别的几千条各种

规则和汉字串与字母串的搭配概率矩阵.如何从复杂

的上下文环境中抽取出与字母词语识别有关的特征，

并能确定其有效与否，然后将它们有机地结合起来是

提高字母词语识别精确率的一个重要方向.为此，我们

在自动提取和人工校对结果的基础上，制作了一个有

万字的字母词语的标注语料库，用作训练语料，并

选择错误驱动的学习策略，作为自动标注系统规则的

学习手段.

该系统的运行步骤分为:(1)利用机器辅助人工提

取的方式从语料库中获取字母词语识别规则

;(2)

对已

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38732842

粉丝: 4

规则+统计的字母词语自动标注算法：92%准确率与应用前景

基于深度学习的图像自动标注算法.pdf

Revit_MEP管道自动标注及优化布置算法的研究

Revit三维模型房间信息自动标注技术

提升效率的Tekla尺寸自动标注插件发布

提高效率的CAD自动标注插件应用解析

genesis脚本实现自动标注XY坐标及直径

Parker v2.2.2：最新Photoshop自动标注插件

结巴分词Java版：支持词性标注与高效分词算法

微软VOTT 2.0.0图像标注工具：自动化标注解决方案

掌握AnyLabeling yolov5x-onnx模型自动标注技术

最新资源