网络新词识别:构词法驱动的自动探索

1星 需积分: 9 6 下载量 92 浏览量 更新于2024-09-11 收藏 179KB PDF 举报
本文主要探讨了基于构词法的网络新词自动识别方法,针对中文信息处理中的一个重要课题——网络新词语的识别。作者首先从大规模的网上文本语料库中进行统计分析,发现网络新词语在现代文本中的比例显著,这对中文分词和信息处理提出了新的挑战。 文章提出了一种创新的识别策略,即利用汉语构词法作为基础。构词法是汉语词汇形成的基本规则,通过对词的组合方式和结构的了解,有助于识别新词。作者构建了一个规则库,包括“互斥性字串”过滤规则和构词规则,这些规则能够根据词的内部结构判断一个词是否为新词,例如区分如“战友”这样的旧词和“网友”这样的新词。 具体实施中,作者采用了N元递增分步算法来提取可能含有新词语的汉字串,并通过去除噪声字串(如无实际意义的虚词)来提高识别精度。然后,利用构词法的判定规则,筛选出符合词法规则的新词语。实验结果显示,经过封闭测试,该系统在准确率上达到了91.2%,召回率高达95%,显示出了良好的识别性能。 本文的工作意义在于,它不仅解决了因网络新词增多导致的传统分词工具处理效率下降的问题,还提供了一种结构化的思路,即通过词法分析来辅助新词识别,这对于中文自然语言处理技术的发展具有积极的推动作用。此外,本文的方法也为其他领域的新词识别提供了可借鉴的模型,特别是在处理新兴领域或特定语境下的新词时,构词法规则库的应用具有广泛的应用前景。