网络新词识别:构词法驱动的自动探索

本文主要探讨了基于构词法的网络新词自动识别方法,针对中文信息处理中的一个重要课题——网络新词语的识别。作者首先从大规模的网上文本语料库中进行统计分析,发现网络新词语在现代文本中的比例显著,这对中文分词和信息处理提出了新的挑战。
文章提出了一种创新的识别策略,即利用汉语构词法作为基础。构词法是汉语词汇形成的基本规则,通过对词的组合方式和结构的了解,有助于识别新词。作者构建了一个规则库,包括“互斥性字串”过滤规则和构词规则,这些规则能够根据词的内部结构判断一个词是否为新词,例如区分如“战友”这样的旧词和“网友”这样的新词。
具体实施中,作者采用了N元递增分步算法来提取可能含有新词语的汉字串,并通过去除噪声字串(如无实际意义的虚词)来提高识别精度。然后,利用构词法的判定规则,筛选出符合词法规则的新词语。实验结果显示,经过封闭测试,该系统在准确率上达到了91.2%,召回率高达95%,显示出了良好的识别性能。
本文的工作意义在于,它不仅解决了因网络新词增多导致的传统分词工具处理效率下降的问题,还提供了一种结构化的思路,即通过词法分析来辅助新词识别,这对于中文自然语言处理技术的发展具有积极的推动作用。此外,本文的方法也为其他领域的新词识别提供了可借鉴的模型,特别是在处理新兴领域或特定语境下的新词时,构词法规则库的应用具有广泛的应用前景。
2021-10-14 上传
2021-11-20 上传
294 浏览量
167 浏览量
155 浏览量
172 浏览量
2023-05-16 上传
126 浏览量
154 浏览量

s200791007
- 粉丝: 0
最新资源
- ITween插件实用教程:路径运动与应用案例
- React三纤维动态渐变背景应用程序开发指南
- 使用Office组件实现WinForm下Word文档合并功能
- RS232串口驱动:Z-TEK转接头兼容性验证
- 昆仑通态MCGS西门子CP443-1以太网驱动详解
- 同步流密码实验研究报告与实现分析
- Android高级应用开发教程与实践案例解析
- 深入解读ISO-26262汽车电子功能安全国标版
- Udemy Rails课程实践:开发财务跟踪器应用
- BIG-IP LTM配置详解及虚拟服务器管理手册
- BB FlashBack Pro 2.7.6软件深度体验分享
- Java版Google Map Api调用样例程序演示
- 探索设计工具与材料弹性特性:模量与泊松比
- JAGS-PHP:一款PHP实现的Gemini协议服务器
- 自定义线性布局WidgetDemo简易教程
- 奥迪A5双门轿跑SolidWorks模型下载