网络新词识别:构词法驱动的自动探索
1星 需积分: 9 92 浏览量
更新于2024-09-11
收藏 179KB PDF 举报
本文主要探讨了基于构词法的网络新词自动识别方法,针对中文信息处理中的一个重要课题——网络新词语的识别。作者首先从大规模的网上文本语料库中进行统计分析,发现网络新词语在现代文本中的比例显著,这对中文分词和信息处理提出了新的挑战。
文章提出了一种创新的识别策略,即利用汉语构词法作为基础。构词法是汉语词汇形成的基本规则,通过对词的组合方式和结构的了解,有助于识别新词。作者构建了一个规则库,包括“互斥性字串”过滤规则和构词规则,这些规则能够根据词的内部结构判断一个词是否为新词,例如区分如“战友”这样的旧词和“网友”这样的新词。
具体实施中,作者采用了N元递增分步算法来提取可能含有新词语的汉字串,并通过去除噪声字串(如无实际意义的虚词)来提高识别精度。然后,利用构词法的判定规则,筛选出符合词法规则的新词语。实验结果显示,经过封闭测试,该系统在准确率上达到了91.2%,召回率高达95%,显示出了良好的识别性能。
本文的工作意义在于,它不仅解决了因网络新词增多导致的传统分词工具处理效率下降的问题,还提供了一种结构化的思路,即通过词法分析来辅助新词识别,这对于中文自然语言处理技术的发展具有积极的推动作用。此外,本文的方法也为其他领域的新词识别提供了可借鉴的模型,特别是在处理新兴领域或特定语境下的新词时,构词法规则库的应用具有广泛的应用前景。
2021-10-14 上传
2021-11-20 上传
2021-01-21 上传
2012-04-22 上传
2021-10-08 上传
2021-10-06 上传
2021-10-03 上传
s200791007
- 粉丝: 0
- 资源: 6
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫