基于词内部结合度和边界自由度的新词发现方法有效性验证
需积分: 9 28 浏览量
更新于2024-09-08
收藏 1.04MB PDF 举报
"这篇论文深入探讨了自然语言处理领域的基础研究——新词发现。新词发现对于学术界和企业界具有重要意义,因为它有助于理解语言的发展和变化,特别是在社交媒体、技术革新和新兴文化背景下。论文的核心观点是将新词发现问题重新定义为一个词语边界识别的问题。首先,作者们采用中文分词技术对大量文本数据进行预处理,这是所有自然语言处理任务的基础步骤,它有助于分解句子成可理解的词语单元。
接着,论文引入了"散串"的概念,这可能是对未被广泛接受为标准词汇的连续字符序列的统称。作者们提出了一种创新方法,即基于词内部结合度和边界自由度来检测这些可能的新词。结合度反映了词内部字符间的紧密程度,而边界自由度则衡量了词语边界处字符的灵活性。这种综合考虑的因素有助于识别那些既具有内部一致性又符合语言习惯的新词。
通过在大规模语料库上的实验,作者们验证了这种方法的有效性,表明他们的模型能够准确地识别出潜在的新词。然而,论文也指出未来的挑战在于如何提升系统在识别低频新词方面的效率,因为这些词往往更具挑战性,但它们可能对语言理解和应用至关重要。
作者团队由李文坤、张仰森和陈若愚组成,他们分别代表了不同阶段的研究者,从硕士生到教授级学者,他们的研究方向均集中在自然语言处理。论文还提到了资金支持,包括国家自然科学基金、北京市属高校创新团队项目以及教委专项基金,这显示了研究的严谨性和实际应用价值。
这篇论文不仅提供了新词发现的一个新颖视角,还对未来的研究方向提出了挑战,这对于提高自然语言处理系统的整体性能具有重要的指导意义。"
2019-09-20 上传
点击了解资源详情
点击了解资源详情
2019-07-22 上传
956 浏览量
1112 浏览量
1038 浏览量
点击了解资源详情
weixin_39841856
- 粉丝: 491
- 资源: 1万+
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍