新词发现技术：基于上下文的量化分析

需积分: 50 62 浏览量更新于2024-08-10 收藏 1.47MB PDF 举报

"本文主要探讨了字串的左右上下文在手机camera量化指标测试中的应用，以及新词发现的重要性和相关方法。" 在信息技术领域，尤其是自然语言处理（NLP）中，新词发现是一个关键任务，它涉及到识别文本中未在标准词典中出现的新词汇。"字串的左右上下文"是评估一个字串是否构成新词的一个重要因素。字串成词可能性的估计是新词发现的核心，而左右上下文对此有着显著的影响。通常，一个字串的成词可能性会受到其前后相邻字的影响。在实际工程应用中，考虑到计算复杂性，可能会选择有限的上下文范围，比如本文中提到的左右各一个字。通过分析语料，如果发现字串与相邻字的组合频率高，这可能意味着字串需要向左右扩展来形成完整的新词。例如，在特定语境下，“我行”的左侧经常出现“任”，这可能提示“我行”应该与“任”结合形成新词。新词发现对于学术和工业界都具有重要意义。在学术界，它可以扩展词典，减轻词典编纂工作，并帮助研究人员理解语言变化。在工业界，新词发现广泛应用于拼音输入法、社交媒体分析、分词系统升级、舆情监控、突发事件检测和热点信息提取等场景。国内多家知名机构和公司，如微软亚洲研究院、富士通、百度等，都在进行相关研究。新词的定义因研究角度不同而有所差异，但一般来说，新词是指现有词汇中不存在的新形式、新意义或新用法的词汇。在实际操作中，新词通常被定义为分词系统词表中未包含的词汇。新词可分为命名实体、缩略语、专业术语、字母词以及其他创新词汇等类别。已有的新词发现方法包括但不限于以下几种： 1. 基于分词系统和重复串合并的方法，虽然能获得较高的召回率，但准确率较低，可能产生较多误判。 2. 利用散串统计和规则过滤的方法，尽管提高了准确率，但规则的普适性不足，适应性受限。 3. 基于条件随机场（CRF）和字本位的分词方法，能有效识别未登录词，但准确率仍有待提高，且可能存在过度拟合的问题。以上方法各有优缺点，未来的研究方向可能会探索更复杂的模型，如深度学习模型，来提升新词发现的准确率和效率。同时，结合更丰富的上下文信息和更智能的过滤规则，有望进一步优化这一过程，使之更好地服务于实际应用。

黎小葱

粉丝: 24
资源: 3977

新词发现技术：基于上下文的量化分析

字串学珠玑-Jewels.of.stringology

论文研究-基于外部排序的字串左右熵快速计算方法.pdf

js中几种去掉字串左右空格的方法

js中几种去掉字串左右空格的方法.docx

OllyDBG入门系列--字串参考

datawhalechina#team-learning-program#01字串1

OllyDBG 入门系列（二）－字串参考

分割字串2

最长重复字串

Delphi字串函数

最新资源