中文新词识别:延迟决策与斜率方法

需积分: 5 0 下载量 173 浏览量 更新于2024-08-11 收藏 711KB PDF 举报
"这篇论文是2007年的科研成果,由郭伟、陈蓉、周伟、熊伟和于中华等人撰写,属于自然科学领域的论文,主要探讨了中文新词识别的问题。研究得到了国家自然科学基金和高等学校博士学科点专项科研基金的支持。该方法通过延迟决策和斜率(加速度)策略解决词典分词时未登录词的识别,适用于全文信息检索系统的索引建立。在分词过程中,遇到无法确定的字串时,会暂存并积累统计信息,随后利用这些信息结合斜率分析进行切分。切分出的新词如果频繁出现,会被考虑纳入词典。关键词涉及索引构建、新词识别、加速度算法、斜率方法、中文分词和互信息。" 这篇论文提出的是一种创新的中文新词识别技术,旨在解决在词典分词过程中遇到的未登录词问题。在传统的词典分词方法中,词典无法覆盖所有词汇,尤其是在处理新兴词汇或专业术语时,这会导致信息检索系统的效率降低。论文中提到的方法引入了“延迟决策”和“斜率”(加速度)的概念。 延迟决策指的是在初次遇到无法切分的字串时,不立即做出决定,而是将其存储起来,等待积累一定数量的未切分串后再进行处理。这样做可以收集更多的上下文信息,提高后续切分的准确性。 斜率,或者说是加速度,是一种统计分析方法。在本论文中,它被用来量化未切分串中字符组合的动态变化。通过分析未切分串的统计信息,如出现频率的变化趋势,可以判断某些组合是否可能构成新词。这种方法类似于物理中的加速度概念,用于描述物体速度改变的速率,这里则用来衡量新词形成的概率增长速度。 论文中指出,切分结果不仅可以作为检索系统的索引,还能进一步筛选出高频出现的切分片段,这些片段有可能是新的词汇,可以考虑添加到词典中,从而不断更新和扩展词典,提升分词和检索的准确性和覆盖率。 关键词中的“互信息”是指在信息论中用于衡量两个随机变量之间相互依赖程度的度量,可能在这篇论文中被用作评估字符组合成为新词的可能性的一个指标。 这项研究为中文信息检索提供了一种更灵活和适应性强的新词识别策略,通过延迟决策和斜率分析,能更好地应对语言的动态性和多样性,提升了信息检索系统对新词汇的识别能力。