利用单字特征与搜索引擎的中文新词识别技术

需积分: 10 0 下载量 201 浏览量 更新于2024-08-11 收藏 499KB PDF 举报
"基于单字特征和搜索引擎的新词识别 (2010年)" 这篇论文探讨的是新词识别在中文信息处理中的重要性及其方法。新词识别是提高搜索引擎搜索准确性和速度的关键环节。作者提出了一个结合统计模型和词语搭配的自动化识别方案。他们利用条件概率来提取单字词搭配特征和临界词特征,通过层次结构来定位和识别新词。 首先,论文介绍了一种双向最大匹配结合的词法粗切分方法,这是对原始文本的初步处理步骤。这种方法能更好地处理复杂的句子结构,找到可能的新词候选位置。接着,基于单字词搭配,确定候选新词的起点和终点,这一过程依赖于临界词的识别,即那些出现在新词边界附近的特定字,帮助确定新词的边界。 随后,他们采用改进的Nagao串频统计方法来统计新词候选词在文本内部的重复频率,这种方法有助于识别高频新词。对于仅在文本中出现一次的新词,论文引入了搜索引擎作为辅助工具,通过查询搜索引擎的索引库来验证其是否为真实的新词,增强了新词识别的准确性。 实验部分,论文在新浪网近期的网络文章上进行了测试,结果显示该方法能够有效识别不同领域的新词,特别是在处理低频词、长词和新词语搭配时表现突出。通过单字词搭配检查,新词位置的综合指标F值达到了96.8%,显示出高精度。 关键词包括新词识别、单字词、临界词、搭配抽取和搜索引擎,这表明研究的重点在于利用这些概念和技术来解决新词识别的问题。新词识别的挑战在于新词可能不符合传统语法规则,如网络红人的姓名或特定领域的专业术语,这对现有的分词系统提出了挑战。 这篇论文提出的基于单字特征和搜索引擎的新词识别方法,为处理不断涌现的网络新词提供了一种有效且适应性强的解决方案,有助于提升中文信息处理的效率和准确性。