无词典支持的基于上下文的中文分词方法

需积分: 1 1 下载量 4 浏览量 更新于2024-09-15 收藏 533KB PDF 举报
"Context-Based Chinese Word Segmentation using SVM Machine-Learning Algorithm without Dictionary Support" 这篇论文介绍了一种新的基于上下文的中文词分割(CWS)方法,该方法将词分割问题定义为断点分类问题,断点是两个相邻词汇之间的边界。论文采用支持向量机(SVM)分类器,通过从语料库中的断点上下文模型学习中文的分词规则。设计了一套有效的特征集来构建上下文模型,并提出了创建训练分类器所需正负样本的系统化方法。与传统依赖大规模已知信息源(如词典或语言标注)的方法不同,该方法选择语料库中最频繁出现的词作为学习来源。这样,CWS能够在任何新颖语料库中执行,无需适当的辅助资源。实验结果显示,所提出的这种方法可以与台湾中央研究院的中文知识和信息处理(CKIP)系统取得竞争性的结果。 关键词:自然语言处理(NLP)、支持向量机(SVM)、词分割(CWS) 在2013年10月14日至18日在日本名古屋举行的国际自然语言处理联合会议上,Chia-Ming Lee和Chien-Kang Huang提出了这个研究。他们来自台湾大学工程科学与海洋工程系。 本文的核心创新在于使用SVM进行无字典支持的词分割。SVM是一种监督学习算法,能处理非线性分类问题。在CWS中,SVM通过分析上下文特征来识别词边界。设计的特征集可能包括字符n-gram、词频信息、上下文词汇的相关性等,这些特征有助于区分断点是否为真实词边界。为了训练SVM,必须构造正样本(真实的断点)和负样本(非断点)。通过从语料库中自动提取这些样本,系统能够自适应地学习语言模式,而无需依赖外部词典。 实验表明,这种方法在不依赖大量预定义资源的情况下,仍然可以达到良好的分词效果,与使用了丰富语言资源的CKIP系统相比,性能上具有竞争力。这为无字典支持的中文词分割提供了一条新的途径,对于处理未标注文本或者新兴领域文本时,其优势尤为明显,因为这些文本往往缺乏预先存在的语言资源。 这项工作强调了上下文模型和SVM在中文词分割中的潜力,它开辟了无字典分词的新方向,降低了对大规模语言资源的依赖,提高了分词技术的普适性和实用性。这对于中文信息处理、自然语言理解和机器翻译等领域具有重要价值。