突破瓶颈：中文分词算法的双向匹配与子字典方法

5星 · 超过95%的资源需积分: 10 182 浏览量更新于2024-07-30 4 收藏 276KB DOC 举报

中文分词作为信息技术领域的重要基石，对于诸如信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换以及自然语言理解等诸多任务起着关键作用。尽管研究工作已经持续多年，但鉴于中文语言的独特性，如多字词、同音异义、未登录词等问题，中文分词仍然是中文信息处理领域的一个挑战。本篇毕业论文针对这一难题，首先对现有的分词算法进行了深入剖析，包括统计方法（如基于词频统计的HMM模型）、规则驱动方法（如正向最大匹配和逆向最大匹配）以及基于深度学习的方法等。作者着重讨论了两个主要难点：歧义识别，即如何准确地识别一个词语的不同含义；以及未登录词，即在词汇表中找不到的新词或罕见词的处理。作者提出了一个创新的解决方案，即结合最大正向匹配和最大逆向匹配，形成了双向匹配分词算法。这种策略能够在前后文上下文中同时考虑，提高了对词语边界位置的判断准确性，尤其对于处理歧义和未登录词具有显著优势。此外，作者还引入了子字典机制，这是一种自定义的字典扩展策略，它允许系统动态地根据上下文增加临时的词典条目，以更好地适应不确定性和灵活性。通过实际的系统实现，该论文展示了双向匹配算法与子字典机制的有效结合，使得中文分词系统的性能得到了显著提升。实验结果表明，相比于传统的单向匹配方法，双向匹配在处理复杂语境和新词时，能够提供更高的准确度和召回率。论文的结论部分强调了这种改进算法在实际应用中的潜力，尤其是在大规模中文文本处理场景中，如社交媒体内容分析、搜索引擎优化以及智能客服等领域。这篇毕业论文不仅提供了对现有中文分词技术的深入理解和评估，而且通过创新的双向匹配和子字典机制，为提高中文文本处理的效率和效果提供了实用的解决方案。它对中文分词领域的研究和技术发展有着积极的推动作用。

石家庄经济学院本科生毕业论文

要理解每一句话里的每个词，从而来进行相应的操作，但这需要将每一个词从句子里单独切

分出来，这就是中文分词技术。用一个专业性的描述就是中文分词系统的输入是连续的字符

串（A

7……

）是由字组成的中文句子(其中 A

是字)，通过中文分词处理得到的

字符串是 B

4……

,其中 B

是由单个字或多个字组成的词。由于中文对于词的界限不是很

清晰，如何分词，什么样的叫做词，都需要一个专业的词库来进行区分，可是遗憾的事到目

前为止，并没有在这样一个词库，因此我们进行在这里进行的工作是尽可能的寻找一个标准

化的词库，来帮助我们界定词的界限。

中文分词有两大基本问题，也是中文分词的难点，一是歧义识别问题，二是未登录词问

题，本节简要介绍下这两类问题，有关这两类问题的详细介绍请参考 2.2。

第一个问题是歧义识别的问题，由于中文自身的特点，对于中文中的一句话不同的划分

可能有不同的意思，例如，“乒乓球拍卖完了”，这句话可以划分成“乒乓球/拍卖完了”，也可

以划分成“乒乓球拍/卖完了”。虽然到现在为止没有出线一个百分百的消除歧义的算法，但是

应经出线了许多比较好的，且具有实际应用价值的算法。

第二个是未登录词的问题，未登录词又称为新词，因为语言在不断的发展和变化导致新词

的不断出现，同时词的衍生现象非常普遍，所以词表中不能囊括所有的词。最典型的是人名，

例如在句子“李军虎去上海”中，人可以很容易理解“李军虎”作为一个人名是个词，但计算机

识别就困难了。如果把“李军虎”作为一个词收录到字典中去，全世界有那么多名字，而且时

时都有新增的人名，如此一项巨大的工程即使可以完成，问题仍旧存在。例如:在句子“李军

虎背熊腰的”中，“李军虎”又算词吗?新词中除了人名以外，还有机构名、地名、产品名、

商标名、简称、省略语等这些人们经常使用的词都是很难处理的问题，因此在信息搜索中，

分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重

要标志之一

[3]

。

2.2 中文分词难点分析

中文分词研究了近三十年，虽然应经取得了一些成就，但是中文分词的基础性问题，也

是关键性问题并没有解决即歧义识别问题和未登录词的识别问题。下面详细讲述这两大基本

问题并讲述已有的解决办法。

2.2.1 切分歧义及其处理方法

（1）常见歧义类型

在中文中存在着很多的歧义切分字段，典型的歧义有交集型歧义（约占全部歧义的 85%

以上）和组合型歧义

[4]

。交集型歧义是这样一种歧义：汉字串 AJB 被称作交集型切分歧义，

如果满足 AJ、JB 同时为词（A、J、B 分别为汉字串）。此时汉字串 J 被称作交集串

[4]

。例

如：高兴/奋和高/兴奋，其中“兴”就是交集串。组合型歧义是这样一种歧义：汉字串 AB 被

称作多义组合型切分歧义，如果满足 A、B、 AB 同时为词

[4]

。而在我们分词的过程中我们

会遇到以下三种歧义的问题：

1）由自然语言的二义性产生的歧义是第一种歧义问题。例如：乒乓球拍卖完了，可以划

分成“乒乓球/拍卖完了”，也可以划分成“乒乓球拍/卖完了”。这类歧义是自然语言的二义性而

出现的，此类歧义问题无论如何划分都能够说的通，只有结合上下文才能得到正确的划分。

2）第二类歧义问题是由机器自动分词出现的，这类分词只有一种正确的分词方法，但

因为分词采用的分词算法不同而出现不同的分词结果，例如对于这句话“这时候最热闹的”，

如果采用最大正向匹配的算法就是“这时候/最热/闹/的”，而如果采用最大逆向匹配就是“这时

候/最/热闹/的 ”。对于本句来说只有第二句才是正确的切分，如果对于人工分词来说这是不

会出现的歧义。

3）第三类问题就是由于词典的大小，对于专业名词，人名地名等不包含出现的歧义，

剩余28页未读，继续阅读

shamoairen

粉丝: 11

突破瓶颈：中文分词算法的双向匹配与子字典方法

Friso中文分词器最新版v1.6.4发布

毕业论文知识图谱及可视化系统设计与实现

Java毕业论文：知识图谱与可视化系统设计

智能分词 毕业设计 源码加论文

毕业论文模板.docx

大学生毕业论文检测系统

Friso中文分词器 v1.6.4.zip

Jcseg中文分词器 v2.6.3.zip

中文谣言检测系统：课程设计与毕业论文资源包

python 2019毕业论文参考文献.docx

最新资源

智能分词毕业设计源码加论文