Python3爬虫中的中文分词技术解析

105 浏览量更新于2024-08-30 收藏 139KB PDF 举报

"这篇资源详细介绍了中文分词在Python3爬虫中的应用，重点讨论了中文分词的原理和四种主要的分词方法，包括基于规则的分词、基于统计的分词、基于语义的分词以及基于理解的分词。其中，基于规则的分词方法又称为机械分词或基于字典的分词，它通过匹配词典来实现，常见的匹配策略有最大匹配法、逆向最大匹配法、逐词遍历法和设立切分标志法。" 在Python3爬虫中，中文分词是处理汉字序列的关键步骤，因为中文词汇间无明显分隔符，需要通过特定算法来识别和划分词语。中文分词对于信息检索、数据分析和文本处理的准确性至关重要。 1. **基于规则的分词方法**：这种方法依赖于预先构建的分词词典，通过匹配规则来识别词语。具体包括： - **最大匹配法（MM）**：从文本开头开始，尝试匹配最长的词典中的词，如果匹配失败则缩短长度继续尝试。 - **逆向最大匹配法（RMM）**：从文本结尾开始匹配，匹配失败时向前移动一个字符。 - **逐词遍历法**：按词典顺序遍历文本，逐字进行匹配。 - **设立切分标志法**：利用标点符号或特定词缀作为分隔标志，先初步切分后再精细处理。 2. **基于统计的分词方法**：利用大量语料库训练模型，根据上下文概率来确定最可能的分词方式，例如HMM（隐马尔科夫模型）和CRF（条件随机场）等。 3. **基于语义的分词方法**：结合语义信息来提高分词准确性，考虑词语的语义关联和上下文含义。 4. **基于理解的分词方法**：更高级别的分词技术，通过深度理解文本内容来决定分词，通常需要更强的自然语言处理能力，如使用神经网络模型。在实际的Python爬虫项目中，`jieba`是一个常用的中文分词库，它支持多种分词模式，包括精确模式、全模式和搜索引擎模式，能够灵活应对不同的需求。通过`jieba`库，开发者可以方便地对爬取的中文文本进行分词处理，从而进行后续的数据分析和处理。

Python3爬虫中关于中文分词的详解爬虫中关于中文分词的详解

原理原理

中文分词，即 Chinese Word Segmentation，即将一个汉字序列进行切分，得到一个个单独的词。表面上看，分词其实就是

那么回事，但分词效果好不好对信息检索、实验结果还是有很大影响的，同时分词的背后其实是涉及各种各样的算法的。

中文分词与英文分词有很大的不同，对英文而言，一个单词就是一个词，而汉语是以字为基本的书写单位，词语之间没有明显

的区分标记，需要人为切分。根据其特点，可以把分词算法分为四大类：

·基于规则的分词方法

·基于统计的分词方法

·基于语义的分词方法

·基于理解的分词方法

下面我们对这几种方法分别进行总结。

基于规则的分词方法基于规则的分词方法

这种方法又叫作机械分词方法、基于字典的分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的

词条进行匹配。若在词典中找到某个字符串，则匹配成功。该方法有三个要素，即分词词典、文本扫描顺序和匹配原则。文本

的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。

·最大匹配法（MM）。基本思想是：假设自动分词词典中的最长词条所含汉字的个数为 i，则取被处理材料当前字符串序列中

的前 i 个字符作为匹配字段，查找分词词典，若词典中有这样一个 i 字词，则匹配成功，匹配字段作为一个词被切分出来；若

词典中找不到这样的一个 i 字词，则匹配失败，匹配字段去掉最后一个汉字，剩下的字符作为新的匹配字段，再进行匹配，如

此进行下去，直到匹配成功为止。统计结果表明，该方法的错误率为 1/169。

·逆向最大匹配法（RMM）。该方法的分词过程与 MM 法相同，不同的是从句子（或文章）末尾开始处理，每次匹配不成功时

去掉的是前面的一个汉字。统计结果表明，该方法的错误率为 1/245。

·逐词遍历法。把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料，一直到把全部的词切分出来为止。不论分

词词典多大，被处理的材料多么小，都得把这个分词词典匹配一遍。

·设立切分标志法。切分标志有自然和非自然之分。自然切分标志是指文章中出现的非文字符号，如标点符号等；非自然标志

是利用词缀和不构成词的词（包括单音词、复音节词以及象声词等）。设立切分标志法首先收集众多的切分标志，分词时先

找出切分标志，把句子切分为一些较短的字段，再用 MM、RMM 或其它的方法进行细加工。这种方法并非真正意义上的分词

方法，只是自动分词的一种前处理方式而已，它要额外消耗时间扫描切分标志，增加存储空间存放那些非自然切分标志。

·最佳匹配法（OM）。此法分为正向的最佳匹配法和逆向的最佳匹配法，其出发点是：在词典中按词频的大小顺序排列词条，

以求缩短对分词词典的检索时间，达到最佳效果，从而降低分词的时间复杂度，加快分词速度。实质上，这种方法也不是一

种纯粹意义上的分词方法，它只是一种对分词词典的组织方式。OM 法的分词词典每条词的前面必须有指明长度的数据项，所

以其空间复杂度有所增加，对提高分词精度没有影响，分词处理的时间复杂度有所降低。

此种方法优点是简单，易于实现。但缺点有很多：匹配速度慢；存在交集型和组合型歧义切分问题；词本身没有一个标准的定

义，没有统一标准的词集；不同词典产生的歧义也不同；缺乏自学习的智能性。

基于统计的分词方法基于统计的分词方法

该方法的主要思想：词是稳定的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字

相邻出现的概率或频率能较好地反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计，计算它们之

间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可以认为此字组可能构成

了一个词。该方法又称为无字典分词。

该方法所应用的主要的统计模型有：N 元文法模型（N-gram）、隐马尔可夫模型（Hiden Markov Model，HMM）、最大熵模

型（ME）、条件随机场模型（Conditional Random Fields，CRF）等。

在实际应用中此类分词算法一般是将其与基于词典的分词方法结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用

了无词典分词结合上下文识别生词、自动消除歧义的优点。

基于语义的分词方法基于语义的分词方法

语义分词法引入了语义分析，对自然语言自身的语言信息进行更多的处理，如扩充转移网络法、知识分词语义分析法、邻接约

束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。

·扩充转移网络法。该方法以有限状态机概念为基础。有限状态机只能识别正则语言，对有限状态机作的第一次扩充使其具有

递归能力，形成递归转移网络（RTN）。在RTN 中，弧线上的标志不仅可以是终极符（语言中的单词）或非终极符（词

类），还可以调用另外的子网络名字分非终极符（如字或字串的成词条件）。这样，计算机在运行某个子网络时，就可以调

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38638292

粉丝: 5
资源: 920

Python3爬虫中的中文分词技术解析

小白必看Python爬虫数据处理与可视化

NCT青少年Python语言编程教程-V0.02B.pdf

Python3爬虫中深度解析中文分词原理与方法

Python3爬虫常用方法详解

Python3爬虫代理设置详解与实践

Python3爬虫实战：Selenium详解与应用

python3爬虫中文乱码_python3爬虫中文乱码之请求头‘Accept-Encoding’：br 的问题

python3爬虫表格

python3爬虫课程资料代码

python网络爬虫炫酷词云统计图

最新资源