理解正则：NFA引擎的匹配原理解析

119 浏览量更新于2024-08-30 收藏 78KB PDF 举报

括了三个字符：'a'、'b'和'c'。在计算机中，字符串是由一系列的字符编码组成，常见的编码格式有ASCII、Unicode（包括UTF-8等变种）等。字符编码允许我们将文本转化为二进制数据，以便计算机进行处理。 3.2 正则表达式基本元素正则表达式由各种特殊字符和普通字符组成，包括但不限于以下几种： - 字符集：如`[abc]`表示匹配'a'、'b'或'c'中的任意一个。 - 量词：如`*`表示前面的字符可以出现零次或多次，`+`表示至少一次，`?`表示零次或一次，`{m,n}`表示m到n次。 - 通配符：`.`表示匹配任何单个字符（除了换行符）。 - 转义字符：`\`用于对特殊字符进行转义，例如`\.`表示匹配实际的点号字符，而不仅仅是任何字符。 - 分组：`(…)`用于创建捕获组，可以用于反向引用或保存匹配的子串。 - 非捕获组：`(?:…)`与捕获组相似，但不保存匹配结果。 - 环视：`(?!...)`否定前瞻，`(?=...)`肯定前瞻，分别表示后面的模式不匹配和匹配时才继续匹配。 - 贪婪与非贪婪模式：默认情况下，量词是贪婪的，尽可能多的匹配；加上问号`?`后变为非贪婪，尽可能少的匹配。 4 NFA引擎匹配原理 NFA，非确定型有限状态自动机，是正则表达式引擎的一种实现方式。NFA在匹配过程中可以有多个可能的路径，并且允许同时探索这些路径，这与DFA的单一路径不同。NFA的基本操作包括： - ε转移（空字符转移）：即使没有实际字符输入，NFA也能从一个状态转移到另一个状态。 - 匹配字符：当输入字符与当前状态对应的字符匹配时，NFA会进入下一个状态。 - 分支：如果一个状态有多个可能的转移，NFA会同时尝试所有可能的路径。 - 并行匹配：NFA在匹配过程中可以并行地探索多个分支，直到找到一个成功的匹配路径。 5 NFA的执行过程假设我们有一个简单的正则表达式`(ab)*c`，NFA的执行过程如下： 1. 从起始状态出发，遇到`(`开始一个新的捕获组。 2. 接着匹配`a`，NFA进入`a`的状态。 3. 然后匹配`b`，NFA进入`b`的状态。 4. 碰到`)*`，NFA会创建一个分支，回到`a`状态，然后再次尝试匹配`b`。这个过程可以重复多次，因为`*`表示`ab`可以出现零次或多次。 5. 当遇到`c`时，NFA在所有路径中寻找能到达`c`状态的路径。如果有，则匹配成功；如果没有，则匹配失败。 6 NFA的优势与挑战 NFA的优势在于它可以处理更复杂的正则表达式结构，如环视、反向引用等，但同时也带来了效率问题，因为它可能需要进行大量的回溯。回溯是NFA性能的一个瓶颈，尤其是在处理包含贪婪量词和复杂分支结构的正则时。 7 性能优化为了提高NFA引擎的效率，一些实现会进行优化，比如： - 前向预测：尽可能在匹配过程中提前判断某些路径是否可行，避免无效的回溯。 - 固化分组：对于不会回溯的分组，如`(?>...)`，可以减少状态的计算。 - 优化量词：通过调整量词的贪婪性，减少不必要的回溯。 8 实际应用许多编程语言如JavaScript、Python、Perl等都使用NFA引擎来解析正则表达式。理解NFA的工作原理有助于编写更高效的正则表达式，避免无谓的回溯，提升程序性能。总结来说，了解正则表达式的NFA引擎匹配原理，不仅能够帮助我们更好地理解和编写正则表达式，还能在面对复杂的匹配需求时，提供更为精确和高效的解决方案。对于专业开发人员来说，这是提升技能和解决问题的重要一环。

正则基础之正则基础之 NFA引擎匹配原理引擎匹配原理

不懂正则引擎原理的情况下，同样可以写出满足需求的正则，但是不知道原理，却很难写出高效且没有隐患的

正则。所以对于经常使用正则，或是有兴趣深入学习正则的人，还是有必要了解一下正则引擎的匹配原理的。

1 为什么要了解引擎匹配原理为什么要了解引擎匹配原理

一个个音符杂乱无章的组合在一起，弹奏出的或许就是噪音，同样的音符经过作曲家的手，就可以谱出非常动听的乐曲，一个

演奏者同样可以照着乐谱奏出动听的乐曲，但他/她或许不知道该如何去改变音符的组合，使得乐曲更动听。

作为正则的使用者也一样，不懂正则引擎原理的情况下，同样可以写出满足需求的正则，但是不知道原理，却很难写出高效且

没有隐患的正则。所以对于经常使用正则，或是有兴趣深入学习正则的人，还是有必要了解一下正则引擎的匹配原理的。

2 正则表达式引擎正则表达式引擎

正则引擎大体上可分为不同的两类：DFA和NFA，而NFA又基本上可以分为传统型NFA和POSIX NFA。

DFA Deterministic finite automaton 确定型有穷自动机

NFA Non-deterministic finite automaton　非确定型有穷自动机

Traditional NFA

POSIX NFA

DFA引擎因为不需要回溯，所以匹配快速，但不支持捕获组，所以也就不支持反向引用和$number这种引用方式，目前使用

DFA引擎的语言和工具主要有awk、egrep 和 lex。

POSIX NFA主要指符合POSIX标准的NFA引擎，它的特点主要是提供longest-leftmost匹配，也就是在找到最左侧最长匹配之

前，它将继续回溯。同DFA一样，非贪婪模式或者说忽略优先量词对于POSIX NFA同样是没有意义的。

大多数语言和工具使用的是传统型的NFA引擎，它有一些DFA不支持的特性：

　　捕获组、反向引用和$number引用方式；

　　环视(Lookaround，(?<=…)、(?<!…)、(?=…)、(?!…))，或者有的有文章叫做预搜索；

　　忽略优化量词（??、*?、+?、{m,n}?、{m,}?），或者有的文章叫做非贪婪模式；

　　占有优先量词（?+、*+、++、{m,n}+、{m,}+，目前仅Java和PCRE支持），固化分组(?>…)。

引擎间的区别不是本文的重点，仅做简要的介绍，有兴趣的可参考相关文献。

3 预备知识预备知识

3.1 字符串组成字符串组成

对于字符串“abc”而言，包括三个字符和四个位置。

3.2 占有字符和零宽度占有字符和零宽度

正则表达式匹配过程中，如果子表达式匹配到的是字符内容，而非位置，并被保存到最终的匹配结果中，那么就认为这个子表

达式是占有字符的；如果子表达式匹配的仅仅是位置，或者匹配的内容并不保存到最终的匹配结果中，那么就认为这个子表达

式是零宽度的。

占有字符是互斥的，零宽度是非互斥的。也就是一个字符，同一时间只能由一个子表达式匹配，而一个位置，却可以同时由多

个零宽度的子表达式匹配。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38623919

粉丝: 6

理解正则：NFA引擎的匹配原理解析

掌握NFA引擎：正则表达式匹配原理详解

NFA引擎的正则匹配原理详细解析

Java实现正则表达式转NFA图形算法解析

正则基础之——NFA引擎匹配原理.rar

正则基础之——NFA引擎匹配原理[参照].pdf

正则表达式转为NFA

编译原理-正则式，NFA，DFA

正则表达式转NFA实现

正则表达式 到 nfa dfa

Java实现正则表达式转NFA图形算法详解

最新资源

正则表达式到 nfa dfa