掌握NFA引擎：正则表达式匹配原理详解

72 浏览量更新于2024-08-30 收藏 129KB PDF 举报

正则基础之NFA引擎匹配原理深入解析 1. **理解引擎匹配原理的重要性** 在处理文本数据时，正则表达式如同作曲家对音符的排列，能够筛选出特定模式。尽管用户可以依靠现成的工具编写出满足需求的正则，但深入了解引擎的工作原理有助于提升效率和避免潜在问题。了解正则引擎的匹配原理，特别是NFA（非确定型有限自动机）引擎，对于经常使用正则或追求技术深度的人来说至关重要，它能帮助创建更高效、无隐患的模式匹配规则。 2. **正则表达式引擎类型** 正则引擎主要有两种类型：确定型有穷自动机（DFA）和非确定型有穷自动机（NFA）。DFA引擎以其快速匹配著称，但不支持捕获组和反向引用，常用在awk、egrep和lex等工具中。POSIX NFA遵循POSIX标准，强调最长左边界匹配，允许回溯，但非贪婪模式对它无效。 - **DFA（如awk）：** 确保单一流程，匹配速度快，但功能受限。 - **POSIX NFA（如Perl）：** 支持回溯和部分正则特性，如捕获组和环视，但对非贪婪模式处理较为简单。 3. **预备知识** - **字符串构成与位置：** 一个字符串如"abc"，包含三个字符和四个位置，这是进行正则匹配的基础。 - **占有字符与零宽度：** 区分匹配到字符内容和位置的区别，占有字符会被记录在结果中，而零宽度匹配则不会影响原字符串的位置。 4. **NFA引擎的特点** - **传统型NFA（常见于多数语言）：** 具备DFA所缺乏的功能，如捕获组、反向引用、环视和优化量词，以及占有优先量词和固化分组。 - **POSIX NFA：** 基于POSIX标准，侧重于提供更全面的匹配逻辑，包括回溯和longest-leftmost匹配。 5. **深入研究** 对于不同引擎之间的具体差异，虽然不是本文核心，但对于深入学习者来说，推荐查阅相关文献以进一步探讨NFA引擎的细节和应用场景，以及如何根据实际需求选择合适的引擎。总结来说，掌握正则表达式NFA引擎的匹配原理是提高正则使用技能的关键，这不仅涉及理论概念，还涵盖了引擎的特性和应用范围。通过理解字符串构成、占有性匹配，以及NFA和DFA的区别，用户能够更好地编写出高效且灵活的正则规则。同时，预备知识的学习也是进一步探索更高级正则特性的基石。

正则基础之正则基础之 NFA引擎匹配原理引擎匹配原理

1 为什么要了解引擎匹配原理

一个个音符杂乱无章的组合在一起，弹奏出的或许就是噪音，同样的音符经过作曲家的手，就可以谱出非常动听的乐曲，一个

演奏者同样可以照着乐谱奏出动听的乐曲，但他/她或许不知道该如何去改变音符的组合，使得乐曲更动听。

作为正则的使用者也一样，不懂正则引擎原理的情况下，同样可以写出满足需求的正则，但是不知道原理，却很难写出高效且

没有隐患的正则。所以对于经常使用正则，或是有兴趣深入学习正则的人，还是有必要了解一下正则引擎的匹配原理的。

2 正则表达式引擎

正则引擎大体上可分为不同的两类：DFA和NFA，而NFA又基本上可以分为传统型NFA和POSIX NFA。

DFA Deterministic finite automaton 确定型有穷自动机

NFA Non-deterministic finite automaton　非确定型有穷自动机

Traditional NFA

POSIX NFA

DFA引擎因为不需要回溯，所以匹配快速，但不支持捕获组，所以也就不支持反向引用和$number这种引用方式，目前使用

DFA引擎的语言和工具主要有awk、egrep 和 lex。

POSIX NFA主要指符合POSIX标准的NFA引擎，它的特点主要是提供longest-leftmost匹配，也就是在找到最左侧最长匹配之

前，它将继续回溯。同DFA一样，非贪婪模式或者说忽略优先量词对于POSIX NFA同样是没有意义的。

大多数语言和工具使用的是传统型的NFA引擎，它有一些DFA不支持的特性：

　　捕获组、反向引用和$number引用方式；

　　环视(Lookaround，(?<=…)、(?<!…)、(?=…)、(?!…))，或者有的有文章叫做预搜索；

　　忽略优化量词（??、*?、+?、{m,n}?、{m,}?），或者有的文章叫做非贪婪模式；

　　占有优先量词（?+、*+、++、{m,n}+、{m,}+，目前仅Java和PCRE支持），固化分组(?>…)。

引擎间的区别不是本文的重点，仅做简要的介绍，有兴趣的可参考相关文献。

3 预备知识

3.1 字符串组成

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38665046

粉丝: 3

掌握NFA引擎：正则表达式匹配原理详解

正则表达式引擎

正则基础之——NFA引擎匹配原理[参照].pdf

正则基础之——NFA引擎匹配原理.rar

正则表达式转nfa编译原理代码

编译原理 正则表达式转NFA

编译原理 正则表达式 转 nfa

c 正则表达式转nfa

编译原理正则表达式到nfa代码

用C++生成Tiny语言所有单词的正则表达式的NFA

编译原理正则表达式转nfa转dfa dfa最小化 代码

最新资源

编译原理正则表达式转NFA

编译原理正则表达式转 nfa

编译原理正则表达式转nfa转dfa dfa最小化代码