探索高效串匹配算法：从精确到近似

需积分: 12 13 浏览量更新于2024-07-19 收藏 4.82MB DOC 举报

串匹配算法是一种在文本串中查找特定模式串的过程，它在计算机科学中具有广泛应用，尤其是在搜索引擎、数据校验和生物信息学等领域。本篇文章将深入探讨串匹配算法的不同类型和实现方法。首先，文章以引言开篇，介绍了串匹配算法的基本概念，包括其重要性和在信息技术中的作用。1970年由Morris Pratt提出的MP算法（Morris Pratt Algorithm）是最早的线性时间复杂度匹配算法，标志着这一领域的里程碑。精确串匹配算法是串匹配的核心部分，分为单模式串匹配和多模式串匹配。单模式串匹配包括滑动窗口算法，如Bruteforce方法，以及高效的BM算法（Boyer-Moore算法）。BM算法利用了良好后缀跳转表Bmgc和不良字符跳转表Bmbc，通过预计算这两个表，当遇到不匹配字符时，可以根据表中的信息快速调整搜索窗口，大大减少了比较次数。对于多模式串匹配，这部分可能涵盖了不同的策略，如针对多个模式串进行并行处理或者设计更复杂的数据结构来优化搜索性能。接着，文章转向近似串匹配算法，这部分更侧重于处理不完全匹配的情况。动态规划算法在此类问题中有广泛的应用，如通过构建一个状态转移矩阵来最小化匹配过程中的比较操作。基于自动机的串匹配算法，如KMP算法（Knuth-Morris-Pratt算法），利用了前缀函数来避免回溯，提高了效率。位并行串匹配算法通过并行处理字符位来进行匹配，可以进一步提升速度，而过滤算法和index技术则是优化搜索空间的有效手段。这些算法在实际应用中往往结合哈希法等其他技术，以达到更高的性能。最后，附录提供了几种常见的串匹配算法的源代码，如BM算法、BMH算法（Boyer-Moore-Horspool）、BMHS算法（Boyer-Moore-Horspool-Sunday）、Smith-Waterman算法、KMP算法、自动机算法（如AC自动机）、BOM算法（Boyer-Moore with Overlapping）、Shift-or算法以及BNDM算法等，这些源代码对于理解和实现这些算法具有重要价值。总结来说，本文围绕串匹配算法的核心理论和实践技巧展开，详细讨论了从精确匹配到近似匹配的各种策略，并提供了丰富的实例和实用工具，是深入理解并应用于实际场景的宝贵参考资料。

例如：



表示字符串 $ 的反串，例如对于 $＝＂8688＂，它的反串 $

＝＂

8868＂。# 预处理过程建立确定性自动机 '$(0'$(能识别所有 $

的后缀。

'(..'Q0q



0T0E(0它能识别的语言为9u

J:Jv

3&%$.

vu;。'$(有 + 个状态， 到  个边，可以在 K'(时间内完成。这样建立的自动

机是不完整的，也就是说，在这种自动机中，只有从初始状态到终止状态的箭头，而没有

从终止状态到初始状态的箭头。

例如 $＝＂8688＂

因为 '$(是确定性自动机，在一个时刻有且仅有一个状态是活动状态，但是由于 '$(

是不完整自动机，所以在某些时刻自动机中会不存在活动状态，此种情况称为自动机死机，

对应于非确定性自动机中所有状态都是非活动状态。自动机死机当且仅当在当前窗口没有

发现 $

的后缀。

算法匹配过程如下：

在当前窗口从右向左读取字符，驱动自动机 '$(，直到自动机死机或者读完当前窗口。

如果自动机死机，说明读入的字符串 

不是 $

的后缀，也就是说  不是 $ 的前缀，所以可

以把 $ 移到  第一字符后面。如果是后一种情况，则报告发现了字符串 $。

按概率计算，每一个窗口内 = 的长度为 K'C5

(，每次窗口移动的距离为：

K'C5

(所以其时间复杂度为 K'?C5

(。

实际上，只有在大字符集小模式串的应用中，# 算法才能取得较好的效果，并且自

动机 （$）的建立又相当复杂。# 算法的两种改进算法 "# 算法和 K 算法实用

中更为有效。

2.4 BOM 算法【ALLAUZEN C., CROCHEMORE M., RAFFINOT M., 1999】

K 算法沿用了 # 算法思想，只是预处理过程建立类似于 /L2E 结构的自动机

K %&C。K %&C 的特点是易于构造并且结构简单，所以可以获得较高的速度。K %&C 采

用链表 G2/G*+-，C%/*+-表示。2 代表状态 2，G*2-是由从状态 2 出发的边

组成的链表，从状态 2+ 到状态 2 的边可省略。/*2-./LWE 表示接点 2 为终止状态。

K %&C 自动机满足'%(有向无循环'(能识别所有 $

的后缀 '&(状态尽可能少'(边的数量为

K'(。

K 算法见附录 ：

例如：

2. 5 Shift-or 算法【BAEZA-YATES, R.A., GONNET, G.H., 1992】与 shift-

and 算法【WU, S., MANBER, U., 1992】

 算法本质上是一种自动机，但它比自动机所占存储空间要小，它用一个 

来代表自动机的一个状态，所以它限制模式串的大小不大于计算机寄存器的位数如 

或 。咋看起来，这种算法似乎很难奏效，但仔细研究之后会发现这种算法十分巧妙。

因为刚刚接触这种算法会觉得难以理解，所以我们先从一个例子入手，然后再进行理

论分析。

设 $＝ “686R0/.X686/R0Y.906080/;

首先建立掩码表（&%&C%%C）。表格的列数等于模式串的长度，行数等于

字符集中字符的个数。列的编号从右往左递增。对于某个字符 %，如果 % 在 $ 中出现，在

% 这一行，% 在 $ 中出现的位置填 ，其它位置填 。如  在模式串 $ 第三个位置出现，则

 行  列填 ，其它位置填 。

% 表计算公式表示如下

下面用到 %&5 5 ，大小为Q$Q即  有  个 ，各个  从右向左编号。

初始化各位置 ，代表各个状态为 %C。

匹配时从 / 中读入字符 %，根据 &%&C%%C 找到 %*%-，将  左移一位

并与 %*%-相或，结果放回  中，如果  最高位为  则报告在 / 中发现了 $。

剩余50页未读，继续阅读

crmlhwz

粉丝: 0
资源: 3

探索高效串匹配算法：从精确到近似

理解与实现：经典字符串匹配算法详解

C语言实现KMP字符串匹配算法

C#实现字符串匹配算法RK、KMP与朴素算法对比分析

字符串匹配算法_朴素字符串匹配算法

多串匹配算法及其启示 多串匹配算法及其启示

字符串匹配算法KMP算法

字符串匹配算法

串匹配算法BF

KMP算法 字符串匹配算法

算法与数据结构 算法分析课程 第11章 字符串匹配 字符串匹配算法 KMP算法 共11页.pptx

最新资源

多串匹配算法及其启示多串匹配算法及其启示

KMP算法字符串匹配算法

算法与数据结构算法分析课程第11章字符串匹配字符串匹配算法 KMP算法共11页.pptx