KMP算法详解：高效字符串匹配奥秘

需积分: 10 79 浏览量更新于2024-09-21 收藏 126KB PDF 举报

KMP算法，全称为Knuth-Morris-Pratt算法，是一种用于高效处理字符串匹配问题的数据结构和算法。它在最坏情况下的时间复杂度为O(n)，其中n是主字符串A的长度，m是模式字符串B的长度，且m<=n。当我们在查找字符串B是否是字符串A的子串时，KMP算法避免了传统的线性搜索方法，其核心思想在于利用预处理过程来减少比较次数。该算法之所以得名于Knuth、Morris和Pratt三位计算机科学家，他们各自名字首字母的组合，体现了算法的历史背景。然而，由于KMP算法相对简单且易于找到网络上的详细教程，许多教程中会提到“移动指针”(shift)和“Next函数”这两个关键概念，这些术语可能会让初学者感到困惑。然而，对于理解KMP的工作原理，直接讲解可能会更直观。例如，如果A字符串为"abababaababacb"，B字符串为"ababacb"，KMP算法通过维护两个指针i和j，确保A[i-j+1..i]和B[1..j]的部分子串匹配。初始时，i和j都为1，随着i递增，j根据Next函数更新，直到找到B的完整匹配或遇到不匹配字符。当A[i+1]等于B[j+1]时，i和j同时加一，如果B[j+1]不匹配，KMP算法会借助Next函数确定一个新的j值，跳过已匹配的部分，而不是从头开始比较。在实现过程中，Next函数计算了B中每个字符之后的最长前后缀和当前字符相同的长度，这样在遇到不匹配时，可以快速跳过部分已匹配的部分，从而避免了大量无用的比较。当j达到B的长度时，表明B是A的子串，搜索结束。 KMP算法是一种巧妙的字符串匹配策略，它通过预先计算Next数组并利用指针的动态调整，有效地减少了不必要的比较，使得在最坏情况下也能保持较高的查找效率。虽然基本原理相对容易理解，但深入理解Next函数以及如何构建它对于算法的高效实现至关重要。网络上虽然有大量的KMP教程，但确保以适合自己的方式学习，避免误解，才能真正掌握这一经典算法。

如果机房马上要关门了，或者你急着要和 MM 约会，请直接跳到第六个自然段。

我们这里说的 KMP 不是拿来放电影的（虽然我很喜欢这个软件），而是一种算法。 KM P

算法是拿来处理字符串匹配的。换句话说，给你两个字符串，你需要回答， B 串是否是 A

串的子串（ A 串是否包含 B 串）。比如，字符串 A="I'm matrix67" ，字符串 B="matrix" ，我

们就说 B 是 A 的子串。你可以委婉地问你的 MM ： “ 假如你要向你喜欢的人表白的话，我的

名字是你的告白语中的子串吗？ ”

解决这类问题，通常我们的方法是枚举从 A 串的什么位置起开始与 B 匹配，然后验证

是否匹配。假如 A 串长度为 n ， B 串长度为 m ，那么这种方法的复杂度是 O (mn) 的。虽然

很多时候复杂度达不到 mn （验证时只看头一两个字母就发现不匹配了），但我们有许多 “ 最

坏情况 ” ，比如， A= "aaaaaaaaaaaaaaaaaaaaaaaaaab" ， B="aaaaaaaab" 。我们将介绍的是一种最

坏情况下 O(n) 的算法（这里假设 m<=n ），即传说中的 KMP 算法。

之所以叫做 KMP ，是因为这个算法是由 Knuth 、 Morris 、 Pratt 三个提出来的，取了这

三个人的名字的头一个字母。这时，或许你突然明白了

AVL

树为什么叫 AVL ，或者

Bellman-Ford 为什么中间是一杠不是一个点。有时一个东西有七八个人研究过，那怎么命名

呢？通常这个东西干脆就不用人名字命名了，免得发生争议，比如 “ 3x+1 问题 ” 。扯远了

。

个人认为 KMP 是最没有必要讲的东西，因为这个东西网上能找到很多资料。但网上的

讲法基本上都涉及到 “ 移动 (shift) ” 、 “ Next 函数 ” 等概念，这非常容易产生误解（至少一年半

前我看这些资料学习 KMP 时就没搞清楚）。在这里，我换一种方法来解释 KMP 算法。

假如， A="abababaababacb" ， B="ababacb" ，我们来看看 KMP 是怎么工作的。我们用两

个指针 i 和 j 分别表示， A[i-j+ 1..i] 与 B[1..j] 完全相等。也就是说， i 是不断增加的，随着 i

的增加 j 相应地变化，且 j 满足以 A[i] 结尾的长度为 j 的字符串正好匹配 B 串的前 j 个字符

（ j 当然越大越好），现在需要检验 A[i+1] 和 B[j+1] 的关系。当 A[i+1]=B[j+1] 时， i 和 j 各加

一；什么时候 j=m 了，我们就说 B 是 A 的子串（ B 串已经整完了），并且可以根据这时的

i 值算出匹配的位置。当 A[i+1]<>B[j+1] ， KMP 的策略是调整 j 的位置（减小 j 值）使得

A[i-j+1..i] 与 B[1..j] 保持匹配且新的 B[j+1] 恰好与 A[i+1] 匹配（从而使得 i 和 j 能继续增加）

。

我们看一看当 i=j=5 时的情况。

i = 1 2 3 4 5 6 7 8 9 ……

A = a b a b a b a a b a b …

B = a b a b a c b

j = 1 2 3 4 5 6 7

此时， A[6]<>B[6] 。这表明，此时 j 不能等于 5 了，我们要把 j 改成比它小的值 j' 。 j'

可能是多少呢？仔细想一下，我们发现， j' 必须要使得 B[1..j] 中的头 j' 个字母和末 j' 个字母

完全相等（这样 j 变成了 j' 后才能继续保持 i 和 j 的性质）。这个 j' 当然要越大越好。在这里

，

B [1..5]="ababa" ，头 3 个字母和末 3 个字母都是 "aba" 。而当新的 j 为 3 时， A[6] 恰好和 B[4]

相等。于是， i 变成了 6 ，而 j 则变成了 4 ：

i = 1 2 3 4 5 6 7 8 9 ……

A = a b a b a b a a b a b …

B = a b a b a c b

下载后可阅读完整内容，剩余3页未读，立即下载

Sc_Wsl

粉丝: 3
资源: 47

KMP算法详解：高效字符串匹配奥秘

"408二轮-串KMP、树.pdf：暴⼒匹配和改良KMP算法总结

深入理解KMP算法的英文原理解读

KMP字符串匹配算法详解及程序实例

【基础】KMP算法详解.pdf

严蔚敏 数据结构 kmp算法详解.pdf

数据结构教学中KMP算法解析.pdf

串匹配问题：BF算法、KMP算法、BM算法定义.pdf

KMP 算法学习笔记.pdf

ACM主要算法介绍.pdf

【课件】4.2.2_1_KMP算法.pdf

最新资源

严蔚敏数据结构 kmp算法详解.pdf