KMP算法详解：字符串匹配的高效策略

需积分: 0 64 浏览量更新于2024-08-04 收藏 22KB DOCX 举报

KMP算法，全称为Knuth-Morris-Pratt算法，是一种用于高效解决字符串匹配问题的算法。它针对在较长字符串A中查找较短字符串B是否为子串的问题，提供了比朴素的线性扫描法（O(mn)复杂度）更为高效的解决方案，尤其是在最坏情况下的时间复杂度可以达到O(n)（假设B的长度m小于等于A的长度n）。算法的核心思想是通过构建一个Next表，即Next[j]数组，存储了在A串中B的前缀子串B[1..j]与B[1..Next[j-1]]不匹配时，需要跳过的字符数量。这样，当在匹配过程中遇到不匹配时，根据Next表中的值调整j，避免了不必要的回溯，从而减少比较次数。在KMP算法的执行过程中，有两个指针i和j，它们分别表示A中的当前匹配位置和B的当前子串位置。初始时，i和j都为0。每当A[i] = B[j]时，i和j同时递增，直到i遍历完整个B。如果A[i+1] != B[j+1]，则使用Next[j]的值来更新j，即将其减去Next[j]，而不是简单地让j减1，从而找到了一个新的可能的匹配起点。例如，对于A="abababaababacb"和B="ababacb"，算法会首先尝试将B的前缀“ababac”与A进行匹配，由于A[i+1] != B[j+1]，根据Next表找到新的匹配起点，继续这个过程，直到B完全匹配到A的一个子串。 KMP算法的实现关键在于预处理Next表，这一步骤虽然看起来复杂，但是一旦完成，匹配过程就能快速进行。KMP算法在文本搜索、编译器设计等领域有广泛应用，尤其是在处理大量数据时，其性能优势显著。虽然KMP算法相对简单，但由于其背后的巧妙设计和优化，理解和掌握它是提高字符串处理效率的重要基础。网上的许多资料可能会涉及Next函数和移动的概念，但这可能会造成理解困扰，本文提供了一种更加直观的解释方法，通过具体的例子帮助读者理解算法的工作原理。

KMP 算法详解

我们这里说的 KMP 不是拿来放电影的（虽然我很喜欢这个软件），

而是一种算法。KMP 算法是拿来处理字符串匹配的。换句话说，给你两个字符串，

你需要回答，B 串是否是 A 串的子串（A 串是否包含 B 串）。比如，字符串 A="I'm

matrix67"，字符串 B="matrix"，我们就说 B 是 A 的子串。你可以委婉地问你的

MM：“假如你要向你喜欢的人表白的话，我的名字是你的告白语中的子串吗？”

解决这类问题，通常我们的方法是枚举从 A 串的什么位置起开始

与 B 匹配，然后验证是否匹配。假如 A 串长度为 n，B 串长度为 m，那么这种方

法的复杂度是 O (mn)的。虽然很多时候复杂度达不到 mn（验证时只看头一两个

字母就发现不匹配了），但我们有许多“最坏情况”，比如，A=

"aaaaaaaaaaaaaaaaaaaaaaaaaab"，B="aaaaaaaab"。我们将介绍的是一种最坏情

况下 O(n)的算法（这里假设 m<=n），即传说中的 KMP 算法。

之所以叫做 KMP，是因为这个算法是由 Knuth、Morris、Pratt 三

个提出来的，取了这三个人的名字的头一个字母。这时，或许你突然明白了 AVL

树为什么叫 AVL，或者 Bellman-Ford 为什么中间是一杠不是一个点。有时一个

东西有七八个人研究过，那怎么命名呢？通常这个东西干脆就不用人名字命名

了，免得发生争议，比如“3x+1 问题”。扯远了。

个人认为 KMP 是最没有必要讲的东西，因为这个东西网上能找到

很多资料。但网上的讲法基本上都涉及到“移动(shift)”、“Next 函数”等概

念，这非常容易产生误解（至少一年半前我看这些资料学习 KMP 时就没搞清

楚）。在这里，我换一种方法来解释 KMP 算法。

假如，A="abababaababacb"，B="ababacb"，我们来看看 KMP 是怎

么工作的。我们用两个指针 i 和 j 分别表示，A[i-j+ 1..i]与 B[1..j]完全相等。

也就是说，i 是不断增加的，随着 i 的增加 j 相应地变化，且 j 满足以 A[i]结尾

的长度为 j 的字符串正好匹配 B 串的前 j 个字符（j 当然越大越好），现在需要

检验 A[i+1]和 B[j+1]的关系。当 A[i+1]=B[j+1]时，i 和 j 各加一；什么时候 j=m

了，我们就说 B 是 A 的子串（B 串已经整完了），并且可以根据这时的 i 值算出

匹配的位置。当 A[i+1]<>B[j+1]，KMP 的策略是调整 j 的位置（减小 j 值）使

得 A[i-j+1..i]与 B[1..j]保持匹配且新的 B[j+1]恰好与 A[i+1]匹配（从而使得

i 和 j 能继续增加）。我们看一看当 i=j=5 时的情况。

i = 1 2 3 4 5 6 7 8 9 ……

A = a b a b a b a a b a b …

B = a b a b a c b

j = 1 2 3 4 5 6 7

此时，A[6]<>B[6]。这表明，此时 j 不能等于 5 了，我们要把 j

改成比它小的值 j'。j'可能是多少呢？仔细想一下，我们发现，j'必须要使得

B[1..j]中的头 j'个字母和末 j'个字母完全相等（这样 j 变成了 j'后才能继续

保持 i 和 j 的性质）。这个 j'当然要越大越好。在这里，B [1..5]="ababa"，

头 3 个字母和末 3 个字母都是"aba"。而当新的 j 为 3 时，A[6]恰好和 B[4]相等。

于是，i 变成了 6，而 j 则变成了 4：

下载后可阅读完整内容，剩余3页未读，立即下载

好运爆棚

粉丝: 34

KMP算法详解：字符串匹配的高效策略

"数据结构与算法实践报告1：线性结构与KMP算法实现

KMP算法详尽解析与代码实现

KMP算法源码详解及优化实践

KMP算法算法 KMP算法 KMP

KMP算法KMP算法.ppt

KMP算法KMP算法.docx

KMP算法详解 KMP算法详解

传统KMP算法与改进KMP算法的对比

KMP.rar_KMP_KMP算法_串 KMP算法_字符串匹配

kmp算法和优化kmp算法

最新资源