资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

KMP算法：让软件搜索速度大幅提升的秘密武器

创作时间:

作者:

@小白创作中心

KMP算法：让软件搜索速度大幅提升的秘密武器

引用

百度

等

来源

https://cloud.baidu.com/article/2963755

https://blog.csdn.net/qq_22038259/article/details/137094637

https://cloud.baidu.com/article/2963714

https://cloud.baidu.com/article/3231112

https://blog.csdn.net/weixin_60536621/article/details/136032332

https://cloud.baidu.com/article/3042171

https://blog.csdn.net/weixin_64055577/article/details/136095246

https://cloud.baidu.com/article/2963556

https://blog.csdn.net/2301_79458548/article/details/138275513

在软件开发中，字符串匹配是一个常见的需求。无论是文本搜索、数据处理还是网络通信，高效的字符串匹配算法都能显著提升程序性能。KMP算法（Knuth-Morris-Pratt算法）作为最经典的字符串匹配算法之一，通过巧妙的预处理避免了不必要的回溯，实现了线性时间复杂度。本文将详细介绍KMP算法的工作原理，并提供Python代码示例，帮助你快速掌握这一强大的工具。

KMP算法原理

KMP算法的核心思想是利用已匹配的信息，通过一个next数组（也称为部分匹配表）来避免不必要的回溯。当主串和模式串在某个位置不匹配时，算法不会像朴素算法那样将主串向后移动一位，而是根据next数组将模式串向前滑动到合适的位置，从而跳过不需要比较的字符。

next数组的构建

next数组记录了模式串中每个位置的最长公共前后缀长度。具体来说，next[i]表示模式串中以第i个字符结尾的子串的最长公共前后缀长度。这个信息在匹配过程中非常关键，因为它告诉我们在不匹配时应该跳到哪个位置继续比较。

以模式串"ABABC"为例，其next数组的计算过程如下：

初始化next[0] = -1，表示第一个字符没有前缀
从第二个字符开始计算：
- "A"的next值为0，因为没有匹配的前缀
- "AB"的next值为0，因为"A"和"B"不匹配
- "ABA"的next值为1，因为"A"和"A"匹配
- "ABAB"的next值为2，因为"AB"和"AB"匹配
- "ABABC"的next值为0，因为"C"和前面的字符不匹配

最终得到的next数组为：[-1, 0, 0, 1, 2, 0]

KMP算法的匹配过程

有了next数组，KMP算法的匹配过程就变得简单了：

初始化主串指针i和模式串指针j为0
当i小于主串长度且j小于模式串长度时，执行以下步骤：
- 如果主串的第i个字符与模式串的第j个字符相等，则同时移动i和j
- 如果不相等且j大于0，则根据next数组调整j的位置
- 如果不相等且j等于0，则只移动i
如果j等于模式串长度，说明找到匹配，返回匹配位置
如果遍历完整个主串都没有找到匹配，则返回-1

Python代码实现

下面是KMP算法的完整Python实现：

def compute_next_array(pattern):
    next_array = [-1] * (len(pattern) + 1)
    j = -1
    for i in range(1, len(pattern)):
        while j != -1 and pattern[j] != pattern[i]:
            j = next_array[j]
        j += 1
        if pattern[i] == pattern[j]:
            next_array[i + 1] = next_array[j + 1]
        else:
            next_array[i + 1] = j
    return next_array

def kmp_search(text, pattern):
    next_array = compute_next_array(pattern)
    j = 0
    for i in range(len(text)):
        while j != -1 and text[i] != pattern[j]:
            j = next_array[j]
        j += 1
        if j == len(pattern):
            return i - j + 1
    return -1

# 示例
text = "ABC ABCDAB ABCDABCDABDE"
pattern = "ABCDABD"
print(kmp_search(text, pattern))  # 输出：15

性能对比

为了展示KMP算法的优势，我们可以通过一个简单的实验来比较它与暴力匹配算法的性能差异。假设我们有一个长度为10000的主串和一个长度为100的模式串，我们分别使用暴力匹配和KMP算法进行搜索：

import time

def brute_force_search(text, pattern):
    for i in range(len(text) - len(pattern) + 1):
        match = True
        for j in range(len(pattern)):
            if text[i + j] != pattern[j]:
                match = False
                break
        if match:
            return i
    return -1

# 生成测试数据
text = "a" * 10000
pattern = "a" * 99 + "b"

# 测试暴力匹配
start_time = time.time()
brute_force_search(text, pattern)
print("暴力匹配耗时：", time.time() - start_time)

# 测试KMP算法
start_time = time.time()
kmp_search(text, pattern)
print("KMP算法耗时：", time.time() - start_time)

在实际测试中，暴力匹配可能需要几秒钟才能完成，而KMP算法几乎瞬间就能给出结果。这种性能差异在处理大规模数据时尤为明显。