博客
关于我
算法数据结构 | 只要30行代码,实现快速匹配字符串的KMP算法
阅读量:497 次
发布时间:2019-03-06

本文共 1462 字,大约阅读时间需要 4 分钟。

今天,我们来聊一个经典的字符串匹配算法——KMP算法。这不是视频播放器,也不是看毛片的软件,而是由Knuth、Morris、Pratt这三位大牛发明的。KMP算法在字符串处理领域具有重要的地位,效率高、实现复杂度低,广泛应用于文本搜索、代码比较等场景。

应用场景

在计算机领域中,字符串匹配是一个非常常见的问题。例如,在网页中搜索关键词、在Git中比较代码变动记录,甚至在论文查重中使用。然而,简单暴力匹配在某些场景下效率极低。例如,一篇论文可能有上千字,而要与上万篇文章进行查重,暴力枚举显然不现实。因此,KMP算法的出现为字符串匹配问题提供了高效的解决方案。

以两个字符串为例,A串是"I hate learning English.",B串是"hate learning"。暴力枚举需要遍历所有可能的起始位置,时间复杂度为O(mn)。而通过KMP算法,只需O(n)时间即可完成匹配。

大牛matrix67在介绍KMP算法时曾说:“如果你喜欢某个MM,你可以问她:‘假如你要向我表白,你的名字是我的告白语中的子串吗?’”这个比喻生动地诠释了KMP算法的优势。

KMP算法的核心——Next数组

KMP算法的关键在于Next数组,但很多人在学习Next数组时感到困惑。我们需要理解Next数组的作用和构建方法。

Next数组的作用是记录在匹配失败时,应该回到哪个中间状态。例如,当B串与A串匹配到某个位置失败时,KMP算法不会从头开始匹配,而是会从Next数组记录的位置继续尝试。这大大减少了不必要的重复计算。

Next数组的构建过程如下:

  • 初始化Next数组,所有元素初始为0。
  • 从第二个位置开始,依次计算每个位置的Next值。
  • 对于位置i,使用Next[i-1]作为起点,寻找最长的前缀匹配。
  • 如果B[Next[i-1]+1]与B[i]匹配,则Next[i] = Next[i-1] + 1。
  • 如果不匹配,则继续寻找下一个可能的前缀,直到找到匹配项或返回0。
  • 算法原理

    KMP算法的核心逻辑是:

    • 使用一个指针(head)跟踪当前匹配位置。
    • 遍历A串中的每个字符,尝试与B串匹配。
    • 如果匹配失败,利用Next数组跳转到下一个可能的位置继续匹配。
    • 如果匹配成功,head移动到下一个位置。
    • 当head指向B串的最后一个位置时,表示完成匹配。

    这种双重循环结构虽然看似复杂,但由于head只在减少或保持不变,因此时间复杂度为O(n)。

    Next数组的具体构建

    我们以B串为例构建Next数组:

  • B串为"hate learning",在构建Next数组时,我们在前面添加一个占位符$,使其变为"$hate learning"。
  • 遍历B串,从第二个字符开始,计算每个位置的Next值。
  • 对于每个位置i,使用Next[i-1]作为起点,寻找最长的前缀匹配。
  • 例如,B串的第三个字符是"a",检查是否与前面匹配,发现"a"与前面的"e"不匹配,继续寻找,最后确定Next[3]=2。
  • 通过这种方法,我们可以构建出完整的Next数组,指导KMP算法高效匹配。

    总结

    KMP算法通过预处理Next数组,解决了暴力匹配的效率问题。其核心思想是利用失败时的中间状态,避免重复工作,实现线性时间复杂度。在学习KMP时,理解Next数组的构建和应用至关重要。通过亲手实现KMP算法,可以更深入地理解其工作原理。如果对逻辑不够清晰,不妨多读几遍或寻找其他资料补充学习。希望今天的文章能帮助你更好地掌握KMP算法。如果喜欢,请点赞、转发,支持创作。

    转载地址:http://qqqfz.baihongyu.com/

    你可能感兴趣的文章
    OSPF 的主要目的是什么?
    查看>>
    OSPF5种报文:Hello报文、DD报文、LSR报文、LSU报文和LSAck报文
    查看>>
    SQL Server 存储过程分页。
    查看>>
    OSPFv3:第三版OSPF除了支持IPv6,还有这些强大的特性!
    查看>>
    OSPF不能发现其他区域路由时,该怎么办?
    查看>>
    OSPF两个版本:OSPFv3与OSPFv2到底有啥区别?
    查看>>
    SQL Server 存储过程
    查看>>
    OSPF在什么情况下会进行Router ID的重新选取?
    查看>>
    OSPF在大型网络中的应用:高效路由与可扩展性
    查看>>
    OSPF太难了,这份OSPF综合实验请每位网络工程师查收,周末弯道超车!
    查看>>
    OSPF技术入门(第三十四课)
    查看>>
    OSPF技术连载10:OSPF 缺省路由
    查看>>
    OSPF技术连载11:OSPF 8种 LSA 类型,6000字总结!
    查看>>
    OSPF技术连载12:OSPF LSA泛洪——维护网络拓扑的关键
    查看>>
    OSPF技术连载13:OSPF Hello 间隔和 Dead 间隔
    查看>>
    OSPF技术连载14:OSPF路由器唯一标识符——Router ID
    查看>>
    OSPF技术连载15:OSPF 数据包的类型、格式和邻居发现的过程
    查看>>
    OSPF技术连载16:DR和BDR选举机制,一篇文章搞定!
    查看>>
    OSPF技术连载17:优化OSPF网络性能利器——被动接口!
    查看>>
    OSPF技术连载18:OSPF网络类型:非广播、广播、点对多点、点对多点非广播、点对点
    查看>>