tft每日頭條

 > 科技

 > 字符串相似算法

字符串相似算法

科技 更新时间:2025-04-26 00:35:00

字符串相似算法(什麼是字符串匹配算法)1

作者 | 程序員小灰

本文經授權轉載自程序員小灰(ID:chengxuyuanxiaohui )

責編 | 胡巍巍

字符串相似算法(什麼是字符串匹配算法)2

字符串相似算法(什麼是字符串匹配算法)3


————— 第二天 —————


字符串相似算法(什麼是字符串匹配算法)4

字符串相似算法(什麼是字符串匹配算法)5


字符串相似算法(什麼是字符串匹配算法)6


什麼意思呢?讓我們來舉一個例子:


字符串相似算法(什麼是字符串匹配算法)7


在上圖中,字符串B是A的子串,

B第一次在A中出現的位置下标是2(字符串的首位下标是0),

所以返回 2。

我們再看另一個例子:


字符串相似算法(什麼是字符串匹配算法)8


在上圖中,字符串B在A中并不存在,

所以返回 -1。

為了統一概念,

在後文中,

我們把字符串A稱為主串,

把字符串B稱為模式串。

字符串相似算法(什麼是字符串匹配算法)9


字符串相似算法(什麼是字符串匹配算法)10


小灰的想法簡單粗暴,

讓我們用下面的例子來演示一下:

第一輪,我們從主串的首位開始,

把主串和模式串的字符逐個比較:


字符串相似算法(什麼是字符串匹配算法)11


顯然,主串的首位字符是a,

模式串的首位字符是b,兩者并不匹配。

第二輪,我們把模式串後移一位,

從主串的第二位開始,

把主串和模式串的字符逐個比較:


字符串相似算法(什麼是字符串匹配算法)12


主串的第二位字符是b,

模式串的第二位字符也是b,

兩者匹配,繼續比較:


字符串相似算法(什麼是字符串匹配算法)13


主串的第三位字符是b,

模式串的第三位字符也是c,

兩者并不匹配。

第三輪,我們把模式串再次後移一位,

從主串的第三位開始,

把主串和模式串的字符逐個比較:


字符串相似算法(什麼是字符串匹配算法)14


主串的第三位字符是b,

模式串的第三位字符也是b,

兩者匹配,繼續比較:


字符串相似算法(什麼是字符串匹配算法)15


主串的第四位字符是c,

模式串的第四位字符也是c,

兩者匹配,繼續比較:


字符串相似算法(什麼是字符串匹配算法)16


主串的第五位字符是e,

模式串的第五位字符也是e,

兩者匹配,比較完成!

由此得到結果,

模式串 bce 是主串 abbcefgh 的子串,

在主串第一次出現的位置下标是 2:


字符串相似算法(什麼是字符串匹配算法)17


以上就是小灰想出的解決方案,

這個算法有一個名字,叫做BF算法,

是Brute Force(暴力算法)的縮寫。

字符串相似算法(什麼是字符串匹配算法)18


字符串相似算法(什麼是字符串匹配算法)19


字符串相似算法(什麼是字符串匹配算法)20


上圖的情況,在每一輪進行字符匹配時,

模式串的前三個字符a都和主串中的字符相匹配,

一直檢查到模式串最後一個字符b,才發現不匹配:


字符串相似算法(什麼是字符串匹配算法)21


這樣一來,

兩個字符串在每一輪都需要白白比較4次,

顯然非常浪費。

假設主串的長度是m,

模式串的長度是n,

那麼在這種極端情況下,

BF算法的最壞時間複雜度是O(mn)。

字符串相似算法(什麼是字符串匹配算法)22

字符串相似算法(什麼是字符串匹配算法)23

字符串相似算法(什麼是字符串匹配算法)24

字符串相似算法(什麼是字符串匹配算法)25


————————————


字符串相似算法(什麼是字符串匹配算法)26

字符串相似算法(什麼是字符串匹配算法)27


字符串相似算法(什麼是字符串匹配算法)28


字符串相似算法(什麼是字符串匹配算法)29


字符串相似算法(什麼是字符串匹配算法)30


字符串相似算法(什麼是字符串匹配算法)31


字符串相似算法(什麼是字符串匹配算法)32


比較哈希值是什麼意思呢?

用過哈希表的朋友們都知道,

每一個字符串都可以通過某種哈希算法,

轉換成一個整型數,

這個整型數就是hashcode:

hashcode = hash(string)

顯然,相對于逐個字符比較兩個字符串,

僅比較兩個字符串的hashcode要容易得多。


字符串相似算法(什麼是字符串匹配算法)33


字符串相似算法(什麼是字符串匹配算法)34


給定主串和模式串如下

(假定字符串隻包含26個小寫字母):


字符串相似算法(什麼是字符串匹配算法)35


第一步,

我們需要生成模式串的hashcode。

生成hashcode的算法多種多樣,比如:

按位相加

這是最簡單的方法,

我們可以把a當做1,b當做2,c當做3......

然後把字符串的所有字符相加,

相加結果就是它的hashcode。

bce = 2 3 5 = 10

但是,這個算法雖然簡單,

卻很可能産生hash沖突,

比如bce、bec、cbe的hashcode是一樣的。

轉換成26進制數

既然字符串隻包含26個小寫字母,

那麼我們可以把每一個字符串當成一個26進制數來計算。

bce = 2*(26^2) 3*26 5 = 1435

這樣做的好處是大幅減少了hash沖突,

缺點是計算量較大,

而且有可能出現超出整型範圍的情況,

需要對計算結果進行取模。

為了方便演示,

後續我們采用的是按位相加的hash算法,

所以bce的hashcode是10:


字符串相似算法(什麼是字符串匹配算法)36


第二步,

生成主串當中第一個等長子串的hashcode。

由于主串通常要長于模式串,

把整個主串轉化成hashcode是沒有意義的,

隻有比較主串當中和模式串等長的子串才有意義。

因此,

我們首先生成主串中第一個和模式串等長的子串hashcode,

即abb = 1 2 2 = 5:


字符串相似算法(什麼是字符串匹配算法)37


第三步,比較兩個hashcode。

顯然,5!=10,

說明模式串和第一個子串不匹配,

我們繼續下一輪比較。

第四步,

生成主串當中第二個等長子串的hashcode。

bbc = 2 2 3 = 7:


字符串相似算法(什麼是字符串匹配算法)38


第五步,比較兩個hashcode。

顯然,7!=10,說明模式串和第二個子串不匹配,

我們繼續下一輪比較。

第六步,生成主串當中第三個等長子串的hashcode。

bce= 2 3 5 = 10:


字符串相似算法(什麼是字符串匹配算法)39


第七步,比較兩個hashcode。

顯然,10 ==10,兩個hash值相等!

這是否說明兩個字符串也相等呢?

别高興的太早,

由于存在hash沖突的可能,

我們還需要進一步驗證。

第八步,逐個字符比較兩字符串。

hashcode的比較隻是初步驗證,

之後我們還需要像BF算法那樣,

對兩個字符串逐個字符比較,

最終判斷出兩個字符串匹配。


字符串相似算法(什麼是字符串匹配算法)40


最後得出結論,

模式串bce是主串abbcefgh的子串,

第一次出現的下标是2。


字符串相似算法(什麼是字符串匹配算法)41


字符串相似算法(什麼是字符串匹配算法)42


什麼意思呢?讓我們再來看一個例子:


字符串相似算法(什麼是字符串匹配算法)43


上圖中,

我已知子串abbcefg的hashcode是26,

那麼如何計算下一個子串,

也就是bbcefgd的hashcode呢?


字符串相似算法(什麼是字符串匹配算法)44


我們沒有必要把子串的字符重新進行累加運算,

而是可以采用一個更簡單的方法。

由于新子串的前面少了一個a,

後面多了一個d,所以:

新hashcode = 舊hashcode - 1 4 = 26-1 4 = 29

再下一個子串bcefgde的計算也是同理:

新hashcode = 舊hashcode - 2 5 = 29-2 5 = 32


字符串相似算法(什麼是字符串匹配算法)45

字符串相似算法(什麼是字符串匹配算法)46

public static int rabinKarp(String str, String pattern){//主串長度int m = str.length();//模式串的長度int n = pattern.length();//計算模式串的hash值int patternCode = hash(pattern);//計算主串當中第一個和模式串等長的子串hash值int strCode = hash(str.substring(0, n));//用模式串的hash值和主串的局部hash值比較。//如果匹配,則進行精确比較;如果不匹配,計算主串中相鄰子串的hash值。for (int i=0; i<m-n 1; i ) {if(strCode == patternCode && compareString(i, str, pattern)){return i;}//如果不是最後一輪,更新主串從i到i n的hash值if(i<m-n){strCode = nextHash(str, strCode, i, n);}}return -1;}private static int hash(String str){int hashcode = 0;//這裡采用最簡單的hashcode計算方式://把a當做1,把b當中2,把c當中3.....然後按位相加for (int i = 0; i < str.length(); i ) {hashcode  = str.charAt(i)-'a';}return hashcode;}private static int nextHash(String str, int hash, int index, int n){hash -= str.charAt(index)-'a';hash  = str.charAt(index n)-'a';return hash;}private static boolean compareString(int i, String str, String pattern) {String strSub = str.substring(i, i pattern.length());return strSub.equals(pattern);}public static void main(String[] args) {String str = "aacdesadsdfer";String pattern = "adsd";System.out.println("第一次出現的位置:"   rabinKarp(str, pattern));}

字符串相似算法(什麼是字符串匹配算法)47


字符串相似算法(什麼是字符串匹配算法)48


字符串相似算法(什麼是字符串匹配算法)49

字符串相似算法(什麼是字符串匹配算法)50


字符串相似算法(什麼是字符串匹配算法)51


字符串相似算法(什麼是字符串匹配算法)52

字符串相似算法(什麼是字符串匹配算法)53

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved