作者 | 程序員小灰
本文經授權轉載自程序員小灰(ID:chengxuyuanxiaohui )
責編 | 胡巍巍
————— 第二天 —————
什麼意思呢?讓我們來舉一個例子:
在上圖中,字符串B是A的子串,
B第一次在A中出現的位置下标是2(字符串的首位下标是0),
所以返回 2。
我們再看另一個例子:
在上圖中,字符串B在A中并不存在,
所以返回 -1。
為了統一概念,
在後文中,
我們把字符串A稱為主串,
把字符串B稱為模式串。
小灰的想法簡單粗暴,
讓我們用下面的例子來演示一下:
第一輪,我們從主串的首位開始,
把主串和模式串的字符逐個比較:
顯然,主串的首位字符是a,
模式串的首位字符是b,兩者并不匹配。
第二輪,我們把模式串後移一位,
從主串的第二位開始,
把主串和模式串的字符逐個比較:
主串的第二位字符是b,
模式串的第二位字符也是b,
兩者匹配,繼續比較:
主串的第三位字符是b,
模式串的第三位字符也是c,
兩者并不匹配。
第三輪,我們把模式串再次後移一位,
從主串的第三位開始,
把主串和模式串的字符逐個比較:
主串的第三位字符是b,
模式串的第三位字符也是b,
兩者匹配,繼續比較:
主串的第四位字符是c,
模式串的第四位字符也是c,
兩者匹配,繼續比較:
主串的第五位字符是e,
模式串的第五位字符也是e,
兩者匹配,比較完成!
由此得到結果,
模式串 bce 是主串 abbcefgh 的子串,
在主串第一次出現的位置下标是 2:
以上就是小灰想出的解決方案,
這個算法有一個名字,叫做BF算法,
是Brute Force(暴力算法)的縮寫。
上圖的情況,在每一輪進行字符匹配時,
模式串的前三個字符a都和主串中的字符相匹配,
一直檢查到模式串最後一個字符b,才發現不匹配:
這樣一來,
兩個字符串在每一輪都需要白白比較4次,
顯然非常浪費。
假設主串的長度是m,
模式串的長度是n,
那麼在這種極端情況下,
BF算法的最壞時間複雜度是O(mn)。
————————————
比較哈希值是什麼意思呢?
用過哈希表的朋友們都知道,
每一個字符串都可以通過某種哈希算法,
轉換成一個整型數,
這個整型數就是hashcode:
hashcode = hash(string)
顯然,相對于逐個字符比較兩個字符串,
僅比較兩個字符串的hashcode要容易得多。
給定主串和模式串如下
(假定字符串隻包含26個小寫字母):
第一步,
我們需要生成模式串的hashcode。
生成hashcode的算法多種多樣,比如:
按位相加
這是最簡單的方法,
我們可以把a當做1,b當做2,c當做3......
然後把字符串的所有字符相加,
相加結果就是它的hashcode。
bce = 2 3 5 = 10
但是,這個算法雖然簡單,
卻很可能産生hash沖突,
比如bce、bec、cbe的hashcode是一樣的。
轉換成26進制數
既然字符串隻包含26個小寫字母,
那麼我們可以把每一個字符串當成一個26進制數來計算。
bce = 2*(26^2) 3*26 5 = 1435
這樣做的好處是大幅減少了hash沖突,
缺點是計算量較大,
而且有可能出現超出整型範圍的情況,
需要對計算結果進行取模。
為了方便演示,
後續我們采用的是按位相加的hash算法,
所以bce的hashcode是10:
第二步,
生成主串當中第一個等長子串的hashcode。
由于主串通常要長于模式串,
把整個主串轉化成hashcode是沒有意義的,
隻有比較主串當中和模式串等長的子串才有意義。
因此,
我們首先生成主串中第一個和模式串等長的子串hashcode,
即abb = 1 2 2 = 5:
第三步,比較兩個hashcode。
顯然,5!=10,
說明模式串和第一個子串不匹配,
我們繼續下一輪比較。
第四步,
生成主串當中第二個等長子串的hashcode。
bbc = 2 2 3 = 7:
第五步,比較兩個hashcode。
顯然,7!=10,說明模式串和第二個子串不匹配,
我們繼續下一輪比較。
第六步,生成主串當中第三個等長子串的hashcode。
bce= 2 3 5 = 10:
第七步,比較兩個hashcode。
顯然,10 ==10,兩個hash值相等!
這是否說明兩個字符串也相等呢?
别高興的太早,
由于存在hash沖突的可能,
我們還需要進一步驗證。
第八步,逐個字符比較兩字符串。
hashcode的比較隻是初步驗證,
之後我們還需要像BF算法那樣,
對兩個字符串逐個字符比較,
最終判斷出兩個字符串匹配。
最後得出結論,
模式串bce是主串abbcefgh的子串,
第一次出現的下标是2。
什麼意思呢?讓我們再來看一個例子:
上圖中,
我已知子串abbcefg的hashcode是26,
那麼如何計算下一個子串,
也就是bbcefgd的hashcode呢?
我們沒有必要把子串的字符重新進行累加運算,
而是可以采用一個更簡單的方法。
由于新子串的前面少了一個a,
後面多了一個d,所以:
新hashcode = 舊hashcode - 1 4 = 26-1 4 = 29
再下一個子串bcefgde的計算也是同理:
新hashcode = 舊hashcode - 2 5 = 29-2 5 = 32
public static int rabinKarp(String str, String pattern){//主串長度int m = str.length();//模式串的長度int n = pattern.length();//計算模式串的hash值int patternCode = hash(pattern);//計算主串當中第一個和模式串等長的子串hash值int strCode = hash(str.substring(0, n));//用模式串的hash值和主串的局部hash值比較。//如果匹配,則進行精确比較;如果不匹配,計算主串中相鄰子串的hash值。for (int i=0; i<m-n 1; i ) {if(strCode == patternCode && compareString(i, str, pattern)){return i;}//如果不是最後一輪,更新主串從i到i n的hash值if(i<m-n){strCode = nextHash(str, strCode, i, n);}}return -1;}private static int hash(String str){int hashcode = 0;//這裡采用最簡單的hashcode計算方式://把a當做1,把b當中2,把c當中3.....然後按位相加for (int i = 0; i < str.length(); i ) {hashcode = str.charAt(i)-'a';}return hashcode;}private static int nextHash(String str, int hash, int index, int n){hash -= str.charAt(index)-'a';hash = str.charAt(index n)-'a';return hash;}private static boolean compareString(int i, String str, String pattern) {String strSub = str.substring(i, i pattern.length());return strSub.equals(pattern);}public static void main(String[] args) {String str = "aacdesadsdfer";String pattern = "adsd";System.out.println("第一次出現的位置:" rabinKarp(str, pattern));}
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!