KMP算法:詳解

匹配

很簡(jiǎn)單,用next[x]表示前移數(shù)組。

// 偽代碼
while(!complete()) {
    if(match(c[i], str[j]))
        i++,j++;
    else
        i = next[i];
}
return j+1-len(c);

next[i]的生成

匹配過(guò)程事實(shí)上非常簡(jiǎn)單,難的是next[x]的生成。

思路:用兩個(gè)迭代器,遞歸思想。

記號(hào):用c[x]表示待處理字符串,用next[x]表示前移數(shù)組。

樸素next生成算法

這樣求出來(lái)的next[x]有以下性質(zhì):

  1. c[0]=>c[next[x-1]]的字符串匹配c[x-1-next[x-1]]=>c[x-1]的字符串
  2. next[x]是滿足以上條件的最大值

從這一表達(dá)式可以看出,next[x]從數(shù)學(xué)上難以直觀求解。

注:有人使用“前綴”“后綴”來(lái)表示1.條件,令人十分不習(xí)慣,還需要進(jìn)一步翻譯成數(shù)學(xué)語(yǔ)言,太不直接

使用兩個(gè)迭代器i,k其中i在前,k在后。每一次迭代的結(jié)果是求出next[i+1]。上一次迭代之后,顯然i=i+1,k應(yīng)當(dāng)滿足:

  1. 處于這樣一個(gè)位置,即“從c[0]c[k]的字符序列完全匹配從c[i-k]c[i]的字符序列”。比如,"abab"k=2, i=4或者"aaaa"k=3,i=4。容易驗(yàn)證,空串(k=-1,i=0)滿足這個(gè)狀態(tài)。
  2. k是滿足條件1.的最大可能值。

滿足這一條件時(shí),考慮next[i+1],可見(jiàn)直接讓next[i+1]=k+1,我們便滿足了next[x]的兩條性質(zhì)。且慢!這里要使遞歸進(jìn)行下去,還要使末態(tài)滿足下面兩條性質(zhì)。怎么做呢?

c[i+1]==c[k+1]是最皆大歡喜的事情。這時(shí)k=k+1自然滿足條件。次好的事情是k==-1,如果c[i+1]==c[0]不滿足,只要繼續(xù)讓k=-1就好了。不然的話怎么弄呢?需要減少匹配的字符數(shù)。本質(zhì)上,這又是一個(gè)c與自己的匹配!這么考慮:“從c[0]c[k]的字符序列完全匹配從c[i-k]c[i]的字符序列”,c[i+1]==c[k+1]不滿足。于是移動(dòng)c,從下一個(gè)可能的匹配位置開(kāi)始匹配,直到“從c[0]c[k']的字符序列完全匹配從c[i+1-k']c[i+1]的字符序列”.

// 循環(huán)內(nèi)部
next[i+1]=k+1;
if(c[k+1]==c[i+1])
    k++;
else {
    if(k==-1)
        // 什么也不做
    else {
        k = k+1-KMP(c, c+i-k); // 偽代碼,被匹配者最大到c+i+1
    }
}
i++;
// 上面?zhèn)未a事實(shí)上包括了特殊情況,自行驗(yàn)證一下!
// 循環(huán)內(nèi)部
next[i+1]=k+1;
k = k+1-KMP(c, c+i-k);
i++;

我們?cè)囍哑ヅ溥^(guò)程寫(xiě)開(kāi)。

next[i+1]=k+1;
m=0, n=0;
while(true) {
    if(c[m]==c[i-k+n]) {
        /* if(m>i) break; */ //不可能發(fā)生
        if(n>k+1) break; // n==k+2
        m++,n++;
    }
    else {
        m=next[m];
        if(m==-1) break;
    }
}
// k=k+1-((k+2)-(m+1))
k=m;
i++;

這種寫(xiě)法未免過(guò)于復(fù)雜。事實(shí)上,第一趟匹配中,c[0=>k]其實(shí)都是匹配好的??梢越璐撕?jiǎn)化代碼:

next[i+1]=k+1;
m=k+1, n=k+1;
while(m!=-1 && n<=k+1) {
    if(c[m]==c[i-k+n])
        m++,n++; // 事實(shí)上循環(huán)直接跳出了
    else
        m=next[m];
}
k=m;
i++;

我們發(fā)現(xiàn)變量n其實(shí)是多余的。

next[i+1]=k+1;
m = k+1;
while(m>=0 && c[m]!=c[i+1])
    m=next[m]; // k=next[k+1]-1
k=m;
i++;

m也是多余的。把上面的代碼改寫(xiě)一下,成為如下簡(jiǎn)單形式:

while(k>=0 && c[k]!=c[i])
    k=next[k];
i++,k++;
next[i]=k;

優(yōu)化的next生成算法

next數(shù)組滿足的條件為:

  1. c[0]=>c[next[x-1]]的字符串匹配c[x-1-next[x-1]]=>c[x-1]的字符串
  2. c[x]!=c[next[x]]
  3. next[x]是滿足以上條件的最大值

上面的算法腦抽了,要想匹配少,顯然k越小越好。比如,要匹配"abababac",僅考慮前5位,next[5]應(yīng)該為3. 但第6位b不匹配,第4位b也不可能匹配。這就其實(shí)可以進(jìn)一步減小k的值,只需要加一個(gè)判斷:

while(k>=0 && c[k]!=c[i])
    k=next[k];
i++,k++;
if(c[i]==c[k])
    next[i]=next[k];
else
    next[i]=k;

用數(shù)學(xué)歸納法可以證明,優(yōu)化的這一算法生成的next[x]滿足上面三點(diǎn)條件。

完整代碼(C語(yǔ)言)

// KMP
#define MAX_LEN 50
typedef struct
{
    char c[MAX_LEN];
    int n;
} SeqString, *pSeqString;

void makeNext(pSeqString p, int next[])
{
    int i = 0, k = -1;
    next[0] = -1;

    while (i < p->n - 1)
    {
        while (k >= 0 && p->c[i] != p->c[k])
            k = next[k];
        i++;
        k++;
        // next[i] = k;
        if (p->c[i] == p->c[k])
            next[i] = next[k];
        else
            next[i] = k;
    }
}

int pMatch(pSeqString t, pSeqString p, int next[])
{
    int i = 0, j = 0;
    while (i < p->n && j < t->n)
        if (i == -1 || p->c[i] == t->c[j])
        {
            i++;
            j++;
        }
        else
            i = next[i];
    if (i >= p->n)
        return (j - p->n + 1);
    else
        return 0;
}

擴(kuò)展

KMP算法的匹配,思想和“狀態(tài)機(jī)”有一定的相似性。兩個(gè)迭代器對(duì)應(yīng)的字符進(jìn)行比較,失敗則改變一下“狀態(tài)”,改變的方式由next[x]數(shù)組定義。KMP算法的一種進(jìn)階形式是AC自動(dòng)機(jī)算法,可以處理更加復(fù)雜的多維匹配問(wèn)題。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 字符串匹配KMP算法詳解 1. 引言 以前看過(guò)很多次KMP算法,一直覺(jué)得很有用,但都沒(méi)有搞明白,一方面是網(wǎng)上很少有...
    張晨輝Allen閱讀 2,623評(píng)論 0 3
  • KMP算法是解決字符串匹配的常用算法之一,也就是在主串(比如aabbccdd)中的子串(bc)定位問(wèn)題。子串稱為P...
    激情的狼王閱讀 1,307評(píng)論 0 1
  • 原鏈接:KMP算法詳解|CloudWong 傳統(tǒng)的字符串匹配模式(暴力循環(huán)) 子串的定位操作通常稱作串的串的匹配模...
    簡(jiǎn)Cloud閱讀 4,029評(píng)論 1 22
  • 我們?cè)谧鲆患虑榈臅r(shí)候總愛(ài)把困難無(wú)限的放大,其實(shí)真正做了就會(huì)發(fā)現(xiàn)“其實(shí)并沒(méi)有我們想象中那么難” 我本人年齡不少了,...
    隨心遠(yuǎn)行_67ad閱讀 333評(píng)論 0 0
  • 一開(kāi)始,我們會(huì)寫(xiě)明信片,寄給某個(gè)在遠(yuǎn)方的親友。 無(wú)論是從旅途寄回故鄉(xiāng),或從自家寄往異鄉(xiāng),明信片多半是揮手招呼的姿態(tài)...
    brosharp閱讀 667評(píng)論 0 3

友情鏈接更多精彩內(nèi)容