字符串相似度(編輯距離算法)

編輯距離(Edit Distance),最先是由俄國科學家Vladimir Levenshtein在1965年發(fā)明,用他的名字命名,又稱Levenshtein距離。是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個替換成另一個字符,插入一個字符,刪除一個字符。


假設我們有兩個字符串"syk"和"syko"。

1.將兩個字符串分別寫到行和列中,第一行和第一列的值從0開始增長。

s y k
0 1 2 3
s 1
y 2
k 3
o 4

2.A出得值取決于:左邊的值(1)、上邊的值(1)、左上角的值(0)。上面的值和左面的值都要求加1,這樣得到1+1=2,1+1=2。A處由于是兩個s相同,左上角的值加0.這樣得到0+0=0。所以A處取他們里面最小的0.

s y k
0 1 2 3
s 1 A
y 2
k 3
o 4

3.同理,B出得值取決于:左邊的值(0)、上邊的值(2)、左上角的值(1)。上面的值和左面的值都要求加1,這樣得到2+1=3, 0+1=1。 B處由于是t和s不相同,左上角的值加1.這樣得到1+1=2。所以B處取他們里面最小的1.

s y k
0 1 2 3
s 1 0 B
y 2
k 3
o 4

4.依次生成矩陣

s y k
0 1 2 3
s 1 0 1 2
y 2 1 0 1
k 3 2 2 0
o 4 3 3 1

5.最后得到他們的距離=1,根據(jù)相似度計算公式:
(1-ld/(double)Math.max(syk.length(), syko.length()))
ld指的是最小編輯距離,就是矩陣最右下角最后求出的值。
所有最后的相似度值為1-1/4 = 0.75


局限性

由于需要利用矩陣,故空間復雜度為O(MN)。這個在兩個字符串都比較短小的情況下,能獲得不錯的性能。不過,如果字符串比較長的情況下,就需要極大的空間存放矩陣。例如:兩個字符串都是20000字符,則LD矩陣的大小為:20000 X 20000 X 2=800000000Byte=800MB。

java代碼

public static double levenshtein(String str1, String str2) {
        //計算兩個字符串的長度。
        int len1 = str1.length();
        int len2 = str2.length();
        //建立上面說的數(shù)組,比字符長度大一個空間
        int[][] dif = new int[len1 + 1][len2 + 1];
        //賦初值。
        for (int a = 0; a <= len1; a++) {
            dif[a][0] = a;
        }
        for (int a = 0; a <= len2; a++) {
            dif[0][a] = a;
        }
        //計算兩個字符是否一樣,計算左上的值
        int temp;
        for (int i = 1; i <= len1; i++) {
            for (int j = 1; j <= len2; j++) {
                if (str1.charAt(i - 1) == str2.charAt(j - 1)) {
                    temp = 0;
                } else {
                    temp = 1;
                }
                //取三個值中最小的
                dif[i][j] = min(dif[i - 1][j - 1] + temp, dif[i][j - 1] + 1,
                        dif[i - 1][j] + 1);
            }
        }
        System.out.println("字符串\"" + str1 + "\"與\"" + str2 + "\"的比較");
        //取數(shù)組右下角的值,同樣不同位置代表不同字符串的比較
        System.out.println("差異步驟:" + dif[len1][len2]);
        //計算相似度
        float similarity = 1 - (float) dif[len1][len2] / Math.max(str1.length(), str2.length());
        System.out.println("相似度:" + similarity);
        return similarity;
    }

    //得到最小值
    private static int min(int... is) {
        int min = Integer.MAX_VALUE;
        for (int i : is) {
            if (min > i) {
                min = i;
            }
        }
        return min;
    }
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 前言 最先接觸編程的知識是在大學里面,大學里面學了一些基礎的知識,c語言,java語言,單片機的匯編語言等;大學畢...
    oceanfive閱讀 3,367評論 0 7
  • 微信官方文檔說的"統(tǒng)一下單"這一步交給后臺做, 安(sheng)全(shi).感謝http://www.open-...
    NateLam閱讀 1,919評論 0 6
  • 煙雨花巷,華燈初上,似又回到依稀那年,為你提筆序,你傾城一笑,不語... (一)白紙畫卷,欲繪你不染纖塵容...
    海若何許閱讀 491評論 0 0
  • 人的善變我是知道的,所以我不相信任何人,尤其每當有人信誓旦旦說話的時候。
    小付物理閱讀 316評論 0 0

友情鏈接更多精彩內容