草久久成人网,亚洲欧洲爽爽色

來自：張振偉的博客
鏈接：https://zhangzw.com/20190521.html

何為布隆過濾器
還是以上面的例子為例：
判斷邏輯：
多次哈希：
Guava的BloomFilter
創(chuàng)建BloomFilter
最終還是調(diào)用：
使用:
算法特點
使用場景

假設(shè)遇到這樣一個問題：一個網(wǎng)站有 20 億 url 存在一個黑名單中，這個黑名單要怎么存？若此時隨便輸入一個 url，你如何快速判斷該 url 是否在這個黑名單中？并且需在給定內(nèi)存空間（比如：500M）內(nèi)快速判斷出。

可能很多人首先想到的會是使用 HashSet，因為 HashSet基于 HashMap，理論上時間復(fù)雜度為：O(1)。達到了快速的目的，但是空間復(fù)雜度呢？URL字符串通過Hash得到一個Integer的值，Integer占4個字節(jié)，那20億個URL理論上需要：20億*4/1024/1024/1024=7.45G的內(nèi)存，不滿足空間復(fù)雜度的要求。

這里就引出本文要介紹的“布隆過濾器”。

何為布隆過濾器

百科上對布隆過濾器的介紹是這樣的：

布隆過濾器（Bloom Filter）是1970年由布隆提出的。它實際上是一個很長的二進制向量和一系列隨機映射函數(shù)。布隆過濾器可以用于檢索一個元素是否在一個集合中。它的優(yōu)點是空間效率和查詢時間都比一般的算法要好的多，缺點是有一定的誤識別率和刪除困難。
是不是描述的比較抽象？那就直接了解其原理吧！

還是以上面的例子為例：
哈希算法得出的Integer的哈希值最大為：Integer.MAX_VALUE=2147483647，意思就是任何一個URL的哈希都會在0~2147483647之間。

那么可以定義一個2147483647長度的byte數(shù)組，用來存儲集合所有可能的值。為了存儲這個byte數(shù)組，系統(tǒng)只需要：2147483647/8/1024/1024=256M。

比如：某個URL（X）的哈希是2，那么落到這個byte數(shù)組在第二位上就是1，這個byte數(shù)組將是：000….00000010，重復(fù)的，將這20億個數(shù)全部哈希并落到byte數(shù)組中。

判斷邏輯：
如果byte數(shù)組上的第二位是1，那么這個URL（X）可能存在。為什么是可能？因為有可能其它URL因哈希碰撞哈希出來的也是2，這就是誤判。

但是如果這個byte數(shù)組上的第二位是0，那么這個URL（X）就一定不存在集合中。

多次哈希：
為了減少因哈希碰撞導(dǎo)致的誤判概率，可以對這個URL（X）用不同的哈希算法進行N次哈希，得出N個哈希值，落到這個byte數(shù)組上，如果這N個位置沒有都為1，那么這個URL（X）就一定不存在集合中。

Guava的BloomFilter

Guava框架提供了布隆過濾器的具體實現(xiàn)：BloomFilter，使得開發(fā)不用再自己寫一套算法的實現(xiàn)。

創(chuàng)建BloomFilter

BloomFilter提供了幾個重載的靜態(tài) create方法來創(chuàng)建實例：

public static <T> BloomFilter<T> create(Funnel<? super T> funnel, int expectedInsertions, double fpp);
public static <T> BloomFilter<T> create(Funnel<? super T> funnel, long expectedInsertions, double fpp);
public static <T> BloomFilter<T> create(Funnel<? super T> funnel, int expectedInsertions);
public static <T> BloomFilter<T> create(Funnel<? super T> funnel, long expectedInsertions);

最終還是調(diào)用：

static <T> BloomFilter<T> create(Funnel<? super T> funnel, long expectedInsertions, double fpp, Strategy strategy);
// 參數(shù)含義：
// funnel 指定布隆過濾器中存的是什么類型的數(shù)據(jù)，有：IntegerFunnel，LongFunnel，StringCharsetFunnel。
// expectedInsertions 預(yù)期需要存儲的數(shù)據(jù)量
// fpp 誤判率，默認(rèn)是0.03。

BloomFilter里byte數(shù)組的空間大小由 expectedInsertions， fpp參數(shù)決定，見方法：

static long optimalNumOfBits(long n, double p) {
    if (p == 0) {
        p = Double.MIN_VALUE;
    }
    return (long) (-n * Math.log(p) / (Math.log(2) * Math.log(2)));
}

真正的byte數(shù)組維護在類：BitArray中。

使用:
最后通過：put和 mightContain方法，添加元素和判斷元素是否存在。

算法特點

1、因使用哈希判斷，時間效率很高?？臻g效率也是其一大優(yōu)勢。2、有誤判的可能，需針對具體場景使用。3、因為無法分辨哈希碰撞，所以不是很好做刪除操作。

使用場景

1、黑名單 2、URL去重 3、單詞拼寫檢查 4、Key-Value緩存系統(tǒng)的Key校驗 5、ID校驗，比如訂單系統(tǒng)查詢某個訂單ID是否存在，如果不存在就直接返回。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一道騰訊面試題：如何快速判斷某 URL 是否在 20 億的網(wǎng)址 URL 集合中？

一道騰訊面試題：如何快速判斷某 URL 是否在 20 億的網(wǎng)址 URL 集合中？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

一道騰訊面試題：如何快速判斷某 URL 是否在 20 億的網(wǎng)址 URL 集合中？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一道騰訊面試題：如何快速判斷某 URL 是否在 20 億的網(wǎng)址 URL 集合中？