爬蟲去重策略

1、將訪問過的url保存到數(shù)據(jù)庫中
缺點:效率低
2、將訪問過的url保存到set中,只需要o(1)的代價就可以查詢url
缺點:內(nèi)存占用太大
3、url經(jīng)過md5等方法哈希后保存到set中
將字符縮減到16byte后保存,減少內(nèi)存占用,而且不會重復
4、用bitmap方法,將訪問過的url通過hash函數(shù)映射到某一位
缺點:沖突非常高,用一個hash函數(shù)可能將不同的url映射到同一位上
5、bloomfilter方法對bitmap進行改進,多重hash函數(shù)降低沖突

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容