2019-03-30學習筆記 去重策略

爬蟲去重策略

  1. 將訪問過的url保存到數(shù)據(jù)庫中,效率較低
  2. 將訪問過的url保存到set(內(nèi)存)中,只需要o(1)的代價就可以查詢url
    對內(nèi)存的占用較高
  3. url經(jīng)過md5等方法哈希后保存到set中 (scrapy使用的)
  4. 用bitmap等方法,將訪問過的url通過hash函數(shù)映射到某一位
    申請一個8個位,每一個url映射到每一個位上
    有沖突的可能性 哈希解決沖突的方法
  5. bloomfilter方法對bitmap進行改進,多重hash函數(shù)降低沖突

部分知識

Python用縮進表示代碼塊,不使用{}
Python 通常是一行寫完一條語句,但如果語句很長,我們可以使用反斜杠()來實現(xiàn)多行語句,例如:

total = item_one + \
        item_two + \
        item_three

輸入input()
輸出print()

導入模塊

在 python 用import或者from...import來導入相應的模塊。
將整個模塊(somemodule)導入,格式為:import somemodule
從某個模塊中導入某個函數(shù),格式為:from somemodule import somefunction
從某個模塊中導入多個函數(shù),格式為:from somemodule import firstfunc, secondfunc, thirdfunc
將某個模塊中的全部函數(shù)導入,格式為:from somemodule import *

sys模塊詳解:https://www.cnblogs.com/Archie-s/p/6860301.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

  • 模塊和包 一 模塊 1 什么是模塊? 常見的場景:一個模塊就是一個包含了python定義和聲明的文件,文件名就是...
    go以恒閱讀 2,349評論 0 4
  • 寫在前面的話 代碼中的# > 表示的是輸出結(jié)果 輸入 使用input()函數(shù) 用法 注意input函數(shù)輸出的均是字...
    FlyingLittlePG閱讀 3,237評論 0 9
  • 一、Python簡介和環(huán)境搭建以及pip的安裝 4課時實驗課主要內(nèi)容 【Python簡介】: Python 是一個...
    _小老虎_閱讀 6,353評論 0 10
  • ¥開啟¥ 【iAPP實現(xiàn)進入界面執(zhí)行逐一顯】 〖2017-08-25 15:22:14〗 《//首先開一個線程,因...
    小菜c閱讀 7,383評論 0 17
  • winpcap/sharppcap調(diào)用 多線程、隊列、委托的使用 TCP、RTMP協(xié)議常識及握手過程 封包數(shù)據(jù)解析...
    漣漪之湖閱讀 1,426評論 1 0

友情鏈接更多精彩內(nèi)容