爬蟲去重策略
- 將訪問過的url保存到數(shù)據(jù)庫中,效率較低
- 將訪問過的url保存到set(內(nèi)存)中,只需要o(1)的代價就可以查詢url
對內(nèi)存的占用較高 - url經(jīng)過md5等方法哈希后保存到set中 (scrapy使用的)
- 用bitmap等方法,將訪問過的url通過hash函數(shù)映射到某一位
申請一個8個位,每一個url映射到每一個位上
有沖突的可能性 哈希解決沖突的方法 - bloomfilter方法對bitmap進行改進,多重hash函數(shù)降低沖突
部分知識
Python用縮進表示代碼塊,不使用{}
Python 通常是一行寫完一條語句,但如果語句很長,我們可以使用反斜杠()來實現(xiàn)多行語句,例如:
total = item_one + \
item_two + \
item_three
輸入input()
輸出print()
導入模塊
在 python 用import或者from...import來導入相應的模塊。
將整個模塊(somemodule)導入,格式為:import somemodule
從某個模塊中導入某個函數(shù),格式為:from somemodule import somefunction
從某個模塊中導入多個函數(shù),格式為:from somemodule import firstfunc, secondfunc, thirdfunc
將某個模塊中的全部函數(shù)導入,格式為:from somemodule import *
sys模塊詳解:https://www.cnblogs.com/Archie-s/p/6860301.html
