學(xué)習(xí)爬蟲入門基本知識(shí)(1)

1、什么是爬蟲?

爬蟲就是將網(wǎng)絡(luò)中非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的工具。

通俗來講:將網(wǎng)頁數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫過程。

2、爬蟲的分類

????a) ? ?通用爬蟲????VS ? ?聚焦爬蟲

????b) ? ?累計(jì)爬蟲 ? ?VS ? ?增量爬蟲

3、爬蟲的實(shí)現(xiàn)

????a) ? ?Java|Python|PHP|C++|Ruby|Dephil|.....

????b) ? ?Python :更專業(yè)

4、爬蟲的操作

????a) ? ?urllib2 底層數(shù)據(jù)采集urlopen()函數(shù)

????b) ? 偽造請(qǐng)求:偽造瀏覽器請(qǐng)求

????????????i. ? ?請(qǐng)求對(duì)象:請(qǐng)求頭數(shù)據(jù)、請(qǐng)求體數(shù)據(jù)、請(qǐng)求方式

? ? ? ? ? ? ii. ? ?請(qǐng)求頭中的User-agent設(shè)置,完成瀏覽器請(qǐng)求的偽裝

????????????iii. ? ?請(qǐng)求對(duì)象:urllib2.Reuqest對(duì)象

? ? c) ? ?模仿用戶行為:只有在特殊的情況下才會(huì)使用

? ? ? ? ? ? i. ? ?隨機(jī)休眠嚴(yán)重影響爬蟲采集數(shù)據(jù)的效率

? ? d) ? ?隱藏客戶端:使IP代理,代理真是客戶端完成對(duì)服務(wù)器數(shù)據(jù)的訪問

????????????i. ? ?免費(fèi)代理|收費(fèi)代理

????????????ii. ? ?正向代理|反向代理

????????????iii. ? ?urlopen底操作

????????????????????1. ? ?操作對(duì)象:urllib2.ProxyHandler({...})

? ? ????????????????2. ? ?開鎖對(duì)象:urllib2.build_open(hander)

????????????????????3. ? ?發(fā)送請(qǐng)求:res =opener.open(url)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容