百度百科定義
網(wǎng)絡(luò)爬蟲又被稱為網(wǎng)頁蜘蛛。是一種按照一定的規(guī)則,自動地抓取信息的程序或者腳本。
分類:
通用網(wǎng)絡(luò)爬蟲(General Purpose Web Crawler)、
聚焦網(wǎng)絡(luò)爬蟲(Focused Web Crawler)、
增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)、
深層網(wǎng)絡(luò)爬蟲(Deep Web Crawler)。
常用的爬行策略有:深度優(yōu)先策略、廣度優(yōu)先策略
深度優(yōu)先策略:其基本方法是按照深度由低到高的順序,依次訪問下一級網(wǎng)頁鏈接,直到不能再深入為止。 爬蟲在完成一個爬行分支后返回到上一鏈接節(jié)點進(jìn)一步搜索其它鏈接。 當(dāng)所有鏈接遍歷完后,爬行任務(wù)結(jié)束。 這種策略比較適合垂直搜索或站內(nèi)搜索, 但爬行頁面內(nèi)容層次較深的站點時會造成資源的巨大浪費
廣度優(yōu)先策略:此策略按照網(wǎng)頁內(nèi)容目錄層次深淺來爬行頁面,處于較淺目錄層次的頁面首先被爬行。 當(dāng)同一層次中的頁面爬行完畢后,爬蟲再深入下一層繼續(xù)爬行。 這種策略能夠有效控制頁面的爬行深度,避免遇到一個無窮深層分支時無法結(jié)束爬行的問題,實現(xiàn)方便,無需存儲大量中間節(jié)點,不足之處在于需較長時間才能爬行到目錄層次較深的頁面