爬蟲是什么 && 爬蟲的種類

百度百科定義
網(wǎng)絡(luò)爬蟲又被稱為網(wǎng)頁蜘蛛。是一種按照一定的規(guī)則,自動地抓取信息的程序或者腳本。

分類:
通用網(wǎng)絡(luò)爬蟲(General Purpose Web Crawler)、
聚焦網(wǎng)絡(luò)爬蟲(Focused Web Crawler)、
增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)、
深層網(wǎng)絡(luò)爬蟲(Deep Web Crawler)。

常用的爬行策略有:深度優(yōu)先策略、廣度優(yōu)先策略

  1. 深度優(yōu)先策略:其基本方法是按照深度由低到高的順序,依次訪問下一級網(wǎng)頁鏈接,直到不能再深入為止。 爬蟲在完成一個爬行分支后返回到上一鏈接節(jié)點進(jìn)一步搜索其它鏈接。 當(dāng)所有鏈接遍歷完后,爬行任務(wù)結(jié)束。 這種策略比較適合垂直搜索或站內(nèi)搜索, 但爬行頁面內(nèi)容層次較深的站點時會造成資源的巨大浪費

  2. 廣度優(yōu)先策略:此策略按照網(wǎng)頁內(nèi)容目錄層次深淺來爬行頁面,處于較淺目錄層次的頁面首先被爬行。 當(dāng)同一層次中的頁面爬行完畢后,爬蟲再深入下一層繼續(xù)爬行。 這種策略能夠有效控制頁面的爬行深度,避免遇到一個無窮深層分支時無法結(jié)束爬行的問題,實現(xiàn)方便,無需存儲大量中間節(jié)點,不足之處在于需較長時間才能爬行到目錄層次較深的頁面

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容