爬蟲知識

通用網(wǎng)絡(luò)爬蟲:

1,獲取初始的url

2,根據(jù)初始的url爬取頁面并獲得新的url

3, 將新的url放到url隊列中

4,從url隊列中讀取新的url,并根據(jù)新的url爬起網(wǎng)頁,同時從新網(wǎng)頁中獲取新url,并重復(fù)上述過程

5,滿足爬蟲系統(tǒng)設(shè)置的停止條件時,停止爬取

聚焦網(wǎng)絡(luò)爬蟲:

-------對爬取目標的定義和描述

-------獲取初始的url

-------根據(jù)初始的url爬取頁面,并獲得新的url

-------從新的url中過濾掉與爬取目標無關(guān)的鏈接

-------將過濾后的鏈接放的url隊列中

-------從url隊列中,根據(jù)搜索算法,確定url的優(yōu)先級,并確定下一步要爬取的url地址

-------從下一步要爬取的url地址中,讀取新的url,然后依據(jù)新的url地址爬取網(wǎng)頁,并重復(fù)上述爬取過程

------滿足爬蟲的停止條件時或無法獲取新的url時停止爬。

? ? 一般url標準中只會允許一部分ASCII字符入數(shù)字、字母、部分符號等,如果是漢字或以下特殊字符比如:&等就需要編碼。

? ? 服務(wù)器收到瀏覽器發(fā)送的消息后,能夠根據(jù)瀏覽器發(fā)送消息的內(nèi)容,做相應(yīng)處理,然后把消息回傳給瀏覽器。這個過程叫做HTTP Response。瀏覽器收到服務(wù)器的Response信息后,會對信息進行相應(yīng)處理,然后展示。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 爬蟲背景知識: 大數(shù)據(jù)時代?數(shù)據(jù)怎么來的呢?企業(yè)產(chǎn)生的數(shù)據(jù):大的公司會根據(jù)用戶的行為記錄數(shù)據(jù),數(shù)據(jù)會被大公司利用,...
    BaiBao丶閱讀 324評論 0 0
  • 學(xué)任何一門技術(shù),都應(yīng)該帶著目標去學(xué)習(xí),目標就像一座燈塔,指引你前進,很多人學(xué)著學(xué)著就學(xué)放棄了,很大部分原因是沒有明...
    liuzhijun閱讀 1,440評論 3 45
  • 學(xué)任何一門技術(shù),都應(yīng)該帶著目標去學(xué)習(xí),目標就像一座燈塔,指引你前進,很多人學(xué)著學(xué)著就學(xué)放棄了,很大部分原因是沒有明...
    2pro閱讀 197評論 0 0
  • 學(xué)任何一門技術(shù),都應(yīng)該帶著目標去學(xué)習(xí),目標就像一座燈塔,指引你前進,很多人學(xué)著學(xué)著就學(xué)放棄了,很大部分原因是沒有明...
    小姐姐吖_6271閱讀 319評論 0 3
  • 表情是什么,我認為表情就是表現(xiàn)出來的情緒。表情可以傳達很多信息。高興了當然就笑了,難過就哭了。兩者是相互影響密不可...
    Persistenc_6aea閱讀 129,655評論 2 7

友情鏈接更多精彩內(nèi)容