通用網(wǎng)絡(luò)爬蟲:
1,獲取初始的url
2,根據(jù)初始的url爬取頁面并獲得新的url
3, 將新的url放到url隊列中
4,從url隊列中讀取新的url,并根據(jù)新的url爬起網(wǎng)頁,同時從新網(wǎng)頁中獲取新url,并重復(fù)上述過程
5,滿足爬蟲系統(tǒng)設(shè)置的停止條件時,停止爬取
聚焦網(wǎng)絡(luò)爬蟲:
-------對爬取目標的定義和描述
-------獲取初始的url
-------根據(jù)初始的url爬取頁面,并獲得新的url
-------從新的url中過濾掉與爬取目標無關(guān)的鏈接
-------將過濾后的鏈接放的url隊列中
-------從url隊列中,根據(jù)搜索算法,確定url的優(yōu)先級,并確定下一步要爬取的url地址
-------從下一步要爬取的url地址中,讀取新的url,然后依據(jù)新的url地址爬取網(wǎng)頁,并重復(fù)上述爬取過程
------滿足爬蟲的停止條件時或無法獲取新的url時停止爬。
? ? 一般url標準中只會允許一部分ASCII字符入數(shù)字、字母、部分符號等,如果是漢字或以下特殊字符比如:&等就需要編碼。
? ? 服務(wù)器收到瀏覽器發(fā)送的消息后,能夠根據(jù)瀏覽器發(fā)送消息的內(nèi)容,做相應(yīng)處理,然后把消息回傳給瀏覽器。這個過程叫做HTTP Response。瀏覽器收到服務(wù)器的Response信息后,會對信息進行相應(yīng)處理,然后展示。