除了網(wǎng)絡(luò)網(wǎng)站,HTTP協(xié)議仍然可以以App等為客戶端,傳輸一些不限于網(wǎng)頁的數(shù)據(jù)了。
但是這些數(shù)據(jù),仍然是被HTTP的報(bào)文所包含的。
服務(wù)器開發(fā)主要工作在So.send()和So.recv()之間
爬蟲:站在客戶端的角度進(jìn)行。
192.168.1.1/index.py
是瀏覽器讓服務(wù)器去執(zhí)行index.py腳本,把執(zhí)行后的結(jié)果傳回瀏覽器。
百度是如何知道互聯(lián)網(wǎng)中的網(wǎng)站的呢?
爬蟲:跟我們的app、瀏覽器作用于一樣的,向服務(wù)器發(fā)送各種請(qǐng)求。
爬蟲本身是個(gè)程序,并非瀏覽器,拿到的和瀏覽器拿到的一樣的資源(帶有標(biāo)簽的頁面信息)
數(shù)據(jù)庫是保存數(shù)據(jù)的東西,保存爬蟲的映射信息
避免重復(fù)爬,也要避免漏爬
搜索引擎公司會(huì)有算法進(jìn)行排序問題
一個(gè)HTTP協(xié)議的代碼編寫流程框架:

HTTP協(xié)議代碼編寫流程框架