2018-05-22爬蟲原理、代碼編寫流程框架

除了網(wǎng)絡(luò)網(wǎng)站,HTTP協(xié)議仍然可以以App等為客戶端,傳輸一些不限于網(wǎng)頁的數(shù)據(jù)了。
但是這些數(shù)據(jù),仍然是被HTTP的報(bào)文所包含的。
服務(wù)器開發(fā)主要工作在So.send()和So.recv()之間
爬蟲:站在客戶端的角度進(jìn)行。
192.168.1.1/index.py
是瀏覽器讓服務(wù)器去執(zhí)行index.py腳本,把執(zhí)行后的結(jié)果傳回瀏覽器。
百度是如何知道互聯(lián)網(wǎng)中的網(wǎng)站的呢?
爬蟲:跟我們的app、瀏覽器作用于一樣的,向服務(wù)器發(fā)送各種請(qǐng)求。
爬蟲本身是個(gè)程序,并非瀏覽器,拿到的和瀏覽器拿到的一樣的資源(帶有標(biāo)簽的頁面信息)
數(shù)據(jù)庫是保存數(shù)據(jù)的東西,保存爬蟲的映射信息
避免重復(fù)爬,也要避免漏爬
搜索引擎公司會(huì)有算法進(jìn)行排序問題

一個(gè)HTTP協(xié)議的代碼編寫流程框架:


HTTP協(xié)議代碼編寫流程框架
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,511評(píng)論 19 139
  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個(gè) Awesome - XXX 系列...
    小邁克閱讀 3,122評(píng)論 1 3
  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個(gè) Awesome - XXX 系列...
    aimaile閱讀 26,823評(píng)論 6 427
  • 作為產(chǎn)品或者運(yùn)營,我們幾乎每天都會(huì)重復(fù)同一件事,說服老板/開發(fā)/設(shè)計(jì)/市場(chǎng)同意我們的建議或者方案。他們往往會(huì)用懷疑...
    說好的123呢閱讀 2,505評(píng)論 3 7
  • 在沒有系統(tǒng)的學(xué)習(xí)《性情之光》之前,在對(duì)孩子到底是順從他的天性,還是給她感受逆境這個(gè)問題上,內(nèi)心有過一兩年的摸索和糾...
    未曾行閱讀 1,259評(píng)論 0 0

友情鏈接更多精彩內(nèi)容