爬蟲的步驟

爬蟲代碼基本步驟

第一步:

分析網(wǎng)站,尋找目標(biāo)URL

第二步:

分析目標(biāo)URL參數(shù)(get,post)

get和post請求的區(qū)別:

get請求參數(shù)部分:把?后面的參數(shù)寫在字典中,然后使用parse.urlencode(字典參數(shù)),得到了url編碼格式的字符串

post請求參數(shù)部分:是處理表單數(shù)據(jù),將變淡u數(shù)據(jù)放在字典中,然后使用parse.urlencode(字典參數(shù)),得到了url編碼格式的字符串使用encode方法將字符串轉(zhuǎn)為bytes類型

第三步(發(fā)起請求):

(1):設(shè)置請求頭,添加UA(cookie,referer)
(2):實(shí)例化一個(gè)Request對象(request.Request)
(3):根據(jù)實(shí)例化的Request對象,使用request.urlopen()方法發(fā)起請求

第四步(處理響應(yīng)結(jié)果):

(1):Ajax請求得到的一般是json數(shù)據(jù),使用json模塊處理,使用json.loads將json字符串,轉(zhuǎn)為python數(shù)據(jù)類型
(2):對于飛非結(jié)構(gòu)化數(shù)據(jù)(數(shù)據(jù)在html頁面中),可以使用re正則模塊提取數(shù)據(jù)(xpath,BeautifulSoup,pyquery)
(3):如果還有其他url需要發(fā)起請求則繼續(xù)發(fā)起請求

第五步(數(shù)據(jù)的持久化):

(1):文件存儲(chǔ)(json,csv,txt。。。。。。)
(2):數(shù)據(jù)庫存儲(chǔ)(mongodb,MySQL,redis。。。。。。)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Getting Started Burp Suite 是用于攻擊web 應(yīng)用程序的集成平臺(tái)。它包含了許多工具,并為...
    Eva_chenx閱讀 29,242評論 0 14
  • 關(guān)于Mongodb的全面總結(jié) MongoDB的內(nèi)部構(gòu)造《MongoDB The Definitive Guide》...
    中v中閱讀 32,289評論 2 89
  • 利用HTTP協(xié)議向服務(wù)器傳參的幾種途徑、響應(yīng)、Cookie、Session、類視圖、中間件 注意: 1>Dja...
    Cestine閱讀 1,490評論 0 2
  • Swift1> Swift和OC的區(qū)別1.1> Swift沒有地址/指針的概念1.2> 泛型1.3> 類型嚴(yán)謹(jǐn) 對...
    cosWriter閱讀 11,641評論 1 32
  • 晨曦作鏡趕梳妝,俏麗羞澀似新娘。身邊戲蝶翩翩舞,不知何時(shí)逢君郎。
    兵雨閱讀 372評論 0 2

友情鏈接更多精彩內(nèi)容