-
頁面分析
- 明確自己需要獲取的信息:如個(gè)人年齡、居住地、聯(lián)系方式,獲取比較完善的信息,以備繪制用戶畫像。
- 以下圖用戶信息為例,假如我們需要獲取年齡,其對(duì)應(yīng)html元素為
class = nav2-25下的第一個(gè)font元素的innerText,其他信息同理。
Paste_Image.png
- 以上個(gè)頁面為例,其頁面地址為:其地址是一個(gè)不規(guī)則散列,所以我們需要找到用戶信息頁入口。
Paste_Image.png
- 在網(wǎng)站首頁,觀察網(wǎng)頁結(jié)構(gòu),我們可以以2步的形式獲取到,每個(gè)用戶名帶有用戶主頁連接,其保存在
class=photodbg的td標(biāo)簽下的a鏈接中。至此頁面分析結(jié)束
Paste_Image.png
-
爬蟲思路
- 編寫爬蟲基本內(nèi)容,偽造請(qǐng)求頭
- 編寫函數(shù)get_href(),其接受參數(shù)end_page,end_pages代表最大爬取頁面,get_href會(huì)爬取從第一頁到end_page的所有class為photodbg的
td標(biāo)簽下的a的href,保存這些href - 編寫函數(shù)get_content(),其參數(shù)參數(shù)href,會(huì)爬取對(duì)應(yīng)href下個(gè)人信息,并保存。
至此,基本功能完成
More...
此網(wǎng)站在不登陸情況下無法獲取用戶聯(lián)系方式,所以需要模擬登錄,并且保存cookie與session。模擬登錄時(shí)需要填寫表單,并且異步獲取驗(yàn)證碼,暫時(shí)打算用PIL解析驗(yàn)證碼,手動(dòng)輸入,之后就能獲取所有信息。


