爬蟲基本思路(以bf99為例)

  • 頁面分析

  1. 明確自己需要獲取的信息:如個(gè)人年齡、居住地、聯(lián)系方式,獲取比較完善的信息,以備繪制用戶畫像。
  2. 以下圖用戶信息為例,假如我們需要獲取年齡,其對(duì)應(yīng)html元素為class = nav2-25下的第一個(gè)font元素的innerText,其他信息同理。
Paste_Image.png
  1. 以上個(gè)頁面為例,其頁面地址為:其地址是一個(gè)不規(guī)則散列,所以我們需要找到用戶信息頁入口。
Paste_Image.png
  1. 在網(wǎng)站首頁,觀察網(wǎng)頁結(jié)構(gòu),我們可以以2步的形式獲取到,每個(gè)用戶名帶有用戶主頁連接,其保存在class=photodbgtd標(biāo)簽下的a鏈接中。至此頁面分析結(jié)束
Paste_Image.png
  • 爬蟲思路

  1. 編寫爬蟲基本內(nèi)容,偽造請(qǐng)求頭
  2. 編寫函數(shù)get_href(),其接受參數(shù)end_page,end_pages代表最大爬取頁面,get_href會(huì)爬取從第一頁到end_page的所有class為photodbg的td標(biāo)簽下的a的href,保存這些href
  3. 編寫函數(shù)get_content(),其參數(shù)參數(shù)href,會(huì)爬取對(duì)應(yīng)href下個(gè)人信息,并保存。

至此,基本功能完成

More...

此網(wǎng)站在不登陸情況下無法獲取用戶聯(lián)系方式,所以需要模擬登錄,并且保存cookie與session。模擬登錄時(shí)需要填寫表單,并且異步獲取驗(yàn)證碼,暫時(shí)打算用PIL解析驗(yàn)證碼,手動(dòng)輸入,之后就能獲取所有信息。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,062評(píng)論 25 709
  • 一、命令基本格式 命令提示符 當(dāng)?shù)卿沴inux系統(tǒng)時(shí),最常見的命令就是:** [root@bogon ~]#**其...
    魯克巴克詩閱讀 974評(píng)論 0 6
  • 發(fā)現(xiàn) 關(guān)注 消息 iOS 第三方庫(kù)、插件、知名博客總結(jié) 作者大灰狼的小綿羊哥哥關(guān)注 2017.06.26 09:4...
    肇東周閱讀 15,372評(píng)論 4 61
  • 我對(duì)于我自己其實(shí)是很多的期待,可是一般我做不到自己期待的樣子,特別是需要在外界獲得一些力量的情況下。 但是如果我覺...
    子蘇半夏閱讀 324評(píng)論 0 0
  • 沒有什么永垂不朽的,就像如今的我們,在這喧囂的城市里,為著明天的好奇做著準(zhǔn)備,到頭來一成不變。 時(shí)間不會(huì)因?yàn)槟愕目?..
    梨泰院閱讀 198評(píng)論 0 1

友情鏈接更多精彩內(nèi)容