豆瓣反爬策略的坑

方案(一)

不停變換user-agent, 但很快就被封了.

方案(二)

使用瀏覽器訪問豆瓣, 將cookies拷貝下來交給爬蟲使用, 不過也就大概一分鐘左右, 這個cookies就被封掉了, 而且換IP也沒法.

方案(三)

利用requests庫自帶的session, 用一個新的session去訪問豆瓣, 這樣豆瓣會頒發(fā)一個cookies, 帶著這個cookies(requests庫自動管理cookies)去訪問豆瓣, 一段時間后, 這個session會被豆瓣封掉, 這時換一個新的session就行了.
不過, 還是被封了, 猜測是豆瓣檢測到這個IP有太多的新用戶, 不再為新的用戶頒發(fā)cookies了

方案(四)

分析出cookies的規(guī)律, 自己偽造, 豆瓣居然沒檢查, 爬完收工.
戰(zhàn)果很豐富! (__)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容