新浪微博爬蟲代碼

整理一下文章 《[數據分析] 簡書在微博上的分享情況》 的代碼。

微博爬蟲的難點:

  1. 登錄問題
    之前我用了兩種方式:1)模擬登錄,手動輸入驗證碼,方法見文尾的鏈接《【圖解】Python模擬登錄新浪微博》;2)直接用Cookie,把登錄過的Cookie復制粘貼到代碼中,代碼中WeiboSpider中的方式即是。

這次參考了網上代碼,使用的用戶名+密碼的方式登錄,注意不是直接登錄到新浪微博,而是新浪SSO。

https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.15)

cookies.py中使用戶名密碼登錄,獲取cookie,在middleware.py中設置請求request的cookie。為了防止Ban,可以多帳號隨機cookie的方式。

  1. 反爬蟲措施

代碼中沒有加瀏覽器隨機請求頭(參見之前文章中有),隨機代理IP,有空補上。

代碼GitHub:https://github.com/ppy2790/weibo2


PS: 之前的文章:
【圖解】Python模擬登錄新浪微博

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容