scrapy 爬取新浪賬號

前兩天晚上對新浪微博的賬號信息進(jìn)行了爬去,10幾個小時爬了30幾萬的數(shù)據(jù),然后我的微博就被封號了,微博一個小時大概就2萬條數(shù)據(jù),應(yīng)該已經(jīng)很慢了,但是還是被封號了,后續(xù)增加多賬號和多user——agent爬去。

爬去結(jié)果如下:(爬的時候是csv文件,昨天晚上才學(xué)的mongoDB,因?yàn)閏sv文件30萬條數(shù)據(jù)用excel處理太卡了)

X51R)V))VZ}D{VBDC}(OD~W.png

![YG]OH063O3X]%CGYY`)A(WL.png](http://upload-images.jianshu.io/upload_images/4568344-610fe5129c8fe3fa.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

存在的問題:
1.爬蟲爬取的效率太低,沒有做任何限制,一個小時大概只能爬2萬條數(shù)據(jù),一天也就50萬條數(shù)據(jù)。
2.爬的時候發(fā)現(xiàn),爬了一段時間后很多訪問都出現(xiàn)501錯誤,用瀏覽器都能打開。
3.爬到30多萬條的時候就被封號了,后續(xù)要改進(jìn)防ban策略。
4.輸出到csv文件中,對大數(shù)據(jù)量的限制太多,準(zhǔn)備改用mongoDB。
5.微博封號可能與太多501錯誤有關(guān),實(shí)際對新浪服務(wù)器的訪問次數(shù)可能遠(yuǎn)遠(yuǎn)大于30萬。
6.一個小時2萬條數(shù)據(jù)的爬去效率太低,目前不清楚瓶頸在什么地方,后續(xù)學(xué)習(xí)的方向。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容