亚洲日韩av密臀,国产少妇精品xxx

前兩天晚上對新浪微博的賬號信息進(jìn)行了爬去，10幾個小時爬了30幾萬的數(shù)據(jù)，然后我的微博就被封號了，微博一個小時大概就2萬條數(shù)據(jù)，應(yīng)該已經(jīng)很慢了，但是還是被封號了，后續(xù)增加多賬號和多user——agent爬去。

爬去結(jié)果如下：（爬的時候是csv文件，昨天晚上才學(xué)的mongoDB，因?yàn)閏sv文件30萬條數(shù)據(jù)用excel處理太卡了）

X51R)V))VZ}D{VBDC}(OD~W.png

![YG]OH063O3X]%CGYY`)A(WL.png](http://upload-images.jianshu.io/upload_images/4568344-610fe5129c8fe3fa.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

存在的問題：
1.爬蟲爬取的效率太低，沒有做任何限制，一個小時大概只能爬2萬條數(shù)據(jù)，一天也就50萬條數(shù)據(jù)。
2.爬的時候發(fā)現(xiàn)，爬了一段時間后很多訪問都出現(xiàn)501錯誤，用瀏覽器都能打開。
3.爬到30多萬條的時候就被封號了，后續(xù)要改進(jìn)防ban策略。
4.輸出到csv文件中，對大數(shù)據(jù)量的限制太多，準(zhǔn)備改用mongoDB。
5.微博封號可能與太多501錯誤有關(guān)，實(shí)際對新浪服務(wù)器的訪問次數(shù)可能遠(yuǎn)遠(yuǎn)大于30萬。
6.一個小時2萬條數(shù)據(jù)的爬去效率太低，目前不清楚瓶頸在什么地方，后續(xù)學(xué)習(xí)的方向。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

scrapy 爬取新浪賬號

scrapy 爬取新浪賬號

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

scrapy 爬取新浪賬號

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av