因?yàn)樾枰傈c(diǎn)數(shù)據(jù),所以在github上面找了一個微博爬蟲項(xiàng)目:https://github.com/dataabc/weibo-crawler。我只是一個執(zhí)行者,感謝這個項(xiàng)目的作者,謝謝,灰常感謝!感謝各位大神分享自己的經(jīng)驗(yàn),謝謝,祝大家一生好運(yùn)?。?br> 總結(jié)起來就是:正確安裝好Python—pip和Python版本匹配—安裝requirements.txt中的模塊—運(yùn)行腳本。
我?。。≌娴氖歉鞣N坑都踩了遍,只能說還好沒有放棄,搞到凌晨一兩點(diǎn)·····痘痘沒白長。
首先在github上看這個項(xiàng)目的read me.md 和requirements.txt,對項(xiàng)目的過程以及要求有初步的了解。我所理解的就是下載相關(guān)模塊之后再運(yùn)行腳本。有了目標(biāo),再一步一步解決相關(guān)要求。
第一步,下載跟電腦版本相匹配的Python,32位還是64位的,安裝的時候,一定要勾選下面的一個小框的path啥的?。。?!一定要勾選!!一定要!因?yàn)楹苤匾?br> 在gitbub上下載項(xiàng)目的源碼文件夾,然后解壓。
第二步,安裝好Python之后,按win+R打開運(yùn)行,輸入CMD,回車enter
進(jìn)入界面后,檢查Python、pip版本是不是匹配:按 python --version查看Python 版本,pip list 查看pip版本。
如果兩者版本不匹配,它會提示你升級pip版本,只需要按它的指令升級版本就行了:pip install --upgrade pip。
也可以直接git bash下載。這里講pip下載,其實(shí)都差不多。
第三步,下載requirements.txt中的模塊:pip install absl.py; pipi install requests; pip install tqdm; pip install lxml
如果pip install lxml裝不上的,就要先下載wheel安裝。具體步驟是:先從https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 這個網(wǎng)站上或者lxml官網(wǎng)上找到跟Python版本相同的下載,因?yàn)槲业腜ython是3.9.1,電腦是64位,所以下載的是圖下面的版本:

下載后,回到界面安裝wheel :pip install wheel
安裝包wheel之后,進(jìn)入lxml所在文件夾安裝:直接輸入lxml所在磁盤名稱,我的是G:磁盤,然后cd +lxml文件夾路徑,最后 pip install *****.whl(lxml的名稱)
安裝好以上之后,就可以按照read.md中的步驟運(yùn)行 weibo.py了:在界面進(jìn)入項(xiàng)目所在磁盤G:再cd +weibo.py所在文件夾路徑,最后輸入weibo.py就可以爬賬號了。記得在json文件中修改賬號。cd是指切換目錄。
只要Python安裝正確,基本上就沒有太大了的問題。
開始用cmd運(yùn)行Python腳本失敗之后,我就用了下面的這個軟件

直接在anaconda中進(jìn)入項(xiàng)目所在文件夾,運(yùn)行Python weibo.py,然后按照它的提示一步一步操作,最后成功了。
這也給了我信心去重新解決cmd運(yùn)行Python和bash 運(yùn)行
最后也成功解決了。
其中運(yùn)行會碰到timeout這個問題,是要改變pip源,直接pip install markdown -I https://pypi.tuna.tsinghua.edu.cn/simple(國內(nèi)源網(wǎng)址,可以自己查)-I是i的大寫,不要搞錯了。
沒有任何Python基礎(chǔ)也可以爬微博了。因?yàn)榍懊鍼ython可能沒有安裝正確,所以改環(huán)境變量也沒有用,浪費(fèi)了很多時間。卸載干凈后重裝省事多了。
通過這件事,我只想到一句話,還好我沒有放棄。編程就是零和一,沒有中間地帶,它只會按設(shè)定的程序執(zhí)行,所以生氣也是沒有的,只要根據(jù)提示去解決問題就好。一個問題一個問題的解決。一定要細(xì)心?。。。?!
差不多就這樣了。