爬蟲工作環(huán)境配置

磨刀不誤砍柴工,在正式爬蟲學(xué)習(xí)前,需要事先配置工作環(huán)境,包括如下:

  • python環(huán)境。推薦python3,Windows建議用anaconda,Linux用如下代碼
sudo apt-get install python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib 1g-dev
sudo apt-get install python3
sudo apt-get install python3-pip
  • mongodb:非關(guān)系型數(shù)據(jù)庫
  • mysql : 關(guān)系型數(shù)據(jù)庫
sudo apt-get install mysql-server mysql-client
  • redis:非關(guān)系型數(shù)據(jù)庫,用于分布式爬取任務(wù)

上述環(huán)境配置,對于Windows無非是下載安裝包,不斷下一步;對于Linux無非是apt-get install;對于macOS,無非是brew install。

多版本python管理
一般而言,我們裝個(gè)python3就夠了,如果需要安裝多個(gè)python用于不同工作,采用如下方法:

  • 使用conda的工作環(huán)境管理,
  • 修改PATH,保證主要的python版本順序最前
  • 復(fù)制一份python3解釋器,然后改名,也就是增加軟連接
# 先查看python在哪里
whereis python
which python
# 增加軟連接
ln -s /usr/bin/python3.5 /usr/bin/python3

爬蟲的常用庫

# 請求庫
requests
selenium # 處理JS渲染網(wǎng)頁
# 解析庫
lxml #提供xpath解析方式
beautifulsoup # 網(wǎng)頁解析庫,依賴于lxml
pyquery #網(wǎng)頁解析庫,語法與jQuery完全一致
# 儲(chǔ)存庫
pymysql
pymongo
redis
# web庫, 用于獲取代理,存儲(chǔ)
flask
django
# 網(wǎng)頁記事本,在線運(yùn)行代碼
jupyter 

一行代碼安裝上述python包

pip3 install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter

另外selenium需要 phantomjs無界面瀏覽器

入門級(jí)教程很多,這篇文章不是教自己一步一步怎么做,而是讓自己知道如果想要學(xué)爬蟲,要去找哪些內(nèi)容。

寫在最后

一年前,我花了499參加了網(wǎng)頁云課堂的爬蟲課,在學(xué)習(xí)的過程中,真正的入門了python,而不是單純的看著工具書,敲代碼。
然而,中間有很長一段時(shí)間忙其他事情,把python丟在了一遍?,F(xiàn)在又要重新用python了,為了提高學(xué)習(xí)效率,繼續(xù)從爬蟲開始,一個(gè)小伙伴拉著我,合伙又買了一門499的課,繼續(xù)上路

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容