磨刀不誤砍柴工,在正式爬蟲學(xué)習(xí)前,需要事先配置工作環(huán)境,包括如下:
- python環(huán)境。推薦python3,Windows建議用anaconda,Linux用如下代碼
sudo apt-get install python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib 1g-dev
sudo apt-get install python3
sudo apt-get install python3-pip
- mongodb:非關(guān)系型數(shù)據(jù)庫
- mysql : 關(guān)系型數(shù)據(jù)庫
sudo apt-get install mysql-server mysql-client
- redis:非關(guān)系型數(shù)據(jù)庫,用于分布式爬取任務(wù)
上述環(huán)境配置,對于Windows無非是下載安裝包,不斷下一步;對于Linux無非是apt-get install;對于macOS,無非是brew install。
多版本python管理
一般而言,我們裝個(gè)python3就夠了,如果需要安裝多個(gè)python用于不同工作,采用如下方法:
- 使用conda的工作環(huán)境管理,
- 修改PATH,保證主要的python版本順序最前
- 復(fù)制一份python3解釋器,然后改名,也就是增加軟連接
# 先查看python在哪里
whereis python
which python
# 增加軟連接
ln -s /usr/bin/python3.5 /usr/bin/python3
爬蟲的常用庫
# 請求庫
requests
selenium # 處理JS渲染網(wǎng)頁
# 解析庫
lxml #提供xpath解析方式
beautifulsoup # 網(wǎng)頁解析庫,依賴于lxml
pyquery #網(wǎng)頁解析庫,語法與jQuery完全一致
# 儲(chǔ)存庫
pymysql
pymongo
redis
# web庫, 用于獲取代理,存儲(chǔ)
flask
django
# 網(wǎng)頁記事本,在線運(yùn)行代碼
jupyter
一行代碼安裝上述python包
pip3 install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter
另外selenium需要 phantomjs無界面瀏覽器
入門級(jí)教程很多,這篇文章不是教自己一步一步怎么做,而是讓自己知道如果想要學(xué)爬蟲,要去找哪些內(nèi)容。
寫在最后
一年前,我花了499參加了網(wǎng)頁云課堂的爬蟲課,在學(xué)習(xí)的過程中,真正的入門了python,而不是單純的看著工具書,敲代碼。
然而,中間有很長一段時(shí)間忙其他事情,把python丟在了一遍?,F(xiàn)在又要重新用python了,為了提高學(xué)習(xí)效率,繼續(xù)從爬蟲開始,一個(gè)小伙伴拉著我,合伙又買了一門499的課,繼續(xù)上路