前面的文章,我們已經(jīng)把最基本的開(kāi)發(fā)python的工具都安裝并且實(shí)驗(yàn)成功了
然后萬(wàn)物的開(kāi)發(fā)都離不開(kāi)語(yǔ)法的學(xué)習(xí)、掌握等等,這個(gè)只能靠自己去熟悉,誰(shuí)也幫不了你
接下去要入坑的是,爬蟲。
那么我們先來(lái)安裝爬蟲所需要的環(huán)境
這里環(huán)境一口氣安裝完,具體用在爬蟲的那些地方也會(huì)稍微的解釋,更詳細(xì)的解釋會(huì)在下面講解的時(shí)候一一闡述
1、requests 庫(kù)的安裝
Requests 是用Python語(yǔ)言編寫,基于 urllib,采用 Apache2 Licensed 開(kāi)源協(xié)議的 HTTP 庫(kù)。它比 urllib 更加方便,可以節(jié)約我們大量的工作,完全滿足 HTTP 測(cè)試需求。Requests 的哲學(xué)是以 PEP 20 的習(xí)語(yǔ)為中心開(kāi)發(fā)的,所以它比 urllib 更加 Pythoner。更重要的一點(diǎn)是它支持 Python3 哦!
2、 beautifulsoup4 安裝
簡(jiǎn)單來(lái)說(shuō),Beautiful Soup是python的一個(gè)庫(kù),最主要的功能是從網(wǎng)頁(yè)抓取數(shù)據(jù)。官方解釋如下:
Beautiful Soup提供一些簡(jiǎn)單的、python式的函數(shù)用來(lái)處理導(dǎo)航、搜索、修改分析樹(shù)等功能。
它是一個(gè)工具箱,通過(guò)解析文檔為用戶提供需要抓取的數(shù)據(jù),
因?yàn)楹?jiǎn)單,所以不需要多少代碼就可以寫出一個(gè)完整的應(yīng)用程序。
Beautiful Soup自動(dòng)將輸入文檔轉(zhuǎn)換為Unicode編碼,輸出文檔轉(zhuǎn)換為utf-8編碼。
你不需要考慮編碼方式,除非文檔沒(méi)有指定一個(gè)編碼方式,
這時(shí),Beautiful Soup就不能自動(dòng)識(shí)別編碼方式了。
然后,你僅僅需要說(shuō)明一下原始編碼方式就可以了。
Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器,
為用戶靈活地提供不同的解析策略或強(qiáng)勁的速度。
3、安裝 lxml
另一個(gè)可供選擇的解析器是純Python實(shí)現(xiàn)的 html5lib , html5lib的解析方式與瀏覽器相同。
值得注意的是:
Beautiful Soup支持Python標(biāo)準(zhǔn)庫(kù)中的HTML解析器,還支持一些第三方的解析器,如果我們不安裝它,則 Python 會(huì)使用 Python默認(rèn)的解析器,lxml 解析器更加強(qiáng)大,速度更快,推薦安裝。
以上所以下載安裝都可以通過(guò)
pip安裝
或者直接下載安裝
但是我們懶一點(diǎn),前面我們已經(jīng)安裝Python開(kāi)發(fā)強(qiáng)大的IDE工具PyCharm了
這里直接介紹最懶的安裝了,其實(shí)本質(zhì)還是pip安裝,只不過(guò)不用我們?cè)诮K端運(yùn)行罷了
如圖,打開(kāi)IDE的Preferences。

點(diǎn)擊2中+號(hào),如下圖,然后在3中依次輸入上面所需要的庫(kù),3中輸入找到對(duì)應(yīng)的庫(kù)4,然后就是點(diǎn)擊5安裝了,安裝成功,會(huì)出現(xiàn)成功的提示,如圖紅色框框。


安裝完成之后,請(qǐng)入坑各個(gè)庫(kù)的用法,下面的文章我們將直接進(jìn)入實(shí)戰(zhàn)。