Python爬蟲初探...

前面的文章,我們已經(jīng)把最基本的開(kāi)發(fā)python的工具都安裝并且實(shí)驗(yàn)成功了

然后萬(wàn)物的開(kāi)發(fā)都離不開(kāi)語(yǔ)法的學(xué)習(xí)、掌握等等,這個(gè)只能靠自己去熟悉,誰(shuí)也幫不了你

接下去要入坑的是,爬蟲。

那么我們先來(lái)安裝爬蟲所需要的環(huán)境

這里環(huán)境一口氣安裝完,具體用在爬蟲的那些地方也會(huì)稍微的解釋,更詳細(xì)的解釋會(huì)在下面講解的時(shí)候一一闡述

1、requests 庫(kù)的安裝

Requests 是用Python語(yǔ)言編寫,基于 urllib,采用 Apache2 Licensed 開(kāi)源協(xié)議的 HTTP 庫(kù)。它比 urllib 更加方便,可以節(jié)約我們大量的工作,完全滿足 HTTP 測(cè)試需求。Requests 的哲學(xué)是以 PEP 20 的習(xí)語(yǔ)為中心開(kāi)發(fā)的,所以它比 urllib 更加 Pythoner。更重要的一點(diǎn)是它支持 Python3 哦!

2、 beautifulsoup4 安裝

簡(jiǎn)單來(lái)說(shuō),Beautiful Soup是python的一個(gè)庫(kù),最主要的功能是從網(wǎng)頁(yè)抓取數(shù)據(jù)。官方解釋如下:

Beautiful Soup提供一些簡(jiǎn)單的、python式的函數(shù)用來(lái)處理導(dǎo)航、搜索、修改分析樹(shù)等功能。
它是一個(gè)工具箱,通過(guò)解析文檔為用戶提供需要抓取的數(shù)據(jù),
因?yàn)楹?jiǎn)單,所以不需要多少代碼就可以寫出一個(gè)完整的應(yīng)用程序。

Beautiful Soup自動(dòng)將輸入文檔轉(zhuǎn)換為Unicode編碼,輸出文檔轉(zhuǎn)換為utf-8編碼。
你不需要考慮編碼方式,除非文檔沒(méi)有指定一個(gè)編碼方式,
這時(shí),Beautiful Soup就不能自動(dòng)識(shí)別編碼方式了。
然后,你僅僅需要說(shuō)明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器,
為用戶靈活地提供不同的解析策略或強(qiáng)勁的速度。

3、安裝 lxml

另一個(gè)可供選擇的解析器是純Python實(shí)現(xiàn)的 html5lib , html5lib的解析方式與瀏覽器相同。

值得注意的是:

Beautiful Soup支持Python標(biāo)準(zhǔn)庫(kù)中的HTML解析器,還支持一些第三方的解析器,如果我們不安裝它,則 Python 會(huì)使用 Python默認(rèn)的解析器,lxml 解析器更加強(qiáng)大,速度更快,推薦安裝。

以上所以下載安裝都可以通過(guò) 
pip安裝
或者直接下載安裝

但是我們懶一點(diǎn),前面我們已經(jīng)安裝Python開(kāi)發(fā)強(qiáng)大的IDE工具PyCharm了
這里直接介紹最懶的安裝了,其實(shí)本質(zhì)還是pip安裝,只不過(guò)不用我們?cè)诮K端運(yùn)行罷了

如圖,打開(kāi)IDE的Preferences。


image.png

點(diǎn)擊2中+號(hào),如下圖,然后在3中依次輸入上面所需要的庫(kù),3中輸入找到對(duì)應(yīng)的庫(kù)4,然后就是點(diǎn)擊5安裝了,安裝成功,會(huì)出現(xiàn)成功的提示,如圖紅色框框。

image.png
安裝成功

安裝完成之后,請(qǐng)入坑各個(gè)庫(kù)的用法,下面的文章我們將直接進(jìn)入實(shí)戰(zhàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 目錄: Python網(wǎng)絡(luò)爬蟲(一)- 入門基礎(chǔ)Python網(wǎng)絡(luò)爬蟲(二)- urllib爬蟲案例Python網(wǎng)絡(luò)爬...
    一只寫程序的猿閱讀 13,128評(píng)論 17 68
  • 距離上次爬蟲有一段時(shí)間了,這次就用requests做點(diǎn)事兒,爬取一個(gè)網(wǎng)頁(yè)并且把數(shù)據(jù)添加到數(shù)據(jù)庫(kù)中,酷不酷?首先聲明...
    Picidae閱讀 334評(píng)論 0 1
  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個(gè) Awesome - XXX 系列...
    aimaile閱讀 26,823評(píng)論 6 427
  • 擺渡 摘錄 河州城里有個(gè)年輕人,因家境貧寒,輟學(xué)回家照顧體弱多病的雙親。 他雖然年少,但是,他做...
    南擺閱讀 205評(píng)論 0 0
  • 水仙很奇怪 今天,我們的水仙變化很大,因?yàn)槲野盐覀兊乃蓭Щ丶胰チ恕? 為什么水仙長(zhǎng)的很像蒜?母
    小太陽(yáng)教室王子涵閱讀 192評(píng)論 0 0

友情鏈接更多精彩內(nèi)容