教你爬蟲的用途,妙不可言哦!

大家好,我是七月,今天教大家認(rèn)識(shí)認(rèn)識(shí)爬蟲,注意哈,不是地上爬的那種毛毛蟲哦!先來(lái)說(shuō)說(shuō)爬蟲的用途


1、查元素

在瀏覽器的地址欄輸入U(xiǎn)RL地址,在網(wǎng)頁(yè)處右鍵單擊,找到檢查。(不同瀏覽器的叫法不同,Chrome瀏覽器叫做檢查,F(xiàn)irefox瀏覽器叫做查看元素,但是功能都是相同的)

我們可以看到,右側(cè)出現(xiàn)了一大堆代碼,這些代碼就叫做HTML。什么是HTML?舉個(gè)容易理解的例子:我們的基因決定了我們的原始容貌,服務(wù)器返回的HTML決定了網(wǎng)站的原始容貌。

為啥說(shuō)是原始容貌呢?

因?yàn)槿丝梢哉莅。≡牧?,有木有?那網(wǎng)站也可以”整容”嗎?可以!

我是怎么給網(wǎng)站”整容”的呢?就是通過(guò)修改服務(wù)器返回的HTML信息。我們每個(gè)人都是”整容大師”,可以修改頁(yè)面信息。我們?cè)陧?yè)面的哪個(gè)位置點(diǎn)擊審查元素,瀏覽器就會(huì)為我們定位到相應(yīng)的HTML位置,進(jìn)而就可以在本地更改HTML信息。

說(shuō)這么多,什么意思呢?瀏覽器就是作為客戶端從服務(wù)器端獲取信息,然后將信息解析,并展示給我們的。我們可以在本地修改HTML信息,為網(wǎng)頁(yè)”整容”,但是我們修改的信息不會(huì)回傳到服務(wù)器,服務(wù)器存儲(chǔ)的HTML信息不會(huì)改變。刷新一下界面,頁(yè)面還會(huì)回到原本的樣子。這就跟人整容一樣,我們能改變一些表面的東西,但是不能改變我們的基因。

2、簡(jiǎn)單實(shí)例

網(wǎng)絡(luò)爬蟲的第一步就是根據(jù)URL,獲取網(wǎng)頁(yè)的HTML信息。在Python3中,可以使用urllib.request和requests進(jìn)行網(wǎng)頁(yè)爬取。

urllib庫(kù)是python內(nèi)置的,無(wú)需我們額外安裝,只要安裝了Python就可以使用這個(gè)庫(kù)。

requests庫(kù)是第三方庫(kù),需要我們自己安裝。

requests庫(kù)強(qiáng)大好用,所以本文使用requests庫(kù)獲取網(wǎng)頁(yè)的HTML信息。requests庫(kù)的github地址:https://github.com/requests/requests

(1) requests安裝

在cmd中,使用如下指令安裝requests:

pip install requests

1

或者:

easy_install requests

1

(2) 簡(jiǎn)單實(shí)例

requests庫(kù)的基礎(chǔ)方法如下:

requests庫(kù)的開發(fā)者為我們提供了詳細(xì)的中文教程,查詢起來(lái)很方便。本文不會(huì)對(duì)其所有內(nèi)容進(jìn)行講解,摘取其部分使用到的內(nèi)容,進(jìn)行實(shí)戰(zhàn)說(shuō)明。

首先,讓我們看下requests.get()方法,它用于向服務(wù)器發(fā)起GET請(qǐng)求,不了解GET請(qǐng)求沒(méi)有關(guān)系。我們可以這樣理解:get的中文意思是得到、抓住,那這個(gè)requests.get()方法就是從服務(wù)器得到、抓住數(shù)據(jù),也就是獲取數(shù)據(jù)。讓我們看一個(gè)例子(以 www.gitbook.cn為例)來(lái)加深理解:

# -*- coding:UTF-8 -*-import requestsif __name__ == '__main__': target = 'http://gitbook.cn/' req = requests.get(url=target) print(req.text)

requests.get()方法必須設(shè)置的一個(gè)參數(shù)就是url,因?yàn)槲覀兊酶嬖VGET請(qǐng)求,我們的目標(biāo)是誰(shuí),我們要獲取誰(shuí)的信息。運(yùn)行程序看下結(jié)果:

左側(cè)是我們程序獲得的結(jié)果,右側(cè)是我們?cè)趙ww.gitbook.cn網(wǎng)站審查元素獲得的信息。我們可以看到,我們已經(jīng)順利獲得了該網(wǎng)頁(yè)的HTML信息。這就是一個(gè)最簡(jiǎn)單的爬蟲實(shí)例,可能你會(huì)問(wèn),我只是爬取了這個(gè)網(wǎng)頁(yè)的HTML信息,有什么用呢。當(dāng)然,你可以去爬取別的網(wǎng)站的信息啊,違法的事咱不能干哈?。?!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容