如何開始寫你的第一個(gè)爬蟲腳本——簡(jiǎn)單爬蟲入門!

好多朋友在入門python的時(shí)候都是以爬蟲入手,而網(wǎng)絡(luò)爬蟲是近幾年比較流行的概念,特別是在大數(shù)據(jù)分析熱門起來(lái)以后,學(xué)習(xí)網(wǎng)絡(luò)爬蟲的人越來(lái)越多,哦對(duì),現(xiàn)在叫數(shù)據(jù)挖掘了!

其實(shí),一般的爬蟲具有為2個(gè)功能:取數(shù)據(jù)和存數(shù)據(jù)!好像說(shuō)了句廢話。。。

而從這2個(gè)功能拓展,需要的知識(shí)就很多了:請(qǐng)求數(shù)據(jù)、反爬處理、頁(yè)面解析、內(nèi)容匹配、繞過驗(yàn)證碼、保持登錄以及數(shù)據(jù)庫(kù)等等相關(guān)知識(shí),今天我們就來(lái)說(shuō)說(shuō)做一個(gè)簡(jiǎn)單的爬蟲,一般需要的步驟!

存數(shù)據(jù)

先說(shuō)存數(shù)據(jù),是因?yàn)樵诔跗趯W(xué)習(xí)的時(shí)候,接觸的少,也不需要太過于關(guān)注,隨著學(xué)習(xí)的慢慢深入,我們需要保存大批量的數(shù)據(jù)的時(shí)候,就需要去學(xué)習(xí)數(shù)據(jù)庫(kù)的相關(guān)知識(shí)了!這個(gè)我們隨后開篇單獨(dú)說(shuō)明。

初期,我們抓到需要的內(nèi)容后,只需要保存到本地,無(wú)非保存到文檔、表格(excel)等等幾個(gè)方法,這里大家只需要掌握with語(yǔ)句就基本可以保證需求了。大概是這樣的:

with open(路徑以及文件名,保存模式) as? f:

? ? f.write(數(shù)據(jù))#如果是文本可直接寫入,如果是其他文件,數(shù)據(jù)為二進(jìn)制模式更好

當(dāng)然保存到excel表格或者word文檔需要用到?xlwt庫(kù)(excel)、python-docx庫(kù)(word),這個(gè)在網(wǎng)上很多,大家可以自行去學(xué)習(xí)。

取數(shù)據(jù)

啰嗦那么多,終于到正題,怎么來(lái)抓取我們想要的數(shù)據(jù)呢?我們一步步的來(lái)!

一般所謂的取網(wǎng)頁(yè)內(nèi)容,指的是通過Python腳本實(shí)現(xiàn)訪問某個(gè)URL地址(請(qǐng)求數(shù)據(jù)),然后獲得其所返回的內(nèi)容(HTML源碼,Json格式的字符串等)。然后通過解析規(guī)則(頁(yè)面解析),分析出我們需要的數(shù)據(jù)并?。▋?nèi)容匹配)出來(lái)。

在python中實(shí)現(xiàn)爬蟲非常方便,有大量的庫(kù)可以滿足我們的需求,比如先用requests庫(kù)取一個(gè)url(網(wǎng)頁(yè))的源碼

import? requests#導(dǎo)入庫(kù)

url = '你的目標(biāo)網(wǎng)址'

response = requests.get(url)#請(qǐng)求數(shù)據(jù)

print(response.text)#打印出數(shù)據(jù)的文本內(nèi)容

這幾行代碼就可以獲得網(wǎng)頁(yè)的源代碼,但是有時(shí)候這里面會(huì)有亂碼,為什么呢?

因?yàn)橹形木W(wǎng)站中包含中文,而終端不支持gbk編碼,所以我們?cè)诖蛴r(shí)需要把中文從gbk格式轉(zhuǎn)為終端支持的編碼,一般為utf-8編碼。

所有我們?cè)诖蛴esponse之前,需要對(duì)它進(jìn)行編碼的指定(我們可以直接指定代碼顯示的編碼格式為網(wǎng)頁(yè)本身的編碼格式,比如utf-8,網(wǎng)頁(yè)編碼格式一般都在源代碼中的<meta>標(biāo)簽下的charset屬性中指定)。加上一行即可

response.encode = 'utf-8'#指定編碼格式

至此,我們已經(jīng)獲取了網(wǎng)頁(yè)的源代碼,接下來(lái)就是在亂七八糟的源代碼中找到我們需要的內(nèi)容,這里就需要用到各種匹配方式了,常用的幾種方式有:正則表達(dá)式(re庫(kù)),bs4(Beautifulsoup4庫(kù)),xpath(lxml庫(kù))!

建議大家從正則開始學(xué)習(xí),最后一定要看看xpath,這個(gè)在爬蟲框架scrapy中用的很多!

通過各種匹配方式找到我們的內(nèi)容后(注意:一般匹配出來(lái)的是列表),就到了上面所說(shuō)的存數(shù)據(jù)的階段了,這就是一個(gè)簡(jiǎn)單的爬蟲的過程!

當(dāng)然了,在我們具體寫代碼的時(shí)候,會(huì)發(fā)現(xiàn)很多上面沒有說(shuō)到的內(nèi)容,比如

獲取源代碼的時(shí)候遇到反爬,根本獲取不到數(shù)據(jù)

有的網(wǎng)站需要登錄后才可以拿到內(nèi)容

遇到驗(yàn)證碼

獲取到內(nèi)容后寫入文件出錯(cuò)

怎樣來(lái)設(shè)計(jì)循環(huán),獲取大批量的內(nèi)容甚至整站爬蟲

等等,這些我們慢慢來(lái)研究!

python學(xué)習(xí)群:542110741

總之,學(xué)習(xí)本身是一個(gè)漫長(zhǎng)的過程,我們需要不斷的練習(xí)來(lái)增強(qiáng)我們的學(xué)習(xí)興趣,以及學(xué)到更扎實(shí)的知識(shí)!大家加油!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,323評(píng)論 25 708
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,688評(píng)論 19 139
  • 1 有一次,一個(gè)小群有人在招幕每天寫一句開心的話,我一聽很好玩,正合我意,這也是我所喜歡的,毫不猶豫加入群。 大家...
    碼字好玩兒閱讀 472評(píng)論 2 1
  • 背景說(shuō)明 朋友們,青山出現(xiàn)了。大家可能好奇這些日子去哪里了,怎么在網(wǎng)上沒有了音信。首先給大家道個(gè)歉,原諒我的不辭而...
    月青山閱讀 402評(píng)論 0 1
  • 2007-04-24 10:49:02詩(shī)意地理解生活,理解我們周圍的一切--是我們從童年時(shí)代得到的最可貴的禮物。要...
    逸之飄520閱讀 517評(píng)論 0 0

友情鏈接更多精彩內(nèi)容