爬蟲系列的總結(jié)

圖片來自 unsplash

時光荏苒,四個月時間如流沙般從手心中流逝。這四個月自己算是收獲頗多。因為在張哥的影響下,自己漸漸喜歡上寫作。自己將所學(xué)的爬蟲知識、學(xué)習(xí)心得以及如何學(xué)習(xí)分享出來。本文是爬蟲系列文章的總結(jié),主要是梳理下爬蟲系列的文章。

如果你因爬蟲而對 Python 感興趣,想學(xué)習(xí) Python 爬蟲相關(guān)技術(shù)。你可以先閱讀《學(xué)爬蟲之道》,了解該如何系統(tǒng)地學(xué)習(xí)爬蟲。同時,本爬蟲系列是以理論和實戰(zhàn)相結(jié)合的形式來分享爬蟲技術(shù)。

我在《學(xué)爬蟲之道》一文說道,學(xué)爬蟲一共可分為四個階段。
第一階段是夯實,也就是打基礎(chǔ)階段。所以我們需要從最基礎(chǔ)的庫學(xué)起,分別是 Python 網(wǎng)絡(luò)標(biāo)準(zhǔn)庫《urilib》、《正則表達(dá)式》庫、內(nèi)容提取庫《Beautiful Soup》,最后的《爬取當(dāng)當(dāng)網(wǎng)所有 Python 書籍》吹響了我們進(jìn)擊 “爬蟲進(jìn)階”的號角。

第二階段是進(jìn)階。進(jìn)階階段主要是不斷強(qiáng)化我們的羽翼。我們需要修煉以下《Python 多進(jìn)程與多線程》、《Requests 庫》、《“干將莫邪” —— Xpath 與 lxml 庫》技能。最后的實戰(zhàn)篇《爬取電影天堂的最新電影》是用來檢驗我們所掌握知識是否牢固。

第三階段是突破。到了這一層次,我們追求的是厚積薄發(fā)。因為,需要學(xué)習(xí)能夠爬取系列站點的 Scrapy 框架。Scrapy 知識點較多,我將其拆分成為五個部分進(jìn)行講解。分別是《學(xué)會運用爬蟲框架 Scrapy (一)》、《學(xué)會運用爬蟲框架 Scrapy (二)》、《學(xué)會運用爬蟲框架 Scrapy (三)》、《學(xué)會運用爬蟲框架 Scrapy (四) —— 高效下載圖片》、《學(xué)會運用爬蟲框架 Scrapy (五) —— 部署爬蟲》。除此之外,還需領(lǐng)悟《爬蟲與反爬蟲的博弈》。

第四階段是為我所用。簡而言之,就是數(shù)據(jù)分析。我們借用 NumPy、Pandas、 Matplotlib 三個工具將雜亂無章的數(shù)據(jù)進(jìn)行整理并得出相對應(yīng)的結(jié)論。


推薦閱讀:
爬蟲實戰(zhàn)二:爬取電影天堂的最新電影
深入理解HTTP
應(yīng)該如何閱讀?


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容