Python 網(wǎng)絡(luò)爬蟲(一)

?網(wǎng)絡(luò)爬蟲的基本介紹

學(xué)習(xí)爬蟲,我想主要從以下幾個方面來切入

-爬蟲的原理?

-爬蟲的作用?

-爬蟲的實現(xiàn)?

-爬蟲的工具?

爬蟲的原理

爬蟲就是一種自動獲取網(wǎng)頁內(nèi)容,提取有價值的數(shù)據(jù)的技術(shù)。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),把你想象成一只蜘蛛,如果要你瀏覽全部網(wǎng)頁,你會如何進行?從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。網(wǎng)絡(luò)爬蟲的基本操作是抓取網(wǎng)頁。

?爬蟲的作用

方便獲取互聯(lián)網(wǎng)數(shù)據(jù),為我所用。假如你是一個科幻迷,想要獲取豆瓣上關(guān)于科幻電影的信息,你就可以通過寫一個簡單的腳本,去抓取關(guān)于科幻電影的信息。又或者朋友向你推薦一部好看的動漫,你想要下載整部動漫時,你也可以寫個爬蟲程序,去獲取下載鏈接。

?爬蟲的實現(xiàn)


爬蟲實現(xiàn)的過程中主要包括了抓取網(wǎng)頁、存儲、網(wǎng)頁分析、展示預(yù)期結(jié)果。

爬蟲的工具

剛開始學(xué)習(xí)爬蟲,我們需要掌握以下幾個庫的使用。

1.打開網(wǎng)頁,下載文件:urllib、urllib2

2.解析網(wǎng)頁:BeautifulSoup,熟悉JQuery的可以用Pyquery

3.使用Requests來提交各種類型的請求,支持重定向,cookies等。

4.使用Selenium,模擬瀏覽器提交類似用戶的操作,處理js動態(tài)產(chǎn)生的網(wǎng)頁

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 目錄: Python網(wǎng)絡(luò)爬蟲(一)- 入門基礎(chǔ)Python網(wǎng)絡(luò)爬蟲(二)- urllib爬蟲案例Python網(wǎng)絡(luò)爬...
    一只寫程序的猿閱讀 37,640評論 3 49
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,140評論 25 708
  • 你爬了嗎? 要玩大數(shù)據(jù),沒有數(shù)據(jù)怎么玩?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲,即網(wǎng)絡(luò)爬蟲,是一種自動獲取網(wǎng)...
    Albert新榮閱讀 2,318評論 0 8
  • 要玩大數(shù)據(jù),沒有數(shù)據(jù)怎么玩?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲,即網(wǎng)絡(luò)爬蟲,是一種自動獲取網(wǎng)頁內(nèi)容的程序...
    評評分分閱讀 8,140評論 2 121
  • 真的不那么喜歡別人問我有沒有男朋友,真的不那么喜歡別人問我年齡,真的不那么喜歡別人問我他有沒有機會。 我想回答:“...
    喜兒有喜事閱讀 390評論 0 3

友情鏈接更多精彩內(nèi)容