?網(wǎng)絡(luò)爬蟲的基本介紹
學(xué)習(xí)爬蟲,我想主要從以下幾個方面來切入
-爬蟲的原理?
-爬蟲的作用?
-爬蟲的實現(xiàn)?
-爬蟲的工具?
爬蟲的原理
爬蟲就是一種自動獲取網(wǎng)頁內(nèi)容,提取有價值的數(shù)據(jù)的技術(shù)。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),把你想象成一只蜘蛛,如果要你瀏覽全部網(wǎng)頁,你會如何進行?從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。網(wǎng)絡(luò)爬蟲的基本操作是抓取網(wǎng)頁。
?爬蟲的作用
方便獲取互聯(lián)網(wǎng)數(shù)據(jù),為我所用。假如你是一個科幻迷,想要獲取豆瓣上關(guān)于科幻電影的信息,你就可以通過寫一個簡單的腳本,去抓取關(guān)于科幻電影的信息。又或者朋友向你推薦一部好看的動漫,你想要下載整部動漫時,你也可以寫個爬蟲程序,去獲取下載鏈接。
?爬蟲的實現(xiàn)
爬蟲實現(xiàn)的過程中主要包括了抓取網(wǎng)頁、存儲、網(wǎng)頁分析、展示預(yù)期結(jié)果。
爬蟲的工具
剛開始學(xué)習(xí)爬蟲,我們需要掌握以下幾個庫的使用。
1.打開網(wǎng)頁,下載文件:urllib、urllib2
2.解析網(wǎng)頁:BeautifulSoup,熟悉JQuery的可以用Pyquery
3.使用Requests來提交各種類型的請求,支持重定向,cookies等。
4.使用Selenium,模擬瀏覽器提交類似用戶的操作,處理js動態(tài)產(chǎn)生的網(wǎng)頁