什么是爬蟲?
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人), 是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。
爬蟲的用途
- 搜索引擎
- 咨詢新聞網(wǎng)站
- 購物助手(慧慧購物)
- 數(shù)據(jù)分析與研究積累原始數(shù)據(jù)資源
- 搶票軟件等
爬蟲的基本原理:
我們把互聯(lián)網(wǎng)比喻為一張大網(wǎng),網(wǎng)絡(luò)爬蟲我們想象為網(wǎng)上的蜘蛛,網(wǎng)頁與網(wǎng)頁之間的連接我們理解為節(jié)點,爬蟲就相當(dāng)于是訪問網(wǎng)頁,獲取網(wǎng)頁的信息,又通過節(jié)點可以爬取另一個網(wǎng)站,然后不停的通過一個個節(jié)點即訪問一個個網(wǎng)頁,這樣網(wǎng)站的數(shù)據(jù)就可以被我們獲取下來了。
爬蟲分為通用爬蟲和聚焦爬蟲通用爬蟲
通用網(wǎng)絡(luò)爬蟲 是 捜索引擎抓取系統(tǒng)(Baidu、Google、Yahoo等)的重要組成部分。主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地,形成一個互聯(lián)網(wǎng)內(nèi)容的鏡像備份。
聚焦爬蟲 聚焦爬蟲,是"面向特定主題需求"的一種網(wǎng)絡(luò)爬蟲程序,它與通用搜索引擎爬蟲的區(qū)別在于: 聚焦爬蟲在實施網(wǎng)頁抓取時會對內(nèi)容進行處理篩選,盡量保證只抓取與需求相關(guān)的網(wǎng)頁信息。