爬蟲Scrapy

什么是爬蟲?

網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人), 是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。

爬蟲的用途

  • 搜索引擎
  • 咨詢新聞網(wǎng)站
  • 購物助手(慧慧購物)
  • 數(shù)據(jù)分析與研究積累原始數(shù)據(jù)資源
  • 搶票軟件等

爬蟲的基本原理:

我們把互聯(lián)網(wǎng)比喻為一張大網(wǎng),網(wǎng)絡(luò)爬蟲我們想象為網(wǎng)上的蜘蛛,網(wǎng)頁與網(wǎng)頁之間的連接我們理解為節(jié)點,爬蟲就相當(dāng)于是訪問網(wǎng)頁,獲取網(wǎng)頁的信息,又通過節(jié)點可以爬取另一個網(wǎng)站,然后不停的通過一個個節(jié)點即訪問一個個網(wǎng)頁,這樣網(wǎng)站的數(shù)據(jù)就可以被我們獲取下來了。

爬蟲分為通用爬蟲和聚焦爬蟲通用爬蟲

通用網(wǎng)絡(luò)爬蟲 是 捜索引擎抓取系統(tǒng)(Baidu、Google、Yahoo等)的重要組成部分。主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地,形成一個互聯(lián)網(wǎng)內(nèi)容的鏡像備份。

聚焦爬蟲 聚焦爬蟲,是"面向特定主題需求"的一種網(wǎng)絡(luò)爬蟲程序,它與通用搜索引擎爬蟲的區(qū)別在于:   聚焦爬蟲在實施網(wǎng)頁抓取時會對內(nèi)容進行處理篩選,盡量保證只抓取與需求相關(guān)的網(wǎng)頁信息。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容