上一節(jié)我們拆解了抓取數(shù)據(jù)的基本步驟,
這一小節(jié)我們來認(rèn)識一下webscraper這個插件的各個選項和按鈕
首先要知道我們創(chuàng)建的一個抓取數(shù)據(jù)的工程就是一個sitemap對象
主頁面

主頁面
- 1 Sitemaps: 該頁面記錄了我們創(chuàng)建的所有的sitemap工程目錄
- 2 sitemap: 在Sitemaps中點擊單個sitemap工程我們就可以編輯每個sitemap工程,具體有以下幾個選項:
Selectors: 當(dāng)前sitemap的數(shù)據(jù)選擇區(qū)域
Selectors graph:當(dāng)前sitemap選擇器的圖結(jié)構(gòu)
Edit metadata:編輯當(dāng)前sitemap的源數(shù)據(jù)(主要包括sitemap名稱和爬取的url)
Scrape:啟動sitemap工程進行抓取數(shù)據(jù)
Browse: --
Export Sitemap: 當(dāng)我們編寫好了sitemap之后可導(dǎo)出當(dāng)前工程的配置文件
Export data as CSV: 當(dāng)sitemap工程抓取完之后,通過此選項導(dǎo)出CSV(excel文件)
2 - 3 Create new sitemap: 新建sitemap工程,既可以直接新建工程也可以直接使用別人的sitemap配置。
Create Sitemap:創(chuàng)建新的sitemap
Sitemap name:你的新sitemap的名稱
Start url: 要抓取的網(wǎng)站的鏈接,直接從瀏覽器復(fù)制粘貼進去
import Sitemap:導(dǎo)入其他的sitemap配置文件
Create new sitemap
主頁面基本上就這些元素,在后面的教程示例中我們會用到這些內(nèi)容,用幾次就熟悉了。
接下來我們用幾個例子來帶你熟悉這個插件的神奇之處

