Web Scraper教程(二)爬蟲入門詳解之當當近期暢銷書

你一年能讀幾本書?一個要工作、要生活、還要玩兒的職場人,如果半個月能讀完1本書,那么一年也就讀24本吧!面對浩瀚無邊的書海,當然要選擇值得花費時間閱讀的書來讀了。

一、選書經(jīng)驗:根據(jù)閱讀的目的選擇找書的方法

閱讀的目的不外乎以下三種:
  • 為了在專業(yè)領(lǐng)域?qū)W習某種技能或者更上一層樓
  • 對某個領(lǐng)域很感興趣或者是自己的愛好
  • 充實自己,感受未知的世界,變得更加博學

今天的方法適用于第三個目的——感受未知的世界。

用最省錢的方法買最值得讀的書

當當網(wǎng)以圖書起家,自然沉淀了很多忠實用戶,同時給網(wǎng)站帶去了很多購買量和評價數(shù)。當當就用這些數(shù)據(jù)建立了很多榜單,幫助用戶更好的選書。
但是好的選書方法不一定是好的購書方法,買書當然要考慮價格了。通過當當榜單選的書,在其他平臺搜索一下價格,找一個不錯的價格購買,才對得起自己的時間和銀子。

二、采集的榜單和內(nèi)容

進入當當暢銷書榜單,選擇近30天的暢銷書,默認展示前20本,我們就對這20本的書名進行采集。

三、采集實操講解

1. 調(diào)出Web Scraper界面
2. 新建Sitemap,創(chuàng)建采集項目

首先為當當暢銷榜單建立一個采集項目。如下圖,創(chuàng)建名稱為「dangdang」的Sitemap。注意命名規(guī)則,一般使用長一點的英文就可以(至少3個字母)。
Sitemap name:dangdang
Start URLhttp://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-1
點擊Create Sitemap創(chuàng)建完成!


命名規(guī)則

3. 為書名添加Selector

為書名添加選擇器(Selector),步驟如下(文字與動態(tài)圖結(jié)合看):

  • Id:選擇器名稱,這里填寫「title」,表示要采集的是書的標題
  • Type:默認為Text,表示要采集的信息是文本格式
  • 點擊Selector中的Select后,注意跳出一個條形對話框
  • 點選第1個書名,發(fā)現(xiàn)書名底色變紅(表示被選中),然后點擊第2個書名,此時發(fā)現(xiàn)后面的第3個、第4個……書名均變?yōu)榧t色
  • 點擊條形對話框的Done selecting!
  • 勾選Multiple,表示除了點選的第1個和第2個書名外,本頁后續(xù)底色變紅的書名也都需要采集
  • 點擊Save Selector,書名的選擇器配置完成!
4. 激動人心的采集時刻到來了!

按照前面配置的內(nèi)容執(zhí)行采集程序,步驟如下(文字和動態(tài)圖結(jié)合看):

  • 點擊Sitemap dangdang下拉列表中的Scrape,開始執(zhí)行程序
  • 出現(xiàn)的對話框中有兩項數(shù)字內(nèi)容,默認值均為2000
    Request interval:表示「網(wǎng)頁請求發(fā)送間隔」,為了不被網(wǎng)站判定為機器進而阻止采集,需要模擬人的行為將動作放緩,通常按默認值即可
    Page load delay:表示「頁面加載時長」,如果頁面沒有完全加載就開始采集,會造成信息采集不全,特別是在網(wǎng)速不佳的時候,通常也按默認值,也可適當調(diào)整
  • 點擊Start scraping開始采集,彈出一個采集窗口,注意采集過程中不要關(guān)閉此窗口,待采集完成后,窗口會自動關(guān)閉
  • 窗口關(guān)閉后,點擊refresh,出現(xiàn)3列數(shù)據(jù)
    「web-scraper-order」:程序自動編碼,不用理會
    「web-scraper-start-url」:點擊書名跳轉(zhuǎn)的url,前面雖然只設置了采集書名的文本,但采集默認同時提供url,所以如果需要此項,不用再單獨設置
    「title」:要采集的書名,注意,書名的順序并非是網(wǎng)頁上的順序
5. 導出數(shù)據(jù)至CSV文件

Web Scraper免費版只提供CSV一種導出形式,導出后用Excel打開即可。

  • 點擊Sitemap dangdang下拉列表中的Export data as csv
  • 點擊Download now!后出現(xiàn)了瀏覽器的下載對話框,打開或者保存即可
6. Web Scraper界面內(nèi)容介紹

下面,順序介紹Web Scraper界面中的Sitemaps、SitemapCreate new sitemap
Sitemaps:Sitemap項目列表,所有創(chuàng)建的Sitemap均可在此列表找到,比如上面創(chuàng)建的「dangdang」就在此列表中


Sitemap:直接點擊此項,Web Scraper無任何反應,因為此項只針對某一個已經(jīng)創(chuàng)建的Sitemap,所以,要從Sitemaps中選擇一個ID點擊,這里點擊「dangdang」,發(fā)現(xiàn)跳轉(zhuǎn)到中間的Sitemap,并且變?yōu)榱?code>Sitemap dangdang,說明已經(jīng)跳轉(zhuǎn)到了指定的Sitemap內(nèi)。

點擊Sitemap dangdang,發(fā)現(xiàn)下拉列表有如下幾項,逐一說明:
Selectors:選擇器列表,每一個采集內(nèi)容均要配置一個選擇器,在上面的例子中,采集了書名,如果需要采集評論數(shù)、出版社等頁面可見信息,要分別為這些信息逐一添加選擇器
Selector graph:選擇器結(jié)構(gòu)圖,顯示選擇器之間的樹狀關(guān)系,再復雜的采集項目中能夠一目了然地呈現(xiàn)采集邏輯
Edit metadata:修改Sitemap設置,即Sitemap名稱和url
Scrape:執(zhí)行采集程序
Browse:瀏覽采集結(jié)果
Export Sitemap:導出Sitemap代碼,此代碼可以直接導入,無需再次配置
Export data as CSV:導出采集結(jié)果至csv文件

點擊Create new sitemap,發(fā)現(xiàn)有兩種新建Sitemap的方法,直接創(chuàng)建(Create Sitemap)和導入(Import Sitemap)。

當當?shù)陌咐幸呀?jīng)講過Create Sitemap,這里不再贅述。
點擊Import Sitemap進入以下界面:
Sitemap JSON:把Export Sitemap導出的代碼粘貼在此處
Rename Sitemap:為Sitemap命名
點擊Import Sitemap后,同樣成功創(chuàng)建了Sitemap

四、數(shù)據(jù)采集只是數(shù)據(jù)分析的過程

每一分鐘,互聯(lián)網(wǎng)上都會有海量的數(shù)據(jù)產(chǎn)生,數(shù)據(jù)的價值并非是它本身,而是通過分析數(shù)據(jù)能獲得哪些有價值的信息。數(shù)據(jù)采集是一項不值得投入太多時間的工作(包括學習采集的時間和練習的時間),所以,只要學習了網(wǎng)頁常見情況的處理方法就可以,沒有必要為了學習采集而頻繁練習。遇到新的問題時,再到網(wǎng)上尋求解答,這樣會記得更牢。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容