你一年能讀幾本書?一個要工作、要生活、還要玩兒的職場人,如果半個月能讀完1本書,那么一年也就讀24本吧!面對浩瀚無邊的書海,當然要選擇值得花費時間閱讀的書來讀了。
一、選書經(jīng)驗:根據(jù)閱讀的目的選擇找書的方法
閱讀的目的不外乎以下三種:
- 為了在專業(yè)領(lǐng)域?qū)W習某種技能或者更上一層樓
- 對某個領(lǐng)域很感興趣或者是自己的愛好
- 充實自己,感受未知的世界,變得更加博學
今天的方法適用于第三個目的——感受未知的世界。
用最省錢的方法買最值得讀的書
當當網(wǎng)以圖書起家,自然沉淀了很多忠實用戶,同時給網(wǎng)站帶去了很多購買量和評價數(shù)。當當就用這些數(shù)據(jù)建立了很多榜單,幫助用戶更好的選書。
但是好的選書方法不一定是好的購書方法,買書當然要考慮價格了。通過當當榜單選的書,在其他平臺搜索一下價格,找一個不錯的價格購買,才對得起自己的時間和銀子。
二、采集的榜單和內(nèi)容
進入當當暢銷書榜單,選擇近30天的暢銷書,默認展示前20本,我們就對這20本的書名進行采集。

三、采集實操講解
1. 調(diào)出Web Scraper界面

2. 新建Sitemap,創(chuàng)建采集項目
首先為當當暢銷榜單建立一個采集項目。如下圖,創(chuàng)建名稱為「dangdang」的Sitemap。注意命名規(guī)則,一般使用長一點的英文就可以(至少3個字母)。
Sitemap name:dangdang
Start URL:http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-1
點擊Create Sitemap創(chuàng)建完成!


3. 為書名添加Selector
為書名添加選擇器(Selector),步驟如下(文字與動態(tài)圖結(jié)合看):
-
Id:選擇器名稱,這里填寫「title」,表示要采集的是書的標題 -
Type:默認為Text,表示要采集的信息是文本格式 - 點擊
Selector中的Select后,注意跳出一個條形對話框 - 點選第1個書名,發(fā)現(xiàn)書名底色變紅(表示被選中),然后點擊第2個書名,此時發(fā)現(xiàn)后面的第3個、第4個……書名均變?yōu)榧t色
- 點擊條形對話框的
Done selecting! - 勾選
Multiple,表示除了點選的第1個和第2個書名外,本頁后續(xù)底色變紅的書名也都需要采集 - 點擊
Save Selector,書名的選擇器配置完成!
4. 激動人心的采集時刻到來了!
按照前面配置的內(nèi)容執(zhí)行采集程序,步驟如下(文字和動態(tài)圖結(jié)合看):
- 點擊
Sitemap dangdang下拉列表中的Scrape,開始執(zhí)行程序 - 出現(xiàn)的對話框中有兩項數(shù)字內(nèi)容,默認值均為2000
Request interval:表示「網(wǎng)頁請求發(fā)送間隔」,為了不被網(wǎng)站判定為機器進而阻止采集,需要模擬人的行為將動作放緩,通常按默認值即可
Page load delay:表示「頁面加載時長」,如果頁面沒有完全加載就開始采集,會造成信息采集不全,特別是在網(wǎng)速不佳的時候,通常也按默認值,也可適當調(diào)整 - 點擊
Start scraping開始采集,彈出一個采集窗口,注意采集過程中不要關(guān)閉此窗口,待采集完成后,窗口會自動關(guān)閉 - 窗口關(guān)閉后,點擊
refresh,出現(xiàn)3列數(shù)據(jù)
「web-scraper-order」:程序自動編碼,不用理會
「web-scraper-start-url」:點擊書名跳轉(zhuǎn)的url,前面雖然只設置了采集書名的文本,但采集默認同時提供url,所以如果需要此項,不用再單獨設置
「title」:要采集的書名,注意,書名的順序并非是網(wǎng)頁上的順序
5. 導出數(shù)據(jù)至CSV文件
Web Scraper免費版只提供CSV一種導出形式,導出后用Excel打開即可。
- 點擊
Sitemap dangdang下拉列表中的Export data as csv - 點擊
Download now!后出現(xiàn)了瀏覽器的下載對話框,打開或者保存即可
6. Web Scraper界面內(nèi)容介紹
下面,順序介紹Web Scraper界面中的Sitemaps、Sitemap、Create new sitemap
Sitemaps:Sitemap項目列表,所有創(chuàng)建的Sitemap均可在此列表找到,比如上面創(chuàng)建的「dangdang」就在此列表中

Sitemap:直接點擊此項,Web Scraper無任何反應,因為此項只針對某一個已經(jīng)創(chuàng)建的Sitemap,所以,要從Sitemaps中選擇一個ID點擊,這里點擊「dangdang」,發(fā)現(xiàn)跳轉(zhuǎn)到中間的Sitemap,并且變?yōu)榱?code>Sitemap dangdang,說明已經(jīng)跳轉(zhuǎn)到了指定的Sitemap內(nèi)。
點擊
Sitemap dangdang,發(fā)現(xiàn)下拉列表有如下幾項,逐一說明:Selectors:選擇器列表,每一個采集內(nèi)容均要配置一個選擇器,在上面的例子中,采集了書名,如果需要采集評論數(shù)、出版社等頁面可見信息,要分別為這些信息逐一添加選擇器Selector graph:選擇器結(jié)構(gòu)圖,顯示選擇器之間的樹狀關(guān)系,再復雜的采集項目中能夠一目了然地呈現(xiàn)采集邏輯Edit metadata:修改Sitemap設置,即Sitemap名稱和urlScrape:執(zhí)行采集程序Browse:瀏覽采集結(jié)果Export Sitemap:導出Sitemap代碼,此代碼可以直接導入,無需再次配置Export data as CSV:導出采集結(jié)果至csv文件
點擊
Create new sitemap,發(fā)現(xiàn)有兩種新建Sitemap的方法,直接創(chuàng)建(Create Sitemap)和導入(Import Sitemap)。
當當?shù)陌咐幸呀?jīng)講過
Create Sitemap,這里不再贅述。點擊
Import Sitemap進入以下界面:Sitemap JSON:把Export Sitemap導出的代碼粘貼在此處Rename Sitemap:為Sitemap命名點擊
Import Sitemap后,同樣成功創(chuàng)建了Sitemap
四、數(shù)據(jù)采集只是數(shù)據(jù)分析的過程
每一分鐘,互聯(lián)網(wǎng)上都會有海量的數(shù)據(jù)產(chǎn)生,數(shù)據(jù)的價值并非是它本身,而是通過分析數(shù)據(jù)能獲得哪些有價值的信息。數(shù)據(jù)采集是一項不值得投入太多時間的工作(包括學習采集的時間和練習的時間),所以,只要學習了網(wǎng)頁常見情況的處理方法就可以,沒有必要為了學習采集而頻繁練習。遇到新的問題時,再到網(wǎng)上尋求解答,這樣會記得更牢。


