webscraper是一款chrome的擴(kuò)展插件,安裝后會(huì)在開發(fā)者工具中找到。這款工具對(duì)于不懂python又想抓取數(shù)據(jù)做分析的人來說,是福星。
下載官網(wǎng):https://www.webscraper.io/,已保存網(wǎng)盤,需要的同學(xué)留言。安裝擴(kuò)展過程不講了,大家自行度娘。
~開始講如何使用了。
一、安裝好后在哪呢?
1、安裝成功,在擴(kuò)展程序里可以找到。

2、在需要爬取數(shù)據(jù)的頁面,打開 開發(fā)者工具-》webscraper


二、開始爬數(shù)據(jù)
1、新建一個(gè)爬蟲頁面

比如我想把這個(gè)頁面播放量最多、上榜時(shí)間的歌這些信息放一起做分析

2、創(chuàng)建組件項(xiàng)目建立關(guān)聯(lián)關(guān)系
如下我想要爬這些數(shù)據(jù),做這些之前,我們需要將整個(gè)模塊做一個(gè)Element。為什么要這樣做呢?

webscraper不會(huì)將這些子數(shù)據(jù)關(guān)聯(lián),所以需要先告訴它數(shù)據(jù)的層級(jí)關(guān)系。否則爬下來的數(shù)據(jù)會(huì)發(fā)現(xiàn),每項(xiàng)數(shù)據(jù)都在單獨(dú)的一行,并沒有關(guān)聯(lián)顯示為一行。
第一步:創(chuàng)建type:Element,select:選擇整個(gè)模塊,Mulitipe勾選(這樣webscraper才知道你要爬取同樣規(guī)則的數(shù)據(jù))

上面操作后需要注意以下截圖中,按住SHIFT鍵選擇2個(gè)以上模塊,是為了告訴webscraper爬取同樣規(guī)則的數(shù)據(jù)

第二步,創(chuàng)建好層級(jí)模塊,點(diǎn)擊進(jìn)入
點(diǎn)擊上一步中創(chuàng)建好的模塊項(xiàng),進(jìn)入到該層級(jí)下創(chuàng)建具體的爬取參數(shù)。

第三步,創(chuàng)建具體爬取的數(shù)據(jù)項(xiàng)
首先確認(rèn)已經(jīng)進(jìn)入到了第二層,再點(diǎn)擊新增新的爬蟲參數(shù)



第四步,建好后,確認(rèn)一下爬蟲層級(jí)
在如下圖所示的“sitemap music”下,選擇“selector graph”

第五步,正式爬取數(shù)據(jù)scrape

第六步,查看爬取的數(shù)據(jù)
爬蟲爬完數(shù)據(jù)后會(huì)自動(dòng)打開一個(gè)新標(biāo)簽后,爬取完后,再自動(dòng)關(guān)閉。會(huì)顯示以下界面,點(diǎn)擊refresh,顯示所有的數(shù)據(jù)


三、導(dǎo)出數(shù)據(jù)Export data as CSV
支持導(dǎo)出CSV文件,導(dǎo)出后可以excel別存為文本文件格式。
關(guān)于如何讓爬蟲自動(dòng)分頁,見文章: