利用webscraper插件來爬數(shù)據(jù)

webscraper是一款chrome的擴(kuò)展插件,安裝后會(huì)在開發(fā)者工具中找到。這款工具對(duì)于不懂python又想抓取數(shù)據(jù)做分析的人來說,是福星。

下載官網(wǎng):https://www.webscraper.io/,已保存網(wǎng)盤,需要的同學(xué)留言。安裝擴(kuò)展過程不講了,大家自行度娘。


~開始講如何使用了。

一、安裝好后在哪呢?

1、安裝成功,在擴(kuò)展程序里可以找到。

2、在需要爬取數(shù)據(jù)的頁面,打開 開發(fā)者工具-》webscraper

在開發(fā)者工具中找webscraper

二、開始爬數(shù)據(jù)

1、新建一個(gè)爬蟲頁面

新建爬蟲

比如我想把這個(gè)頁面播放量最多、上榜時(shí)間的歌這些信息放一起做分析

2、創(chuàng)建組件項(xiàng)目建立關(guān)聯(lián)關(guān)系

如下我想要爬這些數(shù)據(jù),做這些之前,我們需要將整個(gè)模塊做一個(gè)Element。為什么要這樣做呢?

確定需要爬取的子項(xiàng)數(shù)據(jù)

webscraper不會(huì)將這些子數(shù)據(jù)關(guān)聯(lián),所以需要先告訴它數(shù)據(jù)的層級(jí)關(guān)系。否則爬下來的數(shù)據(jù)會(huì)發(fā)現(xiàn),每項(xiàng)數(shù)據(jù)都在單獨(dú)的一行,并沒有關(guān)聯(lián)顯示為一行。

第一步:創(chuàng)建type:Element,select:選擇整個(gè)模塊,Mulitipe勾選(這樣webscraper才知道你要爬取同樣規(guī)則的數(shù)據(jù))

創(chuàng)建層級(jí)關(guān)系

上面操作后需要注意以下截圖中,按住SHIFT鍵選擇2個(gè)以上模塊,是為了告訴webscraper爬取同樣規(guī)則的數(shù)據(jù)

第二步,創(chuàng)建好層級(jí)模塊,點(diǎn)擊進(jìn)入

點(diǎn)擊上一步中創(chuàng)建好的模塊項(xiàng),進(jìn)入到該層級(jí)下創(chuàng)建具體的爬取參數(shù)。

點(diǎn)擊進(jìn)入到該層級(jí)下

第三步,創(chuàng)建具體爬取的數(shù)據(jù)項(xiàng)

首先確認(rèn)已經(jīng)進(jìn)入到了第二層,再點(diǎn)擊新增新的爬蟲參數(shù)

進(jìn)入層級(jí)后,新建參數(shù)
創(chuàng)建參數(shù)


爬蟲列表

第四步,建好后,確認(rèn)一下爬蟲層級(jí)

在如下圖所示的“sitemap music”下,選擇“selector graph”

層級(jí)關(guān)系建立

第五步,正式爬取數(shù)據(jù)scrape


scrape

第六步,查看爬取的數(shù)據(jù)

爬蟲爬完數(shù)據(jù)后會(huì)自動(dòng)打開一個(gè)新標(biāo)簽后,爬取完后,再自動(dòng)關(guān)閉。會(huì)顯示以下界面,點(diǎn)擊refresh,顯示所有的數(shù)據(jù)

refresh


爬取成功

三、導(dǎo)出數(shù)據(jù)Export data as CSV

支持導(dǎo)出CSV文件,導(dǎo)出后可以excel別存為文本文件格式。


關(guān)于如何讓爬蟲自動(dòng)分頁,見文章:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容