震驚!90%的人都不知道excel的一鍵數(shù)據(jù)爬蟲(chóng)技能

有一年沒(méi)有更新文章了,最近一年一直在惡補(bǔ)如何做數(shù)據(jù)分析和數(shù)據(jù)挖掘知識(shí),現(xiàn)在把這一年的經(jīng)驗(yàn)成果分享給大家。

最近一段我先教給大家如何數(shù)據(jù)獲取的方法,大家聽(tīng)到數(shù)據(jù)抓取,可能想這個(gè)需要專業(yè)編程能力,告訴你們不需要編程也可以自動(dòng)抓取數(shù)據(jù)。

今天教大家使用excel就可以抓取網(wǎng)站的數(shù)據(jù),而且還可以設(shè)置自動(dòng)更新數(shù)據(jù),本次拿一個(gè)空氣質(zhì)量數(shù)據(jù)網(wǎng)站作為數(shù)據(jù)爬蟲(chóng)源。

第一步:你裝上一個(gè)office軟件

第二步:新建一個(gè)excel,并打開(kāi)

第三步:切換到數(shù)據(jù)選項(xiàng)卡,點(diǎn)擊“自網(wǎng)站”

第四步:輸入需要爬取的網(wǎng)頁(yè)url

第五步:選擇需要加載的數(shù)據(jù)并加載

以上幾個(gè)步驟就完成了一個(gè)網(wǎng)站數(shù)據(jù)導(dǎo)入

高級(jí)技能:

1.設(shè)置數(shù)據(jù)自動(dòng)刷新

選擇設(shè)計(jì)選項(xiàng)卡,點(diǎn)擊刷新里面的“連接屬性”

勾選“刷新頻率”并設(shè)置刷新時(shí)間(默認(rèn)是60分鐘)

2.有的網(wǎng)站數(shù)據(jù)被設(shè)置反爬機(jī)制,數(shù)據(jù)抓取可能需要復(fù)雜的設(shè)置,可以在“自網(wǎng)站”中切換到“高級(jí)”標(biāo)簽里,里面可以設(shè)置一些http請(qǐng)求標(biāo)頭等參數(shù)。后面一些文章我會(huì)一一交給大家如何使用高級(jí)編輯。

今天就先給大家介紹到這里,文章寫(xiě)的太爛請(qǐng)多多包涵,請(qǐng)期待我下一篇吧。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容