有一年沒(méi)有更新文章了,最近一年一直在惡補(bǔ)如何做數(shù)據(jù)分析和數(shù)據(jù)挖掘知識(shí),現(xiàn)在把這一年的經(jīng)驗(yàn)成果分享給大家。
最近一段我先教給大家如何數(shù)據(jù)獲取的方法,大家聽(tīng)到數(shù)據(jù)抓取,可能想這個(gè)需要專業(yè)編程能力,告訴你們不需要編程也可以自動(dòng)抓取數(shù)據(jù)。
今天教大家使用excel就可以抓取網(wǎng)站的數(shù)據(jù),而且還可以設(shè)置自動(dòng)更新數(shù)據(jù),本次拿一個(gè)空氣質(zhì)量數(shù)據(jù)網(wǎng)站作為數(shù)據(jù)爬蟲(chóng)源。

第一步:你裝上一個(gè)office軟件
第二步:新建一個(gè)excel,并打開(kāi)
第三步:切換到數(shù)據(jù)選項(xiàng)卡,點(diǎn)擊“自網(wǎng)站”

第四步:輸入需要爬取的網(wǎng)頁(yè)url

第五步:選擇需要加載的數(shù)據(jù)并加載

以上幾個(gè)步驟就完成了一個(gè)網(wǎng)站數(shù)據(jù)導(dǎo)入

高級(jí)技能:
1.設(shè)置數(shù)據(jù)自動(dòng)刷新
選擇設(shè)計(jì)選項(xiàng)卡,點(diǎn)擊刷新里面的“連接屬性”

勾選“刷新頻率”并設(shè)置刷新時(shí)間(默認(rèn)是60分鐘)

2.有的網(wǎng)站數(shù)據(jù)被設(shè)置反爬機(jī)制,數(shù)據(jù)抓取可能需要復(fù)雜的設(shè)置,可以在“自網(wǎng)站”中切換到“高級(jí)”標(biāo)簽里,里面可以設(shè)置一些http請(qǐng)求標(biāo)頭等參數(shù)。后面一些文章我會(huì)一一交給大家如何使用高級(jí)編輯。

今天就先給大家介紹到這里,文章寫(xiě)的太爛請(qǐng)多多包涵,請(qǐng)期待我下一篇吧。