1.經(jīng)濟(jì)數(shù)據(jù)缺失值的簡單處理(筆記)

我的專業(yè)方向在寫論文的時候用的大都是省級或者地級市的經(jīng)濟(jì)數(shù)據(jù),一般這些數(shù)據(jù)都是從年鑒、國民經(jīng)濟(jì)社會發(fā)展統(tǒng)計公報、各類統(tǒng)計年報或者政府網(wǎng)站上獲取,但是總會遇到統(tǒng)計不全導(dǎo)致的數(shù)據(jù)缺失問題。比如環(huán)境污染相關(guān)指標(biāo)、專利申請授權(quán)數(shù)等,對于這些缺失數(shù)據(jù),我的補(bǔ)齊方法一般是以下幾種:

一、合并不同來源的數(shù)據(jù)

  • 結(jié)合幾個不同的數(shù)據(jù)來源,選取數(shù)據(jù)的并集。對于重復(fù)數(shù)據(jù)優(yōu)先選擇來源較為權(quán)威的數(shù)據(jù),或者結(jié)合前后年份和變化趨勢選擇較為合理的一個。
  • 找數(shù)據(jù)真的很艱難,經(jīng)常找著找著心態(tài)就崩潰了,但這是做經(jīng)濟(jì)實證中勢必要面對的問題。作為一個學(xué)生,自己的文章要自己動手去找數(shù)據(jù),為了得到較為準(zhǔn)確的結(jié)果、為了這批數(shù)據(jù)以后的可重復(fù)使用性,每一個數(shù)據(jù)的準(zhǔn)確性都要讓自己安心。

二、簡單計算

  • 如果幾個指標(biāo)之間有明確的計算關(guān)系(比如:第二產(chǎn)業(yè)產(chǎn)值、地區(qū)生產(chǎn)總值、第二產(chǎn)業(yè)產(chǎn)值占地區(qū)生產(chǎn)總值比重),任何一個缺失都可以用另外兩個計算補(bǔ)齊。
  • 如果公報中連續(xù)統(tǒng)計了幾年的地區(qū)生產(chǎn)總值,后來突然改為統(tǒng)計人均地區(qū)生產(chǎn)總值,同時報告了人口數(shù)據(jù)??梢则炞C一下地區(qū)生產(chǎn)總值(是否大致)=人均地區(qū)生產(chǎn)總值×人口。一般來說數(shù)值會有出入,但當(dāng)數(shù)據(jù)實在找不到時,不要嫌麻煩,可以作為一種補(bǔ)齊的參考。
  • 建議將原始數(shù)據(jù)(含有缺失值的數(shù)據(jù))保存一下,補(bǔ)齊后的數(shù)據(jù)另存。因為補(bǔ)齊的方式有好多種,如果實證結(jié)果不理想,想從補(bǔ)齊數(shù)據(jù)開始重做,這樣會比較方便。

三、取中間值

  • 該方法適合于:某項指標(biāo)下,前后年份均有數(shù)值,中間年份缺失。
  • 用線性插值法補(bǔ)齊(年份距離比較近,可以將其變化近似看作線性以簡化計算)。比如圖1的專利缺失數(shù)據(jù)可以取均值,然后取整數(shù)。


    圖1.png

四、類似樣本填補(bǔ)

  1. 找該指標(biāo)數(shù)據(jù)類似的其他地級市來對缺失個體進(jìn)行補(bǔ)齊。
  • 假設(shè)想要補(bǔ)齊的原始數(shù)據(jù)為“地級市2002-2016年的專利申請授權(quán)數(shù)”,比較該指標(biāo)下的非缺失值序列,選擇非缺失年份下專利申請授權(quán)數(shù)大致相同或者有趨勢關(guān)系的地級市,用它的數(shù)據(jù)直接填補(bǔ)或者作簡單的倍數(shù)計算填補(bǔ)缺失的數(shù)據(jù)。
  1. 有時會找經(jīng)濟(jì)發(fā)展類似的其它地級市的數(shù)據(jù)進(jìn)行填充,基于經(jīng)濟(jì)發(fā)展與專利申請授權(quán)數(shù)具有正向線性關(guān)系的假設(shè)(不太嚴(yán)謹(jǐn))。如果用基于該假設(shè)補(bǔ)齊的數(shù)據(jù)做“經(jīng)濟(jì)發(fā)展與專利授權(quán)數(shù)關(guān)系”的研究,就是不合理的。
  • 假設(shè)某個地市級的2002-2016年專利申請數(shù)據(jù)幾乎全部缺失,此時無法使用專利申請數(shù)來選取相似個體,可以用與“專利申請數(shù)”相關(guān)的其它經(jīng)濟(jì)變量(比如地區(qū)生產(chǎn)總值)作為標(biāo)準(zhǔn),選取相似個體填補(bǔ)整行數(shù)據(jù)。

五、函數(shù)法

該方法一般適用于:單側(cè)缺失(一般是較早年份缺失,最近年份的數(shù)據(jù)一般比較齊全)。

  1. 線性函數(shù)(excel里trend函數(shù))。


    圖2.png
  • 圖2的 trend函數(shù)假定經(jīng)濟(jì)數(shù)據(jù)與時間存在相關(guān)關(guān)系(專利數(shù)據(jù)要取整)。構(gòu)建函數(shù)時候應(yīng)選擇與缺失數(shù)據(jù)鄰近年份的數(shù)據(jù)(認(rèn)為經(jīng)濟(jì)數(shù)據(jù)的相關(guān)關(guān)系在時間上具有衰減性)。
  1. 非線性函數(shù)(excel散點圖,加入非線性趨勢線,根據(jù)公式計算缺失數(shù)據(jù))。圖3-圖5以填補(bǔ)專利數(shù)據(jù)為例。


    圖3
圖4
圖5
圖6
  • 問題
    1.選取哪些年份的數(shù)據(jù)構(gòu)建函數(shù)?
    選取不同時間區(qū)間計算出來的函數(shù)不同,計算的缺失值也會不同,可能要多試幾次。
    2.按理說這種統(tǒng)計方法計算的缺失值可靠性要高一些,但是實際中發(fā)現(xiàn)這種方式計算出來的缺失值不符合變化趨勢,甚至?xí)霈F(xiàn)負(fù)值。
    3.以上缺失值處理都是在excel中完成的,手動操作、效率比較低。

六、插值法(Matlab)

有位老師告訴我三次樣條插值的方法,計算出來的缺失值較為平滑,結(jié)果可能相對合理。去查了一下matlab可以實現(xiàn),不過只能下次處理數(shù)據(jù)的時候再實際操作了。

Matlab插值函數(shù)為interp1,其調(diào)用格式為: yi= interp1(x,y,xi,'method')
其中x,y為插值點,yi為在被插值點xi處的插值結(jié)果;x,y為向量, 'method'表示采用的插值方法,MATLAB提供的插值方法有幾種: 'method'是最鄰近插值, 'linear'線性插值; 'spline'三次樣條插值; 'cubic'立方插值。缺省時表示線性插值。
注意:所有的插值方法都要求x是單調(diào)的,并且xi不能夠超過x的范圍。
參考來源:http://blog.sciencenet.cn/blog-457143-679275.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容