面板數(shù)據(jù)預(yù)處理中的常見問題及解法

之前以為自己的Excel數(shù)據(jù)處理本領(lǐng)還行,直到遇到了三萬多條面板數(shù)據(jù),我就覺得自己之前的小伎倆使不上勁了,因為數(shù)據(jù)量太大導(dǎo)致wps爆了幾次直接關(guān)閉或者長時間卡頓。趁著今天不太忙,我把之前整理的問題通過網(wǎng)上沖浪+各種外援解決了。
今天的數(shù)據(jù)處理主要是針對面板數(shù)據(jù),且文章中提到的解決方式涉及的軟件有點多,主要是Excel函數(shù)、R語言函數(shù)。

問題一:我們都知道Eviews中的面板回歸模型要求數(shù)據(jù)長這樣(圖1):第一列是截面,第二列是年份。雖然不設(shè)置成這樣也能做模型,但是有時候就是需要把數(shù)據(jù)像 列1列2 這樣表示出來。現(xiàn)在有這樣一個問題,如果有2000個截面,我怎么把每個截面重復(fù)10次?如果有一串?dāng)?shù)字,怎么把它按所給順序重復(fù)10次?

圖1--Eviews中面板回歸的數(shù)據(jù)格式

針對問題一的我的解決方法:
這個時候函數(shù)就很香了,我使用的R語言。
函數(shù)形式:rep(x, time = , length = , each = ,)
參數(shù)說明:
x:代表的是你要進行復(fù)制的對象,可以是一個向量或者是一個因子。
times:代表的是復(fù)制的次數(shù),只能為正數(shù)。負數(shù)以及NA值都會為錯誤值。復(fù)制是指的是對整個向量進行復(fù)制。
each:代表的是對向量中的每個元素進行復(fù)制的次數(shù)。
length.out:代表的是最終輸出向量的長度。

rep(1:4, 2)  #對向量(1,2,3,4)復(fù)制兩次
[1] 1 2 3 4 1 2 3 4
rep(1:4, each = 2)   #對向量(1,2,3,4)中的每個元素復(fù)制兩次
[1] 1 1 2 2 3 3 4 4
rep(1:4, each = 2, length.out = 4)  #最后輸出向量的長度為4
[1] 1 1 2 2
> rep(c('BJ','TJ','HB'),each = 10)
 [1] "BJ" "BJ" "BJ" "BJ" "BJ" "BJ" "BJ" "BJ" "BJ" "BJ" "TJ" "TJ" "TJ" "TJ" "TJ" "TJ"
[17] "TJ" "TJ" "TJ" "TJ" "HB" "HB" "HB" "HB" "HB" "HB" "HB" "HB" "HB" "HB"
> rep(c(2003,2004,2005,2006,2007,2008,2009,2010,2011,2012),time = 3)
 [1] 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2003 2004 2005 2006 2007 2008
[17] 2009 2010 2011 2012 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012

問題二:某列有3個數(shù)字,計算一下這3個數(shù)在另一列數(shù)字中出現(xiàn)了幾次?
針對問題二的我的解決方法:
使用工具:Excel的countif函數(shù)。詳情見圖2。

圖2--問題2的解決方法

問題三
EXCEL中如何實現(xiàn)兩個表格之間的數(shù)據(jù)自動匹配、補全、合并成一個表格?
針對問題二的我的解決方法:
這里參考網(wǎng)上解決方式-使用Excel中的Power Query。表一和表2均按照以下設(shè)置:選定表中區(qū)域內(nèi)任意單元格--數(shù)據(jù)-從表格-關(guān)閉并上截至-僅創(chuàng)建連接;最終信息要在哪個表里表現(xiàn),就選哪個表,比如這里要將表1放到表2,那就選表2;同一個表中,選擇一個列后,按ctrl可再選其他列,最后選擇“合并查詢”。
圖3--表1

圖4--表2

問題四
終極問題,怎樣判斷某個注冊會計師在他的公司是否是首次出現(xiàn)?
我是一個劃水程序媛,這種組合排序的問題我確實不會寫代碼,我身邊的程序猿大神們幾行代碼就解決了這個問題。我只有Excel(微笑臉)。這里主要用到數(shù)據(jù)透視表,以及人工搬運(復(fù)制粘貼)。
針對問題四的我的解決方法:
圖5--問題三的案例數(shù)據(jù)

圖6--問題三的解決過程1

圖7--問題三的解決過程2

建立圖6所示的數(shù)據(jù)透視表。(其中的難點:最后一列字段的添加是這樣的,在建立數(shù)據(jù)透視表時,“值”部分選2次簽字注冊會計師,然后將新加的簽字注冊會計師那一列的某一單元格選中,右鍵-值顯示方式-按某一字段匯總,這樣就得到某一會計師在當(dāng)前證券公司下的累計出現(xiàn)次數(shù)。得到這個值的目的是,如果該值為1,則為首次出現(xiàn),若該值大于1,則非首次出現(xiàn))。
最后祝大家學(xué)習(xí)愉快!如果有更好的辦法,可以告知哦。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容