想法瘋狂不?
想試試看
看到哪、 想到哪、 寫(xiě)到哪
什么是大數(shù)據(jù)?
大數(shù)據(jù)的一種表現(xiàn)形式為“高維數(shù)據(jù)”(high dimensional data), 即變量個(gè)數(shù)(k)大于樣本容量(n), 也稱(chēng)為“data-rich environment”。
Raj Chetty 在Harvard 的經(jīng)濟(jì)學(xué)課堂 Using Big Data to Solve Economic and Social Problems (econ1152)上, 提到了大數(shù)據(jù)的兩種基本類(lèi)型:
- 一種是“長(zhǎng)”數(shù)據(jù): 相對(duì)變量k而言, 很多個(gè)樣本n, 即n>>k
- 一種是“寬”數(shù)據(jù): 相對(duì)樣本n而言, 很多個(gè)變量k, 即k>>n
第一種是傳統(tǒng)的低維數(shù)據(jù), 常見(jiàn)于宏觀的經(jīng)濟(jì)變量、 或者時(shí)間序列的數(shù)據(jù)。
第二種則是高維數(shù)據(jù)。 比如: 提取了10個(gè)的DNA, 則不同的基因序列組合就成為高維的變量; 再比如比如, 人口普查、 工業(yè)調(diào)查或家庭調(diào)查數(shù)據(jù), 每個(gè)個(gè)體樣本包含了很多個(gè)變量; 又如交易層面的數(shù)據(jù)(包括網(wǎng)購(gòu)與零售掃描數(shù)據(jù))、 社交媒體的數(shù)據(jù)、 以及文本挖掘的數(shù)據(jù), 其變量個(gè)數(shù)則一般成千上萬(wàn), 甚至更多。
陳強(qiáng)[1]指出, 第二種高維數(shù)據(jù)還存在于傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)情形中, 如原始變量不多, 但我們通常不知道這些變量應(yīng)該以怎樣的函數(shù)形式(functional form)進(jìn)入回歸方程, 為了解決潛在非線性, 可能加入原始變量的平方項(xiàng)、 交互項(xiàng)、 甚至更高次項(xiàng), 以及其他變換(比如取對(duì)數(shù)), 使得最終變量個(gè)數(shù)大大增加, 這種情形是大家比較熟悉的傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)問(wèn)題。
解釋變量的現(xiàn)實(shí)與矩陣表示
若樣本在stata或excel中表現(xiàn)為如下:

上圖可以用矩陣表達(dá)。
首先第1個(gè)樣本的列向量表達(dá)式為:
將其轉(zhuǎn)換為行向量的轉(zhuǎn)置形式, 與上圖的第1行對(duì)應(yīng):
所有的解釋變量可以表現(xiàn)為如下矩陣形式, 就能夠與上圖對(duì)應(yīng)起來(lái)
的行為個(gè)體觀測(cè)值(observation), 有n個(gè);
列為變量(variable), 有k個(gè)。
古典線性模型的矩陣表達(dá)
首先, 第i個(gè)被解釋變量的線性表達(dá)式如下:
其中
參照之前列向量轉(zhuǎn)置的方法, 得到:
所以有:
其中
將上式疊放后:
結(jié)合上節(jié)的表達(dá)式,最終得到古典線模型的矩陣表達(dá)式:
-
參見(jiàn)《高級(jí)計(jì)量經(jīng)濟(jì)學(xué)及Stata應(yīng)用之大數(shù)據(jù)與高維回歸》,2019年5月25日 ?