大數(shù)據(jù)系列-01線性回歸的矩陣表達(dá)

想法瘋狂不?
想試試看
看到哪、 想到哪、 寫(xiě)到哪


什么是大數(shù)據(jù)?

大數(shù)據(jù)的一種表現(xiàn)形式為“高維數(shù)據(jù)”(high dimensional data), 即變量個(gè)數(shù)(k)大于樣本容量(n), 也稱(chēng)為“data-rich environment”。

Raj Chetty 在Harvard 的經(jīng)濟(jì)學(xué)課堂 Using Big Data to Solve Economic and Social Problems (econ1152)上, 提到了大數(shù)據(jù)的兩種基本類(lèi)型:

  • 一種是“長(zhǎng)”數(shù)據(jù): 相對(duì)變量k而言, 很多個(gè)樣本n, 即n>>k
  • 一種是“寬”數(shù)據(jù): 相對(duì)樣本n而言, 很多個(gè)變量k, 即k>>n

第一種是傳統(tǒng)的低維數(shù)據(jù), 常見(jiàn)于宏觀的經(jīng)濟(jì)變量、 或者時(shí)間序列的數(shù)據(jù)。

第二種則是高維數(shù)據(jù)。 比如: 提取了10個(gè)的DNA, 則不同的基因序列組合就成為高維的變量; 再比如比如, 人口普查、 工業(yè)調(diào)查或家庭調(diào)查數(shù)據(jù), 每個(gè)個(gè)體樣本包含了很多個(gè)變量; 又如交易層面的數(shù)據(jù)(包括網(wǎng)購(gòu)與零售掃描數(shù)據(jù))、 社交媒體的數(shù)據(jù)、 以及文本挖掘的數(shù)據(jù), 其變量個(gè)數(shù)則一般成千上萬(wàn), 甚至更多。

陳強(qiáng)[1]指出, 第二種高維數(shù)據(jù)還存在于傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)情形中, 如原始變量不多, 但我們通常不知道這些變量應(yīng)該以怎樣的函數(shù)形式(functional form)進(jìn)入回歸方程, 為了解決潛在非線性, 可能加入原始變量的平方項(xiàng)、 交互項(xiàng)、 甚至更高次項(xiàng), 以及其他變換(比如取對(duì)數(shù)), 使得最終變量個(gè)數(shù)大大增加, 這種情形是大家比較熟悉的傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)問(wèn)題。

解釋變量的現(xiàn)實(shí)與矩陣表示

若樣本在stata或excel中表現(xiàn)為如下:

stata中的樣本數(shù)據(jù)集與變量的對(duì)應(yīng)

上圖可以用矩陣表達(dá)。

首先第1個(gè)樣本\boldsymbol{obs}_{1}的列向量表達(dá)式為:

\boldsymbol{obs}_{1} \equiv\left(\begin{array}{c}{obs_{1 1}} \\ {obs_{1 2}} \\ {\vdots} \\ {obs_{1 K}}\end{array}\right)
將其轉(zhuǎn)換為行向量的轉(zhuǎn)置形式, 與上圖的第1行對(duì)應(yīng):
\boldsymbol{obs}_{1}^{\prime} \equiv\left(obs_{1 1} obs_{1 2} \cdots obs_{1 K}\right)

所有的解釋變量可以表現(xiàn)為如下矩陣形式, 就能夠與上圖對(duì)應(yīng)起來(lái)

\mathbf{X}\equiv \left( \begin{matrix} \mathbf{obs}_{1}^{\prime } \\ \mathbf{obs}_{2}^{\prime } \\ \vdots \\ \mathbf{obs}_{n}^{\prime } \\ \end{matrix} \right)=\left( \begin{matrix} ob{{s}_{11}} & ob{{s}_{12}} & \cdots & ob{{s}_{1K}} \\ ob{{s}_{21}} & ob{{s}_{22}} & \cdots & ob{{s}_{2K}} \\ \cdots & \cdots & \cdots & \cdots \\ \underbrace{ob{{s}_{n1}}}_{{{X}_{1}}} & \underbrace{ob{{s}_{n2}}}_{{{X}_{2}}} & \cdots & \underbrace{ob{{s}_{nK}}}_{{{X}_{k}}} \\ \end{matrix} \right)

\boldsymbol{X} 的行為個(gè)體觀測(cè)值(observation), 有n個(gè); \boldsymbol{X} 列為變量(variable), 有k個(gè)。

古典線性模型的矩陣表達(dá)

首先, 第i個(gè)被解釋變量{y}_{i}的線性表達(dá)式如下:
y_{i}=\beta_{1} obs_{i 1}+\beta_{2} obs_{i 2}+\cdots+\beta_{K} obs_{i K}+\varepsilon_{i} \quad(i=1, \cdots, n)

其中\boldsymbol{obs}_{i} \equiv\left(\begin{array}{c}{obs_{i 1}} \\ {obs_{i 2}} \\ {\vdots} \\ {obs_{i K}}\end{array}\right)

參照之前列向量轉(zhuǎn)置的方法, 得到:
\boldsymbol{obs}_{i}^{\prime} \equiv\left(obs_{i 1} obs_{i 2} \cdots obs_{i K}\right)
所以有:
y_{i}=\beta_{1} obs_{i 1}+\beta_{2} obs_{i 2}+\cdots+\beta_{K} obs_{i K}+\varepsilon_{i}= \left(obs_{i 1} obs_{i 2} \cdots obs_{i K}\right)\left(\begin{array}{c}{\beta_{1}} \\ {\beta_{2}} \\ {\vdots} \\ {\beta_{K}}\end{array}\right) =\boldsymbol{obs}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{i}
其中
\boldsymbol{\beta}\equiv\left(\begin{array}{c}{\beta_{1}} \\ {\beta_{2}} \\ {\vdots} \\ {\beta_{K}}\end{array}\right)

將上式疊放后:
\left(\begin{array}{c}{y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{n}}\end{array}\right)=\left(\begin{array}{c}{obs_{1}^{\prime}} \\ {obs_{2}^{\prime}} \\ {\vdots} \\ {obs_{n}^{\prime}}\end{array}\right) \boldsymbol\beta+\left(\begin{array}{c}{\varepsilon_{1}} \\ {\varepsilon_{2}} \\ {\vdots} \\ {\varepsilon_{n}}\end{array}\right)

結(jié)合上節(jié)的\mathbf{X}表達(dá)式,最終得到古典線模型的矩陣表達(dá)式:
\boldsymbol{y}=\mathbf{X}\boldsymbol{\beta}+\varepsilon



  1. 參見(jiàn)《高級(jí)計(jì)量經(jīng)濟(jì)學(xué)及Stata應(yīng)用之大數(shù)據(jù)與高維回歸》,2019年5月25日 ?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 【轉(zhuǎn)載】線性代數(shù)基礎(chǔ)知識(shí) 原文地址:http://blog.csdn.net/longxinchen_ml/art...
    劉卡卡愛(ài)吃烤土豆閱讀 1,480評(píng)論 0 0
  • 一.判別分析降維 LDA降維和PCA的不同是LDA是有監(jiān)督的降維,其原理是將特征映射到低維上,原始數(shù)據(jù)的類(lèi)別也...
    wlj1107閱讀 12,369評(píng)論 0 4
  • 以西瓜書(shū)為主線,以其他書(shū)籍作為參考進(jìn)行補(bǔ)充,例如《統(tǒng)計(jì)學(xué)習(xí)方法》,《PRML》等 第一章 緒論 1.2 基本術(shù)語(yǔ) ...
    danielAck閱讀 4,911評(píng)論 0 5
  • 2017年3月14日 晴天 大家好,我是日記星球171號(hào)星寶寶吳敏,我正在參加日記星球輕而易舉寫(xiě)作富足寫(xiě)...
    純愛(ài)香頌安安閱讀 149評(píng)論 0 1
  • 如果你的心空了,那就努力去填滿它!用音樂(lè)、生活、、、填滿吧!去做你想做的事!四十歲后的日子自己獨(dú)自面對(duì)!躺在沙...
    雨_982a閱讀 275評(píng)論 0 0

友情鏈接更多精彩內(nèi)容