「量學堂-8」成也相關系數(shù),敗也相關系數(shù)

相關系數(shù)

相關系數(shù)是用于衡量兩個變量之間,是否存在線性相關。其值范圍介于 [-1, 1] 之間,為正則代表正相關 —— 一個變量隨另一個變量的增大而增大;為負則代表負相關 —— 一個變量隨另一個變量的增大而減??;系數(shù)絕對值越接近于0,表示兩個變量之間的線性相關性越弱。

我們假設有兩個變量 X 和 Y ,它們各自代表一組觀測數(shù)據(jù)序列(例如,X代表身高、Y代表體重,(Xi, Yi)代表的是一個觀測樣本 i),那么它們之間的相關性可以用如下公式計算:

公式中的 Cov 是協(xié)方差,std 是標準差。

兩組隨機數(shù)序列的相關系數(shù)接近于0。

相關性 vs. 協(xié)方差

相關性是對協(xié)方差進行歸一化轉換后的形式。所謂歸一,就是把數(shù)據(jù)范圍限制在一定范圍內(nèi),把有量綱表達式變?yōu)闊o量綱表達式。拿協(xié)方差矩陣來說,歸一化轉換后,矩陣中元素的值都被限制在了-1到1范圍之間。(相關系數(shù)取自于歸一化后的協(xié)方差,用于體現(xiàn)變量之間的相關程度。從這一點上來說,協(xié)方差本身是沒有任何意義的。)

除此之外沒有其他分別。在日常使用中,這兩種指標可互換使用。我們在當談及它們時,僅僅通過名字的不同將他們區(qū)分,但在概念上它們幾乎相同。

應用實例:

我們構建 X 和 Y 兩組序列,并計算一下它們的協(xié)方差。

如前所述,得到變量 X 和 Y 的協(xié)方差矩陣之后,我們要做的是將其歸一化,使元素值的范圍落在-1到1之間,之后進一步計算得到相關性系數(shù),觀察變量之間的相關性。具體實現(xiàn)公式如下:

為了加以說明,我們再來看一下例子:

我們來可視化展現(xiàn)一下X和Y的相關性,可以明顯看到,兩個變量之間呈現(xiàn)相性相關。

從Y和Z的構造中,我們注意到它們與X有很強的的線性關系。讓我們來計算以下相關系數(shù)進行驗證,可以看到,X與Y,Y與Z,X與Z的相關系數(shù)都是1。

為何cov和corrcoef函數(shù)返回的都是矩陣?

協(xié)方差矩陣是統(tǒng)計學中的一個重要概念。人們通常所說兩個變量的協(xié)方差,實際上只是協(xié)方差矩陣中的一個元素。對于一個n*m的樣本矩陣(n為變量個數(shù),m為變量包含的樣本點個數(shù)),得出的協(xié)方差矩陣C是n*n的矩陣,協(xié)方差矩陣每個元素Cij表示的隨機變量Xi, Xj的協(xié)方差。矩陣的對角線表示變量本身的方差(即Cov(X,X)或Var(X))。協(xié)方差矩陣是基于對角線對稱的。

現(xiàn)在讓我們來可視化展現(xiàn)一下變量之間(假設為 X 和 Y )正相關的例子:

進一步地,我們通過增大“噪聲”的偏離程度,來降低變量間的相關程度:

下面的例子展示了變量之間存在負相關的情形:

相關系數(shù)在金融領域中的應用

1、判斷證券之間是否相關

當我們確定了兩只股票價格存在相關性,便可以利用它來預測未來的股價。舉例來說,讓我們看一下蘋果和半導體設備制造商泛林集團(Lam Research Corporation)的股價。

2、構建一個互不相關的股票投資組合

這個也是相關系數(shù)在金融領域的又一應用,其實并不難理解。如果股票之間互不相關,單只股票的下跌不會影響到其他的股票。這意味著,由諸多不相關的股票組成的投資組合,能夠擁有相對穩(wěn)定的收益。

相關性的局限

1、顯著性

當變量不服從正態(tài)分布時,很難嚴格界定相關性是否顯著(還起作用)。拿上例來說,蘋果和泛林集團的相關系數(shù)接近1時,可以認為在選取的時間范圍內(nèi),它們的股價是相關的,但并不能保證未來是否依然滿足相關性。

同時,如果我們將這兩只股票分別于標普500指數(shù)進行相關分析,也將得到很強的相關性。因此我們能夠得出結論是:和平均股價(指標普500)的相關性比較,蘋果和泛林集團的相關性略高。

根本問題在于,選擇正確的時間段能夠很容易地進行相關性數(shù)據(jù)采集。為了避免這種情況,一種方法是計算這兩只股票以往多個歷史時期的相關性,同時檢測相關系數(shù)的分布情況。后續(xù)章節(jié)會進一步詳細說明。 上例中我們看到了這兩只股票在 2014-1-1 到 2015-1-1這個時間段內(nèi)的相關系數(shù)是0.98。讓我們看一下這兩只股票“滾動60天期”的相關性,看看它們是如何變化的。

2、非線性關系

相關系數(shù)能夠用來檢測兩個變量間的相關程度。然而需要注意的是,變量之間可能以一種非線性、且可預知的方式互相關聯(lián)影響。這時,相關系數(shù)就會顯得束手無策。例如,一個變量可能緊隨第二個變量的變化而變化,但有一定的延時。又或者是,一個變量可能與另一個變量的變化率相關。這些關系雖然不是線性的,但是如果能夠被檢測到,還是非常有用的。

另外,相關系數(shù)對異常值也是非常敏感的。換句話說,樣本集中是否剔除含異常值的樣本點,將會導致結果大相徑庭。同時也很難界定這些異常樣本點本身是有意義的,又或者是純粹的噪聲。

我們來看一個例子,通過使噪聲服從泊松分布而非正態(tài)分布,我們來看一下會發(fā)生什么?

本章總結:相關性是一種強大的分析技術,但是在統(tǒng)計學中,應該時刻警惕小心它的局限性,不要去解釋那些無中生有的結果。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容