數(shù)學部分-統(tǒng)計學

Percentile

計算百分位數(shù)。PDF P438的例子。

當y=(n+1)*p/100 不是整數(shù)時,比如12.5, 那么取第12個和第13個數(shù),然后用(v13-v12)(12.5-12)+v12 這樣算。即在兩個數(shù)之間,又按比例取了一個數(shù)

注意quitile,quartile這些,不一定是和換算為20,25百分位的數(shù)值完全相等。因為百分位可能不整除,而4分,5分位整除。

Coefficient of variation: 注意這個是變異系數(shù),不是協(xié)方差。定義是標準差/平均值。比如一組數(shù)較小,一組數(shù)較大,但標準差相同。這兩個

標準差就無法說明哪組數(shù)的波動性更大。但除以平均值后就可以說明了。

切比雪夫不等式:從平均值出發(fā),偏離正負K個標準差(K>1)之內(nèi)包含的數(shù)據(jù)點占整個集合的百分比,不低于1-1/k^2

夏普比率:? (組合收益-無風險收益)/組合收益的標準差。? ?衡量的是每一點風險帶來的超額收益(相對于無風險收益)

如果沒有無風險收益做參照物,那么就不可比。例如我把標準差弄的很小,但收益也較低,比率仍然可以比較大。有了無風險收益做對比,大家就被拉到了一個起跑線上

注意如果夏普比率為負,那么有可能標準差越大,夏普比率越大(往0的方向靠近)。這種情況就不能說夏普比率越大越好。

夏普比率的另一個應用是,他是用標準差衡量風險的。如果有些模型天然就是高頻交易,每次盈利一點點,但有可能頻率較低的有大額虧損,可能就不適合

偏度skewness :

sk=(各個值與均值之差的立方/標準差的立方)/n? (n較大,如>100時.n小時公式為n/((n-1)(n-2))? )

偏度衡量整個分布是往左偏還是往右偏。

豐度kurtosis :

kt=(各個值與均值之差的立方/標準差的立方)/n? (n較大,如>100時.n小時公式為n(n+1)/((n-1)(n-2)(n-3))? )

相對豐度:

kt' = kt-3? 3是正態(tài)分布的豐度。這個值衡量的是相對于正態(tài)分布的豐度。

豐度較大,意味著fatter tail,表示偏離度可能比較大。一般來說豐度>1就算是比較大了。

有了豐度、偏度基本可以衡量一個歷史數(shù)據(jù)的偏離度和大部分值落在哪里。



skewness

偏度形容了整個數(shù)據(jù)集往左偏還是往右偏。

錯題的經(jīng)驗:

1. 讀題不仔細。看清楚是mean,median。 看清楚起止日期。

2. 調(diào)和平均數(shù)計算平均價格。調(diào)和平均數(shù)

條件概率的理解:


條件概率的定義


聯(lián)合概率,注意這個公式只有在A和B獨立的情況下成立


條件概率的定義這樣理解比較好:A和B的概率各是一個圈。A,B同時發(fā)生的概率是兩個圈的交集。要求兩個圈的交集部分占B圈的面積,就是P(AB)/P(B).? 但這種理解并不好解釋在A和B獨立的情況

注意如果A和B獨立,則從上述兩個公式中可以推出P(A|B)=P(A).? 所以大部分的場景下,考慮條件概率一般是A和B不相互獨立。

還有一個公式是:

P(AB) = P(A | B)P(B) ? 是第一個公式的簡單變形。

書中P492的例子(A是收益大于無風險收益的概率,0.7, B是收益大于0的概率,0.8)是一種特殊情況。收益大于無風險收益,那么收益肯定是大于0的,所以0.7是一個P(A&B),符合上述公式。

進入數(shù)學期望部分

前面所討論的是基于樣本的統(tǒng)計,描述了一組數(shù)據(jù)的集中程度、偏離集中點的程度。

數(shù)學期望則是一種預期,是一種預測,不是對已有數(shù)據(jù)的描述。但做出預測的基礎還是已有的一些信息。期望還有另外一種解釋,即樣本在無窮大時的均值。

已經(jīng)知道了隨機變量的一些分布信息,比如有p1的概率取值為v1, 有p2的概率取值為v2 ,等等。然后需要給一個隨機變量預測一個期望值,就是數(shù)學期望。

在前面做樣本統(tǒng)計的時候,方差被用來描述樣本偏離均值的程度。一個隨機變量的方差用下面公式定義:

? ??

隨機變量X的方差

隨機變量的方差,被定義為(隨機變量與數(shù)學期望的差的平方)的數(shù)學期望。

(X-E(X))^2? 這個東西沒有辦法計算出來。因為X是一個隨機變量。但這個東西的數(shù)學期望卻是可以計算的,基于已有的信息。如下公式,X1,X2到Xn都代表一個樣本點(或者說我們估計的以某個概率發(fā)生的事件)。P(Xn)代表了樣本點發(fā)生的概率。

所以,上述方差公式展開后就變?yōu)椋?/p>

隨機變量的方差展開

這個公式比較重要。



數(shù)學期望樹

這個樹比較重要。劃清楚這個樹對于整理思路很有幫助。

如果一個隨機變量是由幾個隨機變量構成的,每個隨機變量有一定的權重,這就是投資組合的數(shù)學模型。

要求組合的數(shù)學期望,將各組成部分的數(shù)學期望求出來,然后乘以權重,再相加就可以了。

對于一個組合的方差,是如下公式:Rp代表Return of Portfolio 。

其中w1代表組合中第一個隨機變量的權重,R1代表第一個隨機變量。 ??

從這里展開

從而最終推導出:


最終推導結論

這是一個比較漂亮的N*N矩陣。對角線為每個隨機變量的方差。其中cov協(xié)方差的定義:


協(xié)方差定義

i==j的時候,協(xié)方差就是方差。

一般來說,乘積的期望不等于期望的乘積,除非變量相互獨立。所以協(xié)方差不能理解為E(Ri-ERi) * E(Rj-ERj)

(R-ER) ,有可能是負的,也有可能是正的,代表了獨立變量在多大程度上,哪個方向上對期望的偏離。

兩個獨立變量距離各自期望的偏離之積。而這個積的期望反應的是這個積在樣本無窮大時,這個積的值。當樣本空間非常大時,這個積有如下趨勢:

1,如果兩個獨立變量不相關(這里的不相關指不線性相關)或者獨立,那么這個積趨向于0. 因為樣本多了之后正負最終要相抵。

2,如果兩個變量的變化方向相同,那么樣本超多之后,這個積一定是正的或負的

協(xié)方差的符號說明了兩個變量在變化上的相關性。其值的大小在一般的數(shù)學問題上沒有意義,因為兩個變量的量綱可能差距較遠。但在計算投資回報時,因為投資回報率都是在-100%到100%波動,所以其值也衡量了波動的大小。

對于一般的數(shù)學問題,需要消除掉量綱的影響。消除量綱的方法是協(xié)方差除以每個變量的標準差,得到一個東西,這個東西就是相關系數(shù):

相關系數(shù) correlation= Cov(a,b)/(std(a)*std(b))

仍然注意這里的相關指的是線性相關。相關系數(shù)為1代表完全正相關,0代表完全不相關,-1代表完全負相關。

兩個隨機變量獨立的定義:P(AB)=P(A)*P(B) 這和前面條件概率的討論是一致的

兩個隨機變量不相關的定義:E(AB)=E(A)E(B) ?


貝葉斯公式:

公式比較簡單,從條件概率的變形即可得到:

因為 P(A|B)*P(B)=P(B|A)*P(A)=P(AB)

所以P(A|B)=P(B|A)*P(A)/P(B)

關鍵是此公式代表的現(xiàn)實意義和如何使用。當A是一個已知信息,B是新發(fā)生的信息,那么當B發(fā)生時,我如何更新A發(fā)生的概率?

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • 1,中位數(shù):按從小到大排列好的中間值 2,眾數(shù):出現(xiàn)次數(shù)最多的那個數(shù) 3,方差:數(shù)值和均值的距離的平方數(shù)的平均值 ...
    沈婷_bbf1閱讀 5,525評論 1 2
  • 《深入淺出統(tǒng)計學》讀書筆記 1、信息圖形化 餅圖 對不同組(或者類)所占的比例進行比較 條形圖 對大小進行比較,但...
    haidaozheng閱讀 5,560評論 0 6
  • 外面的雨一在下 滴答滴答滴答 嘩啦嘩啦嘩啦 這次出差 竟然有點想家 莫非是多了一個人牽掛?昨天朋友告訴我 年齡不了...
    浪淘沙閱讀 308評論 0 2
  • 人生之旅或陰或晴 風一程雨一程 但也要風雨兼程 一支筆一張紙(點擊藍色字有過程) 早睡早起才會遇見更好的自己 愿你...
    阿甘的蝸牛屋閱讀 485評論 0 1
  • 在兩天前開始追《明日之子》這檔選秀節(jié)目,自己很喜歡一個選手馬伯騫,從而進入了一個新的領域——飯圈。這也并不是說我之...
    秋葉隨風V閱讀 2,326評論 0 1

友情鏈接更多精彩內(nèi)容