Percentile
計算百分位數(shù)。PDF P438的例子。
當y=(n+1)*p/100 不是整數(shù)時,比如12.5, 那么取第12個和第13個數(shù),然后用(v13-v12)(12.5-12)+v12 這樣算。即在兩個數(shù)之間,又按比例取了一個數(shù)
注意quitile,quartile這些,不一定是和換算為20,25百分位的數(shù)值完全相等。因為百分位可能不整除,而4分,5分位整除。
Coefficient of variation: 注意這個是變異系數(shù),不是協(xié)方差。定義是標準差/平均值。比如一組數(shù)較小,一組數(shù)較大,但標準差相同。這兩個
標準差就無法說明哪組數(shù)的波動性更大。但除以平均值后就可以說明了。
切比雪夫不等式:從平均值出發(fā),偏離正負K個標準差(K>1)之內(nèi)包含的數(shù)據(jù)點占整個集合的百分比,不低于1-1/k^2
夏普比率:? (組合收益-無風險收益)/組合收益的標準差。? ?衡量的是每一點風險帶來的超額收益(相對于無風險收益)
如果沒有無風險收益做參照物,那么就不可比。例如我把標準差弄的很小,但收益也較低,比率仍然可以比較大。有了無風險收益做對比,大家就被拉到了一個起跑線上
注意如果夏普比率為負,那么有可能標準差越大,夏普比率越大(往0的方向靠近)。這種情況就不能說夏普比率越大越好。
夏普比率的另一個應用是,他是用標準差衡量風險的。如果有些模型天然就是高頻交易,每次盈利一點點,但有可能頻率較低的有大額虧損,可能就不適合
偏度skewness :
sk=(各個值與均值之差的立方/標準差的立方)/n? (n較大,如>100時.n小時公式為n/((n-1)(n-2))? )
偏度衡量整個分布是往左偏還是往右偏。
豐度kurtosis :
kt=(各個值與均值之差的立方/標準差的立方)/n? (n較大,如>100時.n小時公式為n(n+1)/((n-1)(n-2)(n-3))? )
相對豐度:
kt' = kt-3? 3是正態(tài)分布的豐度。這個值衡量的是相對于正態(tài)分布的豐度。
豐度較大,意味著fatter tail,表示偏離度可能比較大。一般來說豐度>1就算是比較大了。
有了豐度、偏度基本可以衡量一個歷史數(shù)據(jù)的偏離度和大部分值落在哪里。

偏度形容了整個數(shù)據(jù)集往左偏還是往右偏。
錯題的經(jīng)驗:
1. 讀題不仔細。看清楚是mean,median。 看清楚起止日期。
2. 調(diào)和平均數(shù)計算平均價格。調(diào)和平均數(shù)
條件概率的理解:


條件概率的定義這樣理解比較好:A和B的概率各是一個圈。A,B同時發(fā)生的概率是兩個圈的交集。要求兩個圈的交集部分占B圈的面積,就是P(AB)/P(B).? 但這種理解并不好解釋在A和B獨立的情況
注意如果A和B獨立,則從上述兩個公式中可以推出P(A|B)=P(A).? 所以大部分的場景下,考慮條件概率一般是A和B不相互獨立。
還有一個公式是:
P(AB) = P(A | B)P(B) ? 是第一個公式的簡單變形。
書中P492的例子(A是收益大于無風險收益的概率,0.7, B是收益大于0的概率,0.8)是一種特殊情況。收益大于無風險收益,那么收益肯定是大于0的,所以0.7是一個P(A&B),符合上述公式。
進入數(shù)學期望部分
前面所討論的是基于樣本的統(tǒng)計,描述了一組數(shù)據(jù)的集中程度、偏離集中點的程度。
數(shù)學期望則是一種預期,是一種預測,不是對已有數(shù)據(jù)的描述。但做出預測的基礎還是已有的一些信息。期望還有另外一種解釋,即樣本在無窮大時的均值。
已經(jīng)知道了隨機變量的一些分布信息,比如有p1的概率取值為v1, 有p2的概率取值為v2 ,等等。然后需要給一個隨機變量預測一個期望值,就是數(shù)學期望。
在前面做樣本統(tǒng)計的時候,方差被用來描述樣本偏離均值的程度。一個隨機變量的方差用下面公式定義:
? ??

隨機變量的方差,被定義為(隨機變量與數(shù)學期望的差的平方)的數(shù)學期望。
(X-E(X))^2? 這個東西沒有辦法計算出來。因為X是一個隨機變量。但這個東西的數(shù)學期望卻是可以計算的,基于已有的信息。如下公式,X1,X2到Xn都代表一個樣本點(或者說我們估計的以某個概率發(fā)生的事件)。P(Xn)代表了樣本點發(fā)生的概率。
所以,上述方差公式展開后就變?yōu)椋?/p>

這個公式比較重要。

數(shù)學期望樹
這個樹比較重要。劃清楚這個樹對于整理思路很有幫助。
如果一個隨機變量是由幾個隨機變量構成的,每個隨機變量有一定的權重,這就是投資組合的數(shù)學模型。
要求組合的數(shù)學期望,將各組成部分的數(shù)學期望求出來,然后乘以權重,再相加就可以了。
對于一個組合的方差,是如下公式:Rp代表Return of Portfolio 。
其中w1代表組合中第一個隨機變量的權重,R1代表第一個隨機變量。 ??

從而最終推導出:

這是一個比較漂亮的N*N矩陣。對角線為每個隨機變量的方差。其中cov協(xié)方差的定義:

i==j的時候,協(xié)方差就是方差。
一般來說,乘積的期望不等于期望的乘積,除非變量相互獨立。所以協(xié)方差不能理解為E(Ri-ERi) * E(Rj-ERj)
(R-ER) ,有可能是負的,也有可能是正的,代表了獨立變量在多大程度上,哪個方向上對期望的偏離。
兩個獨立變量距離各自期望的偏離之積。而這個積的期望反應的是這個積在樣本無窮大時,這個積的值。當樣本空間非常大時,這個積有如下趨勢:
1,如果兩個獨立變量不相關(這里的不相關指不線性相關)或者獨立,那么這個積趨向于0. 因為樣本多了之后正負最終要相抵。
2,如果兩個變量的變化方向相同,那么樣本超多之后,這個積一定是正的或負的
協(xié)方差的符號說明了兩個變量在變化上的相關性。其值的大小在一般的數(shù)學問題上沒有意義,因為兩個變量的量綱可能差距較遠。但在計算投資回報時,因為投資回報率都是在-100%到100%波動,所以其值也衡量了波動的大小。
對于一般的數(shù)學問題,需要消除掉量綱的影響。消除量綱的方法是協(xié)方差除以每個變量的標準差,得到一個東西,這個東西就是相關系數(shù):
相關系數(shù) correlation= Cov(a,b)/(std(a)*std(b))
仍然注意這里的相關指的是線性相關。相關系數(shù)為1代表完全正相關,0代表完全不相關,-1代表完全負相關。
兩個隨機變量獨立的定義:P(AB)=P(A)*P(B) 這和前面條件概率的討論是一致的
兩個隨機變量不相關的定義:E(AB)=E(A)E(B) ?
貝葉斯公式:
公式比較簡單,從條件概率的變形即可得到:
因為 P(A|B)*P(B)=P(B|A)*P(A)=P(AB)
所以P(A|B)=P(B|A)*P(A)/P(B)
關鍵是此公式代表的現(xiàn)實意義和如何使用。當A是一個已知信息,B是新發(fā)生的信息,那么當B發(fā)生時,我如何更新A發(fā)生的概率?