最大信息系數(shù)和互信息

最大信息系數(shù)(Maximum Information Coefficient,MIC)和互信息(Mutual Information,MI)都是衡量兩個(gè)變量之間相關(guān)性的方法,但它們之間存在一些區(qū)別。

互信息是一種用于衡量兩個(gè)隨機(jī)變量之間相互依賴程度的方法。它的定義如下:

互信息:對于兩個(gè)離散型隨機(jī)變量 XY,它們的互信息 I(X,Y) 定義為:

I(X,Y) = \sum_{x \in X}\sum_{y \in Y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)}

其中,p(x,y) 表示 X=xY=y 的聯(lián)合概率分布,p(x)p(y) 分別表示 XY 的邊緣概率分布。

互信息的取值范圍為 [0,+\infty),取值越大表示兩個(gè)變量之間相關(guān)性越強(qiáng)。

而最大信息系數(shù)是一種用于衡量兩個(gè)變量之間非線性相關(guān)性的方法,它的定義如下:

最大信息系數(shù):對于兩個(gè)變量 XY,它們的最大信息系數(shù) \mathrm{MIC}(X,Y) 定義為:

\mathrm{MIC}(X,Y) = \max_{f,g}\frac{\mathrm{MI}(f(X),g(Y))}{\log_2\min\{k_1,k_2\}}

其中,fgXY[0,1] 區(qū)間的單調(diào)函數(shù),k_1k_2 分別是 XY 的可能取值個(gè)數(shù)。

最大信息系數(shù)的取值范圍為 [0,1],取值越大表示兩個(gè)變量之間相關(guān)性越強(qiáng)。

最大信息系數(shù)和互信息之間的關(guān)系是:最大信息系數(shù)是互信息的一種估計(jì)方法。具體來說,最大信息系數(shù)可以看作是互信息在一定條件下的估計(jì)值,其中的條件是 XY 之間的關(guān)系是單調(diào)的。因此,最大信息系數(shù)的取值范圍比互信息小,但它對非線性關(guān)系的檢測能力更強(qiáng)。

最大信息系數(shù)(Maximum Information Coefficient, MIC)是一種用于衡量兩個(gè)變量之間相關(guān)性的非參數(shù)統(tǒng)計(jì)方法,由 Reshef 等人于 2011 年提出。

MIC 的基本思想是對于任意一對變量 XY,通過分別對 XY 進(jìn)行 k-NN(k-Nearest Neighbors)估計(jì),來評估它們之間的關(guān)聯(lián)程度。具體地,MIC 首先將 XY 按照值的大小進(jìn)行排序,然后用 k-NN 方法來估計(jì) XY 之間的條件分布 P(Y|X)P(X|Y),最后計(jì)算 XY 之間的最大信息系數(shù):

MIC(X,Y) = \max_{f,g} \frac{\sum_{i=1}^n \sum_{j=1}^n \omega_{ij} f(X_i,Y_j) g(X_i,Y_j)}{\sqrt{\sum_{i=1}^n \sum_{j=1}^n \omega_{ij} f^2(X_i,Y_j)} \sqrt{\sum_{i=1}^n \sum_{j=1}^n \omega_{ij} g^2(X_i,Y_j)}}

其中,fg 分別是 XY[0,1] 區(qū)間的映射函數(shù),\omega_{ij} 是一個(gè)權(quán)重函數(shù),它在 X_iY_j 距離越近的時(shí)候取得更大的值,可以用于調(diào)整那些較遠(yuǎn)的點(diǎn)對于 MIC 的影響。這個(gè)式子可以理解為在所有可能的 fg 中選擇一個(gè)最優(yōu)的組合,使得它們的點(diǎn)乘積之和除以歸一化系數(shù)最大。

MIC 的取值范圍是 [0,1],其中 0 表示兩個(gè)變量之間沒有相關(guān)性,1 表示兩個(gè)變量之間具有完全的相關(guān)性。與 Pearson 相關(guān)系數(shù)等傳統(tǒng)方法相比,MIC 能夠處理更加復(fù)雜的非線性關(guān)系,并且在樣本量較小、特征數(shù)量較多等情況下具有較好的魯棒性。不過,與大部分非參數(shù)方法一樣,MIC 的計(jì)算復(fù)雜度較高,通常需要進(jìn)行一定的優(yōu)化才能適用于大規(guī)模數(shù)據(jù)集。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容