最大信息系數(shù)(Maximum Information Coefficient,MIC)和互信息(Mutual Information,MI)都是衡量兩個(gè)變量之間相關(guān)性的方法,但它們之間存在一些區(qū)別。
互信息是一種用于衡量兩個(gè)隨機(jī)變量之間相互依賴程度的方法。它的定義如下:
互信息:對于兩個(gè)離散型隨機(jī)變量 和
,它們的互信息
定義為:
其中, 表示
且
的聯(lián)合概率分布,
和
分別表示
和
的邊緣概率分布。
互信息的取值范圍為 ,取值越大表示兩個(gè)變量之間相關(guān)性越強(qiáng)。
而最大信息系數(shù)是一種用于衡量兩個(gè)變量之間非線性相關(guān)性的方法,它的定義如下:
最大信息系數(shù):對于兩個(gè)變量 和
,它們的最大信息系數(shù)
定義為:
其中, 和
是
和
到
區(qū)間的單調(diào)函數(shù),
和
分別是
和
的可能取值個(gè)數(shù)。
最大信息系數(shù)的取值范圍為 ,取值越大表示兩個(gè)變量之間相關(guān)性越強(qiáng)。
最大信息系數(shù)和互信息之間的關(guān)系是:最大信息系數(shù)是互信息的一種估計(jì)方法。具體來說,最大信息系數(shù)可以看作是互信息在一定條件下的估計(jì)值,其中的條件是 和
之間的關(guān)系是單調(diào)的。因此,最大信息系數(shù)的取值范圍比互信息小,但它對非線性關(guān)系的檢測能力更強(qiáng)。
最大信息系數(shù)(Maximum Information Coefficient, MIC)是一種用于衡量兩個(gè)變量之間相關(guān)性的非參數(shù)統(tǒng)計(jì)方法,由 Reshef 等人于 2011 年提出。
MIC 的基本思想是對于任意一對變量 和
,通過分別對
和
進(jìn)行
-NN(k-Nearest Neighbors)估計(jì),來評估它們之間的關(guān)聯(lián)程度。具體地,MIC 首先將
和
按照值的大小進(jìn)行排序,然后用
-NN 方法來估計(jì)
和
之間的條件分布
和
,最后計(jì)算
和
之間的最大信息系數(shù):
其中, 和
分別是
和
到
區(qū)間的映射函數(shù),
是一個(gè)權(quán)重函數(shù),它在
和
距離越近的時(shí)候取得更大的值,可以用于調(diào)整那些較遠(yuǎn)的點(diǎn)對于 MIC 的影響。這個(gè)式子可以理解為在所有可能的
和
中選擇一個(gè)最優(yōu)的組合,使得它們的點(diǎn)乘積之和除以歸一化系數(shù)最大。
MIC 的取值范圍是 ,其中
表示兩個(gè)變量之間沒有相關(guān)性,
表示兩個(gè)變量之間具有完全的相關(guān)性。與 Pearson 相關(guān)系數(shù)等傳統(tǒng)方法相比,MIC 能夠處理更加復(fù)雜的非線性關(guān)系,并且在樣本量較小、特征數(shù)量較多等情況下具有較好的魯棒性。不過,與大部分非參數(shù)方法一樣,MIC 的計(jì)算復(fù)雜度較高,通常需要進(jìn)行一定的優(yōu)化才能適用于大規(guī)模數(shù)據(jù)集。