可解釋機器學(xué)習(xí)文章

一、Explainable Artificial Intelligence Helps in Understanding the Effect of Fibronectin on Survival of Sepsis

可解釋的人工智能有助于了解纖連蛋白對膿毒癥存活率的影響

基于隨機森林算法的機器學(xué)習(xí)模型預(yù)測膿毒癥患者在入住 ICU 時的生存概率。除了膿毒癥患者臨床狀況的常用指標(biāo)外,該模型還包括入住ICU當(dāng)天記錄的纖連蛋白濃度。此外,使用可解釋的人工智能(XAI)——BreakDown、SHAP、Ceteris Paribus?技術(shù)來更好地理解模型預(yù)測。


邏輯回歸模型、隨機森林模型和梯度提升模型。將結(jié)果與不同的測試數(shù)據(jù)集進(jìn)行比較?;鶞?zhǔn)測試包括將輸入數(shù)據(jù)集劃分為測試集和訓(xùn)練集,在訓(xùn)練數(shù)據(jù)集上準(zhǔn)備模型,并在測試數(shù)據(jù)集上計算曲線下面(AUC)。該過程重復(fù)了五次。測試與訓(xùn)練患者的比例為1:2。隨機森林模型的平均檢驗AUC為0.85,梯度提升模型為0.78,logistic回歸模型為0.81。


機器學(xué)習(xí)模型的輸入特征包括血漿纖維連接蛋白濃度、INR 值、SOFA 評分、患者年齡、APACHE II 評分、降鈣素原水平、血小板計數(shù)和 d-二聚體水平。為了優(yōu)化隨機森林模型參數(shù)和獨特的過擬合,進(jìn)行了 10 次交叉驗證。對測試數(shù)據(jù)集計算的 10 次交叉驗證平均 AUC 為 0.82。最終模型是在訓(xùn)練數(shù)據(jù)集上建立的。隨機森林模型的 ROC 曲線分析表明,使用該模型對患者進(jìn)行分類的成功率為 0.92(對整個數(shù)據(jù)集計算的 AUC)(圖 3),靈敏度為 0.92(召回率),陽性預(yù)測值為 0.76(精確度),準(zhǔn)確率為 0.79。


特定特征對預(yù)測患者生存概率的重要性。變量的條形越長,該特征在隨機森林模型中越重要。根據(jù)該圖,INR值和血漿纖連蛋白濃度是隨機森林模型最重要的變量。APACHE II評分和年齡也是模型的重要變量。該模型表明,SOFA 評分、血小板計數(shù)和降鈣素原水平是信息量較小的變量。d-二聚體的水平似乎對模型預(yù)測沒有影響。


根據(jù)所提出的隨機森林模型,該患者入住ICU時計算的28天生存期預(yù)測為0.764,高于平均模型預(yù)測?;?b>BreakDown(Breakdown方法是一種可解釋性機器學(xué)習(xí)方法,用于解釋機器學(xué)習(xí)模型的預(yù)測結(jié)果。 它可以幫助我們理解模型對不同特征的依賴程度,并揭示出模型中每個特征對最終預(yù)測的貢獻(xiàn)。)方法,模型中提高預(yù)測準(zhǔn)確性的最重要變量是 SOFA 評分,貢獻(xiàn) + 0.064,以及 pFN 水平,貢獻(xiàn) + 0.45。其他變量不太重要,唯一對預(yù)測有負(fù)面影響的變量是年齡。使用SHAP值(SHAP 為每個輸入特征生成一個值(也稱為 SHAP 值),該值指示該特征如何有助于指定數(shù)據(jù)點的預(yù)測;有些因素會對預(yù)測概率產(chǎn)生積極影響,而另一些因素則會對其產(chǎn)生負(fù)面影響。)獲得了非常相似的結(jié)果。此外,當(dāng)考慮到 Ceteris Paribus (即在其他所有因素保持不變的情況下研究該因素對結(jié)果的影響。 它的主要作用是減少干擾因素,從而更好地理解變量之間的關(guān)系。)概況時, pFN 值的損失甚至 SOFA 水平的小幅增加都會導(dǎo)致對該患者的預(yù)測更差。根據(jù)醫(yī)院文件,該患者在治療的第28天還活著。

二、Verifying explainability of a deep learning tissue classifier trained on RNA-seq data

驗證在RNA-seq數(shù)據(jù)上訓(xùn)練的深度學(xué)習(xí)組織分類器的可解釋性

作者下載了47 種組織類型的16,651 樣本用于分析,將樣本中14301個樣本用于訓(xùn)練模型,選擇47個組織×50個樣本=2350個樣本作為測試集由訓(xùn)練好的分類模型(CNN)對標(biāo)簽進(jìn)行預(yù)測,然后由測試集標(biāo)簽作用于前兩者計算出SHAP值并選擇過濾樣本,并篩選出47個組織排名前103位的基因(47×103=4841),發(fā)現(xiàn)其中大約50%(2423)的基因為SHAP基因,也就是獨特基因。之后對整個樣本按組織分類鑒定了不同組織間的差異基因,經(jīng)由FDR<0.01和LogFC>0.4得到排名最高的差異基因,最后和SHAP基因進(jìn)行比較。


1、測試集數(shù)據(jù)輸入為2,350×18,884的矩陣,一個格子代表某個樣本對應(yīng)的某個基因的表達(dá)量。通過模型對測試集的輸出,可以看到某一個基因在47類組織下的SHAP值,圖中柱子的高低代表SHAP的大小,正負(fù)代表在某一類組織上基因更傾向于這類組織和不傾向于這類組織


2、使用不平衡和平衡類大小的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 性能?CNN 性能使用 F1 分?jǐn)?shù)進(jìn)行測量,F(xiàn)1 分?jǐn)?shù)是精確度和召回率的調(diào)和平均值。

(引申:所謂的不平衡指的是不同類別的樣本量差異非常大,或者少數(shù)樣本代表了業(yè)務(wù)的關(guān)鍵數(shù)據(jù)(少量樣本更重要),需要對少量樣本的模式有很好的學(xué)習(xí)。樣本類別分布不平衡主要出現(xiàn)在分類相關(guān)的建模問題上。樣本類別分布不平衡從數(shù)據(jù)規(guī)模上可以分為大數(shù)據(jù)分布不平衡和小數(shù)據(jù)分布不平衡兩種。

大數(shù)據(jù)分布不均衡。這種情況下整體數(shù)據(jù)規(guī)模大,只是其中的少樣本類的占比較少。但是從每個特征的分布來看,小樣本也覆蓋了大部分或全部的特征。例如擁有1000萬條記錄的數(shù)據(jù)集中,其中占比50萬條的少數(shù)分類樣本便于屬于這種情況。

小數(shù)據(jù)分布不均衡。這種情況下整體數(shù)據(jù)規(guī)模小,并且占據(jù)少量樣本比例的分類數(shù)量也少,這會導(dǎo)致特征分布的嚴(yán)重不平衡。例如擁有1000條數(shù)據(jù)樣本的數(shù)據(jù)集中,其中占有10條樣本的分類,其特征無論如何擬合也無法實現(xiàn)完整特征值的覆蓋,此時屬于嚴(yán)重的數(shù)據(jù)樣本分布不均衡。

樣本分布不均衡將導(dǎo)致樣本量少的分類所包含的特征過少,并很難從中提取規(guī)律;即使得到分類模型,也容易產(chǎn)生過度依賴于有限的數(shù)據(jù)樣本而導(dǎo)致過擬合的問題,當(dāng)模型應(yīng)用到新的數(shù)據(jù)上時,模型的準(zhǔn)確性和魯棒性將很差。樣本分布不平衡主要在于不同類別間的樣本比例差異。

SMOTE過采樣方法的主要作用是通過合成少數(shù)類樣本來增加其在數(shù)據(jù)集中的數(shù)量,以達(dá)到樣本平衡。這對于改善模型的訓(xùn)練效果至關(guān)重要。通過SMOTE過采樣,可以使得模型更好地學(xué)習(xí)到少數(shù)類別的特征,從而提高模型的泛化能力和準(zhǔn)確性。此外,SMOTE過采樣方法還可以減少模型的過擬合傾向,提高模型的穩(wěn)健性(Robustness)。)

訓(xùn)練集中每種組織類型的樣本數(shù)量從腎臟-皮層的 35 個到肌肉-骨骼的 753 個不等。評估平衡(753或752)和不平衡的訓(xùn)練樣本量對保留測試數(shù)據(jù)的CNN表現(xiàn)的影響。圖中紅線與藍(lán)線分別代表平衡和不平衡組,顏色不同的菱形代表47類組織。使用不平衡數(shù)據(jù)預(yù)測組織類型時,CNN 的宏觀平均 F1 分?jǐn)?shù)為 95.31%,而使用 SMOTE 平衡數(shù)據(jù)時為 96.10%。當(dāng)樣本數(shù)<200時平衡組F1 分?jǐn)?shù)明顯高于不平衡組,隨著樣本數(shù)量的增大,樣本數(shù)>250時,平衡組和不平衡組F1 分?jǐn)?shù)近似擬合。

3、選擇繼續(xù)使用使用 SMOTE 平衡數(shù)據(jù)訓(xùn)練的 CNN。該分類器對每個組織的召回率從 58% 到 100% 不等,精確度從 70% 到 100% 不等(圖 2b)。召回率最低的組織是食管-GJ(58%)和結(jié)腸-Sig(80%),38%(n = 19)的食管-GJ 樣本被預(yù)測為食管-Mus,20%(n = 10)的結(jié)腸-Sig 樣本被預(yù)測為結(jié)腸-Tra 和小腸。平衡后召回率低于 90% 的其他組織包括腦-Hyp、腦-Hip 和腦-ACCB,這三種組織類型的召回率均為 88%,而它們各自的錯誤分類是其他腦組織類型。(召回率:正確預(yù)測為正的占全部實際為正的比例)

人類蛋白質(zhì)圖譜(HPA)的 126 個樣本的獨立數(shù)據(jù)集驗證


通過按每個組織內(nèi)的中值 SHAP 值對每個基因進(jìn)行排序,確定了區(qū)分 47 種組織類型的最顯著基因。在每種組織排第一的 47 個基因中,93.6%(47 個中的 44 個)是獨特的(如果在 > 1 個組織中發(fā)現(xiàn)一個基因,則只計算一次),87.2%(47 個中的 41 個)是組織獨有的(目前僅在一張組織中)。前 103 個(如何確定)總共包含 4,841 個基因(47 個類別 × 103 個等級 = 4,841),其中大約 50% 的基因(2,423 個基因;稱為“SHAP 基因”)是獨特的,29.1%(1407 個基因)的基因是組織排他性。組織專有基因的數(shù)量因類別而異,睪丸含有最多的專有基因(80 個基因),子宮含有最少的專有基因(14個)。

((a) 折線圖顯示,在所有 47 個類別(y 軸)中,獨特基因(黑線)和組織排他性基因(灰線)在擴展前 n 個可能基因的排名中百分比遞減。前 103 個等級(紅色虛線)總共包含 4,841 個基因(47 個類別× 103 個等級 = 4,841 個),但有些基因存在于多個組織中,大約 50% 的基因(2,423 個基因)是唯一的。(b) 每個組織類型排名前103位的基因中組織排他性基因的數(shù)量。)


為了將 SHAP 基因(2,423 個基因)與非 ML 方法進(jìn)行比較,EdgeR 鑒定出的顯著差異表達(dá)基因總數(shù)為 30,532 個,睪丸顯示出最多數(shù)量的上調(diào)基因,全血顯示出最多數(shù)量的下調(diào)基因。edgeR和SHAP基因進(jìn)行比較發(fā)現(xiàn),98.6%的SHAP基因與edgeR識別的基因重疊,只有34個SHAP基因未被edgeR識別為顯著基因。后續(xù)又將47類組織SHAP基因與edgeR識別的重疊基因分析,作者發(fā)現(xiàn)47類組織上調(diào)基因大于下調(diào)基因數(shù)量。

SHAP 方法識別出 4841 個顯著基因,edgeR 方法識別出 30,532 個顯著基因。SHAP 和edgeR 方法有3499 個共同基因(“SHAP 和edgeR”,紫色)。因此,30,532–3,499 = 27,033 個基因是edgeR 方法特有的(“僅edgeR”,紅色),4841–3,499 = 1342 個基因是SHAP方法特有的(“僅SHAP”,藍(lán)色)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容