久久一一本,欧美日韩激情,内射后入一区在线观看

一、Explainable Artificial Intelligence Helps in Understanding the Effect of Fibronectin on Survival of Sepsis

可解釋的人工智能有助于了解纖連蛋白對膿毒癥存活率的影響

基于隨機森林算法的機器學(xué)習(xí)模型預(yù)測膿毒癥患者在入住 ICU 時的生存概率。除了膿毒癥患者臨床狀況的常用指標(biāo)外，該模型還包括入住ICU當(dāng)天記錄的纖連蛋白濃度。此外，使用可解釋的人工智能（XAI）——BreakDown、SHAP、Ceteris Paribus?技術(shù)來更好地理解模型預(yù)測。

邏輯回歸模型、隨機森林模型和梯度提升模型。將結(jié)果與不同的測試數(shù)據(jù)集進(jìn)行比較?；鶞?zhǔn)測試包括將輸入數(shù)據(jù)集劃分為測試集和訓(xùn)練集，在訓(xùn)練數(shù)據(jù)集上準(zhǔn)備模型，并在測試數(shù)據(jù)集上計算曲線下面（AUC）。該過程重復(fù)了五次。測試與訓(xùn)練患者的比例為1：2。隨機森林模型的平均檢驗AUC為0.85，梯度提升模型為0.78，logistic回歸模型為0.81。

機器學(xué)習(xí)模型的輸入特征包括血漿纖維連接蛋白濃度、INR 值、SOFA 評分、患者年齡、APACHE II 評分、降鈣素原水平、血小板計數(shù)和 d-二聚體水平。為了優(yōu)化隨機森林模型參數(shù)和獨特的過擬合，進(jìn)行了 10 次交叉驗證。對測試數(shù)據(jù)集計算的 10 次交叉驗證平均 AUC 為 0.82。最終模型是在訓(xùn)練數(shù)據(jù)集上建立的。隨機森林模型的 ROC 曲線分析表明，使用該模型對患者進(jìn)行分類的成功率為 0.92（對整個數(shù)據(jù)集計算的 AUC）（圖 3），靈敏度為 0.92（召回率），陽性預(yù)測值為 0.76（精確度），準(zhǔn)確率為 0.79。

特定特征對預(yù)測患者生存概率的重要性。變量的條形越長，該特征在隨機森林模型中越重要。根據(jù)該圖，INR值和血漿纖連蛋白濃度是隨機森林模型最重要的變量。APACHE II評分和年齡也是模型的重要變量。該模型表明，SOFA 評分、血小板計數(shù)和降鈣素原水平是信息量較小的變量。d-二聚體的水平似乎對模型預(yù)測沒有影響。

根據(jù)所提出的隨機森林模型，該患者入住ICU時計算的28天生存期預(yù)測為0.764，高于平均模型預(yù)測?；?b>BreakDown（Breakdown方法是一種可解釋性機器學(xué)習(xí)方法，用于解釋機器學(xué)習(xí)模型的預(yù)測結(jié)果。它可以幫助我們理解模型對不同特征的依賴程度，并揭示出模型中每個特征對最終預(yù)測的貢獻(xiàn)。）方法，模型中提高預(yù)測準(zhǔn)確性的最重要變量是 SOFA 評分，貢獻(xiàn) + 0.064，以及 pFN 水平，貢獻(xiàn) + 0.45。其他變量不太重要，唯一對預(yù)測有負(fù)面影響的變量是年齡。使用SHAP值（SHAP 為每個輸入特征生成一個值（也稱為 SHAP 值），該值指示該特征如何有助于指定數(shù)據(jù)點的預(yù)測；有些因素會對預(yù)測概率產(chǎn)生積極影響，而另一些因素則會對其產(chǎn)生負(fù)面影響。）獲得了非常相似的結(jié)果。此外，當(dāng)考慮到 Ceteris Paribus （即在其他所有因素保持不變的情況下研究該因素對結(jié)果的影響。它的主要作用是減少干擾因素，從而更好地理解變量之間的關(guān)系。）概況時， pFN 值的損失甚至 SOFA 水平的小幅增加都會導(dǎo)致對該患者的預(yù)測更差。根據(jù)醫(yī)院文件，該患者在治療的第28天還活著。

二、Verifying explainability of a deep learning tissue classifier trained on RNA-seq data

驗證在RNA-seq數(shù)據(jù)上訓(xùn)練的深度學(xué)習(xí)組織分類器的可解釋性

作者下載了47 種組織類型的16,651 樣本用于分析，將樣本中14301個樣本用于訓(xùn)練模型，選擇47個組織×50個樣本＝2350個樣本作為測試集由訓(xùn)練好的分類模型（CNN）對標(biāo)簽進(jìn)行預(yù)測，然后由測試集標(biāo)簽作用于前兩者計算出SHAP值并選擇過濾樣本，并篩選出47個組織排名前103位的基因（47×103＝4841），發(fā)現(xiàn)其中大約50%（2423）的基因為SHAP基因，也就是獨特基因。之后對整個樣本按組織分類鑒定了不同組織間的差異基因，經(jīng)由FDR<0.01和LogFC>0.4得到排名最高的差異基因，最后和SHAP基因進(jìn)行比較。

1、測試集數(shù)據(jù)輸入為2,350×18,884的矩陣，一個格子代表某個樣本對應(yīng)的某個基因的表達(dá)量。通過模型對測試集的輸出，可以看到某一個基因在47類組織下的SHAP值，圖中柱子的高低代表SHAP的大小，正負(fù)代表在某一類組織上基因更傾向于這類組織和不傾向于這類組織

2、使用不平衡和平衡類大小的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 性能？CNN 性能使用 F1 分?jǐn)?shù)進(jìn)行測量，F(xiàn)1 分?jǐn)?shù)是精確度和召回率的調(diào)和平均值。

（引申：所謂的不平衡指的是不同類別的樣本量差異非常大，或者少數(shù)樣本代表了業(yè)務(wù)的關(guān)鍵數(shù)據(jù)（少量樣本更重要），需要對少量樣本的模式有很好的學(xué)習(xí)。樣本類別分布不平衡主要出現(xiàn)在分類相關(guān)的建模問題上。樣本類別分布不平衡從數(shù)據(jù)規(guī)模上可以分為大數(shù)據(jù)分布不平衡和小數(shù)據(jù)分布不平衡兩種。

大數(shù)據(jù)分布不均衡。這種情況下整體數(shù)據(jù)規(guī)模大，只是其中的少樣本類的占比較少。但是從每個特征的分布來看，小樣本也覆蓋了大部分或全部的特征。例如擁有1000萬條記錄的數(shù)據(jù)集中，其中占比50萬條的少數(shù)分類樣本便于屬于這種情況。

小數(shù)據(jù)分布不均衡。這種情況下整體數(shù)據(jù)規(guī)模小，并且占據(jù)少量樣本比例的分類數(shù)量也少，這會導(dǎo)致特征分布的嚴(yán)重不平衡。例如擁有1000條數(shù)據(jù)樣本的數(shù)據(jù)集中，其中占有10條樣本的分類，其特征無論如何擬合也無法實現(xiàn)完整特征值的覆蓋，此時屬于嚴(yán)重的數(shù)據(jù)樣本分布不均衡。

樣本分布不均衡將導(dǎo)致樣本量少的分類所包含的特征過少，并很難從中提取規(guī)律；即使得到分類模型，也容易產(chǎn)生過度依賴于有限的數(shù)據(jù)樣本而導(dǎo)致過擬合的問題，當(dāng)模型應(yīng)用到新的數(shù)據(jù)上時，模型的準(zhǔn)確性和魯棒性將很差。樣本分布不平衡主要在于不同類別間的樣本比例差異。

SMOTE過采樣方法的主要作用是通過合成少數(shù)類樣本來增加其在數(shù)據(jù)集中的數(shù)量，以達(dá)到樣本平衡。這對于改善模型的訓(xùn)練效果至關(guān)重要。通過SMOTE過采樣，可以使得模型更好地學(xué)習(xí)到少數(shù)類別的特征，從而提高模型的泛化能力和準(zhǔn)確性。此外，SMOTE過采樣方法還可以減少模型的過擬合傾向，提高模型的穩(wěn)健性（Robustness）。）

訓(xùn)練集中每種組織類型的樣本數(shù)量從腎臟-皮層的 35 個到肌肉-骨骼的 753 個不等。評估平衡（753或752）和不平衡的訓(xùn)練樣本量對保留測試數(shù)據(jù)的CNN表現(xiàn)的影響。圖中紅線與藍(lán)線分別代表平衡和不平衡組，顏色不同的菱形代表47類組織。使用不平衡數(shù)據(jù)預(yù)測組織類型時，CNN 的宏觀平均 F1 分?jǐn)?shù)為 95.31%，而使用 SMOTE 平衡數(shù)據(jù)時為 96.10%。當(dāng)樣本數(shù)<200時平衡組F1 分?jǐn)?shù)明顯高于不平衡組，隨著樣本數(shù)量的增大，樣本數(shù)>250時，平衡組和不平衡組F1 分?jǐn)?shù)近似擬合。

3、選擇繼續(xù)使用使用 SMOTE 平衡數(shù)據(jù)訓(xùn)練的 CNN。該分類器對每個組織的召回率從 58% 到 100% 不等，精確度從 70% 到 100% 不等（圖 2b）。召回率最低的組織是食管-GJ（58%）和結(jié)腸-Sig（80%），38%（n = 19）的食管-GJ 樣本被預(yù)測為食管-Mus，20%（n = 10）的結(jié)腸-Sig 樣本被預(yù)測為結(jié)腸-Tra 和小腸。平衡后召回率低于 90% 的其他組織包括腦-Hyp、腦-Hip 和腦-ACCB，這三種組織類型的召回率均為 88%，而它們各自的錯誤分類是其他腦組織類型。（召回率：正確預(yù)測為正的占全部實際為正的比例）

人類蛋白質(zhì)圖譜（HPA）的 126 個樣本的獨立數(shù)據(jù)集驗證

通過按每個組織內(nèi)的中值 SHAP 值對每個基因進(jìn)行排序，確定了區(qū)分 47 種組織類型的最顯著基因。在每種組織排第一的 47 個基因中，93.6%（47 個中的 44 個）是獨特的（如果在 > 1 個組織中發(fā)現(xiàn)一個基因，則只計算一次），87.2%（47 個中的 41 個）是組織獨有的（目前僅在一張組織中）。前 103 個（如何確定）總共包含 4,841 個基因（47 個類別 × 103 個等級 = 4,841），其中大約 50% 的基因（2,423 個基因；稱為“SHAP 基因”）是獨特的，29.1%（1407 個基因）的基因是組織排他性。組織專有基因的數(shù)量因類別而異，睪丸含有最多的專有基因（80 個基因），子宮含有最少的專有基因（14個）。

（（a）折線圖顯示，在所有 47 個類別（y 軸）中，獨特基因（黑線）和組織排他性基因（灰線）在擴展前 n 個可能基因的排名中百分比遞減。前 103 個等級（紅色虛線）總共包含 4,841 個基因（47 個類別× 103 個等級 = 4,841 個），但有些基因存在于多個組織中，大約 50% 的基因（2,423 個基因）是唯一的。（b）每個組織類型排名前103位的基因中組織排他性基因的數(shù)量。）

為了將 SHAP 基因（2,423 個基因）與非 ML 方法進(jìn)行比較，EdgeR 鑒定出的顯著差異表達(dá)基因總數(shù)為 30,532 個，睪丸顯示出最多數(shù)量的上調(diào)基因，全血顯示出最多數(shù)量的下調(diào)基因。edgeR和SHAP基因進(jìn)行比較發(fā)現(xiàn)，98.6%的SHAP基因與edgeR識別的基因重疊，只有34個SHAP基因未被edgeR識別為顯著基因。后續(xù)又將47類組織SHAP基因與edgeR識別的重疊基因分析，作者發(fā)現(xiàn)47類組織上調(diào)基因大于下調(diào)基因數(shù)量。

SHAP 方法識別出 4841 個顯著基因，edgeR 方法識別出 30,532 個顯著基因。SHAP 和edgeR 方法有3499 個共同基因（“SHAP 和edgeR”，紫色）。因此，30,532–3,499 = 27,033 個基因是edgeR 方法特有的（“僅edgeR”，紅色），4841–3,499 = 1342 個基因是SHAP方法特有的（“僅SHAP”，藍(lán)色）。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

可解釋機器學(xué)習(xí)文章

可解釋機器學(xué)習(xí)文章

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

可解釋機器學(xué)習(xí)文章

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av