Gene-Mutation-Based Algorithm for Prediction of Treatment Response in Colorectal Cancer Patients
基于基因突變的算法用于預(yù)測(cè)結(jié)直腸癌患者的治療反應(yīng)
發(fā)表期刊:Cancers (Basel)
發(fā)表日期:2022 Apr 18
DOI:? 10.3390/cancers14082045

一、背景
????????結(jié)直腸癌(CRC)是全球最流行的癌癥之一,也是癌癥相關(guān)死亡的主要原因,初次診斷的患者中約有20%患有轉(zhuǎn)移性CRC(mCRC)。病理評(píng)估的高變異性限制了它們的臨床準(zhǔn)確性,并造成了有針對(duì)性的治療決策和預(yù)測(cè)治療結(jié)果的錯(cuò)誤。重要的是要考慮到CRC的高度異質(zhì)性和復(fù)雜性,特別是mCRC的原發(fā)和轉(zhuǎn)移性病變,在多個(gè)致癌基因中存在功能增益突變,在多個(gè)腫瘤抑制因子中存在功能缺失,這些都參與了增殖、生存和侵襲。
????????基于機(jī)器學(xué)習(xí)(ML)的算法和通過(guò)使用CT或MR成像和切片上的組織形態(tài)學(xué)開(kāi)發(fā)的模型在臨床決策中變得有用。目前,基于ML的預(yù)測(cè)模型已經(jīng)成為預(yù)測(cè)CRC疾病轉(zhuǎn)移和治療反應(yīng)的有力工具。新技術(shù)的快速發(fā)展使我們能夠從每個(gè)病人的原發(fā)腫瘤中獲得大量的基因組、表觀基因組和影像學(xué)數(shù)據(jù),基于人工智能的ML工具不僅對(duì)數(shù)據(jù)處理而且對(duì)癌癥的早期檢測(cè)和預(yù)后也特別有用。
二、材料與方法
1.數(shù)據(jù)來(lái)源
1) 結(jié)直腸癌MSK隊(duì)列:從cBioportal獲得了471名在紀(jì)念斯隆凱特琳醫(yī)院治療的不可切除的結(jié)直腸癌(CRC)患者的數(shù)據(jù)
2) TCGA Firehose Legacy的結(jié)直腸癌隊(duì)列:在隨訪的221名患者中,共有191名有基因突變和治療后癌癥進(jìn)展/復(fù)發(fā)的信息,組成了TCGA隊(duì)列
2.實(shí)驗(yàn)流程

三、實(shí)驗(yàn)結(jié)果
01、開(kāi)發(fā)7種基因的算法
????????由于RAS-RAF-MEK-ERK和PI3K/Akt/PTEN/mTOR途徑的基因突變以及TP53和APC主要參與CRC治療反應(yīng),作者想研究這些途徑的基因突變情況是否可用于預(yù)測(cè)治療反應(yīng)。治療后的疾病進(jìn)展是治療反應(yīng)的一個(gè)主要指標(biāo);因此,研究了是否可以建立一個(gè)基于基因突變的ML模型作為生物標(biāo)志物,在診斷場(chǎng)合對(duì)CRC患者的治療反應(yīng)進(jìn)行分層和預(yù)測(cè)。根據(jù)MSK隊(duì)列中447名患者的臨床數(shù)據(jù),將患者分為兩個(gè)亞組:(i)應(yīng)答組:患者在50個(gè)月內(nèi)一線化療后沒(méi)有疾病進(jìn)展;(ii)無(wú)應(yīng)答組:患者在50個(gè)月內(nèi)一線化療后出現(xiàn)疾病進(jìn)展。然后利用隨機(jī)森林機(jī)器學(xué)習(xí)分類(lèi)篩選,測(cè)試候選基因的各種突變情況組合是否能夠區(qū)分應(yīng)答者和非應(yīng)答者。一種被稱(chēng)為7-基因算法的算法由七個(gè)基因的突變譜組成:KRAS、BRAF、ERBB2、MAP2K1、TSC2、TP53和APC,與所有其他基于基因突變的測(cè)試算法相比,使用邏輯回歸分析確定的分類(lèi)準(zhǔn)確率最高。7-基因算法的敏感性為83%,特異性為98%,區(qū)分應(yīng)答者和非應(yīng)答者的表現(xiàn)準(zhǔn)確性AUC為0.98(圖2A)。
????????作者比較了7-基因算法與臨床和病理風(fēng)險(xiǎn)指標(biāo)之間的表現(xiàn)準(zhǔn)確性,包括癌癥分期、輔助治療、原發(fā)腫瘤的手術(shù)和MSI。Logistic回歸分析顯示,癌癥分期對(duì)區(qū)分應(yīng)答者和非應(yīng)答者的效用AUC值為0.5(圖2B)。輔助治療的敏感性為0%,AUC為0.41;原發(fā)腫瘤手術(shù)的敏感性為0%,AUC為0.41;MSI的敏感性為0%,AUC為0.34(圖2C-E)。當(dāng)7-基因算法與所有這些參數(shù)結(jié)合在一起時(shí),癌癥分期、輔助治療、原發(fā)腫瘤手術(shù)和MSI,其敏感性和AUC值仍與單獨(dú)的7-基因算法相似(圖2F)。這些數(shù)據(jù)表明,7-基因進(jìn)展算法作為區(qū)分一線化療應(yīng)答和無(wú)應(yīng)答的分類(lèi)器具有統(tǒng)計(jì)學(xué)意義;但是,當(dāng)使用臨床和病理指標(biāo),包括癌癥分期、輔助治療、原發(fā)腫瘤的手術(shù)和MSI作為分類(lèi)器對(duì)患者進(jìn)行分層時(shí),沒(méi)有統(tǒng)計(jì)學(xué)意義。

02、評(píng)估7-基因算法用于預(yù)測(cè)MSK隊(duì)列治療后的無(wú)進(jìn)展生存期
????????為了評(píng)估7-基因算法是否可以作為生物標(biāo)志物來(lái)預(yù)測(cè)MSK隊(duì)列的無(wú)進(jìn)展生存期(PFS),作者進(jìn)行了對(duì)數(shù)秩分析。K-M圖顯示,根據(jù)7基因算法評(píng)分分層的亞組之間的PFS存在統(tǒng)計(jì)學(xué)上的顯著差異。診斷時(shí)原發(fā)腫瘤的7基因算法評(píng)分高的患者與得分低的患者相比,PFS明顯較差(圖3A)。
????????接下來(lái),研究了臨床和病理指標(biāo),包括癌癥分期(I/II期與III/IV期)和輔助治療(治療與不治療),原發(fā)腫瘤的手術(shù)(手術(shù)與不手術(shù)),以及MSI類(lèi)型(穩(wěn)定與不穩(wěn)定),是否可以用來(lái)預(yù)測(cè)MSK隊(duì)列的PFS。K-M圖與log-rank分析顯示,根據(jù)癌癥分期、治療方法和MSI類(lèi)型的狀況分層的亞組之間的PFS沒(méi)有統(tǒng)計(jì)學(xué)上的顯著差異(圖3B,C,E),而根據(jù)原發(fā)腫瘤的手術(shù)狀態(tài)分層的亞組之間有小的但有統(tǒng)計(jì)學(xué)意義的差異(圖3D)。

????????作為與該算法的比較,作者研究了7-基因算法中每個(gè)單獨(dú)基因的突變狀態(tài)是否可用來(lái)預(yù)測(cè)PFS。進(jìn)行了K-M分析,比較診斷時(shí)確定的原發(fā)腫瘤中每個(gè)基因有突變型和野生型的患者的PFS。根據(jù)每個(gè)基因突變狀態(tài)分層的突變組和WT組之間的PFS沒(méi)有統(tǒng)計(jì)學(xué)上的顯著差異。同時(shí),原發(fā)腫瘤中BRAF或APC突變的患者與這些單個(gè)基因?yàn)閃T的患者之間存在著統(tǒng)計(jì)學(xué)上的顯著差異。這些數(shù)據(jù)表明,與MSK隊(duì)列中的每個(gè)單獨(dú)基因相比,7-基因算法可能被用作預(yù)測(cè)無(wú)進(jìn)展生存期(PFS)的生物標(biāo)志物,具有更好的精確性。
????????作者進(jìn)一步進(jìn)行了點(diǎn)陣圖分析,以說(shuō)明7-基因算法的分類(lèi)分?jǐn)?shù)在MSK隊(duì)列中治療應(yīng)答和無(wú)應(yīng)答病人之間的分布。該圖顯示兩組患者之間的7-基因算法得分有統(tǒng)計(jì)學(xué)上的顯著差異(圖4)。綜合來(lái)看,邏輯回歸分析、Kaplan-Meier圖和點(diǎn)陣圖的結(jié)果是一致的,表明7-基因算法作為預(yù)測(cè)治療反應(yīng)的生物標(biāo)志物的準(zhǔn)確表現(xiàn)。

03、7-基因進(jìn)展算法用于預(yù)測(cè)治療后的進(jìn)展情況
????????為了進(jìn)一步評(píng)估7-基因算法是否可以作為獨(dú)立的預(yù)測(cè)性生物標(biāo)志物來(lái)預(yù)測(cè)首次診斷時(shí)CRC的治療反應(yīng),作者根據(jù)MSK隊(duì)列的PFS進(jìn)行了單變量和多變量的Cox比例風(fēng)險(xiǎn)回歸分析。單變量分析顯示,7-基因算法對(duì)PFS的預(yù)測(cè)能力,如用風(fēng)險(xiǎn)比(HR)表示,為7.5;而癌癥分期的HR值為1.3,輔助治療的HR為1.1,手術(shù)的HR為0.8,MSI的HR為0.7。這些數(shù)據(jù)表明,與其他臨床和病理指標(biāo)相比,7-基因進(jìn)展算法的HR要高得多,在預(yù)測(cè)PFS方面具有統(tǒng)計(jì)學(xué)意義。為了進(jìn)一步證實(shí)7-基因算法對(duì)PFS的預(yù)測(cè)價(jià)值與臨床指標(biāo)的關(guān)系,進(jìn)行了多變量的Cox分析。7-基因算法作為一個(gè)獨(dú)立的生物標(biāo)志物預(yù)測(cè)PFS的HR為8.9,而癌癥分期的HR為1.1,輔助治療的HR為1.1,手術(shù)的HR為0.7,MSI的HR為0.6。這些結(jié)果表明,7-基因算法有很大的潛力作為PFS的預(yù)測(cè)性生物標(biāo)志物。

04、7-基因進(jìn)展算法用于預(yù)測(cè)治療后的進(jìn)展情況
????????為了驗(yàn)證7-基因算法對(duì)治療后進(jìn)展的預(yù)測(cè),作者使用了一個(gè)有119名患者的TCGA隊(duì)列(圖1)。在這個(gè)隊(duì)列中,119名患者中有30人對(duì)治療有反應(yīng),沒(méi)有進(jìn)展/復(fù)發(fā)。使用與MSK隊(duì)列相同的隨機(jī)森林機(jī)器學(xué)習(xí)算法,利用7個(gè)基因的突變情況,將每個(gè)患者分為無(wú)進(jìn)展的治療應(yīng)答或有進(jìn)展的治療無(wú)應(yīng)答。邏輯回歸分析顯示,7-基因算法在區(qū)分應(yīng)答和無(wú)應(yīng)答患者群體方面表現(xiàn)出很高的準(zhǔn)確性,敏感性為96%,特異性為77%,AUC為0.97(圖5A)。與在MSK隊(duì)列中觀察到的情況類(lèi)似,臨床和病理參數(shù),包括癌癥分期、新輔助治療、手術(shù)和MSI,在區(qū)分應(yīng)答者和非應(yīng)答者方面沒(méi)有表現(xiàn)出高的特異性和高的AUC值(圖5B,C)。通過(guò)使用7-基因算法與上述所有臨床指標(biāo)相結(jié)合,進(jìn)行邏輯回歸分析。數(shù)據(jù)顯示,在TCGA隊(duì)列中,7-基因算法與所有臨床指標(biāo)一起使用,在區(qū)分治療的應(yīng)答者和非應(yīng)答者方面的表現(xiàn)仍與單獨(dú)使用7-基因算法相似(圖5D)。

????????為了進(jìn)一步驗(yàn)證7-基因算法作為治療反應(yīng)預(yù)測(cè)性生物標(biāo)志物的性能,使用TCGA隊(duì)列進(jìn)行了K-M分析。與使用MSK隊(duì)列觀察到的情況類(lèi)似,診斷時(shí)原發(fā)腫瘤中7-基因算法得分高的患者與得分低的患者相比,其PFS明顯較差(圖6A)。作者研究了臨床和病理指標(biāo),包括癌癥分期(I/II期與III/IV期)和輔助治療(治療與不治療),是否可用于預(yù)測(cè)TCGA隊(duì)列的PFS。K-M圖與對(duì)數(shù)分析顯示,根據(jù)癌癥分期或治療方法的狀態(tài)分層的亞組之間的PFS沒(méi)有統(tǒng)計(jì)學(xué)上的顯著差異(圖6B,C)。

????????作為比較,在MSK和TCGA隊(duì)列中,也通過(guò)K-M圖評(píng)估了算法中七個(gè)基因的突變狀態(tài)對(duì)PFS的預(yù)測(cè)能力。在這個(gè)隊(duì)列中,KRAS、ERBB2、TSC2和TP53的突變對(duì)PFS沒(méi)有統(tǒng)計(jì)學(xué)意義,WT MAP2K1和MAP2K1突變患者的PFS有明顯差異。結(jié)果顯示,大多數(shù)單個(gè)基因突變沒(méi)有表現(xiàn)出統(tǒng)計(jì)學(xué)意義,無(wú)法對(duì)患者的PFS進(jìn)行分層。
????????為了進(jìn)一步驗(yàn)證7-基因算法作為T(mén)CGA隊(duì)列中治療反應(yīng)的預(yù)測(cè)性生物標(biāo)志物的性能,作者在TCGA驗(yàn)證隊(duì)列中進(jìn)行了單變量和多變量的Cox回歸分析。在單變量分析中,7-基因算法的HR所顯示的PFS的預(yù)測(cè)能力為16.9,而癌癥分期的HR為1.2,輔助治療的HR為3.0×10?7。在多變量分析中,調(diào)整了癌癥分期和輔助療法后,7-基因算法的HR值為16.9,這與單變量分析相似。癌癥分期和輔助治療的HR值在單變量分析中也相似。有趣的是,7-基因算法預(yù)測(cè)PFS的HR值在TCGA隊(duì)列中比在MSK隊(duì)列中高。與在MSK隊(duì)列中觀察到的情況類(lèi)似,TCGA隊(duì)列中的點(diǎn)陣圖顯示,治療應(yīng)答和無(wú)應(yīng)答的7-基因算法分類(lèi)得分有統(tǒng)計(jì)學(xué)上的顯著差異(圖7)。這進(jìn)一步顯示了7-基因算法區(qū)分進(jìn)展期和非進(jìn)展期患者的能力。TCGA隊(duì)列的所有評(píng)估結(jié)果與MSK隊(duì)列獲得的結(jié)果一致,證實(shí)了7-基因算法在預(yù)測(cè)治療后癌癥進(jìn)展方面的高準(zhǔn)確性。

05、預(yù)測(cè)mCRC患者治療反應(yīng)的7-基因算法的評(píng)估
????????在471名CRC患者中,有388名患者在MSK隊(duì)列中有轉(zhuǎn)移性疾病。在臨床實(shí)踐中,沒(méi)有預(yù)測(cè)性生物標(biāo)志物可用于預(yù)測(cè)mCRC患者的治療反應(yīng)。因此,作者想研究7-基因算法是否可用于預(yù)測(cè)這388名mCRC患者的反應(yīng)。進(jìn)行了K-M圖和對(duì)數(shù)排名分析,發(fā)現(xiàn)在mCRC隊(duì)列中,根據(jù)7-基因算法得分分層的亞組之間的PFS存在統(tǒng)計(jì)學(xué)上的顯著差異。在診斷時(shí)原發(fā)腫瘤中7-Gene Algorithm得分高的mCRC患者與得分低的患者相比PFS明顯較差(圖8A)。與在MSK隊(duì)列總?cè)丝谥杏^察到的情況類(lèi)似,通過(guò)使用病理指標(biāo)分層的亞組之間的PFS沒(méi)有統(tǒng)計(jì)學(xué)上的顯著差異,包括癌癥分期(I/II期與III/IV期)和輔助治療(治療與不治療)(圖8B,C)。同時(shí),按原發(fā)腫瘤使用手術(shù)(手術(shù)與不手術(shù))和MSI類(lèi)型(穩(wěn)定與不穩(wěn)定)分層的亞組之間的PFS差異很小,但有統(tǒng)計(jì)學(xué)意義(圖8D,E)。

????????為了進(jìn)一步評(píng)估7-基因算法是否可以作為一個(gè)獨(dú)立的預(yù)測(cè)性生物標(biāo)志物來(lái)預(yù)測(cè)mCRC患者在診斷場(chǎng)合的治療反應(yīng),作者通過(guò)使用單變量和多變量的Cox比例危險(xiǎn)回歸分析來(lái)評(píng)估7-基因算法作為mCRC患者PFS的獨(dú)立生物標(biāo)志物的預(yù)測(cè)價(jià)值。單變量分析顯示,7-基因算法對(duì)mCRC PFS的預(yù)測(cè)能力用HR表示為16.9。多變量分析顯示,7-基因算法對(duì)mCRC PFS的預(yù)測(cè)能力為17.6,與癌癥分期(I/II期與III/IV期)、輔助治療(治療與不治療)、原發(fā)腫瘤的手術(shù)(手術(shù)與不手術(shù))、MSI類(lèi)型有關(guān)。這些臨床指標(biāo)在單變量和多變量Cox分析中都沒(méi)有表現(xiàn)出作為mCRC患者PFS的預(yù)測(cè)性生物標(biāo)志物的統(tǒng)計(jì)學(xué)意義。有趣的是,7-基因算法預(yù)測(cè)mCRC患者PFS的預(yù)測(cè)HR值遠(yuǎn)遠(yuǎn)高于其在MSK隊(duì)列總?cè)巳褐械念A(yù)測(cè)HR值,這是用單變量和多變量分析確定的。7-基因算法可作為一種預(yù)測(cè)性生物標(biāo)志物,在首次診斷場(chǎng)合對(duì)mCRC患者進(jìn)行分層和預(yù)測(cè)治療反應(yīng)。
四、結(jié)論
????????作者建立并比較了7-基因算法與現(xiàn)有的臨床和組織病理學(xué)指標(biāo)來(lái)預(yù)測(cè)CRC的治療反應(yīng)。這種生物標(biāo)志物模型具有很大的優(yōu)勢(shì),可以在大型患者群中進(jìn)一步發(fā)展和驗(yàn)證。基于ML的算法的效用將對(duì)改善臨床實(shí)踐中的個(gè)性化醫(yī)療和降低CRC的死亡率有很大的好處。