這篇3+分教你篩選拿出來幾個基因應該如何分析

????????今天和大家分享的是2020年發(fā)表在CancerCell Int(IF:3.439)上的一篇文章,“Constructionof a novel gene-based model for prognosis prediction of clear cell renal cellcarcinoma”。作者使用TCGA透明細胞腎細胞癌(ccRCC)數(shù)據(jù)集作為測試集,探索差異表達的基因,使用單變量Cox比例風險回歸,LASSO算法和BSR,通過多元cox系數(shù)乘以基因表達來計算風險評分,構建了5-預后基因的風險評分模型。聯(lián)合使用GEO的GSE29609數(shù)據(jù)集作為驗證集,驗證該風險評分模型。接著將該預后評分模型與臨床參數(shù)結合,構建諾模圖,通過tROC曲線對此評估。

Construction of a novel gene-based model for prognosis prediction of clear cell renal cellcarcinoma

基于新基因的透明細胞腎細胞癌預后預測模型的構建

https://space.bilibili.com/400148106

一、 研究背景

????????透明細胞腎細胞癌(ccRCC)是腎細胞癌最常見的亞型,發(fā)病率及死亡率均不樂觀。因此,一個可靠的預后預測工具可以幫助臨床做出更好的治療決定。作者通過構建一個基于多個預后相關基因結合臨床參數(shù)的模型,更直觀準確地預測患者的總生存期。

二、 分析流程

三、 結果解讀

1. 差異表達基因的鑒定

TCGA ccRCC(包括腫瘤和癌旁組)的mRNA譜的原始技術數(shù)據(jù)經(jīng)過標準化,通過Voom轉(zhuǎn)化進行分位數(shù)過濾,使用R的limma軟件包對差異表達基因(DEGs)進行分析。

2a:PCA分析,顯示腫瘤組織和癌旁組織的轉(zhuǎn)錄組水平存在顯著差異。同時TCGA KIRC數(shù)據(jù)集沒有批次效應。紅點代表正常簇,藍點代表腫瘤簇。

2b:與正常組織相比,ccRCC表達差異的火山圖??偣茶b定出399個DEGs,包括71個上調(diào)基因和328個下調(diào)基因。紅點代表顯著上調(diào)基因(p<0.05,logFC> 4),綠點表示顯著下調(diào)基因(logFC<-4,p <0.05)。

2c:ccRCC中排名前20位的DEGs的熱圖。

圖2:篩選DEGs的數(shù)據(jù)處理。

2. 預后相關的差異表達基因的篩選和驗證

作者對RNA測序的原始數(shù)據(jù)進行l(wèi)og2 TPM標準化處理,使用單變量Cox比例風險回歸分析獲得40個重疊候選基因。然后使用R的glmnet軟件包進行LASSO回歸,十折交叉驗證獲得最佳的λ值。通過最佳子集回歸(BSR)獲得最佳的5個預后基因模型:PADI1,ATP6V0D2,DPP6,C9orf135,PLG。

3a:作者對訓練集數(shù)據(jù)進行單因素Cox回歸分析。發(fā)現(xiàn)2408個(HR>1)的預后相關基因和4035個(HR<1)的預后相關基因,分別將這些預后相關基因與71個上調(diào)基因和328個下調(diào)基因取交集。獲得40個重疊候選基因(OCG):其中包括HR>1的9個DEGs和HR <1的31個DEGs。

3b和c:19651個蛋白質(zhì)編碼基因的LASSO系數(shù)圖(b),(c)十折交叉驗證的LASSO回歸,使用最小的部分似然偏差對應獲得最佳的λ值,與DEG中的14個與OS顯著相關的基因有關。

圖3a-c:ccRCC中5個重要預后基因的鑒定

4:以上述5個基因的表達量的中位數(shù)為分界,將訓練集樣本分為高表達組和低表達組,進行KM生存分析。

可見:PADI1的過表達,ATP6V0D2,DPP6,C9orf135和PLG的低表達與ccRCC患者的預后不良有關(p<0.05)

圖4:PADI1,ATP6V0D2,C9orf135,DPP6和PLG的KM生存分析圖

3. 表達譜,IHC和預后相關基因的遺傳改變

作者對這5個預后基因表達譜進行分析,在補充材料5中展示了這5個基因的表達水平與AJCC分期內(nèi)的各個組織病理學信息,淋巴結轉(zhuǎn)移,腫瘤分期相關性。補充材料3中展示了在cBioPortal數(shù)據(jù)庫(http:// cbiop ortal.org)中檢索的這五個基因的遺傳改變信息。

3e:腫瘤與正常腎臟組織之間的5個預后基因的表達譜:表明與正常組織相比,ccRCC中PADI1顯著上調(diào),而ATP6V0D2,DPP6,C9orf135和PLG顯著下調(diào)。(p<0.001)

3f:腫瘤和正常腎臟組織中五個基因的IHC圖像,圖像是從人蛋白質(zhì)圖譜在線數(shù)據(jù)庫(http://www.prote inatl as.org)中檢索而來的。DPP6蛋白的表達沒有發(fā)現(xiàn)差異。

圖3d-f:ccRCC中5個重要預后基因的表達數(shù)據(jù)

4. 5-基因預后模型的建立和評估

通過多元Cox比例風險回歸模型得到5個最佳預后基因的回歸系數(shù),采用線性組合的方式將各個基因的表達水平和系數(shù)進行組合,得到風險評分公式:風險評分risk score = 0.09862331 * Exp(PADI1)?0. 09526638 * Exp(ATP6V0D2)? 0.11493839*Exp(DPP6)?0.06144184 * Exp(C9orf135) ?0.11164739*Exp(PLG)。

3d:對5個預后基因進行多變量Cox比例風險回歸分析,以確定每個基因?qū)τ赾cRCC患者是否可以顯示出顯著的預后價值。

5a:風險評分曲線:計算每位患者的風險評分,使用R軟件包“survminer” 獲得中位數(shù),并根據(jù)此將患者分為高風險組(n = 176)和低風險組(n = 177)。

5b:展示了訓練集中患者的生存狀況:可以看到生存死亡人數(shù)越多,對應a圖中的風險評分就更高。

5c:展示了低風險和高風險組中五個預后基因表達譜的熱圖:發(fā)現(xiàn)高風險組的基因表達情況:PADI1高表達,而ATP6V0D2,DPP6,C9orf135和PLG低表達。

5d:根據(jù)風險評分高低分組繪制的KM生存曲線:與低風險評分組相比,高風險評分組的OS較差。

5e:tROC曲線:使用R軟件包“ survivalROC”繪制tROC曲線。(跟補充文件7中的S4比較),將5個基因聯(lián)合起來一起判斷預后在1,3,5年中的AUC值比單基因的更大,模型預測的精確程度更高。

圖5:訓練集中的5-基因預后模型的分析

6:作者對AJCC分期,等級,性別,年齡,偏側(cè)性和復發(fā)患者進行了風險分層,并進行了KM生存分析。

圖6:不同分組的5-基因風險評分模型的KM生存分析曲線

5. 5-基因預后模型的內(nèi)部驗證和外部驗證

作者使用測試集(n = 151)的樣本和從TCGA下載的全部樣本(n = 504),加上 GSE29609 的數(shù)據(jù)(n = 39)進行驗證。使用上述的5-基因的系數(shù)進行風險評分的計算,按照中位數(shù)分組。在ccRCC的患者中,這個5基因預后的模型在預測患者的OS表現(xiàn)很好。

7a-c:分別對應內(nèi)部驗證,全集,外部驗證的KM生存曲線,提示跟在訓練集中的結論一樣,高風險組的預后比低風險組的預后更差。

7d-f:分別對應內(nèi)部驗證,全集,外部驗證的時間依賴的ROC曲線。

圖7:5-基因預后模型的驗證。

6. 基于基因的諾模圖模型的建立和驗證

作者通過單變量和多變量Cox比例風險回歸分析篩選了所有的獨立預后參數(shù),構建了復合諾模圖。通過tROC曲線對其預測效率進行了驗證。

8a:ccRCC中單變量Cox回歸分析的森林圖。8b:ccRCC中多元Cox回歸分析的森林圖。發(fā)現(xiàn)包含其他臨床參數(shù)(如AJCC分期,年齡和復發(fā)狀況)的5-基因預后模型可能是訓練集中影響OS的獨立預后變量。

8c:整合了基于5-基因的風險評分,AJCC分期,年齡和復發(fā)率的諾模圖 。以預測ccRCC患者的1,3,5年OS。

圖8:確定獨立的預后參數(shù)并建立基于基因的預后模型

9a:在訓練集中使用諾模圖模型,預測結果顯示與實際結果有良好的一致性。

9b-d:對訓練集的測試,展示了諾模圖模型,5-基因預后風險評分模型,AJCC分期的tROC曲線。結論表明基于基因的諾模圖模型可能是預測OS的最佳手段。

9e,i:使用內(nèi)部驗證集和總集來測試基于基因的諾模圖模型的預測值。

9f-h,j-l:表明無論在哪一組中,基于基因的諾模圖模型都比AJCC分期以及5-基因風險評分模型具有更好的預測效果。

圖9:基于基因的諾模圖在預測生存概率中的表現(xiàn),以及與5-基因風險評分模型、AJCC分期的預測能力的比較

7. 鑒定DEGs和5個預后基因的生物學通路

作者使用GO和KEGG富集分析來鑒別399個DEGs。條形的顏色越深,表示有更多的基因在此富集。

10a:GO生物學分析表明,DEGs富含單價無機陽離子跨膜轉(zhuǎn)運蛋白活性,基底外側(cè)質(zhì)膜,膜的錨定成分以及細胞對生長因子刺激的反應等。

10b:在KEGG通路分析中,確定了DEGs的PPAR信號通路,黑素瘤,細胞粘附分子(CAM)和其他生物通路。

圖10:399個DEGs的功能富集分析

11:進行了GSEA分析,鑒定5個預后有關基因的潛在生物學過程。結果表明:

ATP6V0D2,DPP6和PADI1過表達的樣本分別富集溶酶體,黏附連接和糖胺聚糖生物合成-硫酸軟骨素。

C9orf135和PLG低表達的樣本分別富集PPAR信號通路和p53信號通路。

圖11:與5個預后基因表達有關的GSEA分析

小結

在研究中,作者從可公開獲得的數(shù)據(jù)中確定了五種新的預后DEGs,并使用生物信息學方法構建了基于這5個基因的預后諾模圖模型,其中包含其他的臨床預后參數(shù),以預測ccRCC患者1年,3年和5年OS。其預測能力優(yōu)于傳統(tǒng)的AJCC分期。這五個基因可能是ccRCC中潛在的生物標志物,基于基因的諾模圖模型可能會在臨床實踐中用于預測個體存活率并促進ccRCC患者個體治療方案的選擇。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

友情鏈接更多精彩內(nèi)容