數(shù)據(jù)挖掘的非編碼RNA的“五分以上”文章,標(biāo)題:Identification of a RNA-Seq based prognostic signature with five lncRNAs for lung squamous cell carcinoma。

為了方便理解,小博簡單的為本文梳理了一個流程圖:

看了這個流程圖,是不是瞬間感覺自己也能做呢?那么下面咱們一起來解讀一下這篇文章的思路吧。
1、首先文章共分離出了7589個lncRNA,事實上TCGA上lncRNA的數(shù)量遠(yuǎn)不止于此。
2、使用R包DEseq來篩選具有差異表達(dá)的lncRNA,共得到4225個差異的lncRNA。事實上lncRNA豐度都比較低,使用該包未必是最優(yōu)的選擇。
來張美美的火山圖,展示一下:

3、對每一個差異的lncRNA做單因素生存分析,共篩選出41個有預(yù)后差異的lncRNA。這41個lncRNA在論文中不好展示,直接用表格作為補(bǔ)充材料提交。
4、對這41個lncRNA進(jìn)行多因素生存回歸分析,最終構(gòu)建出5個lncRNA的生存模型。

5、得到這五個lncRNA后,首先要展示這五個lncRNA的染色體位置,預(yù)后的顯著性等各方面信息,以便大家了解這五個lncRNA的基本情況。

6、接下來就要看看不同風(fēng)險分?jǐn)?shù)(PI)下,這五個lncRNA的表達(dá)和預(yù)后情況,為之后的樣本分類做好準(zhǔn)備。

這個圖顯示了五個lncRNA構(gòu)建的預(yù)后模型中不同樣本的風(fēng)險得分以及表達(dá)水平上的對應(yīng)關(guān)系。從圖中可以看出隨著風(fēng)險得分的增高,樣本的死亡時間有所加快(圖B);且前兩個lncRNA的表達(dá)有下降趨勢,后三個的表達(dá)呈現(xiàn)上升趨勢。
這就說明三個問題:
①風(fēng)險得分越高,預(yù)后越差
②前兩個lncRNA表達(dá)越低,預(yù)后越差
③后三個lncRNA表達(dá)越高,預(yù)后越差
那么這個圖是怎么做出來的呢?其實很簡單,三個圖橫軸都是樣本,按照風(fēng)險得分進(jìn)行排序,第一個就是散點(diǎn)圖,第二個也是(將死亡的標(biāo)記成紅色),第三個是熱圖,三個圖組合一下就完事,實在不行一個一個畫,畫完之后用AI拼一下就行了。
7、通過對比這五個lncRNA的預(yù)后模型與現(xiàn)有的病理學(xué)分類的區(qū)別,最終發(fā)現(xiàn)這個模型比現(xiàn)有的要好一些(這就是這篇文章的全部意義。。。)。

8、既然模型公式有了,那么選擇一個好用的閾值來進(jìn)行分類就顯得至關(guān)重要了。這里使用ROC來評判模型的好壞,以及選擇一個最優(yōu)的閾值(A圖中對應(yīng)y軸-x軸最大那個點(diǎn))。

9、找到最優(yōu)的閾值之后,對樣本進(jìn)行分類,然后對比一下五個lncRNA的表達(dá)情況。圖一定要好看。

10、使用WGCNA構(gòu)建共表達(dá)網(wǎng)絡(luò)來看這五個基因的功能。小博猜這一步應(yīng)該是為了說明,如何找到這五個lncRNA中最關(guān)鍵的lncRNA-RP11-54H7.4。其實小博覺得如果跟基因表達(dá)一起構(gòu)建的話,可能更有利于說明這個lncRNA的功能。

11、通過其他數(shù)據(jù)集進(jìn)行驗證。作者不僅利用好多套GEO的來驗證預(yù)后,還結(jié)合該課題組之前的lncRNA數(shù)據(jù)來驗證差異表達(dá)。

這樣分析下來,是不是覺得5分也不是很難呢,趕快行動起來吧!
許多關(guān)注nambou1 W信公眾號的朋友都解決了自己在論文發(fā)表方面的困惑,順利的發(fā)表了論文,你不去關(guān)注一下?
公眾號回復(fù):scihub 獲取最新版SciHub下載工具 免費(fèi)下載科學(xué)文獻(xiàn)
歡迎關(guān)注官方公眾號,還有更多實用工具等你來拿
免費(fèi)求助熱線: 400-080-3779
??END??