
m6A調(diào)控因子具有三類(lèi):writer/eraser/reader,分別對(duì)應(yīng)甲基轉(zhuǎn)移酶/去甲基化酶/m6A位點(diǎn)結(jié)合蛋白,發(fā)揮對(duì)靶基因的mRNA的穩(wěn)定性、降解、翻譯效率的調(diào)控作用。

免疫微環(huán)境參與了胰腺癌的發(fā)病和進(jìn)展,而m6A調(diào)控因子與PAAD免疫微環(huán)境的關(guān)聯(lián)尚不得知。本文通過(guò)16種m6A調(diào)控因子的表達(dá)模式和免疫浸潤(rùn)構(gòu)建了一個(gè)風(fēng)險(xiǎn)評(píng)分模型。
(1)證明腫瘤中m6A調(diào)控因子廣泛改變。作者首先從TCGA和GTEx中下載了31種腫瘤數(shù)據(jù)、Oncomine數(shù)據(jù)庫(kù)中21種腫瘤數(shù)據(jù)、CCLE數(shù)據(jù)庫(kù)的23中細(xì)胞系數(shù)據(jù),研究m6A調(diào)控因子的表達(dá)量改變。通過(guò)泛癌分析表明m6A 調(diào)控因子在癌組織和正常組織之間存在差異。
(2)針對(duì)胰腺癌RNA-seq進(jìn)行分析。通過(guò)對(duì)TCGA-PAAD、GSE28735、GSE57495、GSE62452、MTAB-6134、ICGC-AU 和 ICGC-CA 數(shù)據(jù)集分析,發(fā)現(xiàn)胰腺癌中大多數(shù)m6A調(diào)控因子表達(dá)失調(diào)(METTL3↑,METTL16↓,ALKBH5↓,IGF2BP2↑,IGF2BP3↑,YTHDF1↑),且多數(shù)與生存相關(guān)。
(3)根據(jù)16個(gè)m6A調(diào)控因子的表達(dá)水平,對(duì)病人進(jìn)行一致性聚類(lèi),確定了兩組亞型的病人(組1和組2),組2病人生存好。所以認(rèn)為,根據(jù)這16個(gè)m6A調(diào)控因子的表達(dá)量可以建立具有臨床預(yù)測(cè)價(jià)值的模型。

(4)胰腺癌患者中只有極少部分會(huì)從免疫治療中獲益,m6A調(diào)控因子模型能不能預(yù)測(cè)患者對(duì)免疫治療反應(yīng)?在免疫細(xì)胞浸潤(rùn)層面,在用ssGSEA和反卷積評(píng)估免疫浸潤(rùn)后,發(fā)現(xiàn)生存更好的組2病人具有更高的免疫浸潤(rùn)。且?guī)缀跛衜6A調(diào)控因子和免疫細(xì)胞浸潤(rùn)水平顯著相關(guān)。

(5)用ESTIMATE評(píng)價(jià)腫瘤純度,發(fā)現(xiàn)生存更好的組2病人具有更高的免疫得分。免疫檢查點(diǎn)相關(guān)基因和免疫活性相關(guān)基因都在組2中高表達(dá)。大部分m6A調(diào)控因子表達(dá)水平和免疫相關(guān)基因表達(dá)水平顯著相關(guān)。由此認(rèn)為m16A和免疫治療效果有關(guān)。用TIDE評(píng)價(jià)腫瘤逃避免疫。較高的TIDE評(píng)分意味著較高的免疫監(jiān)視逃逸可能性,免疫治療成功率更低。組2病人TIDE分?jǐn)?shù)較低,進(jìn)一步證明m6A調(diào)控因子和免疫療效有關(guān)。
(7)構(gòu)建風(fēng)險(xiǎn)評(píng)分模型。運(yùn)用cox線性回歸+lasso計(jì)算樣本生存、分組和m6A調(diào)控因子表達(dá)量之間關(guān)系,篩選出6個(gè)m6A調(diào)控因子METTL16、WTAP、IGF2BP2、IGF2BP3、YTHDC2 和YTHDF2。利用lasso計(jì)算得到的系數(shù),用表達(dá)量計(jì)算風(fēng)險(xiǎn)評(píng)分,構(gòu)建了評(píng)價(jià)模型。
(8)對(duì)模型效果進(jìn)行校驗(yàn)。分析了風(fēng)險(xiǎn)評(píng)分和免疫相關(guān)指標(biāo)的關(guān)聯(lián),發(fā)現(xiàn)免疫細(xì)胞在低風(fēng)險(xiǎn)者中高度富集,風(fēng)險(xiǎn)評(píng)分與大多數(shù)免疫相關(guān)基因表達(dá)和免疫細(xì)胞浸潤(rùn)水平呈負(fù)相關(guān)。由此,文章構(gòu)建了一個(gè)可以預(yù)測(cè)患者預(yù)后和免疫療效的模型。

一個(gè)m6A調(diào)控因子靶基因的數(shù)據(jù)庫(kù)。http://m6a2target.canceromics.org/?
預(yù)測(cè)靶基因:從wild type和mutant m6A調(diào)控因子的RNA-seq中進(jìn)行差異分析(DESeq2),差異表達(dá)的基因認(rèn)為是潛在的靶基因。


From a machine learning perspective, the challenge arises from the fact that rare-cell subpopulations constitute an imbalanced classification problem.?We here introduce a Machine Learning (ML)-based oversampling method that uses gene expression counts of already identified rare cells as an input to generate synthetic cells to then identify similar (rare) cells in other publicly available experiments. We utilize single-cell synthetic oversampling (sc-SynO), which is based on the Localized Random Affine Shadowsampling (LoRAS) algorithm. The algorithm corrects for the overall imbalance ratio of the minority and majority class.
對(duì)單細(xì)胞數(shù)據(jù)分析稀有細(xì)胞亞群會(huì)面臨類(lèi)不平衡問(wèn)題,即某些類(lèi)別的樣本數(shù)量極多,而某些類(lèi)別樣本數(shù)量極少,機(jī)器學(xué)習(xí)會(huì)因?yàn)榛趩未斡?xùn)練錯(cuò)誤率最低的目標(biāo),無(wú)法學(xué)習(xí)到這些少數(shù)類(lèi)的特征。通常解決方法有調(diào)整樣本比例、對(duì)少數(shù)類(lèi)過(guò)采樣和對(duì)多數(shù)類(lèi)欠采樣。

本文作者利用過(guò)采樣方法來(lái)平衡少數(shù)類(lèi)對(duì)多數(shù)類(lèi)的特征。用先前研究注釋出的稀有細(xì)胞的表達(dá)矩陣作為參考,運(yùn)用算法生成其合成細(xì)胞,然后在新數(shù)據(jù)集中和稀有細(xì)胞進(jìn)行降維和聚類(lèi),從而達(dá)到新數(shù)據(jù)注釋稀有細(xì)胞的目的。
LoRAS算法:對(duì)參考細(xì)胞各自計(jì)算其k近鄰(利用正態(tài)分布形成偽數(shù)據(jù)點(diǎn)),最后這些偽數(shù)據(jù)點(diǎn)合成為一個(gè)偽類(lèi)。

GO語(yǔ)言實(shí)現(xiàn)的SAM、BAM文件的SQL查詢語(yǔ)句接口 https://github.com/maragkakislab/samql/
查詢語(yǔ)句編碼抽象語(yǔ)法樹(shù),遞歸執(zhí)行。
相比samtools優(yōu)點(diǎn):
1. 語(yǔ)法友好

2. 錯(cuò)誤反饋信息提供具體行數(shù)

3. 執(zhí)行效率提升


多形性膠質(zhì)母細(xì)胞瘤 (GBM) 是高級(jí)別膠質(zhì)瘤的一種,具有高度的侵襲性和轉(zhuǎn)移性,目前以手術(shù)切除+放化療為主治療,但是由于GBM干細(xì)胞(GSCs)對(duì)放療耐受,術(shù)后極易復(fù)發(fā),中位生存期僅為14.6月。
本文作者整合了多組學(xué)數(shù)據(jù),識(shí)別甲基化增強(qiáng)子區(qū)域,發(fā)現(xiàn)GBM 樣本中增強(qiáng)子普遍出現(xiàn)低甲基化,異常甲基化增強(qiáng)子區(qū)域可能參與了GBM的發(fā)生和侵襲。
(1)公共數(shù)據(jù)搜集增強(qiáng)子區(qū)域的甲基化探針,一般典型的增強(qiáng)子1000bp,所以取每個(gè)CpG島上下游500bp,如果有重疊就合并。
(2)排除異常甲基化啟動(dòng)子影響。將基因轉(zhuǎn)錄起始區(qū)上游2kb作為啟動(dòng)子區(qū)域,根據(jù)啟動(dòng)子區(qū)甲基化探針,刪除啟動(dòng)子區(qū)域的增強(qiáng)子探針和定位到一個(gè)以上基因的探針。
(3)獲得到的多個(gè)增強(qiáng)子區(qū)域,計(jì)算探針平均值,作為增強(qiáng)子的甲基化水平。
(4)腫瘤 vs. 正常樣本,差異分析(limma)。鑒定到差異異常甲基化增強(qiáng)子。
(5)結(jié)合多組學(xué)數(shù)據(jù),構(gòu)建甲基化增強(qiáng)子介導(dǎo)的靶基因調(diào)控網(wǎng)絡(luò) (EMTRN)(甲基化增強(qiáng)子水平、lncRNA,mRNA),根據(jù)甲基化增強(qiáng)子水平,構(gòu)建高甲基化和低甲基化網(wǎng)絡(luò)(作為一個(gè)模塊),從而鑒定了甲基化增強(qiáng)子的調(diào)控的靶基因。(GO, KEGG)
(6)基于D-lnc(藥物對(duì)lncRNA表達(dá)修飾的平臺(tái),http://www.jianglab.cn/D-lnc/),利用低甲基化網(wǎng)絡(luò)中靶l(wèi)ncRNA構(gòu)建lncRNA-藥物關(guān)系網(wǎng)絡(luò),預(yù)測(cè)出一些可能有效的小分子藥物。



圖形化RNA-seq分析工具,支持動(dòng)態(tài)生成R腳本。https://github.com/Searchlight2/Searchlight2
支持到差異分析、注釋。主要是可視化作圖,支持自定義修改作圖腳本。

深度學(xué)習(xí)可以基于基因表達(dá)譜進(jìn)行表型預(yù)測(cè),但是得到的結(jié)果較難解釋。本文通過(guò)將基因本體(GO)集成到神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)中,構(gòu)建了一個(gè)自我解釋的深度學(xué)習(xí)模型,稱為 Deep GONet。
輸入:患者的基因表達(dá)譜,輸出:對(duì)該患者表型的預(yù)測(cè)
GO的結(jié)構(gòu)是一個(gè)有向無(wú)環(huán)圖 (DAG),19個(gè)level,GO term按照分層自下而上的方向連接。層次越低GO term所代表的功能就更具體。

構(gòu)建這樣一個(gè)神經(jīng)網(wǎng)絡(luò)。隱藏層內(nèi)每個(gè)level的GO term作為一層神經(jīng)元,每個(gè)GO term作為一個(gè)神經(jīng)元。


a神經(jīng)元的激活表示為接受上一層(l-1)所有神經(jīng)元x權(quán)重傳遞的信號(hào),ReLU作為激活函數(shù)f(即max(0, x))
輸出層接收隱藏層的最低級(jí)GO term,根據(jù)信號(hào)得分計(jì)算屬于某個(gè)類(lèi)的概率。