分享一個鑒定同源lncRNA基因的方法

文章鏈接為:《Computational prediction and experimental
validation identify functionally conserved
lncRNAs from zebrafish to human》

Github:https://github.com/huangwenze/lncHOME_analysis/tree/main

1. 從轉(zhuǎn)錄本數(shù)據(jù)鑒定出lncRNA的注釋

對于小鼠和人的數(shù)據(jù), human:(GENCODE v25) 和 mouse:(GENCODE vM10)。剩下的6個脊椎動物 cow, opossum, chicken, lizard, frog and zebrafish 則是在NCBI上下載轉(zhuǎn)錄組序列,進行轉(zhuǎn)錄本組裝,鑒定lncRNA,鑒定的步驟為:

  1. 利用 FastQC 生成質(zhì)量報告。
  2. 利用 Trimmomatic 過濾低質(zhì)量的reads
  3. 利用STAR 的 TwoPass Mode (參數(shù)為 --sjdbFileChrStartEnd)將reads進行mapping并生成 bam 文件
  4. 利用 StringTie 進行轉(zhuǎn)錄本組裝,用 Cufflink 進行注釋文件的 merge
  5. 選擇 length (≥200 nt), expression level (FPKM?>?0.5) and protein-coding potential (CPAT v3.0.0 (ref. 32), CPAT score >0.5)length (≥200 nt), expression level (FPKM?>?0.5) and protein-coding potential (CPAT v3.0.0, CPAT score >0.5) 的基因定義為 lncRNA

最后,作者從Ensembl, NCBI, NONCODE, DeepBase and the Ulitsky laboratory 這幾個數(shù)據(jù)庫中下載對應(yīng)物種的lncRNA注釋,然后和上面鑒定出來的lncRNA注釋merge到一起,組成 final lncRNA 的注釋

2. 選擇序列相似性高的lncRNA序列對

對于兩個序列的protein-coding 和 lncRNA 序列,作者利用序列相似性來初步判斷它們是否同源(BLAST v2.12.0 bl2seq ,E value?<?10?4, hit length >50?nt,overall sequence identity >50%)

并且定義兩個物種基因數(shù)量保守的相似性為:


其中:x 為物種 1 中 protein-coding (或者 lncRNA)genes的數(shù)量;y為物種 2 中 protein-coding (或者 lncRNA)genes的數(shù)量;n 代表兩個物種共有的 protein-coding (或者 lncRNA)genes的數(shù)量

3. 由protein-coding gene 的同源性預(yù)測 lncRNA基因的同源性

作者從 OrthoDB 中下載對應(yīng)物種的protein-coding gene的信息,并且以某個基因為原點,向上下游各拓展到 1Mbp,在這 1Mbp 的范圍內(nèi)(不包括基因)利用雙序列比對的方法尋找 Genomic anchors

這個 Genomic anchors 的計算方式是通過ucsc的chain file來實現(xiàn)的,具體兩個物種或者兩個版本的基因組的chain file的解釋參見:https://www.zxzyl.com/archives/838/

個人感覺

Genomic anchors代表的是ungapped的區(qū)域

如何生成 chain 文件?可以參考:

  1. 使用liftover創(chuàng)建注釋Chain文件(基因組坐標(biāo)轉(zhuǎn)換)
  2. 使用transanno制作不同基因組版本坐標(biāo)映射的chain 文件?

理解 Genomic anchors 后,作者在某基因1Mbp的范圍內(nèi)劃分upstream和downstream


如上圖所示:

  1. 設(shè) mu1 代表物種1在upstream區(qū)域內(nèi)對應(yīng)點的個數(shù)
  2. 設(shè) mu2 代表物種2在upstream區(qū)域內(nèi)對應(yīng)點的個數(shù)
  3. 設(shè) mu 代表物種2在upstream區(qū)域內(nèi)Genomic anchors的個數(shù)(連線的點)
  4. 設(shè) md1 代表物種1在downstream區(qū)域內(nèi)對應(yīng)點的個數(shù)
  5. 設(shè) md2 代表物種2在downstream區(qū)域內(nèi)對應(yīng)點的個數(shù)
  6. 設(shè) md 代表物種2在downstream區(qū)域內(nèi)Genomic anchors的個數(shù)(連線的點)
  7. 設(shè) mf1 代表物種1在upstream+downstream區(qū)域內(nèi)對應(yīng)點的個數(shù)
  8. 設(shè) mf2 代表物種2在upstream+downstream區(qū)域內(nèi)對應(yīng)點的個數(shù)
  9. 設(shè) mf 代表物種2在upstream+downstream區(qū)域內(nèi)Genomic anchors的個數(shù)(連線的點)

對于upstream和downstream的區(qū)域如上圖b所示,定義proportion score mu為:


proportion score mu 和 proportion score mf 的定義類似
因此,作者利用 OrthoDB protein-coding的同源基因,按照上述圖b方法,計算mu1,mu2,md1,md2,mf1,mf2,proportion score mu,proportion score md,proportion score mf 這幾個特征。
正負(fù)樣本區(qū)分如下:



利用隨機森林訓(xùn)練模型,然后用鑒定出來的lncRNA去進行預(yù)測,判斷l(xiāng)ncRNA基因?qū)κ欠裢?/p>

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容