1. 從轉(zhuǎn)錄本數(shù)據(jù)鑒定出lncRNA的注釋

對于小鼠和人的數(shù)據(jù)， human：(GENCODE v25) 和 mouse：(GENCODE vM10)。剩下的6個脊椎動物 cow, opossum, chicken, lizard, frog and zebrafish 則是在NCBI上下載轉(zhuǎn)錄組序列，進行轉(zhuǎn)錄本組裝，鑒定lncRNA，鑒定的步驟為：

利用 FastQC 生成質(zhì)量報告。

利用 Trimmomatic 過濾低質(zhì)量的reads

利用STAR 的 TwoPass Mode （參數(shù)為 --sjdbFileChrStartEnd）將reads進行mapping并生成 bam 文件

利用 StringTie 進行轉(zhuǎn)錄本組裝，用 Cufflink 進行注釋文件的 merge

選擇 length (≥200 nt), expression level (FPKM?>?0.5) and protein-coding potential (CPAT v3.0.0 (ref. 32), CPAT score >0.5)length (≥200 nt), expression level (FPKM?>?0.5) and protein-coding potential (CPAT v3.0.0, CPAT score >0.5) 的基因定義為 lncRNA

最后，作者從Ensembl, NCBI, NONCODE, DeepBase and the Ulitsky laboratory 這幾個數(shù)據(jù)庫中下載對應(yīng)物種的lncRNA注釋，然后和上面鑒定出來的lncRNA注釋merge到一起，組成 final lncRNA 的注釋

2. 選擇序列相似性高的lncRNA序列對

對于兩個序列的protein-coding 和 lncRNA 序列，作者利用序列相似性來初步判斷它們是否同源（BLAST v2.12.0 bl2seq ，E value?<?10?4, hit length >50?nt，overall sequence identity >50%)

并且定義兩個物種基因數(shù)量保守的相似性為：

其中：x 為物種 1 中 protein-coding （或者 lncRNA）genes的數(shù)量；y為物種 2 中 protein-coding （或者 lncRNA）genes的數(shù)量；n 代表兩個物種共有的 protein-coding （或者 lncRNA）genes的數(shù)量

3. 由protein-coding gene 的同源性預(yù)測 lncRNA基因的同源性

作者從 OrthoDB 中下載對應(yīng)物種的protein-coding gene的信息，并且以某個基因為原點，向上下游各拓展到 1Mbp，在這 1Mbp 的范圍內(nèi)（不包括基因）利用雙序列比對的方法尋找 Genomic anchors

這個 Genomic anchors 的計算方式是通過ucsc的chain file來實現(xiàn)的，具體兩個物種或者兩個版本的基因組的chain file的解釋參見：https://www.zxzyl.com/archives/838/

個人感覺

Genomic anchors代表的是ungapped的區(qū)域

如何生成 chain 文件？可以參考：

理解 Genomic anchors 后，作者在某基因1Mbp的范圍內(nèi)劃分upstream和downstream

如上圖所示：

設(shè) mu1 代表物種1在upstream區(qū)域內(nèi)對應(yīng)點的個數(shù)

設(shè) mu2 代表物種2在upstream區(qū)域內(nèi)對應(yīng)點的個數(shù)

設(shè) mu 代表物種2在upstream區(qū)域內(nèi)Genomic anchors的個數(shù)（連線的點）

設(shè) md1 代表物種1在downstream區(qū)域內(nèi)對應(yīng)點的個數(shù)

設(shè) md2 代表物種2在downstream區(qū)域內(nèi)對應(yīng)點的個數(shù)

設(shè) md 代表物種2在downstream區(qū)域內(nèi)Genomic anchors的個數(shù)（連線的點）

設(shè) mf1 代表物種1在upstream+downstream區(qū)域內(nèi)對應(yīng)點的個數(shù)

設(shè) mf2 代表物種2在upstream+downstream區(qū)域內(nèi)對應(yīng)點的個數(shù)

設(shè) mf 代表物種2在upstream+downstream區(qū)域內(nèi)Genomic anchors的個數(shù)（連線的點）

對于upstream和downstream的區(qū)域如上圖b所示，定義proportion score mu為：

proportion score mu 和 proportion score mf 的定義類似
因此，作者利用 OrthoDB protein-coding的同源基因，按照上述圖b方法，計算mu1，mu2，md1，md2，mf1，mf2，proportion score mu，proportion score md，proportion score mf 這幾個特征。
正負(fù)樣本區(qū)分如下：

利用隨機森林訓(xùn)練模型，然后用鑒定出來的lncRNA去進行預(yù)測，判斷l(xiāng)ncRNA基因?qū)κ欠裢?/p>

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

分享一個鑒定同源lncRNA基因的方法

分享一個鑒定同源lncRNA基因的方法

1. 從轉(zhuǎn)錄本數(shù)據(jù)鑒定出lncRNA的注釋

2. 選擇序列相似性高的lncRNA序列對

3. 由protein-coding gene 的同源性預(yù)測 lncRNA基因的同源性

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

分享一個鑒定同源lncRNA基因的方法

1. 從轉(zhuǎn)錄本數(shù)據(jù)鑒定出lncRNA的注釋

2. 選擇序列相似性高的lncRNA序列對

3. 由protein-coding gene 的同源性預(yù)測 lncRNA基因的同源性

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av