FEELnc: LncRNA注釋工具

簡介

這是一款2017年發(fā)表在NAR上的注釋LncRNA的工具,FEELnc: a tool for long non-coding RNA annotation and its application to the dog transcriptome,該軟件基于隨機森林二分類器來對LncRNA與mRNA進行分類預測

模塊

FEELnc主要的工作模塊分為3個,分別是:1. FEELnc_filter.pl;2. FEELnc_codpot.pl;3. FEELnc_classifier.pl;

我們接下來就簡單介紹一下其工作原理和用法:

1. FEELnc_filter.pl

當我們做好轉錄本拼接以后
第一步(FEELnc_filter)包括過濾掉多余的,假陽性的轉錄本,或在某種意義上與參考注釋的外顯子重疊的轉錄本,尤其是Protein_coding外顯子,因為它們很可能對應于新的mRNA亞型

# Usage:
FEELnc_filter.pl -i infile.gtf -a annotation_mRNA.gtf > candidate_lncRNA.gtf
#利用你新注釋的GTF,與原來的mRNA的GTF注釋做比較,得到候選LncRNA的GTF

#如果你不想刪除與mRNA以外的其他轉錄本重疊的轉錄本(例如lincRNA,miRNA,假基因...),則強烈建議使用此選項。
FEELnc_filter.pl -i infile.gtf \
-a ref_annotation.GTF \
-b transcript_biotype=protein_coding \
> candidate_lncRNA.gtf

2. FEELnc_codpot.pl

這一步主要步驟(FEELnc_codpot)旨在計算CPS,即對候選的LncRNA的GTF文件中每個候選轉錄本計算編碼潛力得分(CPS,在[0-1]之間)

這一步也是核心關鍵的一步,F(xiàn)EELnc_codpot對LncRNA和mRNA的特征提取如下:
首先如果我們有很好的LncRNA的GTF文件,我們就可以直接利用上一步經過過濾的 candidate_lncRNA.gtf 進行預測

FEELnc_codpot.pl -i candidate_lncRNA.gtf -a known_mRNA.gtf -l known_lncRNA.gtf

#其中
- known_mRNA.gtf (or .fa)   : a set of known protein_coding transcripts
- known_lncRNA.gtf  (or .fa): a set of known lncRNA transcripts

但如果你沒有很好的mRNA和LncRNA的GTF文件,你可以采取下面兩種方法進行:

  1. shuffle:定義LncRNA是protein-coding RNA衍生出來的 “碎屑” , 利用k-mers對一部分mRNA序列進行重新 “洗牌”,把這一部分定義為LncRNA序列
FEELnc_codpot.pl -i candidate_lncRNA.gtf -a known_mRNA.gtf -g ref_genome.FA --mode=shuffle

FEELnc_codpot.pl -i candidate_lncRNA.fa -a known_mRNA.fa --mode=shuffle
  1. intergenic:從目標基因組中提取隨機序列對物種特異性非編碼序列建模,該方法簡單的提取隨機序列信息,并把它作為LncRNA的特征序列
FEELnc_codpot.pl -i candidate_lncRNA.gtf -a known_mRNA.gtf -g ref_genome.FA --mode=intergenic

特征提取后,依靠隨機森林的方式進行模型訓練,計算Sensitivity和Specificity,并繪制ROC曲線:


那么Sensitivity和Specificity兩條曲線交點即為LncRNA和protein coding RNA的臨界值:

往左為LncRNA,往右為mRNA
其中,這個coding potential score (CPS)的計算方式可以參考這篇文章:傳送門,
該軟件計算CPS的方法與之類似

3. FEELnc_classifier.pl

最后一步是將新的LncRNA分類到近端RNA轉錄本的定位和轉錄方向,因為用mRNA(或其他ncRNA)對lncRNA進行分類可以幫助預測lncRNA的功能。這個近端表示的是某個LncRNA基因與某個protein coding基因線性距離最近

這是所有的分類:
對于所有新識別的lncRNA轉錄本,使用滑動窗口策略檢查與參考注釋中最接近的轉錄本之間是否可能重疊。 分類的第一級區(qū)分兩種交互類型:



對于每個LncRNA交互,將在輸出文件中識別出最佳的lncRNA:RNA_partner交互,并且第一列isBest中的值== 1(否則為0)。規(guī)則如下:


圖示分類:


使用說明:

FEELnc_classifier.pl -i lncRNA.gtf -a  ref_annotation.GTF > lncRNA_classes.txt

參考:
Github

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 基因組組裝完成后,或者是完成了草圖,就不可避免遇到一個問題,需要對基因組序列進行注釋。注釋之前首先得構建基因模型,...
    xuzhougeng閱讀 52,899評論 14 185
  • 結果文件的解讀 輸出文件1:*.variant_function 第一個文件包含所有變異的注釋,方法是在每個輸入行...
    生信師姐閱讀 21,966評論 2 42
  • lncRNA具有一系列獨特特性,這些特性與編碼蛋白質的mRNA有或多或少的區(qū)別。需要將鑒定出的新lncRNA與數(shù)據(jù)...
    六六_ryx閱讀 10,315評論 8 25
  • 漸變的面目拼圖要我怎么拼? 我是疲乏了還是投降了? 不是不允許自己墜落, 我沒有滴水不進的保護膜。 就是害怕變得面...
    悶熱當乘涼閱讀 4,480評論 0 13
  • 感覺自己有點神經衰弱,總是覺得手機響了;屋外有人走過;每次媽媽不聲不響的進房間突然跟我說話,我都會被嚇得半死!一整...
    章魚的擁抱閱讀 2,387評論 4 5

友情鏈接更多精彩內容