簡介
這是一款2017年發(fā)表在NAR上的注釋LncRNA的工具,FEELnc: a tool for long non-coding RNA annotation and its application to the dog transcriptome,該軟件基于隨機森林二分類器來對LncRNA與mRNA進行分類預測
模塊
FEELnc主要的工作模塊分為3個,分別是:1. FEELnc_filter.pl;2. FEELnc_codpot.pl;3. FEELnc_classifier.pl;
我們接下來就簡單介紹一下其工作原理和用法:
1. FEELnc_filter.pl
當我們做好轉錄本拼接以后
第一步(FEELnc_filter)包括過濾掉多余的,假陽性的轉錄本,或在某種意義上與參考注釋的外顯子重疊的轉錄本,尤其是Protein_coding外顯子,因為它們很可能對應于新的mRNA亞型
# Usage:
FEELnc_filter.pl -i infile.gtf -a annotation_mRNA.gtf > candidate_lncRNA.gtf
#利用你新注釋的GTF,與原來的mRNA的GTF注釋做比較,得到候選LncRNA的GTF
#如果你不想刪除與mRNA以外的其他轉錄本重疊的轉錄本(例如lincRNA,miRNA,假基因...),則強烈建議使用此選項。
FEELnc_filter.pl -i infile.gtf \
-a ref_annotation.GTF \
-b transcript_biotype=protein_coding \
> candidate_lncRNA.gtf
2. FEELnc_codpot.pl
這一步主要步驟(FEELnc_codpot)旨在計算CPS,即對候選的LncRNA的GTF文件中每個候選轉錄本計算編碼潛力得分(CPS,在[0-1]之間)
這一步也是核心關鍵的一步,F(xiàn)EELnc_codpot對LncRNA和mRNA的特征提取如下:
首先如果我們有很好的LncRNA的GTF文件,我們就可以直接利用上一步經過過濾的 candidate_lncRNA.gtf 進行預測
FEELnc_codpot.pl -i candidate_lncRNA.gtf -a known_mRNA.gtf -l known_lncRNA.gtf
#其中
- known_mRNA.gtf (or .fa) : a set of known protein_coding transcripts
- known_lncRNA.gtf (or .fa): a set of known lncRNA transcripts
但如果你沒有很好的mRNA和LncRNA的GTF文件,你可以采取下面兩種方法進行:
- shuffle:定義LncRNA是protein-coding RNA衍生出來的 “碎屑” , 利用k-mers對一部分mRNA序列進行重新 “洗牌”,把這一部分定義為LncRNA序列
FEELnc_codpot.pl -i candidate_lncRNA.gtf -a known_mRNA.gtf -g ref_genome.FA --mode=shuffle
FEELnc_codpot.pl -i candidate_lncRNA.fa -a known_mRNA.fa --mode=shuffle
- intergenic:從目標基因組中提取隨機序列對物種特異性非編碼序列建模,該方法簡單的提取隨機序列信息,并把它作為LncRNA的特征序列
FEELnc_codpot.pl -i candidate_lncRNA.gtf -a known_mRNA.gtf -g ref_genome.FA --mode=intergenic
特征提取后,依靠隨機森林的方式進行模型訓練,計算Sensitivity和Specificity,并繪制ROC曲線:

那么Sensitivity和Specificity兩條曲線交點即為LncRNA和protein coding RNA的臨界值:

往左為LncRNA,往右為mRNA
其中,這個coding potential score (CPS)的計算方式可以參考這篇文章:傳送門,
該軟件計算CPS的方法與之類似
3. FEELnc_classifier.pl
最后一步是將新的LncRNA分類到近端RNA轉錄本的定位和轉錄方向,因為用mRNA(或其他ncRNA)對lncRNA進行分類可以幫助預測lncRNA的功能。這個近端表示的是某個LncRNA基因與某個protein coding基因線性距離最近
這是所有的分類:
對于所有新識別的lncRNA轉錄本,使用滑動窗口策略檢查與參考注釋中最接近的轉錄本之間是否可能重疊。 分類的第一級區(qū)分兩種交互類型:

對于每個LncRNA交互,將在輸出文件中識別出最佳的lncRNA:RNA_partner交互,并且第一列isBest中的值== 1(否則為0)。規(guī)則如下:

圖示分類:

使用說明:
FEELnc_classifier.pl -i lncRNA.gtf -a ref_annotation.GTF > lncRNA_classes.txt
參考:
Github