small RNA學(xué)習(xí)(七):小RNA的靶基因預(yù)測(cè)

用到的軟件是TargetFinder,軟件的具體安裝見(jiàn):https://github.com/carringtonlab/TargetFinder。它依賴于fasta-35

The FASTA package - protein and DNA sequence similarity searching and alignment programs,下載鏈接:http://faculty.virginia.edu/wrpearson/fasta/fasta33-35/
。下載解壓之后,fasta-35版本的安裝看README文件

To make the standard FASTA programs:
   cd src
   make -f ../make/Makefile.linux_sse2 all
The executable programs will then be found in ../bin

注意TargetFinder只能用fasta-35,雖然github上面有fasta36: https://github.com/wrpearson/fasta36

如何使用?

舉個(gè)栗子

targetfinder_threads.pl -f sRNA.fa -d ~/ref/Aegilops_tauschii.Aet_v4.0.cds.all.fa -t 8 -p gff -o tmp.predicted_targets3.txt
#-f: fasta格式的小RNA序列文件
#-d: 候選序列,此處是cds序列
#-t: 設(shè)置線程
#-p: 設(shè)置輸出格式,還有:classic、table等
#-o: 輸出結(jié)果文件
less tmp.predicted_targets3.txt | grep "^No" -v | sort -k1,1 | less > predicted_targets3.txt
rm -f tmp.predicted_targets3.txt

此外還有兩個(gè)參數(shù):-c和-r。-c表示預(yù)測(cè)分值,默認(rèn)是4,越小越好。-r就比較糾結(jié)了。
我目前的認(rèn)識(shí)是這樣的:
如果候選序列為帶有正負(fù)鏈信息的cds序列,比如

#由bedtools提取,且用到gff的第七列
>chr1D:206957121-206957331(+)
>chr1D:206957148-206957331(+)

再比如

>AET4Gv20696400.3 cds chromosome:Aet_v4.0:4D:462202382:462208036:-1 gene:AET4Gv20696400 gene_biotype:protein_coding transcript_biotype:protein_coding

關(guān)于-r參數(shù),加不加有很大區(qū)別:不加只在本鏈上查找結(jié)合位點(diǎn);加了后還會(huì)在本鏈的互補(bǔ)鏈上查找。應(yīng)該是不加的!

然而,如果你的候選序列是從參考基因組上直接截下來(lái)的,不帶有任何正負(fù)鏈信息,則必須加上-r,如果不加則不會(huì)得到任何結(jié)果。這時(shí)如果想同時(shí)預(yù)測(cè)候選序列的本鏈和互補(bǔ)鏈該怎么辦呢?我的解決辦法是先用軟件(seqkit)求出候選序列的反向互補(bǔ)序列,再添加到原來(lái)的候選序列文件中,運(yùn)行時(shí)參數(shù)-r也加上。

結(jié)果

AET0Gv20018300.5_cds_supercontig:Aet_v4.0:jcf7190000000435:20646:21465:1        targetfinder    rna_target      596     612     4       +       .       smallRNA=6;target_seq=GGGAGAG-AGAGGAUUGA;base_pairs=:: :::: ::::::.:::;miR_seq=CCAUCUCGUCUCCUGACU
AET0Gv20026400.1_cds_supercontig:Aet_v4.0:jcf7190000000724:142215:142925:-1     targetfinder    rna_target      66      82      4       +       .       smallRNA=7;target_seq=GCAAAGG-UAUCUCGGCG;base_pairs=:::: :: ::::::::: ;miR_seq=CGUUGCCUAUAGAGCCGA

網(wǎng)頁(yè)版工具

其實(shí)預(yù)測(cè)植物小RNA靶標(biāo)的軟件和網(wǎng)站挺多的,我還用過(guò)一款網(wǎng)頁(yè)工具,叫psRNATarget,體驗(yàn)不錯(cuò)。

我的疑惑

用了一些軟件和網(wǎng)站后,發(fā)現(xiàn)不同工具預(yù)測(cè)出來(lái)的靶基因交集很少,不知道該信哪個(gè)。之前還看過(guò)一篇評(píng)估不同預(yù)測(cè)軟件的軟文(https://mp.weixin.qq.com/s/o53imDFTZIELy6Z2--Gg5w),看完更是不知所措,似乎每個(gè)預(yù)測(cè)軟件的效果都不太好,真陽(yáng)性率很低。
或許正是因?yàn)檫@個(gè)原因,才需要做降解組吧~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容