由gtf文件得到含CDS坐標的bed文件,并提取CDS序列
-
首先要注意,gtf文件的序列起始坐標減一,才是bed文件的起始坐標?。?!
因為gtf的第一個堿基記為1,但是bed文件的第一個堿基記為0。
比如我提取的含有起始密碼子的序列應該是這樣的含起始密碼子序列
gtf文件中顯示該段CDS的起始位置為23519,直接用該坐標檢索出來的序列為直接檢索出的CDS
很顯然,該序列少了個A堿基。
gtf或gff文件可以直接用bedtools getfasta提取啟動子
- 將gtf重命名為gff格式,然后直接提取
- -s參數(shù)會參考正負鏈信息,正義鏈就提取正義鏈的序列,反義鏈就提取反義鏈的序列。.gff文件中正負鏈的信息在第七列$7。
- -name+ 會把.gff文件第三列的信息也寫在輸出序列fasta的header信息中。.gff文件中的信息一般是gene、mRNA、exon、CDS等這類信息,其實可以用Gene ID或Gene Symbol替代這一列,使生成的序列信息更明了。
bedtools getfasta -fi genome.fa -bed tmp.gff -s -name+ -fullHeader -fo tmp.fa

