bedtools getfasta提取基因序列實戰(zhàn)

由gtf文件得到含CDS坐標的bed文件,并提取CDS序列

  • 首先要注意,gtf文件的序列起始坐標減一,才是bed文件的起始坐標?。?!
    因為gtf的第一個堿基記為1,但是bed文件的第一個堿基記為0。
    比如我提取的含有起始密碼子的序列應該是這樣的
    含起始密碼子序列

    gtf文件中顯示該段CDS的起始位置為23519,直接用該坐標檢索出來的序列為
    直接檢索出的CDS

    很顯然,該序列少了個A堿基。

gtf或gff文件可以直接用bedtools getfasta提取啟動子

  • 將gtf重命名為gff格式,然后直接提取
  • -s參數(shù)會參考正負鏈信息,正義鏈就提取正義鏈的序列,反義鏈就提取反義鏈的序列。.gff文件中正負鏈的信息在第七列$7。
  • -name+ 會把.gff文件第三列的信息也寫在輸出序列fasta的header信息中。.gff文件中的信息一般是gene、mRNA、exon、CDS等這類信息,其實可以用Gene ID或Gene Symbol替代這一列,使生成的序列信息更明了。
bedtools getfasta -fi genome.fa -bed tmp.gff -s -name+ -fullHeader -fo tmp.fa
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容