超大型基因組的轉(zhuǎn)錄本提取

我說(shuō)真的,在我寫(xiě)這篇以前我從來(lái)沒(méi)有想過(guò)「提取轉(zhuǎn)錄本」這種東西有什么好寫(xiě)的

直到我遇到了百合,這個(gè)破事也能卡我一整天

1 失敗的嘗試

岷江百合(L. regale)的1號(hào)染色體能有超過(guò)4GB的大小,這就意味著超過(guò)了2^31-1(約2.1Gb)

如果用gffread提取,會(huì)生成錯(cuò)誤的fai文件(染色體坐標(biāo)出現(xiàn)負(fù)數(shù)),因?yàn)橐绯隽?2bit的整形

即使人工替換正確的fai文件,也迷之原因無(wú)法正確定位

bedtools也迷之原因失敗

2 救星:AGAT

AGAT(Another Gff Analysis Toolkit)

這是一個(gè)perl寫(xiě)的能夠處理大基因組的工具

安裝AGAT

conda install -c bioconda agat

提取轉(zhuǎn)錄本

agat_sp_extract_sequences.pl --gff "/media/desk16/tl5024/Lregale/lrv2.gff" --fasta "/media/desk16/tl5024/Lregale/lrv2_mc.fa" -t mRNA -o mRNA.fasta --keep_attributes "ID"

如果要提取其他類(lèi)型的,換成cds或者gene、exon即可

提取出來(lái)的序列抬頭有一點(diǎn)復(fù)雜

>LregChr01G000010.mRNA1 gene=LregChr01G000010 seq_id=Chr01 type=cds
ATGGCCAGTCGCCGGCGAGCCCTCCTCAAAATCATCGTCCTCGGCGACAGCGGAGTCGGA
AAGACATCATTGCTCAATCAATATGTGCACAAGAAGTTTAGGCAGCAGTACAAAGCTACA
ATCGGCACAGATTTCCTCACCAAGGAGCTCCAGATGGAGGACAGGCTCGTGACGTTGCAA
ATATGGGACACAGCAGGCCAGGAAAGATTTCAGAGTCTCGGTGTGGCGTTCTACCGTGGG
GCGGATTGCTGTATTCTGGCCTATGATGTCAACGTGCGCAAGTCATTTGATACCCTTGAC
AACTGGCATGAAGAGTTTCTTAAACAGGCTAGGGTTTCTGATCCCAAGACTTTTCCATTT
GTTCTACTTGGAAACAAAGTTGACATAGATGGTGGCAACAGCAGAGTGACCTCGGAGAAG
AAAGCTGGAGAATGGTGTGCTTCCAAGGGCAGCATACCTTACTTTGAAACTTCAGCAAAA
GAGGATTATAATGTTGACGCTGCTTTCTTATGTGCTGCTAAACTTGCACTAGCGAAAGAT

因此需要對(duì)抬頭進(jìn)行一點(diǎn)精簡(jiǎn)

sed 's/^>\([^ ]*\).*/>\1/' mRNA.fasta > mRNA_simple_header.fasta
# simplified file will be saved in mRNA_simple_header.fasta

搞定!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容