seqtk的安裝運行運行

服務(wù)器上面已經(jīng)安裝好了

sudo apt-get install seqtk

seqtk的運行

比如從一個fastqc文件中提取100000條reads

(base) 202031107010173@xiaoming-HP:~$ gunzip -c /disk1/shares/Seqs/Akle_TTAGGC_L004_R1_001.fastq.gz |seqtk sample -s 60 - 500 >test500.fq
(base) 202031107010173@xiaoming-HP:~$ wc -l test500.fq
2000 test500.fq
(base) 202031107010173@xiaoming-HP:~$ less test500.fq
seqtk seq -a test500.fq > test500.fa

提取DNA序列

grep $'\tProtein' GCA_000817325.1_ASM81732v1_genomic.gff|grep -v "pseudogene" |awk -v FS="\t" -v OFS="\t" '{print $1,$4,$5,$7,$9}'|sed 's/\tID.*;locus_tag=/\t/g'|sed 's/;.*;protein_id=/\t/g'|sed 's/;.*$//g'|awk -v FS='\t' -v OFS='\t' '{print $1,$2-1,$3,$5,"0",$4,$6}'>genome.bed

seqtk subseq /disk1/shares/Seqs/GCA_000817325.1_ASM81732v1_genomic.fna genome.bed >cds_per_gene.fna
seqtk comp cds_per_gene.fna|less

提取前30個蛋白質(zhì)氨基酸序列

cut -f 7 genome.bed |head -n 30>pro_name.list
seqtk subseq /disk1/shares/Seqs/GCA_000817325.1_ASM81732v1_protein.faa pro_name.list >selected_pro.faa
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容