1.上Genome Announcements網(wǎng)站找一篇細(xì)菌基因組文章,找到文章記載的SRA號(hào)
文章截圖
現(xiàn)在用SRR9209163這個(gè)SRA號(hào)做基因組的組裝
2.從SRA數(shù)據(jù)庫(kù)上用prefetch下載該文件
SRA文件下載
3.Fastq-dump解壓
Fastq-dump
- --gzip 可以輸出gz格式,節(jié)省空間。
- --split-files 將雙端測(cè)序分為兩份,放在不同的文件。
4.Fastqc質(zhì)控,去接頭
-
用fastqc質(zhì)量控制
fastqc
fastqc之后會(huì)生成HTML文件,打開之后觀察結(jié)果:
Per base sequence quality_1
Per base sequence quality_2 -
用Trimmomatic去接頭
剛開始用Trimmomatic去接頭的時(shí)候,錯(cuò)將fastqc之后的壓縮文件用于去接頭,導(dǎo)致后面的步驟出錯(cuò),之后檢查時(shí)發(fā)現(xiàn)這一步雖然成功了,但截圖顯示Input Read Pairs中全是0%:
出錯(cuò)
修改之后再次嘗試:
成功
5.Spades組裝基因組草圖
out of memory
這個(gè)時(shí)候又出錯(cuò)了,上網(wǎng)查詢相關(guān)信息得知可能是沒(méi)有設(shè)置允許的內(nèi)存,也就是memory太小,才會(huì)顯示out of memory。
memory limit
仔細(xì)觀察之后發(fā)現(xiàn)默認(rèn)的memory limit是1G,可能有點(diǎn)小了。
添加參數(shù)
這個(gè)時(shí)候加上-m參數(shù)(單位為G),我設(shè)置了5個(gè)G,這下應(yīng)該夠了。
添加參數(shù)
成功
6.Quast評(píng)價(jià)組裝的基因組效果
quast
成功
quast之后生成報(bào)告文件report.txt和report.html
report.txt
Cumulative length
GC content
Nx