與核基因組相比,細(xì)胞器基因組相對(duì)來(lái)說,更為保守,并且序列較短,更加易于組裝,僅僅根據(jù)二代測(cè)序reads即可進(jìn)行組裝。
下面簡(jiǎn)單介紹我在本項(xiàng)目中的方法,僅供參考。
1 數(shù)據(jù)
本次我使用的二代數(shù)據(jù)為50X。下機(jī)后,首先通過fastq對(duì)其進(jìn)行過濾,改軟件操作較為簡(jiǎn)單,僅僅使用-q 20進(jìn)行過濾,得到clean reads、
2 葉綠體參考基因組
因?yàn)槿~綠體基因組非常的保守,因此,我選擇同科植物的葉綠體基因組。據(jù)文獻(xiàn)記載,因?yàn)槿~綠體為環(huán)狀,因此將其葉綠體復(fù)制同樣的拷貝串聯(lián)在其對(duì)應(yīng)的序列后面,防止有reads沒有比對(duì)到環(huán)的連接出。將其合并后,作為一個(gè)總的葉綠體ref,chloropast.fa
3 篩選出葉綠體的reads
因?yàn)槎鷾y(cè)序提取的DNA,除了主要的核DNA外,還有葉綠體,線粒體DNA等,因此首先需要將屬于葉綠體的信息調(diào)取出來(lái)。即將reads比對(duì)到葉綠體ref。
## 我選擇bowtie2
bowtie2-build chloropast.fa chloropast.fa
bowtie2 -q -x chloropast.fa -1 short_reads1 -2 short_reads2 -p 10 -S short.sam
samtools view -bS -o short.bam short.sam
samtools sort -@ 5 -o short.sorted.bam short.bam
samtools index short.sorted.bam
## 篩選比對(duì)上的成對(duì)兒reads即為葉綠體相關(guān)的reads
samtools view -u -f 1 -F 12 short.sorted.bam -o short.sorted.aligned.bam
samtools sort -n -o short.sorted.aligned.sorted.bam short.sorted.aligned.bam
## 將bam-2-fastq
bedtools bamtofastq -i short.sorted.aligned.sorted.bam -fq short.sorted.aligned.sortedR1.fastq -fq2 short.sorted.aligned.sortedR2.fastq
4 組裝
本次選用unicycler 進(jìn)行二代reads的組裝,組裝軟件有很多,比如SoAPdenovo, ABySS, SPAdes, NOVOPlasty等,可以進(jìn)行不同的嘗試。
unicycler -1 $short_readsR1_aligned -2 $short_readsR2_aligned -t 10 -o Cp.fa
該軟件可自己進(jìn)行polish,如果用起他的軟件進(jìn)行組裝,可以使用plion進(jìn)行polish即可
unicycler的安裝可以使用condan即可
conda create -n chloroplast -c uioconda unicycler python=3.6
5 組裝結(jié)果
輸出文件assembly.fasta為最終的組裝結(jié)果,可將其和對(duì)應(yīng)物種(最近的物種)的葉綠體基因組進(jìn)行比較,確定其順序,并進(jìn)行連接。本次我組裝的結(jié)果較好,并不存在gap,與已知的葉綠體基因組比較具有非常好的共線性。

后續(xù)說明
如果沒有一個(gè)較為好的葉綠體基因組,必須通過比對(duì)的方式根據(jù)overlap對(duì)其進(jìn)行連接。此外,如果存在gap,則必須對(duì)其進(jìn)行補(bǔ)gap
- 可以通過GapCloser進(jìn)行填補(bǔ)gap
- 多種軟件的組裝,進(jìn)行填補(bǔ)gap
使用pilon的方法即將二代reads比對(duì)到組裝好的結(jié)果,得到bam文件,進(jìn)行polish
pilon --genome assembly.fasta --frags bwa.sort.bam --output F.pilon1 --changes --threads 4
如果組裝質(zhì)量較好,下面就可以對(duì)其進(jìn)行注釋。。后續(xù)在進(jìn)行