背景
基因組測序現(xiàn)在已經(jīng)成為生物學(xué)研究的一個重要手段,基因組的雜合度和重復(fù)序列對后續(xù)基因組組裝有很大的影響。高雜合的基因組往往無法合并姊妹染色體,導(dǎo)致組裝的結(jié)果偏大,而重復(fù)序列在組裝中會被折疊,使組裝中出現(xiàn)缺口、錯誤,導(dǎo)致組裝的結(jié)果偏小。不同的生物體的基因組之間雜合率和重復(fù)序列含量差異巨大,因此在進行基因組測序前往往需要對基因組的特征進行調(diào)研,以確定測序方案,周期等。
Survey 是評估基因組基本信息的有效手段,對于沒有參考基因組的物種,對基因組信息有個明確的概念對后續(xù)的測序及組裝方案是很有必要的。
通過survey我們可以知道如下信息:
- 基因組大?。簺Q定測序策略和測序量
- 重復(fù)序列比例
- 雜合度:對于二倍體,兩組染色體會有差異
- GC含量:過高或過低的GC含量會導(dǎo)致測序偏向性(二代測序)
生成Kmer頻數(shù)表:jellyfish
基因組大小、雜合、重復(fù)估計:GenomeScope2、gce
jellyfish的使用
進行Kmer計算
jellyfish count \
-t 4 \ #線程數(shù)
-C \ #統(tǒng)計正負鏈
-m 19 \ #Kmer大小
-s 1G \ #設(shè)置初始內(nèi)存大小
-g f1.fasta \ #輸出文件(多個文件輸入列表)
#-G 2 \ #多個文件解壓并行
-o Kmer_19 #輸出前綴
生成kmer頻數(shù)統(tǒng)計表
jellyfish histo \
-v \#生成日志
-o Kmer_19.histo \#指定輸出文件
-t 4 \#設(shè)置線程數(shù)
-h 10000 \ #設(shè)置 最大值
Kmer_19 #輸入文件

頻數(shù)表
統(tǒng)計kmer總數(shù)
jellyfish stats \
Kmer_19 \ #輸入文件
-o Kmer_19.stat #輸出文件

gce的使用
gce -f Kmer_19.histo \ # kmer頻數(shù)表
-c 170 \ # kmer深度
-H 0 \ # 啟用純合模式,1雜合模式
-g 725214236 \ # kmer總個數(shù)
-M 10000 >gce.table 2>gce.log #-M設(shè)置閾值
結(jié)果文件

GenomeScope2 的使用
genomescope.R \
-i Kmer_19.histo \
-o gs_out \
-p 1 \
-k 19\
-m 10000
結(jié)果文件


linear_plot.png

log_plot.png