在我寫的基因組survey介紹了如何通過jellyfish統(tǒng)計k-mer然后繪制k-mer分布圖研究基因組的方法。由于最近又在搞基因組survey,又檢索了一波資源,發(fā)現(xiàn)了一個分析工具,所以有了這篇教程。
GenomeScope 是2017年發(fā)表在 bioinformatic 的一個工具,最近一次更新在2018年2月16日。這個工具的目的就是處理一些高復(fù)雜度的基因組,比如說高雜合度(菠蘿, >1%),或者是多倍體(8倍體的甘蔗),或者基因組非常的大(小麥是16G)。
它的作用就是通過分析k-mer count分布,給出基因組的一些基本信息:
- 基因組大小
- 基因組雜合度
- 基因組重復(fù)序列比例
注: 它無法預(yù)測倍性
軟件安裝
GenomeScope無需安裝,它們提供了網(wǎng)頁工具 http://genomescope.org/,我們只需要安裝jellyfish即可。
conda install -c bioconda jellyfish
軟件使用
首先,得獲取k-mercount的分布。雖然jellyfish的用法可能比較復(fù)雜,但是這里只要用到兩行命令即可,
jellyfish count -C -m 21 -s 1000000000 -t 10 *.fastq -o reads.jf
jellyfish histo -t 10 reads.jf > reads.histo
幾個建議:
- K-mer設(shè)置為21(-m 21)
- 測序深度不得低于25X
- 建議illumina測序
- 如果服務(wù)器資源很多,可以增加線程數(shù)(-t)
之后將得到的reads.histo 上傳到 http://qb.cshl.edu/genomescope/

選擇continue之后,就會有如下信息,選擇continue即可。

等待運行幾分鐘后,網(wǎng)頁就會結(jié)果

kcov指的是雜合峰的覆蓋度。
軟件使用時的一個問題:
基因組預(yù)測大小和第一個頁面中 Max kmer coverage 密切相關(guān)。我設(shè)置了1000和10000,基因組相差30M。 作者給出的解釋是,GenomeScope默認會過濾掉出現(xiàn)1000次以上的kmers,避免細胞器基因組的影響,如果你覺得基因組小了,那么就把數(shù)值調(diào)整的大一點。