「基因組survey」使用GenomeScope進行基因組分析

在我寫的基因組survey介紹了如何通過jellyfish統(tǒng)計k-mer然后繪制k-mer分布圖研究基因組的方法。由于最近又在搞基因組survey,又檢索了一波資源,發(fā)現(xiàn)了一個分析工具,所以有了這篇教程。

GenomeScope 是2017年發(fā)表在 bioinformatic 的一個工具,最近一次更新在2018年2月16日。這個工具的目的就是處理一些高復(fù)雜度的基因組,比如說高雜合度(菠蘿, >1%),或者是多倍體(8倍體的甘蔗),或者基因組非常的大(小麥是16G)。

它的作用就是通過分析k-mer count分布,給出基因組的一些基本信息:

  • 基因組大小
  • 基因組雜合度
  • 基因組重復(fù)序列比例

: 它無法預(yù)測倍性

軟件安裝

GenomeScope無需安裝,它們提供了網(wǎng)頁工具 http://genomescope.org/,我們只需要安裝jellyfish即可。

conda install -c bioconda jellyfish

軟件使用

首先,得獲取k-mercount的分布。雖然jellyfish的用法可能比較復(fù)雜,但是這里只要用到兩行命令即可,

jellyfish count -C -m 21 -s 1000000000 -t 10 *.fastq -o reads.jf
jellyfish histo -t 10 reads.jf > reads.histo

幾個建議:

  • K-mer設(shè)置為21(-m 21)
  • 測序深度不得低于25X
  • 建議illumina測序
  • 如果服務(wù)器資源很多,可以增加線程數(shù)(-t)

之后將得到的reads.histo 上傳到 http://qb.cshl.edu/genomescope/

上傳

選擇continue之后,就會有如下信息,選擇continue即可。

繼續(xù)即可

等待運行幾分鐘后,網(wǎng)頁就會結(jié)果

最終結(jié)果

kcov指的是雜合峰的覆蓋度。

軟件使用時的一個問題:

基因組預(yù)測大小和第一個頁面中 Max kmer coverage 密切相關(guān)。我設(shè)置了1000和10000,基因組相差30M。 作者給出的解釋是,GenomeScope默認會過濾掉出現(xiàn)1000次以上的kmers,避免細胞器基因組的影響,如果你覺得基因組小了,那么就把數(shù)值調(diào)整的大一點。

推薦閱讀

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容