基因組survey

背景

基因組測序現(xiàn)在已經(jīng)成為生物學(xué)研究的一個重要手段,基因組的雜合度和重復(fù)序列對后續(xù)基因組組裝有很大的影響。高雜合的基因組往往無法合并姊妹染色體,導(dǎo)致組裝的結(jié)果偏大,而重復(fù)序列在組裝中會被折疊,使組裝中出現(xiàn)缺口、錯誤,導(dǎo)致組裝的結(jié)果偏小。不同的生物體的基因組之間雜合率和重復(fù)序列含量差異巨大,因此在進行基因組測序前往往需要對基因組的特征進行調(diào)研,以確定測序方案,周期等。

Survey 是評估基因組基本信息的有效手段,對于沒有參考基因組的物種,對基因組信息有個明確的概念對后續(xù)的測序及組裝方案是很有必要的。

通過survey我們可以知道如下信息:

  • 基因組大?。簺Q定測序策略和測序量
  • 重復(fù)序列比例
  • 雜合度:對于二倍體,兩組染色體會有差異
  • GC含量:過高或過低的GC含量會導(dǎo)致測序偏向性(二代測序)

生成Kmer頻數(shù)表:jellyfish
基因組大小、雜合、重復(fù)估計:GenomeScope2、gce

jellyfish的使用

進行Kmer計算

jellyfish count  \ 
-t 4  \ #線程數(shù)
-C  \ #統(tǒng)計正負鏈
-m 19  \ #Kmer大小
-s 1G  \ #設(shè)置初始內(nèi)存大小
-g f1.fasta \ #輸出文件(多個文件輸入列表)
#-G 2   \ #多個文件解壓并行
-o Kmer_19  #輸出前綴

生成kmer頻數(shù)統(tǒng)計表

jellyfish histo  \
-v \#生成日志
-o Kmer_19.histo  \#指定輸出文件
-t 4 \#設(shè)置線程數(shù)
-h 10000  \ #設(shè)置 最大值
Kmer_19 #輸入文件
頻數(shù)表

統(tǒng)計kmer總數(shù)

 jellyfish stats \
Kmer_19 \ #輸入文件
-o Kmer_19.stat #輸出文件

gce的使用

gce -f Kmer_19.histo \ # kmer頻數(shù)表
-c 170 \ # kmer深度
-H 0 \ # 啟用純合模式,1雜合模式
-g 725214236 \ # kmer總個數(shù)
-M 10000 >gce.table 2>gce.log #-M設(shè)置閾值

結(jié)果文件


GenomeScope2 的使用

genomescope.R \
-i Kmer_19.histo \
-o gs_out \
-p 1 \
-k 19\
-m 10000

結(jié)果文件



linear_plot.png

log_plot.png

歡迎關(guān)注Bioinfor 生信云!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容