基因組分析軟件(二)Genome Scope2.0

1. Genome Scope2.0介紹

倉(cāng)庫(kù)地址:tbenavi1/genomescope2.0: Reference-free profiling of polyploid genomes (github.com)

Genome Scope 2.0 是一款專為基因組分析而設(shè)計(jì)的工具,專門用于從高通量測(cè)序數(shù)據(jù)(如 Illumina 短讀長(zhǎng))中估計(jì)基因組特征。它建立在原始 Genome Scope 方法的基礎(chǔ)上,在處理復(fù)雜基因組和多倍體物種方面進(jìn)行了改進(jìn)。該軟件廣泛用于基因組研究,用于估計(jì)基因組大小、雜合性和從 k-mer 頻率分布中重復(fù)序列內(nèi)容。

  1. 主要特點(diǎn):
  • 基因組大小估計(jì):它提供了對(duì)總基因組大小的快速可靠的估計(jì),對(duì)于沒(méi)有參考基因組的物種特別有用。
  • 雜合性檢測(cè):Genome Scope 2.0 可以估計(jì)基因組內(nèi)雜合位點(diǎn)的比例,這對(duì)于了解生物體的遺傳多樣性非常重要。
  • 重復(fù)內(nèi)容分析:它估計(jì)基因組中重復(fù)序列的比例,這對(duì)于理解基因組結(jié)構(gòu)和進(jìn)化至關(guān)重要。
  • 多倍體基因組支持:該軟件包括分析具有多組染色體(多倍體)的基因組的功能,使其適用于復(fù)雜的生物體。
  • 基于 K-mer:該軟件分析 k-mer 頻率分布(測(cè)序讀數(shù)中長(zhǎng)度為 k 的子序列)以推斷基因組特性。這使得它即使在裝配不完整或不可用的情況下也能工作。
  • 交互式可視化:Genome Scope 2.0 提供圖形輸出,允許用戶直觀地解釋 k-mer 光譜和推斷的基因組參數(shù)。
  1. 工作流程:
  • K-mer 計(jì)數(shù):該軟件需要一個(gè) k-mer 計(jì)數(shù)文件作為輸入,通常使用 Jellyfish 或 KMC 等工具生成。
  • 模型擬合:Genome Scope 將數(shù)學(xué)模型與 k-mer 頻率分布擬合,以估計(jì)基因組參數(shù)。
  • 可視化:結(jié)果以數(shù)值估計(jì)和交互式圖表的形式提供,這些圖表描述了基因組大小、雜合性和重復(fù)內(nèi)容。

2. Genome Scope2.0使用

開發(fā)者提供了網(wǎng)頁(yè)版本,不需要配置環(huán)境或是安裝其他依賴,比較方便。
地址:GenomeScope

1. 主界面

界面如下


image.png
2.數(shù)據(jù)的輸入與檢查

GenomeScope需要直方圖文件(.hist)作為輸入,這里我們使用右側(cè)給的示例文件,導(dǎo)入后,點(diǎn)擊“Submit”。這之后,會(huì)跳轉(zhuǎn)到數(shù)據(jù)檢查界面。.hist文件可以通過(guò)jellyfish、KMC或FastK來(lái)獲得。其中jellyfish和KMC均輸出兩列數(shù)據(jù),分別以空格和制表符分隔,F(xiàn)astK輸出三列數(shù)據(jù),需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理才能導(dǎo)入到GenomeScope進(jìn)行分析。數(shù)據(jù)檢查通過(guò)后,點(diǎn)擊“Continue”。


image.png
3.處理

點(diǎn)擊"Continue"后,最下方會(huì)顯示分析進(jìn)度,當(dāng)數(shù)據(jù)收斂后,列表打印“done”,就會(huì)跳轉(zhuǎn)到結(jié)果界面。若未收斂“unconverged”,則會(huì)打印“failed”。


image.png
4. 結(jié)果分析

4.1 輸出的圖片
這個(gè)圖顯示的是一個(gè)高度純合、測(cè)序錯(cuò)誤率較低且?guī)缀鯖](méi)有重復(fù)序列的基因組。主要的覆蓋率峰值代表獨(dú)特序列,而低覆蓋率的小峰值主要由測(cè)序錯(cuò)誤引起??傮w來(lái)說(shuō),數(shù)據(jù)質(zhì)量較高,模型對(duì)數(shù)據(jù)的擬合度也很好。


image.png
  • x軸:Coverage (覆蓋率)
    x軸代表的是k-mer的覆蓋率,即測(cè)序讀段中某個(gè)k-mer在數(shù)據(jù)中出現(xiàn)的頻率。低覆蓋率通常表示錯(cuò)誤或低質(zhì)量讀段,而高覆蓋率則可能是重復(fù)序列或高深度測(cè)序區(qū)域。

  • y軸:Frequency (頻率)
    y軸顯示的是每個(gè)覆蓋率對(duì)應(yīng)的k-mer頻率,即在測(cè)序數(shù)據(jù)中某個(gè)k-mer出現(xiàn)的總次數(shù)。

  • 圖例解讀:

Observed (藍(lán)色條紋):這表示實(shí)際觀察到的k-mer頻率。可以看到它在低覆蓋率處有一個(gè)小峰值(可能代表測(cè)序錯(cuò)誤),并在較高覆蓋率處有一個(gè)主要峰值,代表正確的序列數(shù)據(jù)。
Full model (黑線):這是整個(gè)GenomeScope模型擬合到觀察數(shù)據(jù)的結(jié)果,表示模型如何解釋這些數(shù)據(jù)。黑線與藍(lán)色條紋非常吻合,表示模型擬合效果良好。
Unique sequence (綠色線條):這條線表示獨(dú)特序列部分在模型中的預(yù)測(cè)。它基本上與主要覆蓋峰值重合,表明大多數(shù)序列都是獨(dú)特的。
Errors (橙色線條):橙色線條在低覆蓋率處有一個(gè)明顯的峰值,表示這個(gè)區(qū)域可能代表測(cè)序錯(cuò)誤的k-mers。
kmer-peaks (黑色虛線):虛線表示k-mer頻率分布中的一些關(guān)鍵峰值,這些峰值幫助確定覆蓋率峰。
  • 結(jié)果頂部的信息解讀:
len: 4,579,149 bp:基因組的估計(jì)單倍體長(zhǎng)度約為4.58 Mbp。
uniq: 98.4%:表示基因組中有98.4%的序列是獨(dú)特的,不是重復(fù)序列。
aa: 99.8%:表示基因組中99.8%是純合的序列(homozygous)。
ab: 0.156%:表示基因組中大約0.156%的序列是雜合的(heterozygous)。
kcov: 20:k-mer覆蓋深度為20。
err: 0.0965%:表示讀段的測(cè)序錯(cuò)誤率為0.0965%。
dup: 0.96:這可能是重復(fù)序列的比例,接近1表明重復(fù)率很低。
k: 21, p: 2:表示使用了k-mer長(zhǎng)度為21,模型中使用了多倍性假設(shè)的p=2(假設(shè)為二倍體)。
  • 主要觀察點(diǎn):
    低覆蓋率的小峰值:代表測(cè)序錯(cuò)誤或低質(zhì)量數(shù)據(jù),正如圖中橙色線條所表示的那樣。
    高覆蓋率的主要峰值:表示基因組中獨(dú)特的序列,且模型表明這部分序列是純合的,主要由綠色線條表示。
    模型擬合度較高:黑線(Full model)與藍(lán)色條紋(Observed)高度吻合,表明模型能夠很好地解釋測(cè)序數(shù)據(jù)。

4.2 Result部分

GenomeScope version 2.0
input file = user_uploads/unKpNqIeS98zyMs6xP2D
output directory = user_data/unKpNqIeS98zyMs6xP2D
p = 2
k = 21

property                      min               max               
Homozygous (aa)               99.8346%          99.8529%          
Heterozygous (ab)             0.147053%         0.165355%         
Genome Haploid Length         4,575,121 bp      4,579,149 bp      
Genome Repeat Length          72,103 bp         72,166 bp         
Genome Unique Length          4,503,018 bp      4,506,982 bp      
Model Fit                     97.4277%          98.8569%          
Read Error Rate               0.0964988%        0.0964988% 
1. Homozygous (aa):
純合序列比例(即兩個(gè)等位基因相同的部分)。
范圍:99.8346% 到 99.8529%
說(shuō)明基因組中的大部分序列是純合的,超過(guò)99.8%表示幾乎所有的序列都是純合的,雜合區(qū)域非常少。
2. Heterozygous (ab):
雜合序列比例(即兩個(gè)等位基因不同的部分)。
范圍:0.147053% 到 0.165355%
說(shuō)明基因組中的雜合序列比例非常低,只有大約0.15%。這與高純合度的結(jié)果一致。
3. Genome Haploid Length:
單倍體基因組的估計(jì)長(zhǎng)度。
范圍:4,575,121 bp 到 4,579,149 bp
基因組的單倍體長(zhǎng)度估計(jì)在約4.57 Mb(百萬(wàn)堿基對(duì))左右,表明這是一個(gè)相對(duì)較小的基因組。
4. Genome Repeat Length:
基因組中重復(fù)序列的總長(zhǎng)度。
范圍:72,103 bp 到 72,166 bp
重復(fù)序列的長(zhǎng)度非常短,大約72 Kb(千堿基對(duì)),表示基因組中的重復(fù)片段比例很低。
5. Genome Unique Length:
基因組中獨(dú)特序列的總長(zhǎng)度。
范圍:4,503,018 bp 到 4,506,982 bp
大多數(shù)基因組序列都是獨(dú)特的,約為4.5 Mb。這與重重復(fù)片段少的推測(cè)一致。
6. Model Fit:
模型的擬合度,表示模型與實(shí)際數(shù)據(jù)之間的匹配程度。
范圍:97.4277% 到 98.8569%
模型擬合度接近98%,說(shuō)明GenomeScope的模型很好地解釋了數(shù)據(jù)中的k-mer分布,表明測(cè)序數(shù)據(jù)質(zhì)量高,模型假設(shè)合理。
7. Read Error Rate:
測(cè)序錯(cuò)誤率。
值:0.0964988%
讀段的錯(cuò)誤率非常低,約為0.0965%,這說(shuō)明測(cè)序數(shù)據(jù)質(zhì)量較高,基本沒(méi)有受到嚴(yán)重的測(cè)序錯(cuò)誤影響。
總結(jié):
高純合度:基因組幾乎完全是純合的,雜合比例極低。這通常意味著該物種是自交繁殖或經(jīng)過(guò)了嚴(yán)格的選擇育種。
基因組小且重復(fù)序列少:?jiǎn)伪扼w基因組長(zhǎng)度約為4.57 Mb,且只有約72 Kb是重復(fù)序列,這意味著這個(gè)基因組相對(duì)緊湊,重復(fù)元素非常少。
數(shù)據(jù)質(zhì)量高:模型擬合度接近98%,測(cè)序錯(cuò)誤率僅為0.0965%,說(shuō)明測(cè)序數(shù)據(jù)質(zhì)量非常高。
這些結(jié)果表明,測(cè)序樣本來(lái)自于一個(gè)高度純合、緊湊的基因組,數(shù)據(jù)質(zhì)量良好,可以用于后續(xù)的基因組組裝和注釋等分析。

4.3 Model部分


Formula: y_transform ~ x^transform_exp * length * predict2_0(r1, k, d, 
    kmercov, bias, x)

Parameters:
         Estimate Std. Error t value Pr(>|t|)    
d       3.432e-03  3.340e-04   10.28   <2e-16 ***
r1      1.562e-03  4.576e-05   34.14   <2e-16 ***
kmercov 1.995e+01  4.390e-03 4545.45   <2e-16 ***
bias    9.600e-01  3.861e-03  248.65   <2e-16 ***
length  4.521e+06  3.699e+03 1222.00   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 16940 on 274 degrees of freedom

Number of iterations to convergence: 5 
Achieved convergence tolerance: 1.49e-08

這個(gè)結(jié)果來(lái)自于一個(gè)線性回歸或廣義線性模型的回歸輸出,目標(biāo)是通過(guò)某個(gè)預(yù)測(cè)模型來(lái)預(yù)測(cè)目標(biāo)變量y_transform,其中x、length、r1、kmercov、bias和d作為自變量。我們逐項(xiàng)解釋這些參數(shù)和結(jié)果:

1. 公式:
y_transform ~ x^transform_exp * length * predict2_0(r1, k, d, kmercov, bias, x)

表示目標(biāo)變量 y_transform 是自變量 x 的某種冪次(transform_exp)變換,以及其他變量(length、r1、kmercov、bias 和 d)的乘積的函數(shù)。

predict2_0 是一個(gè)預(yù)測(cè)函數(shù),輸入變量 r1、k、d、kmercov、bias 和 x。

2. 參數(shù)估計(jì)(Estimate):
回歸模型中各參數(shù)的估計(jì)值表明每個(gè)參數(shù)對(duì) y_transform 的影響方向和大小。所有這些參數(shù)的估計(jì)值都非常顯著(p值<2e-16),意味著它們對(duì)模型的預(yù)測(cè)能力有很大貢獻(xiàn)。
主要參數(shù):

d (3.432e-03):
d 對(duì) y_transform 有正向影響。它的估計(jì)值為0.003432,意味著當(dāng)其他變量保持不變時(shí),d 的增加會(huì)導(dǎo)致 y_transform 小幅上升。

r1 (1.562e-03):
r1 也對(duì) y_transform 有正向影響,估計(jì)值為0.001562,表明 r1 的增加也會(huì)導(dǎo)致 y_transform 增加。

kmercov (1.995e+01):
這是一個(gè)較大的估計(jì)值,19.95,表明 k-mer 覆蓋率(kmercov)對(duì) y_transform 的影響非常大。kmercov 的每個(gè)單位增加都會(huì)顯著提高預(yù)測(cè)變量。

bias (9.600e-01):
偏差(bias)的估計(jì)值為0.96,接近于1,表明它對(duì) y_transform 的影響非常接近線性。

length (4.521e+06):
基因組長(zhǎng)度(length)的估計(jì)值為4,521,000,表明長(zhǎng)度是一個(gè)決定性因素,在其他變量不變的情況下,它對(duì) y_transform 有很大的貢獻(xiàn)。

3. 標(biāo)準(zhǔn)誤差(Std. Error):
標(biāo)準(zhǔn)誤差顯示了每個(gè)估計(jì)值的統(tǒng)計(jì)精度。較小的標(biāo)準(zhǔn)誤差表明估計(jì)值更可靠,較大的標(biāo)準(zhǔn)誤差則表明估計(jì)值不太精確。
這里所有參數(shù)的標(biāo)準(zhǔn)誤差都非常小,尤其是 kmercov、r1 和 bias,這表明這些估計(jì)值非常精確。

4. t值(t value)和 p值(Pr(>|t|)):
t值 用于檢驗(yàn)每個(gè)參數(shù)是否顯著不為零。較大的 t 值意味著該參數(shù)對(duì)模型有顯著的影響。
p值 代表顯著性水平。這里所有的 p值都遠(yuǎn)小于 0.001。

5. 殘差標(biāo)準(zhǔn)誤差(Residual Standard Error):
殘差標(biāo)準(zhǔn)誤差表示模型預(yù)測(cè)值與實(shí)際觀察值之間的差異大小。殘差標(biāo)準(zhǔn)誤差越小,表示模型擬合度越好。

6. 收斂情況:
迭代次數(shù):5:表示模型在5次迭代內(nèi)達(dá)到了收斂。
收斂公差:1.49e-08。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容