1. Genome Scope2.0介紹
倉(cāng)庫(kù)地址:tbenavi1/genomescope2.0: Reference-free profiling of polyploid genomes (github.com)
Genome Scope 2.0 是一款專為基因組分析而設(shè)計(jì)的工具,專門用于從高通量測(cè)序數(shù)據(jù)(如 Illumina 短讀長(zhǎng))中估計(jì)基因組特征。它建立在原始 Genome Scope 方法的基礎(chǔ)上,在處理復(fù)雜基因組和多倍體物種方面進(jìn)行了改進(jìn)。該軟件廣泛用于基因組研究,用于估計(jì)基因組大小、雜合性和從 k-mer 頻率分布中重復(fù)序列內(nèi)容。
- 主要特點(diǎn):
- 基因組大小估計(jì):它提供了對(duì)總基因組大小的快速可靠的估計(jì),對(duì)于沒(méi)有參考基因組的物種特別有用。
- 雜合性檢測(cè):Genome Scope 2.0 可以估計(jì)基因組內(nèi)雜合位點(diǎn)的比例,這對(duì)于了解生物體的遺傳多樣性非常重要。
- 重復(fù)內(nèi)容分析:它估計(jì)基因組中重復(fù)序列的比例,這對(duì)于理解基因組結(jié)構(gòu)和進(jìn)化至關(guān)重要。
- 多倍體基因組支持:該軟件包括分析具有多組染色體(多倍體)的基因組的功能,使其適用于復(fù)雜的生物體。
- 基于 K-mer:該軟件分析 k-mer 頻率分布(測(cè)序讀數(shù)中長(zhǎng)度為 k 的子序列)以推斷基因組特性。這使得它即使在裝配不完整或不可用的情況下也能工作。
- 交互式可視化:Genome Scope 2.0 提供圖形輸出,允許用戶直觀地解釋 k-mer 光譜和推斷的基因組參數(shù)。
- 工作流程:
- K-mer 計(jì)數(shù):該軟件需要一個(gè) k-mer 計(jì)數(shù)文件作為輸入,通常使用 Jellyfish 或 KMC 等工具生成。
- 模型擬合:Genome Scope 將數(shù)學(xué)模型與 k-mer 頻率分布擬合,以估計(jì)基因組參數(shù)。
- 可視化:結(jié)果以數(shù)值估計(jì)和交互式圖表的形式提供,這些圖表描述了基因組大小、雜合性和重復(fù)內(nèi)容。
2. Genome Scope2.0使用
開發(fā)者提供了網(wǎng)頁(yè)版本,不需要配置環(huán)境或是安裝其他依賴,比較方便。
地址:GenomeScope
1. 主界面
界面如下

2.數(shù)據(jù)的輸入與檢查
GenomeScope需要直方圖文件(.hist)作為輸入,這里我們使用右側(cè)給的示例文件,導(dǎo)入后,點(diǎn)擊“Submit”。這之后,會(huì)跳轉(zhuǎn)到數(shù)據(jù)檢查界面。.hist文件可以通過(guò)jellyfish、KMC或FastK來(lái)獲得。其中jellyfish和KMC均輸出兩列數(shù)據(jù),分別以空格和制表符分隔,F(xiàn)astK輸出三列數(shù)據(jù),需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理才能導(dǎo)入到GenomeScope進(jìn)行分析。數(shù)據(jù)檢查通過(guò)后,點(diǎn)擊“Continue”。

3.處理
點(diǎn)擊"Continue"后,最下方會(huì)顯示分析進(jìn)度,當(dāng)數(shù)據(jù)收斂后,列表打印“done”,就會(huì)跳轉(zhuǎn)到結(jié)果界面。若未收斂“unconverged”,則會(huì)打印“failed”。

4. 結(jié)果分析
4.1 輸出的圖片
這個(gè)圖顯示的是一個(gè)高度純合、測(cè)序錯(cuò)誤率較低且?guī)缀鯖](méi)有重復(fù)序列的基因組。主要的覆蓋率峰值代表獨(dú)特序列,而低覆蓋率的小峰值主要由測(cè)序錯(cuò)誤引起??傮w來(lái)說(shuō),數(shù)據(jù)質(zhì)量較高,模型對(duì)數(shù)據(jù)的擬合度也很好。

x軸:Coverage (覆蓋率)
x軸代表的是k-mer的覆蓋率,即測(cè)序讀段中某個(gè)k-mer在數(shù)據(jù)中出現(xiàn)的頻率。低覆蓋率通常表示錯(cuò)誤或低質(zhì)量讀段,而高覆蓋率則可能是重復(fù)序列或高深度測(cè)序區(qū)域。y軸:Frequency (頻率)
y軸顯示的是每個(gè)覆蓋率對(duì)應(yīng)的k-mer頻率,即在測(cè)序數(shù)據(jù)中某個(gè)k-mer出現(xiàn)的總次數(shù)。圖例解讀:
Observed (藍(lán)色條紋):這表示實(shí)際觀察到的k-mer頻率。可以看到它在低覆蓋率處有一個(gè)小峰值(可能代表測(cè)序錯(cuò)誤),并在較高覆蓋率處有一個(gè)主要峰值,代表正確的序列數(shù)據(jù)。
Full model (黑線):這是整個(gè)GenomeScope模型擬合到觀察數(shù)據(jù)的結(jié)果,表示模型如何解釋這些數(shù)據(jù)。黑線與藍(lán)色條紋非常吻合,表示模型擬合效果良好。
Unique sequence (綠色線條):這條線表示獨(dú)特序列部分在模型中的預(yù)測(cè)。它基本上與主要覆蓋峰值重合,表明大多數(shù)序列都是獨(dú)特的。
Errors (橙色線條):橙色線條在低覆蓋率處有一個(gè)明顯的峰值,表示這個(gè)區(qū)域可能代表測(cè)序錯(cuò)誤的k-mers。
kmer-peaks (黑色虛線):虛線表示k-mer頻率分布中的一些關(guān)鍵峰值,這些峰值幫助確定覆蓋率峰。
- 結(jié)果頂部的信息解讀:
len: 4,579,149 bp:基因組的估計(jì)單倍體長(zhǎng)度約為4.58 Mbp。
uniq: 98.4%:表示基因組中有98.4%的序列是獨(dú)特的,不是重復(fù)序列。
aa: 99.8%:表示基因組中99.8%是純合的序列(homozygous)。
ab: 0.156%:表示基因組中大約0.156%的序列是雜合的(heterozygous)。
kcov: 20:k-mer覆蓋深度為20。
err: 0.0965%:表示讀段的測(cè)序錯(cuò)誤率為0.0965%。
dup: 0.96:這可能是重復(fù)序列的比例,接近1表明重復(fù)率很低。
k: 21, p: 2:表示使用了k-mer長(zhǎng)度為21,模型中使用了多倍性假設(shè)的p=2(假設(shè)為二倍體)。
- 主要觀察點(diǎn):
低覆蓋率的小峰值:代表測(cè)序錯(cuò)誤或低質(zhì)量數(shù)據(jù),正如圖中橙色線條所表示的那樣。
高覆蓋率的主要峰值:表示基因組中獨(dú)特的序列,且模型表明這部分序列是純合的,主要由綠色線條表示。
模型擬合度較高:黑線(Full model)與藍(lán)色條紋(Observed)高度吻合,表明模型能夠很好地解釋測(cè)序數(shù)據(jù)。
4.2 Result部分
GenomeScope version 2.0
input file = user_uploads/unKpNqIeS98zyMs6xP2D
output directory = user_data/unKpNqIeS98zyMs6xP2D
p = 2
k = 21
property min max
Homozygous (aa) 99.8346% 99.8529%
Heterozygous (ab) 0.147053% 0.165355%
Genome Haploid Length 4,575,121 bp 4,579,149 bp
Genome Repeat Length 72,103 bp 72,166 bp
Genome Unique Length 4,503,018 bp 4,506,982 bp
Model Fit 97.4277% 98.8569%
Read Error Rate 0.0964988% 0.0964988%
1. Homozygous (aa):
純合序列比例(即兩個(gè)等位基因相同的部分)。
范圍:99.8346% 到 99.8529%
說(shuō)明基因組中的大部分序列是純合的,超過(guò)99.8%表示幾乎所有的序列都是純合的,雜合區(qū)域非常少。
2. Heterozygous (ab):
雜合序列比例(即兩個(gè)等位基因不同的部分)。
范圍:0.147053% 到 0.165355%
說(shuō)明基因組中的雜合序列比例非常低,只有大約0.15%。這與高純合度的結(jié)果一致。
3. Genome Haploid Length:
單倍體基因組的估計(jì)長(zhǎng)度。
范圍:4,575,121 bp 到 4,579,149 bp
基因組的單倍體長(zhǎng)度估計(jì)在約4.57 Mb(百萬(wàn)堿基對(duì))左右,表明這是一個(gè)相對(duì)較小的基因組。
4. Genome Repeat Length:
基因組中重復(fù)序列的總長(zhǎng)度。
范圍:72,103 bp 到 72,166 bp
重復(fù)序列的長(zhǎng)度非常短,大約72 Kb(千堿基對(duì)),表示基因組中的重復(fù)片段比例很低。
5. Genome Unique Length:
基因組中獨(dú)特序列的總長(zhǎng)度。
范圍:4,503,018 bp 到 4,506,982 bp
大多數(shù)基因組序列都是獨(dú)特的,約為4.5 Mb。這與重重復(fù)片段少的推測(cè)一致。
6. Model Fit:
模型的擬合度,表示模型與實(shí)際數(shù)據(jù)之間的匹配程度。
范圍:97.4277% 到 98.8569%
模型擬合度接近98%,說(shuō)明GenomeScope的模型很好地解釋了數(shù)據(jù)中的k-mer分布,表明測(cè)序數(shù)據(jù)質(zhì)量高,模型假設(shè)合理。
7. Read Error Rate:
測(cè)序錯(cuò)誤率。
值:0.0964988%
讀段的錯(cuò)誤率非常低,約為0.0965%,這說(shuō)明測(cè)序數(shù)據(jù)質(zhì)量較高,基本沒(méi)有受到嚴(yán)重的測(cè)序錯(cuò)誤影響。
總結(jié):
高純合度:基因組幾乎完全是純合的,雜合比例極低。這通常意味著該物種是自交繁殖或經(jīng)過(guò)了嚴(yán)格的選擇育種。
基因組小且重復(fù)序列少:?jiǎn)伪扼w基因組長(zhǎng)度約為4.57 Mb,且只有約72 Kb是重復(fù)序列,這意味著這個(gè)基因組相對(duì)緊湊,重復(fù)元素非常少。
數(shù)據(jù)質(zhì)量高:模型擬合度接近98%,測(cè)序錯(cuò)誤率僅為0.0965%,說(shuō)明測(cè)序數(shù)據(jù)質(zhì)量非常高。
這些結(jié)果表明,測(cè)序樣本來(lái)自于一個(gè)高度純合、緊湊的基因組,數(shù)據(jù)質(zhì)量良好,可以用于后續(xù)的基因組組裝和注釋等分析。
4.3 Model部分
Formula: y_transform ~ x^transform_exp * length * predict2_0(r1, k, d,
kmercov, bias, x)
Parameters:
Estimate Std. Error t value Pr(>|t|)
d 3.432e-03 3.340e-04 10.28 <2e-16 ***
r1 1.562e-03 4.576e-05 34.14 <2e-16 ***
kmercov 1.995e+01 4.390e-03 4545.45 <2e-16 ***
bias 9.600e-01 3.861e-03 248.65 <2e-16 ***
length 4.521e+06 3.699e+03 1222.00 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 16940 on 274 degrees of freedom
Number of iterations to convergence: 5
Achieved convergence tolerance: 1.49e-08
這個(gè)結(jié)果來(lái)自于一個(gè)線性回歸或廣義線性模型的回歸輸出,目標(biāo)是通過(guò)某個(gè)預(yù)測(cè)模型來(lái)預(yù)測(cè)目標(biāo)變量y_transform,其中x、length、r1、kmercov、bias和d作為自變量。我們逐項(xiàng)解釋這些參數(shù)和結(jié)果:
1. 公式:
y_transform ~ x^transform_exp * length * predict2_0(r1, k, d, kmercov, bias, x)
表示目標(biāo)變量 y_transform 是自變量 x 的某種冪次(transform_exp)變換,以及其他變量(length、r1、kmercov、bias 和 d)的乘積的函數(shù)。
predict2_0 是一個(gè)預(yù)測(cè)函數(shù),輸入變量 r1、k、d、kmercov、bias 和 x。
2. 參數(shù)估計(jì)(Estimate):
回歸模型中各參數(shù)的估計(jì)值表明每個(gè)參數(shù)對(duì) y_transform 的影響方向和大小。所有這些參數(shù)的估計(jì)值都非常顯著(p值<2e-16),意味著它們對(duì)模型的預(yù)測(cè)能力有很大貢獻(xiàn)。
主要參數(shù):
d (3.432e-03):
d 對(duì) y_transform 有正向影響。它的估計(jì)值為0.003432,意味著當(dāng)其他變量保持不變時(shí),d 的增加會(huì)導(dǎo)致 y_transform 小幅上升。
r1 (1.562e-03):
r1 也對(duì) y_transform 有正向影響,估計(jì)值為0.001562,表明 r1 的增加也會(huì)導(dǎo)致 y_transform 增加。
kmercov (1.995e+01):
這是一個(gè)較大的估計(jì)值,19.95,表明 k-mer 覆蓋率(kmercov)對(duì) y_transform 的影響非常大。kmercov 的每個(gè)單位增加都會(huì)顯著提高預(yù)測(cè)變量。
bias (9.600e-01):
偏差(bias)的估計(jì)值為0.96,接近于1,表明它對(duì) y_transform 的影響非常接近線性。
length (4.521e+06):
基因組長(zhǎng)度(length)的估計(jì)值為4,521,000,表明長(zhǎng)度是一個(gè)決定性因素,在其他變量不變的情況下,它對(duì) y_transform 有很大的貢獻(xiàn)。
3. 標(biāo)準(zhǔn)誤差(Std. Error):
標(biāo)準(zhǔn)誤差顯示了每個(gè)估計(jì)值的統(tǒng)計(jì)精度。較小的標(biāo)準(zhǔn)誤差表明估計(jì)值更可靠,較大的標(biāo)準(zhǔn)誤差則表明估計(jì)值不太精確。
這里所有參數(shù)的標(biāo)準(zhǔn)誤差都非常小,尤其是 kmercov、r1 和 bias,這表明這些估計(jì)值非常精確。
4. t值(t value)和 p值(Pr(>|t|)):
t值 用于檢驗(yàn)每個(gè)參數(shù)是否顯著不為零。較大的 t 值意味著該參數(shù)對(duì)模型有顯著的影響。
p值 代表顯著性水平。這里所有的 p值都遠(yuǎn)小于 0.001。
5. 殘差標(biāo)準(zhǔn)誤差(Residual Standard Error):
殘差標(biāo)準(zhǔn)誤差表示模型預(yù)測(cè)值與實(shí)際觀察值之間的差異大小。殘差標(biāo)準(zhǔn)誤差越小,表示模型擬合度越好。
6. 收斂情況:
迭代次數(shù):5:表示模型在5次迭代內(nèi)達(dá)到了收斂。
收斂公差:1.49e-08。