1. Genome Scope2.0介紹

倉(cāng)庫(kù)地址：tbenavi1/genomescope2.0: Reference-free profiling of polyploid genomes (github.com)

Genome Scope 2.0 是一款專為基因組分析而設(shè)計(jì)的工具，專門用于從高通量測(cè)序數(shù)據(jù)（如 Illumina 短讀長(zhǎng)）中估計(jì)基因組特征。它建立在原始 Genome Scope 方法的基礎(chǔ)上，在處理復(fù)雜基因組和多倍體物種方面進(jìn)行了改進(jìn)。該軟件廣泛用于基因組研究，用于估計(jì)基因組大小、雜合性和從 k-mer 頻率分布中重復(fù)序列內(nèi)容。

主要特點(diǎn)：

基因組大小估計(jì)：它提供了對(duì)總基因組大小的快速可靠的估計(jì)，對(duì)于沒(méi)有參考基因組的物種特別有用。
雜合性檢測(cè)：Genome Scope 2.0 可以估計(jì)基因組內(nèi)雜合位點(diǎn)的比例，這對(duì)于了解生物體的遺傳多樣性非常重要。
重復(fù)內(nèi)容分析：它估計(jì)基因組中重復(fù)序列的比例，這對(duì)于理解基因組結(jié)構(gòu)和進(jìn)化至關(guān)重要。
多倍體基因組支持：該軟件包括分析具有多組染色體（多倍體）的基因組的功能，使其適用于復(fù)雜的生物體。
基于 K-mer：該軟件分析 k-mer 頻率分布（測(cè)序讀數(shù)中長(zhǎng)度為 k 的子序列）以推斷基因組特性。這使得它即使在裝配不完整或不可用的情況下也能工作。
交互式可視化：Genome Scope 2.0 提供圖形輸出，允許用戶直觀地解釋 k-mer 光譜和推斷的基因組參數(shù)。

工作流程：

K-mer 計(jì)數(shù)：該軟件需要一個(gè) k-mer 計(jì)數(shù)文件作為輸入，通常使用 Jellyfish 或 KMC 等工具生成。
模型擬合：Genome Scope 將數(shù)學(xué)模型與 k-mer 頻率分布擬合，以估計(jì)基因組參數(shù)。
可視化：結(jié)果以數(shù)值估計(jì)和交互式圖表的形式提供，這些圖表描述了基因組大小、雜合性和重復(fù)內(nèi)容。

2. Genome Scope2.0使用

開發(fā)者提供了網(wǎng)頁(yè)版本，不需要配置環(huán)境或是安裝其他依賴，比較方便。
地址：GenomeScope

1. 主界面

界面如下

image.png

2.數(shù)據(jù)的輸入與檢查

GenomeScope需要直方圖文件（.hist）作為輸入，這里我們使用右側(cè)給的示例文件，導(dǎo)入后，點(diǎn)擊“Submit”。這之后，會(huì)跳轉(zhuǎn)到數(shù)據(jù)檢查界面。.hist文件可以通過(guò)jellyfish、KMC或FastK來(lái)獲得。其中jellyfish和KMC均輸出兩列數(shù)據(jù)，分別以空格和制表符分隔，F(xiàn)astK輸出三列數(shù)據(jù)，需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理才能導(dǎo)入到GenomeScope進(jìn)行分析。數(shù)據(jù)檢查通過(guò)后，點(diǎn)擊“Continue”。

image.png

3.處理

點(diǎn)擊"Continue"后，最下方會(huì)顯示分析進(jìn)度，當(dāng)數(shù)據(jù)收斂后，列表打印“done”，就會(huì)跳轉(zhuǎn)到結(jié)果界面。若未收斂“unconverged”，則會(huì)打印“failed”。

image.png

4. 結(jié)果分析

4.1 輸出的圖片
這個(gè)圖顯示的是一個(gè)高度純合、測(cè)序錯(cuò)誤率較低且?guī)缀鯖](méi)有重復(fù)序列的基因組。主要的覆蓋率峰值代表獨(dú)特序列，而低覆蓋率的小峰值主要由測(cè)序錯(cuò)誤引起?？傮w來(lái)說(shuō)，數(shù)據(jù)質(zhì)量較高，模型對(duì)數(shù)據(jù)的擬合度也很好。

image.png

x軸：Coverage (覆蓋率)
x軸代表的是k-mer的覆蓋率，即測(cè)序讀段中某個(gè)k-mer在數(shù)據(jù)中出現(xiàn)的頻率。低覆蓋率通常表示錯(cuò)誤或低質(zhì)量讀段，而高覆蓋率則可能是重復(fù)序列或高深度測(cè)序區(qū)域。
y軸：Frequency (頻率)
y軸顯示的是每個(gè)覆蓋率對(duì)應(yīng)的k-mer頻率，即在測(cè)序數(shù)據(jù)中某個(gè)k-mer出現(xiàn)的總次數(shù)。
圖例解讀：

Observed (藍(lán)色條紋)：這表示實(shí)際觀察到的k-mer頻率。可以看到它在低覆蓋率處有一個(gè)小峰值（可能代表測(cè)序錯(cuò)誤），并在較高覆蓋率處有一個(gè)主要峰值，代表正確的序列數(shù)據(jù)。
Full model (黑線)：這是整個(gè)GenomeScope模型擬合到觀察數(shù)據(jù)的結(jié)果，表示模型如何解釋這些數(shù)據(jù)。黑線與藍(lán)色條紋非常吻合，表示模型擬合效果良好。
Unique sequence (綠色線條)：這條線表示獨(dú)特序列部分在模型中的預(yù)測(cè)。它基本上與主要覆蓋峰值重合，表明大多數(shù)序列都是獨(dú)特的。
Errors (橙色線條)：橙色線條在低覆蓋率處有一個(gè)明顯的峰值，表示這個(gè)區(qū)域可能代表測(cè)序錯(cuò)誤的k-mers。
kmer-peaks (黑色虛線)：虛線表示k-mer頻率分布中的一些關(guān)鍵峰值，這些峰值幫助確定覆蓋率峰。

結(jié)果頂部的信息解讀：

len: 4,579,149 bp：基因組的估計(jì)單倍體長(zhǎng)度約為4.58 Mbp。
uniq: 98.4%：表示基因組中有98.4%的序列是獨(dú)特的，不是重復(fù)序列。
aa: 99.8%：表示基因組中99.8%是純合的序列（homozygous）。
ab: 0.156%：表示基因組中大約0.156%的序列是雜合的（heterozygous）。
kcov: 20：k-mer覆蓋深度為20。
err: 0.0965%：表示讀段的測(cè)序錯(cuò)誤率為0.0965%。
dup: 0.96：這可能是重復(fù)序列的比例，接近1表明重復(fù)率很低。
k: 21, p: 2：表示使用了k-mer長(zhǎng)度為21，模型中使用了多倍性假設(shè)的p=2（假設(shè)為二倍體）。

主要觀察點(diǎn)：
低覆蓋率的小峰值：代表測(cè)序錯(cuò)誤或低質(zhì)量數(shù)據(jù)，正如圖中橙色線條所表示的那樣。
高覆蓋率的主要峰值：表示基因組中獨(dú)特的序列，且模型表明這部分序列是純合的，主要由綠色線條表示。
模型擬合度較高：黑線（Full model）與藍(lán)色條紋（Observed）高度吻合，表明模型能夠很好地解釋測(cè)序數(shù)據(jù)。

4.2 Result部分

GenomeScope version 2.0
input file = user_uploads/unKpNqIeS98zyMs6xP2D
output directory = user_data/unKpNqIeS98zyMs6xP2D
p = 2
k = 21

property                      min               max               
Homozygous (aa)               99.8346%          99.8529%          
Heterozygous (ab)             0.147053%         0.165355%         
Genome Haploid Length         4,575,121 bp      4,579,149 bp      
Genome Repeat Length          72,103 bp         72,166 bp         
Genome Unique Length          4,503,018 bp      4,506,982 bp      
Model Fit                     97.4277%          98.8569%          
Read Error Rate               0.0964988%        0.0964988%

1. Homozygous (aa):
純合序列比例（即兩個(gè)等位基因相同的部分）。
范圍：99.8346% 到 99.8529%
說(shuō)明基因組中的大部分序列是純合的，超過(guò)99.8%表示幾乎所有的序列都是純合的，雜合區(qū)域非常少。
2. Heterozygous (ab):
雜合序列比例（即兩個(gè)等位基因不同的部分）。
范圍：0.147053% 到 0.165355%
說(shuō)明基因組中的雜合序列比例非常低，只有大約0.15%。這與高純合度的結(jié)果一致。
3. Genome Haploid Length:
單倍體基因組的估計(jì)長(zhǎng)度。
范圍：4,575,121 bp 到 4,579,149 bp
基因組的單倍體長(zhǎng)度估計(jì)在約4.57 Mb（百萬(wàn)堿基對(duì)）左右，表明這是一個(gè)相對(duì)較小的基因組。
4. Genome Repeat Length:
基因組中重復(fù)序列的總長(zhǎng)度。
范圍：72,103 bp 到 72,166 bp
重復(fù)序列的長(zhǎng)度非常短，大約72 Kb（千堿基對(duì)），表示基因組中的重復(fù)片段比例很低。
5. Genome Unique Length:
基因組中獨(dú)特序列的總長(zhǎng)度。
范圍：4,503,018 bp 到 4,506,982 bp
大多數(shù)基因組序列都是獨(dú)特的，約為4.5 Mb。這與重重復(fù)片段少的推測(cè)一致。
6. Model Fit:
模型的擬合度，表示模型與實(shí)際數(shù)據(jù)之間的匹配程度。
范圍：97.4277% 到 98.8569%
模型擬合度接近98%，說(shuō)明GenomeScope的模型很好地解釋了數(shù)據(jù)中的k-mer分布，表明測(cè)序數(shù)據(jù)質(zhì)量高，模型假設(shè)合理。
7. Read Error Rate:
測(cè)序錯(cuò)誤率。
值：0.0964988%
讀段的錯(cuò)誤率非常低，約為0.0965%，這說(shuō)明測(cè)序數(shù)據(jù)質(zhì)量較高，基本沒(méi)有受到嚴(yán)重的測(cè)序錯(cuò)誤影響。
總結(jié)：
高純合度：基因組幾乎完全是純合的，雜合比例極低。這通常意味著該物種是自交繁殖或經(jīng)過(guò)了嚴(yán)格的選擇育種。
基因組小且重復(fù)序列少：?jiǎn)伪扼w基因組長(zhǎng)度約為4.57 Mb，且只有約72 Kb是重復(fù)序列，這意味著這個(gè)基因組相對(duì)緊湊，重復(fù)元素非常少。
數(shù)據(jù)質(zhì)量高：模型擬合度接近98%，測(cè)序錯(cuò)誤率僅為0.0965%，說(shuō)明測(cè)序數(shù)據(jù)質(zhì)量非常高。
這些結(jié)果表明，測(cè)序樣本來(lái)自于一個(gè)高度純合、緊湊的基因組，數(shù)據(jù)質(zhì)量良好，可以用于后續(xù)的基因組組裝和注釋等分析。

4.3 Model部分


Formula: y_transform ~ x^transform_exp * length * predict2_0(r1, k, d, 
    kmercov, bias, x)

Parameters:
         Estimate Std. Error t value Pr(>|t|)    
d       3.432e-03  3.340e-04   10.28   <2e-16 ***
r1      1.562e-03  4.576e-05   34.14   <2e-16 ***
kmercov 1.995e+01  4.390e-03 4545.45   <2e-16 ***
bias    9.600e-01  3.861e-03  248.65   <2e-16 ***
length  4.521e+06  3.699e+03 1222.00   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 16940 on 274 degrees of freedom

Number of iterations to convergence: 5 
Achieved convergence tolerance: 1.49e-08


這個(gè)結(jié)果來(lái)自于一個(gè)線性回歸或廣義線性模型的回歸輸出，目標(biāo)是通過(guò)某個(gè)預(yù)測(cè)模型來(lái)預(yù)測(cè)目標(biāo)變量y_transform，其中x、length、r1、kmercov、bias和d作為自變量。我們逐項(xiàng)解釋這些參數(shù)和結(jié)果：

1. 公式:
y_transform ~ x^transform_exp * length * predict2_0(r1, k, d, kmercov, bias, x)

表示目標(biāo)變量 y_transform 是自變量 x 的某種冪次（transform_exp）變換，以及其他變量（length、r1、kmercov、bias 和 d）的乘積的函數(shù)。

predict2_0 是一個(gè)預(yù)測(cè)函數(shù)，輸入變量 r1、k、d、kmercov、bias 和 x。

2. 參數(shù)估計(jì)（Estimate）:
回歸模型中各參數(shù)的估計(jì)值表明每個(gè)參數(shù)對(duì) y_transform 的影響方向和大小。所有這些參數(shù)的估計(jì)值都非常顯著（p值<2e-16），意味著它們對(duì)模型的預(yù)測(cè)能力有很大貢獻(xiàn)。
主要參數(shù)：

d (3.432e-03):
d 對(duì) y_transform 有正向影響。它的估計(jì)值為0.003432，意味著當(dāng)其他變量保持不變時(shí)，d 的增加會(huì)導(dǎo)致 y_transform 小幅上升。

r1 (1.562e-03):
r1 也對(duì) y_transform 有正向影響，估計(jì)值為0.001562，表明 r1 的增加也會(huì)導(dǎo)致 y_transform 增加。

kmercov (1.995e+01):
這是一個(gè)較大的估計(jì)值，19.95，表明 k-mer 覆蓋率（kmercov）對(duì) y_transform 的影響非常大。kmercov 的每個(gè)單位增加都會(huì)顯著提高預(yù)測(cè)變量。

bias (9.600e-01):
偏差（bias）的估計(jì)值為0.96，接近于1，表明它對(duì) y_transform 的影響非常接近線性。

length (4.521e+06):
基因組長(zhǎng)度（length）的估計(jì)值為4,521,000，表明長(zhǎng)度是一個(gè)決定性因素，在其他變量不變的情況下，它對(duì) y_transform 有很大的貢獻(xiàn)。

3. 標(biāo)準(zhǔn)誤差（Std. Error）:
標(biāo)準(zhǔn)誤差顯示了每個(gè)估計(jì)值的統(tǒng)計(jì)精度。較小的標(biāo)準(zhǔn)誤差表明估計(jì)值更可靠，較大的標(biāo)準(zhǔn)誤差則表明估計(jì)值不太精確。
這里所有參數(shù)的標(biāo)準(zhǔn)誤差都非常小，尤其是 kmercov、r1 和 bias，這表明這些估計(jì)值非常精確。

4. t值（t value）和 p值（Pr(>|t|)）:
t值 用于檢驗(yàn)每個(gè)參數(shù)是否顯著不為零。較大的 t 值意味著該參數(shù)對(duì)模型有顯著的影響。
p值 代表顯著性水平。這里所有的 p值都遠(yuǎn)小于 0.001。

5. 殘差標(biāo)準(zhǔn)誤差（Residual Standard Error）:
殘差標(biāo)準(zhǔn)誤差表示模型預(yù)測(cè)值與實(shí)際觀察值之間的差異大小。殘差標(biāo)準(zhǔn)誤差越小，表示模型擬合度越好。

6. 收斂情況:
迭代次數(shù)：5：表示模型在5次迭代內(nèi)達(dá)到了收斂。
收斂公差：1.49e-08。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

基因組分析軟件（二）Genome Scope2.0

基因組分析軟件（二）Genome Scope2.0

1. Genome Scope2.0介紹

2. Genome Scope2.0使用

1. 主界面

2.數(shù)據(jù)的輸入與檢查

3.處理

4. 結(jié)果分析

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

基因組分析軟件（二）Genome Scope2.0

1. Genome Scope2.0介紹

2. Genome Scope2.0使用

1. 主界面

2.數(shù)據(jù)的輸入與檢查

3.處理

4. 結(jié)果分析

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av