gce基因組特征評(píng)估 2019-07-24

GCE下載安裝

在Linux系統(tǒng)下,直接在下載鏈接ftp中下載安裝。

GCE主要包含兩個(gè)主程序:kmer_freq_hash,用于k-mer頻數(shù)統(tǒng)計(jì);gce,用于基因組特征評(píng)估。

gce,基因組特征評(píng)估

可首先使用“gce -h”查看參數(shù)。

其中,常用參數(shù)選項(xiàng)說(shuō)明:

-f,k-mer頻數(shù)統(tǒng)計(jì)表;

-c,k-mer頻數(shù)統(tǒng)計(jì)結(jié)果的“主峰”對(duì)應(yīng)的頻數(shù),即k-mer曲線的主峰所對(duì)應(yīng)的橫坐標(biāo);

-g,k-mer片段總數(shù),缺省時(shí)默認(rèn)使用輸入k-mer頻數(shù)統(tǒng)計(jì)表文件計(jì)算k-mer總數(shù);

-b,數(shù)據(jù)是(1)否(0,默認(rèn))有bias;

-H,使用雜合模式(1),或者單倍體模式(0,默認(rèn));

-m,估算模型的選擇,離散型(0,默認(rèn))或連續(xù)型(1);

-M,設(shè)定計(jì)算時(shí)所支持的最大k-mer頻數(shù),默認(rèn)256;

-D,期望值精度,默認(rèn)為?1;若-m參數(shù)選擇1,推薦該值設(shè)定為8;


非雜合模式示例

此處使用上述得到的k-mer頻數(shù)統(tǒng)計(jì)結(jié)果文件“test.freq.stat”進(jìn)行基因組特征評(píng)估。

輸入文件“test.freq.stat”,該文件中,峰值對(duì)應(yīng)k-mer頻數(shù)等于58的位置,不再指定k-mer片段總數(shù)而是默認(rèn)使用輸入k-mer頻數(shù)統(tǒng)計(jì)表文件計(jì)算k-mer總數(shù),已知該物種基因組為單倍體,故不使用雜合模式,使用連續(xù)型估算模型且期望值精度設(shè)定為8,設(shè)置計(jì)算時(shí)所支持的最大k-mer頻數(shù)256(若k-mer頻數(shù)表由kmer_freq_hash得到,則可缺省,非kmer_freq_hash所得結(jié)果一定要設(shè)置該參數(shù))。


程序運(yùn)行完畢得到結(jié)果文件“test.gce.stat”和“test.gce.log”。

“test.gce.stat”為中間計(jì)算結(jié)果輸出,一般情況下無(wú)需關(guān)注。

“test.gce.log”為程序運(yùn)行的日志文件,同時(shí)記錄了物種基因組特征評(píng)估結(jié)果。評(píng)估統(tǒng)計(jì)結(jié)果同樣在該文件的最下方,


raw_peak,k-mer頻數(shù)統(tǒng)計(jì)結(jié)果的“主峰”頻數(shù);

now_node,k-mer的種類(lèi)數(shù);

low_kmer,低覆蓋度的k-mer數(shù);

now_kmer,過(guò)濾低覆蓋度的k-mer數(shù)后的k-mer總數(shù);

cvg,估算出的測(cè)序平均深度;

genome_size,估算出的基因組大小,genome_size = now_kmer / cvg?;

a[1],僅出現(xiàn)1次的k-mer種類(lèi)數(shù)占k-mer種類(lèi)數(shù)總數(shù)的比值;

b[1],僅出現(xiàn)1次的k-mer片段數(shù)量占k-mer片段總數(shù)量的比值;該值可用于表征基因組中拷貝數(shù)為1的序列比例,則1-b[1]可認(rèn)定為重復(fù)序列比例。


雜合模式示例

若測(cè)序物種的基因組高雜合(如通過(guò)k-mer曲線判斷,例如曲線中存在雜合峰),我們可考慮運(yùn)行雜合模式,此時(shí)相較于非雜合模式的運(yùn)行結(jié)果會(huì)更佳。當(dāng)然,若測(cè)序物種的基因組僅為簡(jiǎn)單基因組(無(wú)雜合),則是不能使用雜合模式運(yùn)行的,強(qiáng)行運(yùn)行雜合模式結(jié)果將相當(dāng)不可靠。


此處繼續(xù)使用上述得到的k-mer頻數(shù)統(tǒng)計(jì)結(jié)果文件“test.freq.stat”進(jìn)行基因組特征評(píng)估。雖然該測(cè)序物種的k-mer曲線顯示其為單倍體,不可以使用雜合模式;但此處作為示例主要演示軟件的使用,因此請(qǐng)無(wú)需在意該操作的正確性。

輸入文件“test.freq.stat”,同上述,該文件中峰值對(duì)應(yīng)k-mer頻數(shù)等于58的位置,不再指定k-mer片段總數(shù)而是默認(rèn)使用輸入k-mer頻數(shù)統(tǒng)計(jì)表文件計(jì)算k-mer總數(shù),此處使用雜合模式,并使用連續(xù)型估算模型且期望值精度設(shè)定為8,設(shè)置計(jì)算時(shí)所支持的最大k-mer頻數(shù)256(若k-mer頻數(shù)表由kmer_freq_hash得到,則可缺省,非kmer_freq_hash所得結(jié)果一定要設(shè)置該參數(shù))。


與上述結(jié)果一致,程序運(yùn)行完畢得到結(jié)果文件“test.gce.stat”和“test.gce.log”。然后我們關(guān)注“test.gce.log”最下方的統(tǒng)計(jì)結(jié)果。

前面幾項(xiàng)統(tǒng)計(jì)指標(biāo)(raw_peak、now_node、genome_size等)是固定的,但統(tǒng)計(jì)結(jié)果與非雜合模式略有不同,需要注意。

此處多了雜合度評(píng)估結(jié)果,其中:

a[1/2],雜合k-mer種類(lèi)數(shù)占k-mer種類(lèi)數(shù)總數(shù)的比值;此時(shí),kmer-species heterozygous ratio = a[1/2] / ( 2- a[1/2]),雜合率?= kmer-species heterozygous ratio / k-mer長(zhǎng)度(例如本示例中為17);

b[1/2],雜合k-mer片段數(shù)量占k-mer片段總數(shù)量的比值;此時(shí),1-b[1]-b[1/2]可認(rèn)定為重復(fù)序列比例。


結(jié)合其它K-mer分析工具一起使用

由于GCE的kmer_freq_hash程序統(tǒng)計(jì)k-mer頻數(shù)時(shí),支持的最大頻數(shù)深度為225,出現(xiàn)次數(shù)大于255的k-mer數(shù)量會(huì)與出現(xiàn)次數(shù)等于255的k-mer數(shù)量合并,因此有時(shí)可能無(wú)法滿(mǎn)足分析需求。因此,我們可以考慮將GCE結(jié)合其它k-mer分析工具一起使用。


如下示例,依然使用了本次的測(cè)試數(shù)據(jù)。首先使用JELLYFISH進(jìn)行k-mer頻數(shù)統(tǒng)計(jì),之后將JELLYFISH的結(jié)果輸入至GCE中,評(píng)估物種基因組大小、重復(fù)序列含量等信息。由于JELLYFISH支持最大k-mer頻數(shù)為10000,因此我們可知,結(jié)合JELLYFISH(JELLYFISH+gce)一起分析的結(jié)果與只使用GCE(kmer_freq_hash+gce)分析的結(jié)果相比會(huì)更加準(zhǔn)確。

其中,JELLYFISH使用說(shuō)明可參見(jiàn):http://blog.sciencenet.cn/blog-3406804-1161522.html

基因組特征最終評(píng)估結(jié)果如下所示。特別注意,由于JELLYFISH支持最大k-mer頻數(shù)為10000,因此在此處的gce參數(shù)中,-M設(shè)定為10001。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容