生信步驟|kmc+genomescope進(jìn)行基因組調(diào)查

在組裝未知基因組時(shí),往往需要利用重測序數(shù)據(jù)提前進(jìn)行基因組調(diào)查,以獲取其基因組規(guī)模,雜合率,重復(fù)序列比例,GC含量等信息。從而更好地?cái)M定后繼測序策略。基因組調(diào)查可以采用kmers方法。kmers基因組調(diào)查分為kmers頻數(shù)統(tǒng)計(jì)和基因組評(píng)估兩步。原理已經(jīng)有大佬講得很清楚啦:http://www.itdecent.cn/p/94da86093843

這里以獼猴桃基因組hongyang為例,具體使用kmc+genomescope軟件進(jìn)行基因組調(diào)查。kmc會(huì)對(duì)重測序reads數(shù)據(jù)進(jìn)行kmers庫的構(gòu)建,genomescope則根據(jù)kmers庫進(jìn)行基因組特征評(píng)估。我們來嘗試復(fù)刻文章中的基因組調(diào)查結(jié)論。


1.下載基因組重測序數(shù)據(jù)

我們以獼猴桃hongyang為例,首先獲取獼猴桃基因組重測序數(shù)據(jù)。進(jìn)入NCBI網(wǎng)址即可查看具體信息:https://trace.ncbi.nlm.nih.gov/Traces/index.html?run=SRR9329821

找到對(duì)應(yīng)的重測序數(shù)據(jù)編號(hào)SRR9329821。
服務(wù)器安裝sra-tools后可以直接使用prefetch下載。

$ prefetch SRR9329821

2.sra文件轉(zhuǎn)化為fastq文件

下載得到的數(shù)據(jù)約為11.3G,我們接下來使用fastq-dump將sra文件處理為fastq文件。

$ fastq-dump --gzip --split-3 SRR9329821/

這里對(duì)于不知道是單端測序還是上端測序的sra文件,可一律采用--split-3,程序會(huì)自動(dòng)識(shí)別。這一步較為耗時(shí),建議nohup掛載到后臺(tái)運(yùn)行。 運(yùn)行結(jié)束后產(chǎn)生SRR9329821_1.fastq.gzSRR9329821_2.fastq.gz兩個(gè)雙端文件。

3.fq文件質(zhì)控

采用fastp軟件進(jìn)行文件質(zhì)控。
此處-l代表過濾長度在36bp以下的reads,-w設(shè)定滑窗規(guī)模為6,以此標(biāo)準(zhǔn)計(jì)算平均reads質(zhì)量,-q代表過濾平均質(zhì)量Q20以下的reads,--compression表示壓縮程度(1-9),越大代表壓縮過程速度最慢,越小代表速度快。

$ fastp -i SRR9329821_1.fastq.gz -I SRR9329821_2.fastq.gz -o SRR9329821_1.fastq.cleandata.gz -O SRR9329821_2.fastq.cleandata.gz -l 36 -q 20 -n 6 -w 6 --compression=6

至此,重測序數(shù)據(jù)準(zhǔn)備工作已經(jīng)完畢,下面開始制備kmer數(shù)據(jù)庫以及基因組調(diào)查。
需要用到軟件KMC,smudgeplot和genomescope,請(qǐng)?zhí)崆跋螺d并安裝。
三者都可以用conda下載:

$ conda install -c bioconda smudgeplot
$ conda install -c bioconda genomescope2
$ conda install -c bioconda kmc 

安裝完畢后可執(zhí)行后繼步驟。


4.構(gòu)建重測序kmers庫

在剛剛質(zhì)控后的存有雙端測序*fq.gz文件的文件夾下,利用雙端測序數(shù)據(jù)構(gòu)建kmer庫。

$ mkdir tmp  #建立臨時(shí)文件夾
$ ls SRR9329821_1.fastq.cleandata.gz SRR9329821_2.fastq.cleandata.gz > KiWi
$ kmc -k21 -t32 -m64 -ci1 -cs10000 @KiWi test_kiwi tmp  #運(yùn)行kmc以構(gòu)建kmer庫,設(shè)定kmer構(gòu)建長度為21,線程占用數(shù)為32,內(nèi)存為64G。
$ kmc_dump -ci50 -cx3000 test_kiwi kmer21.dump  #提取所有覆蓋度在50X-3000X的kmers

kmc執(zhí)行reads建庫命令,運(yùn)行完kmers建庫后會(huì)生成kmers數(shù)據(jù)庫,其數(shù)據(jù)分別保存于.kmc_pre.kmc_suf兩個(gè)文件。kmc_dump命令會(huì)產(chǎn)生.dump文件,里面存放有kmers的list。

5.匹配雜合kmers對(duì)

為了后繼估計(jì)基因組雜合程度,需要提前統(tǒng)計(jì)雜合的kmers對(duì)。將上述結(jié)果.dump文件做為輸入,運(yùn)行后的結(jié)果保存于kmer_hongyang_coverages.tsv和kmer_hongyang_sequences.tsv兩文件中。-o相當(dāng)于指定兩個(gè)tsv結(jié)果文件的標(biāo)題。

$ smudgeplot.py hetkmers -o kmer_hongyang < kmer21.dump

至此為止所有數(shù)據(jù)準(zhǔn)備工作已經(jīng)結(jié)束啦,下面正式開始進(jìn)行基因組特征調(diào)查。


6.smudgeplot評(píng)估基因組倍型

smudgeplot軟件可以以kmer_hongyang_coverages.tsv為輸入可視化倍型,這里直接上代碼。

$ smudgeplot.py plot -t "hongyang" -q 0.99 kmer_hongyang_coverages.tsv
smudgeplot倍型可視化評(píng)估結(jié)果

7.genomescope評(píng)估基因組特征

Genomescope是2017年發(fā)表于bioinformatic的一個(gè)工具,以處理一些高復(fù)雜度的基因組調(diào)查。第一個(gè)版本僅能預(yù)測二倍體基因組,第二個(gè)版本可以預(yù)測多倍體基因組特征。Genomescope利用kmer頻數(shù)統(tǒng)計(jì)結(jié)果,即KMC結(jié)果.hist文件進(jìn)行基因組評(píng)估,過程如下:

$ kmc_tools transform test_kiwi histogram kmer21_hongyang.hist -cx10000

$ genomescope2 -i kmer21_hongyang.hist -k 21 -p 2 -o . -n hongyang_genomescope

得到的峰圖可以查看kmers頻數(shù)分布圖,也可以得到summary.txt以查看基因組大小,雜合度,重復(fù)片段比例等詳細(xì)信息。


本文基因組調(diào)查最終結(jié)果

原文基因組調(diào)查結(jié)果

結(jié)果可見基因組預(yù)估大小為617M,雜合度為1.12%,重復(fù)率0.69。跟原文的結(jié)論還是非常接近的,只不過原文用的是19-mer進(jìn)行的基因組調(diào)查,本文用的21-mer,可能造成一些結(jié)果出入。另外,genomescope作圖的美觀性還是不錯(cuò)的,推薦大家試一試。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容