基因組survey分析內(nèi)容
- 基因組Survey基于小片段文庫的低深度測(cè)序數(shù)據(jù)(50X-100X ) ;
- 通過K-mer分析 ,有效的評(píng)估基因組大小、GC含量、雜合度以及重復(fù)序列的含量等信息;
- 是全面了解某一物種基因組特征的有效方法;
- 為后續(xù)的全基因組 de novo 測(cè)序的組裝策略的制定提供理論依據(jù)。
分析軟件
FastqCount
用于計(jì)算測(cè)序數(shù)據(jù)堿基數(shù),從而計(jì)算測(cè)序深度
1.軟件安裝
#安裝pigz
conda install pigz
#從github下載FastqCount
wget https://github.com/zhimenggan/FastqCount/archive/refs/heads/master.zip
chmod 755 FastqCount_v0.5
#添加環(huán)境變量
vim .bashrc
export PATH=$PATH:/home1/huangchenjue/tools/fastqcount/
source .bashrc
2.使用
#該測(cè)試數(shù)據(jù)為水稻重測(cè)序數(shù)據(jù),水稻基因組大小約為0.4GB
pigz -dc VP3_R1.fq.gz VP3_R2.fq.gz | ./tools/fastqcount/FastqCount-master/FastqCount_v0.5 - > VP3.fastq.out
3.結(jié)果
| Total Reads | Total Bases | N Bases | Q20 | Q30 | GC |
|---|---|---|---|---|---|
| 139807548 (139.81 M) | 20971132200 (20.97 G) | 0.00% | 97.00% | 93.00% | 44.00% |
測(cè)序深度(depth)= total Basea / genome size
由于水稻基因組大小約為0.4G,由此可知測(cè)序深度為52.425x。

Jellyfish
主要用于進(jìn)行k-mer計(jì)算
1.軟件安裝
conda install jellyfish
2.使用
1.使用count的命令來執(zhí)行計(jì)數(shù)功能,產(chǎn)生的結(jié)果為二進(jìn)制文件。
jellyfish count -m 21 -s 5G -C -t 10 -o VP3_21mer_out <(zcat VP3_R1.fq.gz) <(zcat VP3_R2.fq.gz)
- -m 表示k-mer一般為奇數(shù),多采用19,21等
- -s 計(jì)算公式G + Gcek ,其中G為基因組大小,c為數(shù)據(jù)的測(cè)序深度,e為測(cè)序誤差(一般在illumina測(cè)序中,認(rèn)為誤差為1%),k為k-mer(與前面的參數(shù)m輸入值一致)
- -C 表示對(duì)正義鏈和反義鏈都要進(jìn)行計(jì)算。
2.若上部產(chǎn)生多個(gè)結(jié)果,融合二進(jìn)制輸出結(jié)果(未試用)
jellyfish merge -o mer_counts_merged.jf out1 out2 ...
3.通過計(jì)數(shù)結(jié)果繪制直方圖
jellyfish histo -t 3 VP3_21mer_out > VP3_21mer.hist
#用R繪制直方圖
df <- read.table("21-k-mer.hist", header = T)
plot(df[,1],df[,2],xlab = "depth",ylab = "Kmer",main = "21 kmer", type = "l")
- 在VP3_21mer.hist文件中,第一列表示k-mer出現(xiàn)的次數(shù),第二列表示k-mer出現(xiàn)的種類。
- R繪圖的輸入文件21-k-mer.hist,選擇深度在300以內(nèi)的數(shù)據(jù),更高的數(shù)據(jù)意義不大,對(duì)于異常值可以進(jìn)行剔除。
4.對(duì)out結(jié)果進(jìn)行統(tǒng)計(jì),可統(tǒng)計(jì)k-mer總數(shù),特異的k-mer數(shù)目,只出現(xiàn)過一次的kmer數(shù),出現(xiàn)了最多的k-mer的數(shù)目等信息。
jellyfish stats VP3_19mer_out
- 其中kmer總數(shù)會(huì)在gce中用到。
3.結(jié)果
[圖片上傳失敗...(image-735f29-1651141519388)]]
](https://upload-images.jianshu.io/upload_images/25815255-1025236a4eacf36f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

gce
1.安裝
tar xvf gce.tar.gz
2.使用
1.雜合模式
gce -f 21-k-mer.hist -c 41 -H 1 -g 18174499173 -M 10000 >21-gce.table 2>21-gce.log
- -f 輸入k-mer頻率分布文件
- -c k-mer主峰深度,即k-mer頻率分布圖上的主峰對(duì)于的橫坐標(biāo)
- -H 1:是否啟動(dòng)雜合模式(1是雜合模式,推算出雜合率, 0是非雜合模式?jīng)]有雜合度)
- -g kmer總數(shù), 從kmerfreq分析結(jié)果獲取
2.純合模式
gce -f 21-k-mer.hist -c 41 -H 0 -g 18174499173 -M 10000 >021-gce.table 2>021-gce.log
3.結(jié)果
1.雜合模式
運(yùn)算結(jié)果輸出在21-gce.log文件最后

- kmer-species heterozygous ratio為0.0211883( a[1/2] / ( 2- a[1/2] ))。而雜合率 = kmer-species_heterozygous_ratio / kmer_size 。若計(jì)算出的雜合率較低,則認(rèn)為測(cè)序數(shù)據(jù)為純合的。這時(shí)候,應(yīng)該不使用 -H 1 參數(shù)。使用 -H 1 參數(shù)會(huì)對(duì)基因組的大小和重復(fù)序列含量估算造成影響。
- 重復(fù)序列的含量 = 1-b[1/2]-b[1]
- 估計(jì)的genome_size大小為4.20745e+08 (約421 MB)
2.純合模式
運(yùn)算結(jié)果輸出在021-gce.log文件最后

- 重復(fù)序列的含量 = 1-b[1]
- 估計(jì)的genome_size大小為4.19836e+08(約420 MB)
參考
生信 | 基因組組裝實(shí)戰(zhàn)(一):基礎(chǔ)知識(shí)與基本思路
Jellyfish詳解
kmer分析的幾款軟件介紹