基因組survey分析

基因組survey分析內(nèi)容

  1. 基因組Survey基于小片段文庫的低深度測(cè)序數(shù)據(jù)(50X-100X ) ;
  2. 通過K-mer分析 ,有效的評(píng)估基因組大小、GC含量、雜合度以及重復(fù)序列的含量等信息;
  3. 是全面了解某一物種基因組特征的有效方法;
  4. 為后續(xù)的全基因組 de novo 測(cè)序的組裝策略的制定提供理論依據(jù)。

分析軟件

FastqCount

用于計(jì)算測(cè)序數(shù)據(jù)堿基數(shù),從而計(jì)算測(cè)序深度

1.軟件安裝

#安裝pigz
conda install pigz
#從github下載FastqCount
wget https://github.com/zhimenggan/FastqCount/archive/refs/heads/master.zip
chmod 755 FastqCount_v0.5
#添加環(huán)境變量
vim .bashrc
export PATH=$PATH:/home1/huangchenjue/tools/fastqcount/
source .bashrc

2.使用

#該測(cè)試數(shù)據(jù)為水稻重測(cè)序數(shù)據(jù),水稻基因組大小約為0.4GB
pigz -dc VP3_R1.fq.gz VP3_R2.fq.gz | ./tools/fastqcount/FastqCount-master/FastqCount_v0.5 - > VP3.fastq.out

3.結(jié)果

Total Reads Total Bases N Bases Q20 Q30 GC
139807548 (139.81 M) 20971132200 (20.97 G) 0.00% 97.00% 93.00% 44.00%

測(cè)序深度(depth)= total Basea / genome size
由于水稻基因組大小約為0.4G,由此可知測(cè)序深度為52.425x。


d50c5a2a-9b18-4e31-baf3-67e43945e530.png

Jellyfish

主要用于進(jìn)行k-mer計(jì)算

1.軟件安裝

conda install jellyfish

2.使用

1.使用count的命令來執(zhí)行計(jì)數(shù)功能,產(chǎn)生的結(jié)果為二進(jìn)制文件。

jellyfish count -m 21 -s 5G -C -t 10 -o VP3_21mer_out <(zcat VP3_R1.fq.gz) <(zcat VP3_R2.fq.gz)
  • -m 表示k-mer一般為奇數(shù),多采用19,21等
  • -s 計(jì)算公式G + Gcek ,其中G為基因組大小,c為數(shù)據(jù)的測(cè)序深度,e為測(cè)序誤差(一般在illumina測(cè)序中,認(rèn)為誤差為1%),k為k-mer(與前面的參數(shù)m輸入值一致)
  • -C 表示對(duì)正義鏈和反義鏈都要進(jìn)行計(jì)算。

2.若上部產(chǎn)生多個(gè)結(jié)果,融合二進(jìn)制輸出結(jié)果(未試用)

jellyfish merge -o mer_counts_merged.jf out1 out2 ...

3.通過計(jì)數(shù)結(jié)果繪制直方圖

jellyfish histo -t 3 VP3_21mer_out > VP3_21mer.hist
#用R繪制直方圖
df <- read.table("21-k-mer.hist", header = T)
plot(df[,1],df[,2],xlab = "depth",ylab = "Kmer",main = "21 kmer", type = "l")
  • 在VP3_21mer.hist文件中,第一列表示k-mer出現(xiàn)的次數(shù),第二列表示k-mer出現(xiàn)的種類。
  • R繪圖的輸入文件21-k-mer.hist,選擇深度在300以內(nèi)的數(shù)據(jù),更高的數(shù)據(jù)意義不大,對(duì)于異常值可以進(jìn)行剔除。

4.對(duì)out結(jié)果進(jìn)行統(tǒng)計(jì),可統(tǒng)計(jì)k-mer總數(shù),特異的k-mer數(shù)目,只出現(xiàn)過一次的kmer數(shù),出現(xiàn)了最多的k-mer的數(shù)目等信息。

jellyfish stats VP3_19mer_out
  • 其中kmer總數(shù)會(huì)在gce中用到。

3.結(jié)果

[圖片上傳失敗...(image-735f29-1651141519388)]]
](https://upload-images.jianshu.io/upload_images/25815255-1025236a4eacf36f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

3e2077de-dd50-4f5f-8ad4-b62475457196.png

gce


1.安裝

tar xvf gce.tar.gz

2.使用

1.雜合模式

gce -f 21-k-mer.hist -c 41 -H 1 -g 18174499173 -M 10000 >21-gce.table 2>21-gce.log
  • -f 輸入k-mer頻率分布文件
  • -c k-mer主峰深度,即k-mer頻率分布圖上的主峰對(duì)于的橫坐標(biāo)
  • -H 1:是否啟動(dòng)雜合模式(1是雜合模式,推算出雜合率, 0是非雜合模式?jīng)]有雜合度)
  • -g kmer總數(shù), 從kmerfreq分析結(jié)果獲取

2.純合模式

gce -f 21-k-mer.hist -c 41 -H 0 -g 18174499173 -M 10000 >021-gce.table 2>021-gce.log

3.結(jié)果

1.雜合模式
運(yùn)算結(jié)果輸出在21-gce.log文件最后


75454ada-3dd3-4a4f-bb70-5b62778ff327.png
  • kmer-species heterozygous ratio為0.0211883( a[1/2] / ( 2- a[1/2] ))。而雜合率 = kmer-species_heterozygous_ratio / kmer_size 。若計(jì)算出的雜合率較低,則認(rèn)為測(cè)序數(shù)據(jù)為純合的。這時(shí)候,應(yīng)該不使用 -H 1 參數(shù)。使用 -H 1 參數(shù)會(huì)對(duì)基因組的大小和重復(fù)序列含量估算造成影響。
  • 重復(fù)序列的含量 = 1-b[1/2]-b[1]
  • 估計(jì)的genome_size大小為4.20745e+08 (約421 MB)

2.純合模式
運(yùn)算結(jié)果輸出在021-gce.log文件最后


50a284dd-824d-4fb2-9340-fcdd72fe1769.png
  • 重復(fù)序列的含量 = 1-b[1]
  • 估計(jì)的genome_size大小為4.19836e+08(約420 MB)

參考

生信 | 基因組組裝實(shí)戰(zhàn)(一):基礎(chǔ)知識(shí)與基本思路
Jellyfish詳解
kmer分析的幾款軟件介紹

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容