在學(xué)習(xí)用SOAPdenovo2組裝基因組的過程中,發(fā)現(xiàn)配置文件需要填average insert size這一項。建庫過程我是沒有參與的,所以就不知道insert size到底多大(以后這種情況盡量避免,畢竟建庫是很重要的)。搜了搜谷歌,找到了答案,作者以BBMap為例介紹了三種基本方法,適用于不同的情景——Average Insert Size
- 基于比對,需要參考基因組;
- 基于重疊,read1 + read2 > insert;
- 基于組裝,需要足夠的測序深度和內(nèi)存來組裝基因組。
我的重測序數(shù)據(jù)應(yīng)該用第一種方法,如果是基于比對,那其他的軟件應(yīng)該也可以,有沒有呢?先留一個問題。
下載安裝
$ wget https://nchc.dl.sourceforge.net/project/bbmap/BBMap_38.26.tar.gz
#最近一次更新是2018年9月,作者真勤勞。
$ tar zxvf BBMap_38.26.tar.gz
$ cd ./bbmap
$ ls

太多了吧
$ ./../bbmap.sh in1=/ifs1/Grp3/huangsiyuan/learn_assemble/data/chr1_R1.fq \
in2=/ifs1/Grp3/huangsiyuan/learn_assemble/data/chr1_R2.fq \
ref=./chr1.fa ihist=ihist.txt reads=2m pairlen=1000 threads=4
#運(yùn)行了近三個小時才得到了ihist.txt文件,感覺比對有些慢

平均數(shù),中位數(shù)等等以及insert size的頻數(shù)分布

insert size的頻數(shù)分布
所以平均insert size就取354左右吧!