寫在前面
- 以下內(nèi)容均來自我在菲沙基因(Frasergen)暑期生信培訓(xùn)班上記錄的課堂筆記
1.基因組組裝指標(biāo)評估
-
為什么要進(jìn)行質(zhì)量評估?
答:動植物基因組de novo工作,其組裝指標(biāo)的好壞直接影響著整個(gè)基因組的質(zhì)量。 -
最主要的指標(biāo)是什么?
答:基因組組裝結(jié)果評估,contigN50和scaffoldN50是第一指標(biāo)。
contig/ scaffoldN50:將contig/scaffold長度從長到短迚行排序并累加,當(dāng)累加和達(dá)contig/scaffold總長度的50%的時(shí)候,最后參不加和的那一條contig/scaffold長度即為contig/ scaffoldN50的長度。一般來說,contig/scaffoldN50越長,表示組裝結(jié)果越好 -
N50指標(biāo)高就意味著組裝結(jié)果就一定可靠嗎?
答: 不一定!將一些不相關(guān)的reads或者contig錯(cuò)誤的連接為scaffold,一樣可以達(dá)到很高 scaffold N50 -
N50統(tǒng)計(jì)軟件gnx下載與編譯
#Download git repository
git clone https://github.com/mh11/gnx-tools.git
cd gnx-tools
mkdir bin
javac -d bin/ src/uk/ac/ebi/gnx/*
# 沒裝ant,請安裝,鏈接:https://downloads.apache.org/ant/binaries/
# wget https://downloads.apache.org/ant/binaries/apache-ant-1.10.10-bin.tar.gz
# tar -zvxf apache-ant-1.10.10-bin.tar.gz
# ant程序 在/apache-ant-1.10.10/bin里面
ant -f package.xml
#使用方法
java -jar gnx.jar 基因組名
- 軟件使用
java -jar /gnx-tools/gnx-tools-master/gnx.jar -nx 25,50,75 contigs.fasta
#-nx 50表示統(tǒng)計(jì)N50
2.序列一致性評估
- 序列一致性:是指將reads比到基因組上,驗(yàn)證reads對基因組的覆蓋情況,用于評估組裝的完整性以及測序的均勻性。較高的mapping rate(90%以上)以及coverage(95%以上)認(rèn)為組裝結(jié)果和reads有比較好的一致性。
- 為了評估組裝的完整性和測序覆蓋的均勻性,使用比對工具minimap2(默認(rèn)參數(shù))比對回組裝好的基因組,統(tǒng)計(jì)reads的比對率、覆蓋基因組的程度以及深度的分布情況,由此評估組裝的完整性和測序覆蓋的均勻性。
- 軟件:minimap2
- 使用conda安裝
conda install -c bioconda samtools -y
conda install -c bioconda minimap2 -y
- 第一步:使用比對工具minimap2(默認(rèn)參數(shù))比對回組裝好的基因組
Genome=$PATH/genome.fasta
SubreadsFa=$PATH/*bam.fasta
minimap2 -ax map-pb ${genome} ${SubreadsFa} -t 10 > aln.sam
samtool view -bS aln.sam > aln.bam
samtools sort aln.bam -o minimap.merged.bam --output-fmt BAM
- 第二步:基于比對結(jié)果統(tǒng)計(jì)reads的比對率、基因組的覆蓋度以及深度
samtools flagstat minimap.merged.bam > minimap.merged.bam.flagstat
samtools depth -aa minimap.merged.bam > depth.info
3.保守性基因評估
- BUSCO ( Benchmarking Universal Single-Copy Orthologs )是指利用OrthoDB直系同源數(shù)據(jù)庫構(gòu)建主要的系統(tǒng)迚化分枝(Bacteria、Eukaryota、Protists、Metazoa、Fungi、Plants)的基因集,通過同源基因數(shù)據(jù)庫從基因完整度層面上評估基因組的組裝質(zhì)量。
- BUSCO根據(jù)OrthoDB數(shù)據(jù)庫,針對幾個(gè)大的迚化分支分別構(gòu)建了單拷貝基因集。在得到某物種組裝后的基因組戒者轉(zhuǎn)錄本序列后,可以將組裝結(jié)果不該物種所屬迚化分支的基因集中的保守序列迚行比對,鑒定組裝的結(jié)果是否包含這些序列,包含單條、多條還是部分戒者丌包含等情況給出結(jié)果。
- 對于基因組,BUSCO首先調(diào)用Augustus軟件迚行基因結(jié)構(gòu)預(yù)測,再使用HMMER3比對參考基因集;對于轉(zhuǎn)錄本,則在鑒定出最長讀碼框架之后,再使用HMMER3比對參考基因集。最終根據(jù)比對上的序列比例、完整性等,評估組裝結(jié)果的準(zhǔn)確性和完整性。
- BUSCO官網(wǎng):https://busco.ezlab.org 文檔:https://busco.ezlab.org/busco_userguide.html
- OrthoDB數(shù)據(jù)庫官網(wǎng):https://www.orthodb.org/
- 保守性基因評估軟件安裝
#需要構(gòu)建conda的python3環(huán)境
conda install -c conda-forge -c bioconda busco=5.3.2 -y
- 如果使用conda安裝成功(安裝不成功考慮使用git下載,上方文檔中有),那么就執(zhí)行下載數(shù)據(jù)庫文件。例如下載植物的BUSCO的數(shù)據(jù)庫(對著需要下載的類群的圖片右鍵->復(fù)制鏈接地址,之后就得到了下載鏈接,然后在命令行使用wget之類的下載命令下載),比如下面我下載的是植物相關(guān)的,我就下載的植物類群。
2022年5月22日更新:現(xiàn)在數(shù)據(jù)集在該鏈接下載:https://busco-data.ezlab.org/v4/data/lineages/
mkdir -p ~/database/BUSCO/
cd ~/database/BUSCO/
# 下載,增加--no-check-certificate,否則可能下載不了
wget -c --no-check-certificate https://busco-data.ezlab.org/v4/data/lineages/embryophyta_odb10.2020-09-10.tar.gz
# 解壓文件
tar -xzvf embryophyta_odb10.2020-09-10.tar.gz
- 在安裝好軟件之后$PATH/busco/config/之中并沒有config.ini文件,只有一個(gè)config.ini_default文件,可以把里面的內(nèi)容復(fù)制下來
cp config.ini_default config.ini
- 將config.ini文件中的out_path = ./workdir 前面加上
,因?yàn)檫@個(gè)工具的輸出路徑有時(shí)候會出錯(cuò),所以干脆將它注釋掉,之后假如運(yùn)行busco之后,輸出的路徑就是你之前cd到的路徑
- BUSCO的使用
busco -i [組裝的文件.fasta] -l [數(shù)據(jù)庫文件夾] -o [輸出文件名] -m [評估模式] [其他一些選項(xiàng)]

參數(shù)說明
4.其他評估方法

準(zhǔn)確性評估

完整性評估

長末端重復(fù)序列評估基因組完整度
