生信 | 基因組組裝實(shí)戰(zhàn)(六):基因組質(zhì)量、一致性、保守性、LAI等評估

寫在前面

  • 以下內(nèi)容均來自我在菲沙基因(Frasergen)暑期生信培訓(xùn)班上記錄的課堂筆記

1.基因組組裝指標(biāo)評估

  • 為什么要進(jìn)行質(zhì)量評估?
    答:動植物基因組de novo工作,其組裝指標(biāo)的好壞直接影響著整個(gè)基因組的質(zhì)量。
  • 最主要的指標(biāo)是什么?
    答:基因組組裝結(jié)果評估,contigN50和scaffoldN50是第一指標(biāo)。
    contig/ scaffoldN50:將contig/scaffold長度從長到短迚行排序并累加,當(dāng)累加和達(dá)contig/scaffold總長度的50%的時(shí)候,最后參不加和的那一條contig/scaffold長度即為contig/ scaffoldN50的長度。一般來說,contig/scaffoldN50越長,表示組裝結(jié)果越好
  • N50指標(biāo)高就意味著組裝結(jié)果就一定可靠嗎?
    答: 不一定!將一些不相關(guān)的reads或者contig錯(cuò)誤的連接為scaffold,一樣可以達(dá)到很高 scaffold N50
  • N50統(tǒng)計(jì)軟件gnx下載與編譯
#Download git repository 
git clone https://github.com/mh11/gnx-tools.git
cd gnx-tools
mkdir bin 
javac -d bin/ src/uk/ac/ebi/gnx/* 
# 沒裝ant,請安裝,鏈接:https://downloads.apache.org/ant/binaries/
# wget https://downloads.apache.org/ant/binaries/apache-ant-1.10.10-bin.tar.gz
# tar -zvxf apache-ant-1.10.10-bin.tar.gz
# ant程序 在/apache-ant-1.10.10/bin里面
ant -f package.xml
#使用方法
java -jar gnx.jar 基因組名
  • 軟件使用
java -jar /gnx-tools/gnx-tools-master/gnx.jar -nx 25,50,75 contigs.fasta
#-nx 50表示統(tǒng)計(jì)N50

2.序列一致性評估

  • 序列一致性:是指將reads比到基因組上,驗(yàn)證reads對基因組的覆蓋情況,用于評估組裝的完整性以及測序的均勻性。較高的mapping rate(90%以上)以及coverage(95%以上)認(rèn)為組裝結(jié)果和reads有比較好的一致性。
  • 為了評估組裝的完整性和測序覆蓋的均勻性,使用比對工具minimap2(默認(rèn)參數(shù))比對回組裝好的基因組,統(tǒng)計(jì)reads的比對率、覆蓋基因組的程度以及深度的分布情況,由此評估組裝的完整性和測序覆蓋的均勻性。
  • 軟件:minimap2
  • 使用conda安裝
conda install -c bioconda samtools -y
conda install -c bioconda minimap2 -y
  • 第一步:使用比對工具minimap2(默認(rèn)參數(shù))比對回組裝好的基因組
Genome=$PATH/genome.fasta
SubreadsFa=$PATH/*bam.fasta
minimap2 -ax map-pb ${genome} ${SubreadsFa} -t 10 > aln.sam
samtool view -bS aln.sam > aln.bam
samtools sort aln.bam -o minimap.merged.bam --output-fmt BAM
  • 第二步:基于比對結(jié)果統(tǒng)計(jì)reads的比對率、基因組的覆蓋度以及深度
samtools flagstat minimap.merged.bam > minimap.merged.bam.flagstat
samtools depth -aa minimap.merged.bam > depth.info

3.保守性基因評估

  • BUSCO ( Benchmarking Universal Single-Copy Orthologs )是指利用OrthoDB直系同源數(shù)據(jù)庫構(gòu)建主要的系統(tǒng)迚化分枝(Bacteria、Eukaryota、Protists、Metazoa、Fungi、Plants)的基因集,通過同源基因數(shù)據(jù)庫從基因完整度層面上評估基因組的組裝質(zhì)量。
  • BUSCO根據(jù)OrthoDB數(shù)據(jù)庫,針對幾個(gè)大的迚化分支分別構(gòu)建了單拷貝基因集。在得到某物種組裝后的基因組戒者轉(zhuǎn)錄本序列后,可以將組裝結(jié)果不該物種所屬迚化分支的基因集中的保守序列迚行比對,鑒定組裝的結(jié)果是否包含這些序列,包含單條、多條還是部分戒者丌包含等情況給出結(jié)果。
  • 對于基因組,BUSCO首先調(diào)用Augustus軟件迚行基因結(jié)構(gòu)預(yù)測,再使用HMMER3比對參考基因集;對于轉(zhuǎn)錄本,則在鑒定出最長讀碼框架之后,再使用HMMER3比對參考基因集。最終根據(jù)比對上的序列比例、完整性等,評估組裝結(jié)果的準(zhǔn)確性和完整性。
  • BUSCO官網(wǎng):https://busco.ezlab.org 文檔:https://busco.ezlab.org/busco_userguide.html
  • OrthoDB數(shù)據(jù)庫官網(wǎng):https://www.orthodb.org/
  • 保守性基因評估軟件安裝
#需要構(gòu)建conda的python3環(huán)境
conda install -c conda-forge -c bioconda busco=5.3.2 -y
  • 如果使用conda安裝成功(安裝不成功考慮使用git下載,上方文檔中有),那么就執(zhí)行下載數(shù)據(jù)庫文件。例如下載植物的BUSCO的數(shù)據(jù)庫(對著需要下載的類群的圖片右鍵->復(fù)制鏈接地址,之后就得到了下載鏈接,然后在命令行使用wget之類的下載命令下載),比如下面我下載的是植物相關(guān)的,我就下載的植物類群。
    2022年5月22日更新:現(xiàn)在數(shù)據(jù)集在該鏈接下載:https://busco-data.ezlab.org/v4/data/lineages/
mkdir -p ~/database/BUSCO/ 
cd ~/database/BUSCO/
# 下載,增加--no-check-certificate,否則可能下載不了
wget -c --no-check-certificate https://busco-data.ezlab.org/v4/data/lineages/embryophyta_odb10.2020-09-10.tar.gz
# 解壓文件
tar -xzvf embryophyta_odb10.2020-09-10.tar.gz
  • 在安裝好軟件之后$PATH/busco/config/之中并沒有config.ini文件,只有一個(gè)config.ini_default文件,可以把里面的內(nèi)容復(fù)制下來
cp config.ini_default config.ini
  • 將config.ini文件中的out_path = ./workdir 前面加上\color{red}{\#},因?yàn)檫@個(gè)工具的輸出路徑有時(shí)候會出錯(cuò),所以干脆將它注釋掉,之后假如運(yùn)行busco之后,輸出的路徑就是你之前cd到的路徑
  • BUSCO的使用
busco -i [組裝的文件.fasta] -l [數(shù)據(jù)庫文件夾] -o [輸出文件名] -m [評估模式] [其他一些選項(xiàng)]
參數(shù)說明

4.其他評估方法

準(zhǔn)確性評估
完整性評估
長末端重復(fù)序列評估基因組完整度
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容