1、mapping(bowtie2)比對(duì),估計(jì)基因豐度
2、利用contig的核酸組成和豐度的算法來(lái)binning,之后再進(jìn)行單菌組裝、宏基因組關(guān)聯(lián)分析等
Mapping簡(jiǎn)介:
序列的兩種分析策略:read-based (mapping) 和 assembly-based
assembly-based approach 受到覆蓋度的制約,因?yàn)榻M裝時(shí)低覆蓋度的區(qū)域是不會(huì)進(jìn)行組裝的,而是被丟棄,這樣低豐度的細(xì)菌的信息就被丟棄了,反映在reads利用率上,就是往往reads利用率極低,往往低于50%
而 read-based (mapping) approach 則受到reference databases的制約,因?yàn)榧?xì)菌的遺傳多樣性很高,即便是同一個(gè)菌種,它的不同菌株,其基因組的組成也是有相對(duì)比較大的差異的,那么在mapping的時(shí)候就會(huì)出現(xiàn)mapping不上的問(wèn)題,使得mapping效率不夠高;而且只能分析reference databases中有的物種,對(duì)于reference databases未收錄的新物種,是無(wú)法進(jìn)行分析的。
binning簡(jiǎn)介:
宏基因組分箱(Binning)是將宏基因組測(cè)序得到的混合了不同生物的序列或序列組裝得到的contigs按物種分開(kāi)歸類(lèi)的過(guò)程。聚類(lèi)技術(shù)知識(shí)盡力去通過(guò)識(shí)別reads或contigs特殊的地方以及跟其他序列相近的地方來(lái)分出OUT的分類(lèi)。
宏基因組分箱有助于獲得某些微生物的全基因組序列,獲得新物種的基因組序列和功能,預(yù)測(cè)未知物種的培養(yǎng)方法等等。
基于宏基因組數(shù)據(jù)的contig binning分析,可基于宏基因組組裝結(jié)果,將組成相似以及豐度分布模式一致的contig劃分到同一物種,并進(jìn)一步進(jìn)行單菌的草圖組裝。從而可在基于單菌組裝結(jié)果的基礎(chǔ)上進(jìn)行菌株水平的基因和功能注釋、比較基因組分析、進(jìn)化分析等。
binning原理:
1、最開(kāi)始進(jìn)行binning分析的依據(jù)是,來(lái)自同一菌株的序列,其核酸組成是相似的。于是可以根據(jù)核酸組成信息來(lái)進(jìn)行binning,例如根據(jù)核酸使用頻率(oligonucleotide frequency variations),通常是四核苷酸頻率(tetranucleotide frequency)、GC含量和必需的單拷貝基因等。即根據(jù)核酸組成(NC-Nucleotide composition)來(lái)進(jìn)行contig binning。
2、隨后的研究發(fā)現(xiàn)來(lái)自同一個(gè)菌株的基因在不同的樣品中 ( 不同時(shí)間或不同病理程度 ) 的豐度分布模式是相似的 (Nielsen et al., 2014)。因此可以根據(jù)基因在不同樣品中的豐度變化模式( co-abundance patterns across multiple samples),即微分豐度(DA-Differential abundance)來(lái)進(jìn)行contig binning。這種方法更有普適性,一般效果也比較好,能達(dá)到菌株的水平。但這種方式需要較大樣本量,一般至少要50個(gè)樣本以上,且至少要有2個(gè)組能呈現(xiàn)豐度變化 ( 即不同的處理、不同的時(shí)間、疾病和健康、或者不同的采樣地點(diǎn)等 ) ,每個(gè)組內(nèi)的生物學(xué)重復(fù)也要盡量的多。
3、還可以同時(shí)依據(jù)核酸組成和豐度變化信息,即核酸組成與豐度(NCA-Nucleotide composition and abundance),利用核酸組成信息和豐度差異綜合計(jì)算距離矩陣,既能保證binning效果,也能相對(duì)節(jié)約計(jì)算資源,現(xiàn)在比較主流的binning軟件大多是NCA算法。
總結(jié):Microbiome期刊于2016年發(fā)表了一篇綜述,認(rèn)為contig binning的組裝策略主要分為3類(lèi):核酸組成(NC)、微分豐度(DA)、核酸組成與豐度(NCA)等,然而各個(gè)方法都有各自的優(yōu)缺點(diǎn)(Sangwan et al., 2016)[9]。
核酸組成與豐度(NCA)算法將核酸組成信息和豐度差異信息創(chuàng)建一個(gè)綜合的距離矩陣,既能保證binning效果,也能相對(duì)節(jié)約計(jì)算資源。
針對(duì)宏基因組測(cè)序后的數(shù)據(jù)不同聚類(lèi)方法的前提,方法,優(yōu)點(diǎn),缺點(diǎn)和挑戰(zhàn):
http://blog.sina.com.cn/s/blog_50e7795c0102wm7s.html
應(yīng)用:宏基因組關(guān)聯(lián)分析(MWAS-Metagenome Wide-Association Study)以及單菌組裝。
一、宏基因組關(guān)聯(lián)分析流程,常見(jiàn)關(guān)聯(lián)分析方法:
多元統(tǒng)計(jì)分析:例如根據(jù)PERMANOVA分析,識(shí)別和分組顯著相關(guān)的因素(例如藥物干預(yù)或者疾?。?/p>
非監(jiān)督模型聚類(lèi)分析: 如腸型分析;
差異檢驗(yàn):根據(jù)差異檢驗(yàn)統(tǒng)計(jì)算法,識(shí)別組間差異物種或差異基因;
功能分析: 識(shí)別和疾病等相關(guān)的通路或者功能;
分類(lèi)模型構(gòu)建: 例如使用決策樹(shù)算法或者分類(lèi)算法,對(duì)分類(lèi)模型構(gòu)建并評(píng)估。
二、單菌組裝流程:
1、得到bins后的組裝。將各個(gè)樣品的clean reads分別同該bin所包含的contigs進(jìn)行比對(duì),并計(jì)算每個(gè)樣品map上的比例,選取map率高的前幾個(gè)樣品map上的reads分別單獨(dú)組裝,同時(shí)也可以將map率高的這幾個(gè)樣品中map上的reads混合在一起進(jìn)行組裝,可選取組裝效果好的做為最終組裝結(jié)果。對(duì)于組裝軟件,可使用常用的組裝軟件SOAPdenovo、Velvet、ABySS、Spades 等。
2、組裝效果評(píng)估。對(duì)于上述bins重新組裝得到的基因組草圖,可以進(jìn)行基因組完整度的評(píng)估,也可以用CheckM和GC-Depth分布圖,來(lái)評(píng)估組裝效果。
3、 組裝的單菌基因組分析。對(duì)組裝后的基因組草圖,可進(jìn)一步進(jìn)行單菌組裝出的基因組分析,包括基因組組分分析、基因預(yù)測(cè)以及功能注釋分析、共線(xiàn)性比較分析等。如果需要對(duì)組裝出來(lái)的單菌進(jìn)行注釋?zhuān)梢曰贜R庫(kù)。后續(xù)可進(jìn)行ANI( average nucleotide identity )等分析。種內(nèi)菌株的精細(xì)化鑒定還可以借助系統(tǒng)發(fā)育分析,比較基因組分析等方法。由于組裝出來(lái)的基因組草圖很可能是未知的物種,在NCBI中并沒(méi)有近緣相關(guān)的參考基因組,或者bin的基因組草圖組裝的太碎,都可能導(dǎo)致物種鑒定達(dá)不到理想的效果。
pipeline
1、比對(duì)估計(jì)基因豐度的軟件:
bowtie2、samtools、bedtools
2、binning軟件(Maxbin、MetaBAT、MetaWatt、CONCOCT、MyCC)
安裝方式(maxbin為例):
curl ?https://downloads.jbei.org/data/microbial_communities/MaxBin/getfile.php?MaxBin-2.2.2.tar.gz > MaxBin-2.2.2.tar.gz
tar xzvf MaxBin-2.2.2.tar.gz
cd MaxBin-2.2.2/src
make
添加環(huán)境變量
curl -L https://bitbucket.org/berkeleylab/metabat/downloads/metabat-static-binary-linux-x64_v0.32.4.tar.gz > metabatv0.32.4.tar.gz
tar xvf metabatv0.32.4.tar.gz
3、分箱后評(píng)估的軟件checkm:
conda create -n checkm checkm=1.0.11 ? #安裝checkm
4、分箱后可視化軟件vizbin:
5、估計(jì)物種豐度的軟件Metaphlan、Karken
安裝方式(Metaphlan)
wget https://bitbucket.org/biobakery/metaphlan2/get/default.zip
tar xzvf biobakery-metaphlan2-<versioned>.tar.gz
cd biobakery-metaphlan2-<versioned>/
添加環(huán)境變量
Karken
conda create -n kraken=1.0
karken db 下載 wget -c https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_8GB.tgz
6、組裝和分箱結(jié)果的可視化:Anvio
安裝方式conda create -n anvio anvio=4.0.0
7、數(shù)據(jù)庫(kù)
## eggnog對(duì)應(yīng)的細(xì)菌數(shù)據(jù)庫(kù)下載
download_eggnog_data.py bact
## silva 原核和真核微生物的小亞基rRNA基因序列(簡(jiǎn)稱(chēng)SSU,即16S和18SrRNA)
axel https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/SILVA_128_SSURef_Nr99_tax_silva_trunc.fasta.gz
## nr非冗余數(shù)據(jù)庫(kù)
# 結(jié)合diamond進(jìn)行nr庫(kù)比對(duì)
axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz.md5
# https://github.com/bbuchfink/diamond
# diamond makedb --in nr.faa -d nr
## MEGAN注釋文件
wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/prot_acc2tax-Mar2018X1.abin.zip
wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/SSURef_NR99_128_tax_silva_to_NCBI_synonyms.map.gz
## kaiju物種注釋文件
# Representative genomes from proGenomes
makeDB.sh -p -v
# Non-redundant protein database nr
makeDB.sh -n
##karken 注釋文件
kraken2-build --standard --threads 24 --db kraken
?
參考:
https://blog.csdn.net/woodcorpse/article/details/78483295
http://www.itdecent.cn/p/d80e331de68a
http://blog.sina.com.cn/s/blog_50e7795c0102wm7s.html
http://www.itdecent.cn/p/66ab14988a74
https://www.sohu.com/a/227023939_464200
http://wap.sciencenet.cn/blog-3334560-1128063.html
https://blog.csdn.net/wangyiqi806643897/article/details/25231113
bowtie2 manual網(wǎng)址:http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml