宏基因組mapping和binning筆記整理

1、mapping(bowtie2)比對(duì),估計(jì)基因豐度

2、利用contig的核酸組成和豐度的算法來(lái)binning,之后再進(jìn)行單菌組裝、宏基因組關(guān)聯(lián)分析等

Mapping簡(jiǎn)介:

序列的兩種分析策略:read-based (mapping)assembly-based

assembly-based approach 受到覆蓋度的制約,因?yàn)榻M裝時(shí)低覆蓋度的區(qū)域是不會(huì)進(jìn)行組裝的,而是被丟棄,這樣低豐度的細(xì)菌的信息就被丟棄了,反映在reads利用率上,就是往往reads利用率極低,往往低于50%

而 read-based (mapping) approach 則受到reference databases的制約,因?yàn)榧?xì)菌的遺傳多樣性很高,即便是同一個(gè)菌種,它的不同菌株,其基因組的組成也是有相對(duì)比較大的差異的,那么在mapping的時(shí)候就會(huì)出現(xiàn)mapping不上的問(wèn)題,使得mapping效率不夠高;而且只能分析reference databases中有的物種,對(duì)于reference databases未收錄的新物種,是無(wú)法進(jìn)行分析的。


binning簡(jiǎn)介:

宏基因組分箱(Binning)是將宏基因組測(cè)序得到的混合了不同生物的序列或序列組裝得到的contigs按物種分開(kāi)歸類(lèi)的過(guò)程。聚類(lèi)技術(shù)知識(shí)盡力去通過(guò)識(shí)別reads或contigs特殊的地方以及跟其他序列相近的地方來(lái)分出OUT的分類(lèi)。

宏基因組分箱有助于獲得某些微生物的全基因組序列,獲得新物種的基因組序列和功能,預(yù)測(cè)未知物種的培養(yǎng)方法等等。

基于宏基因組數(shù)據(jù)的contig binning分析,可基于宏基因組組裝結(jié)果,將組成相似以及豐度分布模式一致的contig劃分到同一物種,并進(jìn)一步進(jìn)行單菌的草圖組裝。從而可在基于單菌組裝結(jié)果的基礎(chǔ)上進(jìn)行菌株水平的基因和功能注釋、比較基因組分析、進(jìn)化分析等。


binning原理:

1、最開(kāi)始進(jìn)行binning分析的依據(jù)是,來(lái)自同一菌株的序列,其核酸組成是相似的。于是可以根據(jù)核酸組成信息來(lái)進(jìn)行binning,例如根據(jù)核酸使用頻率(oligonucleotide frequency variations),通常是四核苷酸頻率(tetranucleotide frequency)、GC含量和必需的單拷貝基因等。即根據(jù)核酸組成(NC-Nucleotide composition)來(lái)進(jìn)行contig binning。

2、隨后的研究發(fā)現(xiàn)來(lái)自同一個(gè)菌株的基因在不同的樣品中 ( 不同時(shí)間或不同病理程度 ) 的豐度分布模式是相似的 (Nielsen et al., 2014)。因此可以根據(jù)基因在不同樣品中的豐度變化模式( co-abundance patterns across multiple samples),即微分豐度(DA-Differential abundance)來(lái)進(jìn)行contig binning。這種方法更有普適性,一般效果也比較好,能達(dá)到菌株的水平。但這種方式需要較大樣本量,一般至少要50個(gè)樣本以上,且至少要有2個(gè)組能呈現(xiàn)豐度變化 ( 即不同的處理、不同的時(shí)間、疾病和健康、或者不同的采樣地點(diǎn)等 ) ,每個(gè)組內(nèi)的生物學(xué)重復(fù)也要盡量的多。

3、還可以同時(shí)依據(jù)核酸組成和豐度變化信息,即核酸組成與豐度(NCA-Nucleotide composition and abundance),利用核酸組成信息和豐度差異綜合計(jì)算距離矩陣,既能保證binning效果,也能相對(duì)節(jié)約計(jì)算資源,現(xiàn)在比較主流的binning軟件大多是NCA算法。

總結(jié):Microbiome期刊于2016年發(fā)表了一篇綜述,認(rèn)為contig binning的組裝策略主要分為3類(lèi):核酸組成(NC)、微分豐度(DA)、核酸組成與豐度(NCA)等,然而各個(gè)方法都有各自的優(yōu)缺點(diǎn)(Sangwan et al., 2016)[9]。

核酸組成與豐度(NCA)算法將核酸組成信息和豐度差異信息創(chuàng)建一個(gè)綜合的距離矩陣,既能保證binning效果,也能相對(duì)節(jié)約計(jì)算資源。


針對(duì)宏基因組測(cè)序后的數(shù)據(jù)不同聚類(lèi)方法的前提,方法,優(yōu)點(diǎn),缺點(diǎn)和挑戰(zhàn):

http://blog.sina.com.cn/s/blog_50e7795c0102wm7s.html


應(yīng)用:宏基因組關(guān)聯(lián)分析(MWAS-Metagenome Wide-Association Study)以及單菌組裝。

一、宏基因組關(guān)聯(lián)分析流程,常見(jiàn)關(guān)聯(lián)分析方法:

多元統(tǒng)計(jì)分析:例如根據(jù)PERMANOVA分析,識(shí)別和分組顯著相關(guān)的因素(例如藥物干預(yù)或者疾?。?/p>

非監(jiān)督模型聚類(lèi)分析: 如腸型分析;

差異檢驗(yàn):根據(jù)差異檢驗(yàn)統(tǒng)計(jì)算法,識(shí)別組間差異物種或差異基因;

功能分析: 識(shí)別和疾病等相關(guān)的通路或者功能;

分類(lèi)模型構(gòu)建: 例如使用決策樹(shù)算法或者分類(lèi)算法,對(duì)分類(lèi)模型構(gòu)建并評(píng)估。

二、單菌組裝流程:

1、得到bins后的組裝。將各個(gè)樣品的clean reads分別同該bin所包含的contigs進(jìn)行比對(duì),并計(jì)算每個(gè)樣品map上的比例,選取map率高的前幾個(gè)樣品map上的reads分別單獨(dú)組裝,同時(shí)也可以將map率高的這幾個(gè)樣品中map上的reads混合在一起進(jìn)行組裝,可選取組裝效果好的做為最終組裝結(jié)果。對(duì)于組裝軟件,可使用常用的組裝軟件SOAPdenovo、Velvet、ABySS、Spades 等。

2、組裝效果評(píng)估。對(duì)于上述bins重新組裝得到的基因組草圖,可以進(jìn)行基因組完整度的評(píng)估,也可以用CheckM和GC-Depth分布圖,來(lái)評(píng)估組裝效果。

3、 組裝的單菌基因組分析。對(duì)組裝后的基因組草圖,可進(jìn)一步進(jìn)行單菌組裝出的基因組分析,包括基因組組分分析、基因預(yù)測(cè)以及功能注釋分析、共線(xiàn)性比較分析等。如果需要對(duì)組裝出來(lái)的單菌進(jìn)行注釋?zhuān)梢曰贜R庫(kù)。后續(xù)可進(jìn)行ANI( average nucleotide identity )等分析。種內(nèi)菌株的精細(xì)化鑒定還可以借助系統(tǒng)發(fā)育分析,比較基因組分析等方法。由于組裝出來(lái)的基因組草圖很可能是未知的物種,在NCBI中并沒(méi)有近緣相關(guān)的參考基因組,或者bin的基因組草圖組裝的太碎,都可能導(dǎo)致物種鑒定達(dá)不到理想的效果。


pipeline

1、比對(duì)估計(jì)基因豐度的軟件:

bowtie2、samtools、bedtools

2、binning軟件(Maxbin、MetaBAT、MetaWatt、CONCOCT、MyCC)

安裝方式(maxbin為例):

curl ?https://downloads.jbei.org/data/microbial_communities/MaxBin/getfile.php?MaxBin-2.2.2.tar.gz > MaxBin-2.2.2.tar.gz

tar xzvf MaxBin-2.2.2.tar.gz

cd MaxBin-2.2.2/src

make

添加環(huán)境變量

curl -L https://bitbucket.org/berkeleylab/metabat/downloads/metabat-static-binary-linux-x64_v0.32.4.tar.gz > metabatv0.32.4.tar.gz

tar xvf metabatv0.32.4.tar.gz

3、分箱后評(píng)估的軟件checkm:

conda create -n checkm checkm=1.0.11 ? #安裝checkm

4、分箱后可視化軟件vizbin:

5、估計(jì)物種豐度的軟件Metaphlan、Karken

安裝方式(Metaphlan)

wget https://bitbucket.org/biobakery/metaphlan2/get/default.zip

tar xzvf biobakery-metaphlan2-<versioned>.tar.gz

cd biobakery-metaphlan2-<versioned>/

添加環(huán)境變量

Karken

conda create -n kraken=1.0

karken db 下載 wget -c https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_8GB.tgz

6、組裝和分箱結(jié)果的可視化:Anvio

安裝方式conda create -n anvio anvio=4.0.0

7、數(shù)據(jù)庫(kù)

## eggnog對(duì)應(yīng)的細(xì)菌數(shù)據(jù)庫(kù)下載

download_eggnog_data.py bact

## silva 原核和真核微生物的小亞基rRNA基因序列(簡(jiǎn)稱(chēng)SSU,即16S和18SrRNA)

axel https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/SILVA_128_SSURef_Nr99_tax_silva_trunc.fasta.gz

## nr非冗余數(shù)據(jù)庫(kù)

# 結(jié)合diamond進(jìn)行nr庫(kù)比對(duì)

axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz

axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz.md5

# https://github.com/bbuchfink/diamond

# diamond makedb --in nr.faa -d nr

## MEGAN注釋文件

wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/prot_acc2tax-Mar2018X1.abin.zip

wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/SSURef_NR99_128_tax_silva_to_NCBI_synonyms.map.gz

## kaiju物種注釋文件

# Representative genomes from proGenomes

makeDB.sh -p -v

# Non-redundant protein database nr

makeDB.sh -n

##karken 注釋文件

kraken2-build --standard --threads 24 --db kraken

?

參考:

https://blog.csdn.net/woodcorpse/article/details/78483295

http://www.itdecent.cn/p/d80e331de68a

http://blog.sina.com.cn/s/blog_50e7795c0102wm7s.html

http://www.itdecent.cn/p/66ab14988a74

https://www.sohu.com/a/227023939_464200

http://wap.sciencenet.cn/blog-3334560-1128063.html





https://blog.csdn.net/wangyiqi806643897/article/details/25231113

bowtie2 manual網(wǎng)址:http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容