目錄
- 背景知識(shí)
- 1.1. 根據(jù)分析對(duì)象的分類
- 1.2. 三個(gè)基本數(shù)據(jù)處理問(wèn)題
- 1.3. 一般分析流程
- 1.4. 比較宏基因組學(xué)的應(yīng)用
- 1.5. 目前存在的技術(shù)問(wèn)題
- 實(shí)驗(yàn)設(shè)計(jì)
- 2.1. 幾點(diǎn)指導(dǎo)意見(jiàn)
- 2.2. 測(cè)序平臺(tái)的選擇
- Metagenome assembly
- 宏基因組binning
- 4.1. binning原理
- 4.2. binning具體操作
- 4.3. 目前binning工具存在的問(wèn)題
- Taxonomic profiling
- 5.1. Assembly-free strategy
- 5.2. 比較 Assembly-based profiling 與 Read-based profiling
- Metabolic function profiling

1. 背景知識(shí)
1.1. 根據(jù)分析對(duì)象的分類
根據(jù)分析對(duì)象和實(shí)驗(yàn)?zāi)康?,宏基因組的研究基本上可以分為
- 擴(kuò)增子測(cè)序:
核糖體rDNA(細(xì)菌和古細(xì)菌 16S rDNA 或真菌 18S、28S rDNA 和 ITS (Internal Transcribed Spacer,真菌 rDNA 基因非轉(zhuǎn)錄區(qū)的一部分))的分類和鑒定
獲得環(huán)境中各個(gè)細(xì)菌種類的相對(duì)豐度和多樣性水平,從而了解環(huán)境中微生物群落的組成和結(jié)構(gòu)
single marker genes(一般為功能基因,比如固氮還原酶nifH基因和氨基氧化酶amoA基因等)的多樣性和分類分析
揭示各個(gè)功能菌群的構(gòu)成和多樣性
- 宏基因組全測(cè)序 Shotgun metagenomics:全部宏基因組DNA的整體測(cè)序和分析
- profile taxonomic composition
- functional potential of microbial communities
- to recover whole genome sequences
1.2. 三個(gè)基本數(shù)據(jù)處理問(wèn)題

1.3. 一般分析流程

1. Pre-processing
- minimize fundamental sequence biases or artifacts such as removal of sequencing adaptors
- quality trimming
- removal of sequencing duplicates
- filter foreign or non-target DNA sequences
- samples are subsampled to normalize read numbers if the diversity of taxa or functions is compared
2. Sequence analysis
包括兩種分析策略:read-based (mapping) 和 assembly-based

簡(jiǎn)單來(lái)說(shuō),assembly-based approach 受到覆蓋度的制約,因?yàn)榻M裝時(shí)低覆蓋度的區(qū)域是不會(huì)進(jìn)行組裝的,而是被丟棄,這樣低豐度的細(xì)菌的信息就被丟棄了,反映在reads利用率上,就是往往reads利用率極低,往往低于50%
而 read-based (mapping) approach 則受到reference databases的制約,因?yàn)榧?xì)菌的遺傳多樣性很高,即便是同一個(gè)菌種,它的不同菌株,其基因組的組成也是有相對(duì)比較大的差異的,那么在mapping的時(shí)候就會(huì)出現(xiàn)mapping不上的問(wèn)題,使得mapping效率不夠高;而且只能分析reference databases中有的物種,對(duì)于reference databases未收錄的新物種,是無(wú)法進(jìn)行分析的。
不過(guò)可用的微生物參考基因組正在迅速地增加,包括那些原先難以培養(yǎng)的細(xì)菌由于培養(yǎng)方法的改進(jìn),使得對(duì)其進(jìn)行測(cè)序成為可能,再加上單細(xì)胞測(cè)序的途徑和 metagenomic assembly的途徑得到的基因組序列?,F(xiàn)在一些類型的環(huán)境樣品(如人腸道)的參考基因組的多樣性已經(jīng)可以滿足 assembly-free taxonomic profiling 的要求。
1.4. 比較宏基因組學(xué)的應(yīng)用
- 了解微生物群體結(jié)構(gòu)隨著時(shí)間和地理環(huán)境的變化,以及通過(guò)比較不同個(gè)體、不同時(shí)間點(diǎn)、不同藥物作用時(shí)微生物的變化與疾病的相關(guān)性
1.5. 目前存在的技術(shù)問(wèn)題
- 分析難度大,分析成本高
隨著測(cè)序成本的下降和測(cè)序深度的增加,其分析難度將會(huì)越來(lái)越大,制約效應(yīng)也將會(huì)越來(lái)越明顯
預(yù)計(jì)的單位測(cè)序成本將會(huì)以指數(shù)關(guān)系下降,但其中計(jì)算成本下降的幅度會(huì)遠(yuǎn)慢于測(cè)序成
- 宏基因組全測(cè)序的分析主要受限于計(jì)算技術(shù)的發(fā)展
在數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理的層面上,rDNA和擴(kuò)增序列的分析難度較小,基本可以在個(gè)人電腦或者小型服務(wù)器上完成,但宏基因組全測(cè)序的分析卻主要受限于計(jì)算技術(shù)的發(fā)展
數(shù)據(jù)存儲(chǔ)的容量
原始測(cè)序數(shù)據(jù)量本來(lái)就不小,而隨后的分析又會(huì)產(chǎn)生10倍以上的數(shù)據(jù)量
序列的拼接
目前比較成熟的序列拼接算法都是基于一個(gè)或少數(shù)幾個(gè)基因組的數(shù)據(jù)(如 Genovo,MetaVelvet,MAP等),而對(duì) HiSeq 2000 所產(chǎn)生的宏基因組數(shù)據(jù)無(wú)能為力,其最主要的原因是所有的拼接算法都需要龐大的內(nèi)存資源,而這一需求遠(yuǎn)大于市面上最大的單服務(wù)器所支持的內(nèi)存數(shù)量(4 Tb 左右)
序列拼接、基因和基因功能預(yù)測(cè)的準(zhǔn)確性同速度之間的矛盾
拼接和基因預(yù)測(cè)算法往往需要耗費(fèi)大量的運(yùn)算資源,而很多近似或高速算法往往以犧牲準(zhǔn)確性作為代價(jià)。因此,如何在保證準(zhǔn)確性的前提下提高速度是決定宏基因組分析質(zhì)量的關(guān)鍵
- 數(shù)據(jù)挖掘的層面上存在難點(diǎn)
物種多樣性(Taxonomy diversity)、功能多樣性 (Functional diversity) 和遺傳多樣性(Genetic diversity)的估算
因?yàn)橄∮形锓N的大量檢出,經(jīng)典的估算方法如 Chao 等都會(huì)產(chǎn)生嚴(yán)重的偏差
宏觀生態(tài)理論在分子生態(tài)中的運(yùn)用
現(xiàn)代生態(tài)學(xué)經(jīng)過(guò) 20 世紀(jì)的發(fā)展已經(jīng)積累了大量成熟的理論和模型,然而大部分的生態(tài)群落理論還是建立在宏觀生態(tài)的基礎(chǔ)之上,這些理論是否也適用于微觀領(lǐng)域,現(xiàn)在還沒(méi)有明確的結(jié)果支持
微生物物種間關(guān)聯(lián)的不確定性
生物群落的結(jié)構(gòu)不僅包括多樣性和物種數(shù)量上的分布,而且應(yīng)該包含物種間的相互作用關(guān)系,而這些關(guān)系在物質(zhì)、能量、信息循環(huán)中起到了至關(guān)重要的作用。然而目前微生物物種間的相互作用往往法像宏觀生態(tài)中予以觀察和定性
2. 實(shí)驗(yàn)設(shè)計(jì)
即使在同一個(gè)環(huán)境中獲取的不同樣本,其微生物組成也會(huì)存在比較大的差異,這使得在樣本集之間,尋找具有統(tǒng)計(jì)學(xué)顯著性和生物學(xué)意義的差異變得很困難。因此如何做到,在即使其影響因素的作用程度很小的情況下,也能有效地檢測(cè)出差異就顯得十分重要。
- 評(píng)估實(shí)驗(yàn)與分析結(jié)果的可靠性
一種策略是,構(gòu)造 pilot data,即將不同濃度的絕對(duì)定量 control (spike-in) 加入到樣本中,來(lái)評(píng)估實(shí)驗(yàn)與分析方法的穩(wěn)健性(robust);
另一種策略:two-tiered approach,即挑取少部分樣本,既做 16s rDNA 測(cè)序,又做 shotgun metagenomics 測(cè)序,對(duì)比這兩個(gè)層次的結(jié)果來(lái)評(píng)估實(shí)驗(yàn)結(jié)果的穩(wěn)健性。
- 橫向/縱向 研究策略的比較
兩種研究策略:
- cross-sectional studies —— 橫向研究,又叫橫斷研究或橫向比較研究,就是在同一時(shí)間內(nèi)對(duì)每個(gè)對(duì)象進(jìn)行觀察與測(cè)定,在相互比較的基礎(chǔ)上對(duì)特定因素或各種因素間的關(guān)系進(jìn)行分析與考察的研究方案
- longitudinal studies —— 縱向追蹤研究,亦稱作縱向研究或追蹤研究,是在比較長(zhǎng)的時(shí)間內(nèi)對(duì)相同對(duì)象進(jìn)行有系統(tǒng)的定期研究,或者從時(shí)間的發(fā)展過(guò)程中考察研究對(duì)象的研究方案
由于在研究宏基因組過(guò)程中,比如研究人類的微生物群,影響其微生物群的因素眾多,包括宿主基因型,年齡,飲食習(xí)慣等等,當(dāng)進(jìn)行兩個(gè)環(huán)境微生物群橫向比較時(shí),很難做到控制變量,使得在進(jìn)行比較分析時(shí)混入了許多干擾因素;此時(shí)如果進(jìn)行單一環(huán)境微生物群多時(shí)間點(diǎn)采樣的縱向比較,就可以從很大程度上消除這種影響。
2.1. 幾點(diǎn)指導(dǎo)意見(jiàn)

1. 樣本量與測(cè)序深度
當(dāng)實(shí)驗(yàn)?zāi)康氖菣z出顯著性差異時(shí),樣本量與測(cè)序深度的選擇取決于(1)不同樣本間微生物組組成的一致性,(2)樣本固有的微生物多樣性,(3)影響因素的效應(yīng)量(effect size)
建議:參考前人在類似環(huán)境中的研究。若沒(méi)有可參照的類似研究,選擇marker gene做預(yù)實(shí)驗(yàn)
2. Confounding variables and control groups
在進(jìn)行宏基因組研究時(shí),往往很難找到與目標(biāo)樣本集對(duì)應(yīng)的沒(méi)有其他干擾因素的對(duì)照組
建議:目前最佳的解決策略是,盡可能地搜集各個(gè)樣本群體的元數(shù)據(jù) (metadata),然后在隨后的比較分析中將它們考慮進(jìn)去。比如臨床樣本,包括性別、年齡、是否使用抗生素/藥物、取樣位置、飲食習(xí)慣等等。比如環(huán)境樣本,包括地理位置、季節(jié)、pH、溫度等等。
元數(shù)據(jù)的搜集可以參照MIMARKS (Minimum information about a marker gene sequence) 和 MIxS (minimum information about any (x) gene sequence) 標(biāo)準(zhǔn)
3. Sample collection/preservation
樣本的處理和保存過(guò)程的差異會(huì)帶來(lái)系統(tǒng)偏差,比如when samples are provided from a number of locations by different research groups,或者在縱向研究中,不同取樣時(shí)間點(diǎn)的樣本的保存時(shí)間長(zhǎng)短不一。有時(shí)這些處理步驟的效應(yīng)量可能比你感興趣的生物學(xué)變量還大。
建議:盡可能按照相同的標(biāo)準(zhǔn)來(lái)進(jìn)行取樣和保存
4. Biomass/Contamination
當(dāng)前采用的基于測(cè)序的方法具有很高的靈敏度 (highly sensitive),即使非常微量的DNA也能被檢測(cè)出來(lái)。而實(shí)驗(yàn)室中使用到的常規(guī)儀器和試劑并不是無(wú)菌的,這樣就很可能在實(shí)驗(yàn)操作過(guò)程中,人為地引入污染。由于檢測(cè)方法的高靈敏度,當(dāng)原樣本的微生物量很少時(shí),污染帶來(lái)的信號(hào)很可能會(huì)蓋過(guò)真實(shí)的信號(hào)。
建議:在上機(jī)測(cè)序前,做好微生物量的定量 (qPCR)。當(dāng)樣品中的微生物數(shù)量少于105數(shù)量級(jí)時(shí),其極有可能會(huì)受到背景污染的干擾。此時(shí),可以參照以下的方法進(jìn)行細(xì)胞/DNA的富集:

可以增設(shè)負(fù)對(duì)照實(shí)驗(yàn) (Negative control),對(duì)其進(jìn)行與實(shí)際樣本相同的操作,使用相同的試劑,以此來(lái)找出污染的細(xì)菌類型,這樣就可以在后續(xù)的生物信息學(xué)分析過(guò)程中將其過(guò)濾掉。
5. 選擇合適的DNA提取方法
DNA提取的效果會(huì)直接對(duì)后續(xù)的實(shí)驗(yàn)和分析產(chǎn)生巨大的影響。DNA提取方法的選擇依賴于樣品中細(xì)胞類型的組成,然而即使是相同類型的樣品其微生物組成也具有較大的差異(當(dāng)人糞便中革蘭氏陰性菌主導(dǎo)時(shí),細(xì)胞很容易裂解,而當(dāng)由相對(duì)頑強(qiáng)的革蘭氏陽(yáng)性菌主導(dǎo)時(shí),則相反)。
因此不存在適用于所有樣品的最佳的DNA提取方案。
若方案選擇不當(dāng),則獲得的DNA主要來(lái)自于那些易裂解的細(xì)菌
建議:
2.2. 測(cè)序平臺(tái)的選擇
Illumina測(cè)序儀通量大 (up to 1.5 Tb per run),且準(zhǔn)確率高 (with a typical error rate of 0.1–1%),通過(guò)在不同樣本的序列上添加兩重barcode,可以一次測(cè)序多個(gè)samples。
然而,Illumina測(cè)序儀存在carryover (between runs) 和 carry-between (within runs)的問(wèn)題。最新的測(cè)序儀由于使用了新的擴(kuò)增方法 (ExAmp),導(dǎo)致較高比例的‘index hopping’。
雖然沒(méi)有一個(gè)明確的指導(dǎo)意見(jiàn),告訴你在哪個(gè)特定的環(huán)境樣品中應(yīng)該測(cè)多大的覆蓋度,但是一個(gè)基本的原則就是通量要盡可能地大,這樣低豐度的細(xì)菌也能被測(cè)到。Illumina HiSeq 2500/4000, NextSeq 和 NovaSeq 的測(cè)序通量都很大,都適用于 metagenomics 的研究。
HiSeq 2500 在 rapid-run 模式下能產(chǎn)生 2 × 250-nt 的 reads (up to 180 Gb per flow cell),在 high-output 模式下能產(chǎn)生 2 × 125-nt 的 reads (up to 1 Tb)
新一些的HiSeq 3000 和 4000,通量提高 (up to 1.5 Tb for the 4000),但是測(cè)序長(zhǎng)度限制在 150nt
NextSeq 的通量與 HiSeq 2500 的 high-output 模式相同,而花費(fèi)只有Hiseq的一半,但是長(zhǎng)度限制為 150nt
最近才推出的 Novaseq 有望達(dá)到 3 Tb per flow cell
MiSeq 受制于它的通量 (up to 15 Gb in 2 × 300 mode),但仍然是目前 single-marker-gene microbiome studies 的金標(biāo)準(zhǔn)
3. Metagenome assembly
Metagenome de novo assembly 采用的策略與 whole-genome assembly 相同,均為 de Bruijn 圖方法
用 de Bruijn 圖方法進(jìn)行宏基因組的從頭組裝時(shí),面臨著以下的挑戰(zhàn):
- 測(cè)序覆蓋度不均勻
當(dāng)進(jìn)行單一基因組的組裝時(shí),其有一個(gè)前提假設(shè):整個(gè)基因組的測(cè)序覆蓋度是相對(duì)均勻的,這樣就可以利用覆蓋度信息來(lái)識(shí)別重復(fù)序列和鑒定測(cè)序錯(cuò)誤和等位變異。
而metagenome中,各個(gè)組成基因組的覆蓋度取決于它們的物種豐度,低豐度物種的基因組就會(huì)由于總體測(cè)序深度不夠而使得最終組裝出來(lái)的基因組是支離破碎的。使用更短的 k-mer 有助于低豐度基因組的組裝,但是這會(huì)使得圖中重復(fù) k-mer 的頻率大大增加,降低了組裝的準(zhǔn)確性。
這需要組裝工具在考量低豐度物種與獲得高豐度物種更長(zhǎng)更準(zhǔn)確的contig之間進(jìn)行權(quán)衡,即選擇合適的 k-mer :
If k is too large, there will be a lot of gap problems in the graph.
If k is too small, there will a lot of branch problems.
Meta-IDBA:使用多重 k-mer
IDBA-UD:基于Meta-IDBA的升級(jí),對(duì)測(cè)序深度不均勻數(shù)據(jù)的組裝過(guò)程進(jìn)行了優(yōu)化
- 同種細(xì)菌不同菌株的干擾
同種細(xì)菌的不同菌株,它們的基因組組成很相近,常常就是一個(gè)堿基的變異或者整個(gè)基因/操縱子的丟失,當(dāng)進(jìn)行 de Bruijn 圖組裝時(shí),就會(huì)在這些差異的位置出現(xiàn)分叉,組裝工具在遇到這些分叉時(shí),常常會(huì)停在這些位置,從而導(dǎo)致一個(gè)個(gè)不連續(xù)組裝片段的產(chǎn)生。
Meta-IDBA:將圖依據(jù)其拓?fù)浣Y(jié)構(gòu)拆分成各個(gè)元件,每個(gè)元件代表各個(gè)亞種的共有區(qū)域
Meta-IDBA handles this problem grouping similar regions of similar subspecies by partitioning the graph into
components based on the topological structure of the graph. Each component represents a similar region between
subspecies from the same species or even from different species. After the components areseparated, all contigs
in it are aligned to produced a consensus and also the multiple alignment.
解決計(jì)算能力與內(nèi)存不足的策略:
使用分布式 assemblers,例如 ABySS、Ray
將metagenome的組裝圖分割成相互連接的部分,然后在各個(gè)部分內(nèi)部分別進(jìn)行相對(duì)獨(dú)立地組裝,即分而治之的策略。
4. 宏基因組binning
Metagenome 組裝完成后,我們得到的是成千上萬(wàn)的 contigs,我們需要知道哪些 contigs 來(lái)自哪一個(gè)基因組,或者都有哪些微生物的基因組。所以需要將 contigs 按照物種水平進(jìn)行分組歸類,稱為 "bining"
Supervised binning methods: use databases of already sequenced genomes to label contigs into taxonomic classes
Unsupervised (clustering) methods: look for natural groups in the data
Both supervised and unsupervised methods have two main elements: a metric to define the similarity between a given contig and
a bin, and an algorithm to convert those similarities into assignments
一個(gè)很容易想到的策略就是,將組裝得到的片段與已知物種的參考基因組進(jìn)行比對(duì),根據(jù)同源性進(jìn)行歸類。然而目前大多數(shù)的微生物的基因組還沒(méi)有測(cè)序出來(lái),因此限制了這種方法的可行性。
目前主流的 bining 策略利用的是 contigs 的序列組成特點(diǎn)。
4.1. binning原理

- 根據(jù)核酸組成信息來(lái)進(jìn)行binning:k-mer frequencies
依據(jù):來(lái)自同一菌株的序列,其核酸組成是相似的
例如根據(jù)核酸使用頻率(oligonucleotide frequency variations),通常是四核苷酸頻率(tetranucleotide frequency),GC含量和必需的單拷貝基因等
優(yōu)勢(shì):即便只有一個(gè)樣品的宏基因組數(shù)據(jù)也可以進(jìn)行binning,這在原理上是可操作的
不足:由于很多微生物種內(nèi)各基因型之間的基因組相似性很高,想利用1個(gè)樣品的宏基因組數(shù)據(jù)通過(guò)核酸組成信息進(jìn)行binning,效果往往并不理想或難度很大。利用核酸組成信息進(jìn)行binning,基本上只適合那些群落中物種基因型有明顯核酸組成差異的,例如低GC含量和一致的寡核苷酸使用頻率
- 根據(jù)豐度信息來(lái)進(jìn)行binning
依據(jù):來(lái)自同一個(gè)菌株的基因在不同的樣品中 ( 不同時(shí)間或不同病理程度 ) 的豐度分布模式是相似的【PMID: 24997787】。
原因:比如,某一細(xì)菌中有兩個(gè)基因,A和B,它們?cè)谠摷?xì)菌基因組中的拷貝數(shù)比例為 A:B = 2:1,則不管在哪個(gè)樣品中這種細(xì)菌的數(shù)量有多少,這兩個(gè)基因的豐度比例總是為 2:1
優(yōu)勢(shì):這種方法更有普適性,一般效果也比較好,能達(dá)到菌株的水平
不足:必須要大樣本量,一般至少要50個(gè)樣本以上,至少要有2個(gè)組能呈現(xiàn)豐度變化 ( 即不同的處理,不同的時(shí)間,疾病和健康,或者不同的采樣地點(diǎn)等 ) ,每個(gè)組內(nèi)的生物學(xué)重復(fù)也要盡量的多
對(duì)于像質(zhì)粒這樣的可移動(dòng)遺傳單元 (mobile genetic elements (MGEs)),由于其復(fù)制獨(dú)立于細(xì)菌染色體,則同一種細(xì)菌的不同個(gè)體,該質(zhì)粒的拷貝數(shù)可能存在差異,使得無(wú)法用豐度信息進(jìn)行有效地bining
- 同時(shí)依據(jù)核酸組成和豐度變化信息
將核酸組成信息和豐度差異信息創(chuàng)建一個(gè)綜合的距離矩陣,既能保證binning效果,也能相對(duì)節(jié)約計(jì)算資源,現(xiàn)在比較主流的binning軟件多是同時(shí)依據(jù)核酸組成和豐度變化信息
- 根據(jù)基因組甲基化模式
依據(jù):不同的細(xì)菌,其基因組甲基化模式不同,平均一種細(xì)菌有3種特意的甲基化 motif。MGEs (mobile genetic elements) 中含有 MTase 基因,其基因水平轉(zhuǎn)移是細(xì)菌甲基化組多樣性的驅(qū)動(dòng)因素。雖然 MGEs 在不同個(gè)體的拷貝數(shù)不同,但是都存在,因此具有相同 MGEs 的細(xì)菌個(gè)體,其總遺傳物質(zhì)(包括染色體和 MGEs )都會(huì)受到相同的MTase的作用而得到相同的甲基化模式。
4.2. binning具體操作
Q1:從哪些序列下手進(jìn)行binning呢?
從原始的clean reads,還是從組裝成的contig,還是從預(yù)測(cè)到的gene,都可以。根據(jù)基于聚類的序列類型的不同,暫且分為reads binning, contig binning和 genes binning
比較這三種binning的優(yōu)劣:
contig binning
由于核酸組成和物種豐度變化模式在越長(zhǎng)的序列中越顯著和穩(wěn)定,基于contig binning效果可能更好
reads binning
基于reads binning的優(yōu)勢(shì)是可以聚類出宏基因組中豐度非常低的物種
考慮到在宏基因組組裝中reads利用率很低,單樣品5Gb測(cè)序量情況下,環(huán)境樣品組裝reads利用率一般只有10%左右,腸道樣品或極端環(huán)境樣品組裝reads利用率一般能達(dá)到30%,這樣很多物種,尤其是低豐度的物種可能沒(méi)有被組裝出來(lái),沒(méi)有體現(xiàn)在gene 或者contig 中,因此基于reads binning 才有可能得到低豐度的物種
genes binning
應(yīng)用非常廣泛
原因可能是(1)基于genes豐度變化模式進(jìn)行binning可操作性比較強(qiáng),宏基因組分析中肯定都會(huì)計(jì)算gene豐度,一般不會(huì)計(jì)算contig豐度,gene豐度數(shù)據(jù)可以信手拈來(lái);(2)基于genes binning有很多可參考的文獻(xiàn),過(guò)程也并不復(fù)雜,可復(fù)制性強(qiáng);(3)對(duì)計(jì)算機(jī)資源消耗比較低
總體來(lái)說(shuō)應(yīng)用最廣泛的就是基于genes binning 和 contig binning
Genes binning的一般流程
在宏基因組做完組裝和基因預(yù)測(cè)之后,把所有樣品中預(yù)測(cè)到的基因混合在一起,去冗余得到unique genes集合,對(duì)這個(gè)unique genes集合進(jìn)行binning,主要是根據(jù)gene在各個(gè)樣品中的豐度變化模式,計(jì)算gene之間的相關(guān)性,利用這種相關(guān)性進(jìn)行聚類

該圖中的聚類過(guò)程類似于K-means聚類:隨機(jī)選擇幾個(gè)seed genes作為誘餌,計(jì)算其他基因豐度分布模式與seed genes的相關(guān)性,按照固定的相關(guān)性值PCC>0.9,將它們歸屬于不同seed genes所代表的類,然后在聚好的類內(nèi)重新選擇seed genes,進(jìn)行迭代,最終聚類得到一個(gè)個(gè)基因集合,較大的集合(超過(guò)700個(gè)基因)稱為 metagenomic species (MGS),較小的集合稱為 co-abundance gene group (CAG)
基于 bining 結(jié)果進(jìn)行單菌組裝:
Sequence reads from individual samples that map to the MGS genes and their contigs are then extracted and used to assembly a draft genome sequence for an MGS
4.3. 目前binning工具存在的問(wèn)題
- 還有很多可提升的空間
比如對(duì)核酸組成信息的利用,開發(fā)得就不夠充分,四堿基使用頻率因簡(jiǎn)單而被廣泛使用和接受,但現(xiàn)在已有研究表明k-mer豐度信息也是很好的種系特征,同時(shí)越長(zhǎng)的k-mer含有越多的信息,還有基因和參考基因組間的同源關(guān)系也是有價(jià)值的種系信號(hào),但這些都還沒(méi)有被自動(dòng)化的binning軟件整合
- 對(duì)于參數(shù)設(shè)置是很敏感的,且只有有限的可調(diào)整的參數(shù)
想要獲得高質(zhì)量的bins經(jīng)常需要手動(dòng)調(diào)整
5. Taxonomic profiling
Taxonomic profiling: identifies which microbial species are present in a metagenome and estimates their abundance
5.1. Assembly-free strategy
- reference-based approaches
優(yōu)點(diǎn):
mitigate assembly problems
speed up computation
enable profiling of low-abundance organisms that cannot be assembled de novo
當(dāng)然它也有局限性:
previously uncharacterized microbes are difficult to profile
對(duì)于與人類密切相關(guān)的樣品,比如人腸道,可以使用該策略,而且已經(jīng)有相關(guān)的成功實(shí)踐
- Marker-based approaches: by selecting representative or discriminative genes (markers)
By looking at co-abundant markers from preassembled environment-specific gene catalogs
即前人研究 (MetaHIT consortium) 已經(jīng)得出特定環(huán)境下的微生物的組成,這些微生物中有某些 co-abundant markers(這些 marker genes 的豐度與其物種的豐度成正比),這樣就可以基于對(duì)這些 markers 的定量得到對(duì)應(yīng)的物種豐度
選擇 markers 的不同策略:
mOTU: universally conserved but phylogenetically informative markers
MetaPhlAn: several thousand clade-specific markers
with high discriminatory power and was effective to quantitatively profile the microbiome from multiple body areas for the Human Microbiome Project (HMP) with a very low false positive discovery rate
當(dāng)樣本量巨大,都進(jìn)行組裝是明顯不切實(shí)際的,此時(shí)采用 marker-based approaches 是一個(gè)不錯(cuò)的選擇;而且,如果該環(huán)境來(lái)源的樣本其組成微生物是研究比較充分時(shí),marker-based approaches 能得到比較準(zhǔn)確的物種定量結(jié)果。
5.2. 比較 Assembly-based profiling 與 Read-based profiling
| Assembly-based profiling | Read-based profiling |
|---|---|
![]() |
![]() |
6. Metabolic function profiling
Gene identification
homology-based annotation pipelines
translated sequence searches against functionally characterized protein families, such as KEGG or UniProt
Characterization of the functional potential of the microbiome
- 策略一:Aggregate single protein families into higher-level metabolic pathways and functional modules

Cleaned short DNA reads are aligned to the KEGG Orthology(or any other characterized sequence database) using accelerated translated BLAST.
Gene family abundances are calculated as weighted sums of the alignments from each read, normalized by gene length and alignment quality.
Assigning gene families to pathways and modules
Pathway reconstruction is performed using a maximum parsimony approach followed by taxonomic limitation (to remove false positive pathway identifications) and gap filling (to account for rare genes in abundant pathways).
The resulting output is a set of matrices of pathway coverages (presence/absence) and abundances
局限性: lack of annotations for accessory genes in most microbial species
因?yàn)樵谠u(píng)估微生物群體的代謝潛能時(shí),只對(duì)那些高度保守和 housekeeping 類型的功能進(jìn)行了注釋,這就解釋了,為什么來(lái)自不同環(huán)境的不同樣品,它們的功能特征常常是十分相似的,即使它們的物種組成有很大差異。
- 策略二:An in-depth characterization of specific functions of interest
例如,鑒定出微生物群落中的抗生素抗性基因,該方法高度依賴特定功能相關(guān)基因集注釋的質(zhì)量。
參考資料:
(1) 魏子艷, 金德才, 鄧曄. 環(huán)境微生物宏基因組學(xué)研究中的生物信息學(xué)方法[J]. 微生物學(xué)通報(bào), 2015, 42(5):890-901.
(2) Quince C, Walker A W, Simpson J T, et al. Shotgun metagenomics, from sampling to analysis[J]. Nature Biotechnology, 2017, 35(9):833.
(4) Nielsen H B, Almeida M, Juncker A S, et al. Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes[J]. Nature Biotechnology, 2014, 32(8):822-828.
(5) Sangwan N, Xia F, Gilbert J A. Recovering complete and draft population genomes from metagenome datasets[J]. Microbiome, 2016, 4(1):8.
(6) Abubucker, S. et al. Metabolic reconstruction for metagenomic data and its application to the human microbiome. PLoS Comput. Biol. 8, e1002358(2012).
(7) Beaulaurier J, Zhu S, Deikus G, et al. Metagenomic binning and association of plasmids with bacterial host genomes using DNA methylation.[J]. Nature Biotechnology, 2017, 36(1).



