2.1 微生物組數(shù)據(jù)
微生物組數(shù)據(jù)是通過16SrRNA基因測序和宏基因組測序產(chǎn)生的。生物信息學工具包括QIIME和MOTHUR。例如,在對原始序列進行預處理之后,有兩種方式可用于生成可分析的微生物組數(shù)據(jù)。16S序列以依賴于分類學的方式被映射到現(xiàn)有的系統(tǒng)發(fā)育樹,或是以獨立于分類的方式根據(jù)相似性聚集到OTU(操作分類單元)。第一種方式使用現(xiàn)有的系統(tǒng)發(fā)育樹結(jié)構(gòu)來生成微生物組數(shù)據(jù)集,而第二種方式根據(jù)相似性水平對序列進行聚類,然后將其分配到不同的分類水平。在第二種方式中,根據(jù)序列相似性將來自擴增片段的reads聚類到OTU中,然后將OTU分層地分配到在界、門、綱、目、科、屬和種等級的分類樹,使用可用的方法進行準確的分類指定,包括BLAST,the online Greengenes和RDP分類器,以及基于系統(tǒng)發(fā)育樹和基于多聚體聚類樹的方法。比較了這些方法并推薦使用Greengenes或RDP分類器。分類分配產(chǎn)生的最終數(shù)據(jù)是分配給已知分類樹節(jié)點的讀取計數(shù)表(細菌分類群)。根據(jù)讀取計數(shù)量化的讀取計數(shù)或相對豐度表可用于分析和模擬微生物組組成。
2.2?微生物組數(shù)據(jù)結(jié)構(gòu)
微生物組數(shù)據(jù)以系統(tǒng)發(fā)育樹的形式構(gòu)建:微生物組數(shù)據(jù)的一個獨特特征是系統(tǒng)發(fā)育樹結(jié)構(gòu)。一個群落中的細菌分類群并不是隨機分布的,它們通常不僅相互依賴,而且還存在著細菌間的系統(tǒng)發(fā)育關(guān)系,這為研究細菌分類群之間的進化關(guān)系提供了解:一個系統(tǒng)發(fā)育樹。系統(tǒng)發(fā)育樹已經(jīng)被定義為生物學中無處不在的圖形,它描述了一組物種之間的進化關(guān)系或?qū)⑺屑毦锓N聯(lián)系在一起。它由多個層次組成。系統(tǒng)發(fā)育樹結(jié)構(gòu)表明,不同微生物之間的類群關(guān)系不僅是分類上的,而且是進化的。樹上距離較近的類群往往對環(huán)境因素有相似的反應或具有相似的生物學功能。
樣本特征列聯(lián)表:根據(jù)研究領域和用于生成高通量數(shù)據(jù)的生物信息學工具的不同,微生物組研究和基因組學通常都有一種數(shù)據(jù)結(jié)構(gòu),稱為樣本特征列聯(lián)表。計數(shù)表通常以行為特征,以列為樣本。一般而言,“特征”指的是OTU、基因、分類水平、序列變體、轉(zhuǎn)錄本、變量等中的任何一個?!皹颖尽币卜Q為復制、主題、對象、描述符等。在其他字段中,數(shù)據(jù)矩陣的行可以是主題,而列可以是變量。在不同的研究領域,行和列可以有不同的名稱;例如,在生態(tài)學中,主要數(shù)據(jù)結(jié)構(gòu)是逐個物種的矩陣,其中包含豐度、相對豐度或在不同采樣點觀察到的物種(或其他分類單元)的存在。在微生物組文獻中,研究人員經(jīng)常使用OTU、分類單元、屬和種來指代這些特征。因此,微生物組研究的主要數(shù)據(jù)結(jié)構(gòu)是類群表或OTU表。分類群(或OTU)表具有與初級生態(tài)數(shù)據(jù)相同的數(shù)據(jù)結(jié)構(gòu),但具有多個細菌分類群的系統(tǒng)發(fā)育級別。

一些統(tǒng)計程序可能更喜歡數(shù)據(jù)采用逐個特征樣本(Taxon/OTU)的格式。在這種情況下,需要在分析之前調(diào)換行和列。在本書中,傾向于使用逐個樣本的分類單元或逐個樣本的分類單元來指代微生物組數(shù)據(jù)結(jié)構(gòu)。但是,當按樣本表在不同的上下文中使用時,例如在不同的程序和包中,也使用不同的名稱來標記行和列。注意到,我們使用它們是可交換的。我們在表2.1中總結(jié)了逐個樣本的特征列聯(lián)表的一些行名和列名。
OTU Table :下表展示了OTU表。這通常是在處理OTU后從16S rRNA基因測序中得到的結(jié)果。該表是從我們發(fā)表的論文中使用的數(shù)據(jù)集中提取的。該表記錄了基于16S rRNA測序的4個提取樣本中10種細菌的計數(shù)。表2.3是OTU表的另一個版本。OTU表中的每一行對應于最后一列中包含分類單元信息的OTU,而其他每一列對應于一個樣本。


Taxa Count Table:下表用于說明分類群計數(shù)表的外觀。該表是從論文中根據(jù)16SrRNA測序使用的相同數(shù)據(jù)集中提取的,記錄了4個提取樣品中10個屬水平的細菌計數(shù)。表中的每一行對應于一個屬,而每列記錄對應于一個樣本的reads數(shù)。門、綱、科、目和種的級別具有相同的數(shù)據(jù)結(jié)構(gòu)。

Taxa Percent Table:下表說明了分類百分比表。顧名思義,它具有相同的數(shù)據(jù)結(jié)構(gòu),行名和列名與分類群計數(shù)表中的名稱相同。每個單元格中的值只是通過將分類群計數(shù)表中的reads 數(shù)除以樣本中該分類單元的reads總數(shù)來計算出來的。

2.3 微生物組數(shù)據(jù)特征
微生物組數(shù)據(jù)有幾個特點。微生物群落計數(shù)數(shù)據(jù)(OTU計數(shù)、類群豐度)具有自然約束性、高維、稀疏性,在OTU(分類群)表中含有較大比例的零計數(shù),不同OTU(分類群)之間具有復雜的協(xié)方差和相關(guān)結(jié)構(gòu),且過度分散,組內(nèi)異質(zhì)性較大。
微生物組數(shù)據(jù)組成:微生物組計數(shù)數(shù)據(jù)(來自16S rRNA測序的OTUS或分類群豐度數(shù)據(jù))由兩個關(guān)鍵幾何屬性組成。首先,所有組件值的總和(有時稱為庫大小)是采樣過程的產(chǎn)物。文庫的大小可能會受到許多因素的影響,例如技術(shù)上的可變性或特定于實驗的豐度的差異。其次,成分數(shù)據(jù)是成比例的,即分量值之間的距離只有成比例才有意義。構(gòu)成要素是非負和合一的。
微生物組數(shù)據(jù)是高維的和不確定的:微生物組序列數(shù)據(jù)集是具有數(shù)萬個不同類別的高維數(shù)據(jù)集。它們不能鑒定,分類群或OTUS的數(shù)量遠遠大于樣本的數(shù)量。例如,在我們的小鼠腸道微生物組數(shù)據(jù)集中,共有8份樣本(5份來自VDR鎖定,3份來自野生型小鼠)。然而,在屬級有248個細菌。高維可能導致大p小n問題,并對微生物組數(shù)據(jù)的分析提出統(tǒng)計挑戰(zhàn)。
微生物組數(shù)據(jù)過于分散:分類群計數(shù)數(shù)據(jù),無論是來自微生物組研究中擴增子測序?qū)嶒灥姆诸恟eads或OTU計數(shù),還是來自RNA測序?qū)嶒灥牟町惐磉_數(shù)據(jù),通常都是過度分散的,這表明讀取計數(shù)的方差大于預先假設的典型多項式回歸(即泊松回歸)預測的方差。微生物組數(shù)據(jù)的過度分散問題是由于以下事實:(1)DNA或RNA測序的文庫大小相差很大,(2)在所提出的普通多項式回歸模型下,OTU(分類群)計數(shù)比例的變化比預期的要大。
微生物組數(shù)據(jù)稀疏,有許多零點:在微生物組數(shù)據(jù)中,稀疏性被認為是在樣本中缺少許多分類群,并且在大多數(shù)實驗中都會產(chǎn)生零。微生物類群豐度,特別是分類水平較低或OTU計數(shù)較低的類群豐度往往有許多零和右偏。根據(jù)零點的來源,經(jīng)常涉及兩種零點:由于采樣變異性而導致的采樣零點和考慮模型下高于和超過預期零點頻率的結(jié)構(gòu)零點。抽樣零也稱為計數(shù)零。計數(shù)用于記錄事件發(fā)生的次數(shù)。計數(shù)數(shù)據(jù)是分類數(shù)據(jù),其中計數(shù)表示落入若干類別中每一類別的物品數(shù)量。如果事件不是在特定情況下發(fā)生,但可能在另一種情況下發(fā)生,則會出現(xiàn)計數(shù)零。這種類型的零是由于采樣問題造成的,因為可能由于樣本大小有限而無法觀察到分量,或者由于技術(shù)限制而無法檢測到分量。換句話說,零是由于樣本不夠大。未觀察到的正值可以通過更多的試驗或不同的抽樣設計來觀察。因此,它們也被稱為采樣零點。結(jié)構(gòu)性零,基本零、真正的零?;蚪^對零度在給定的觀察中被調(diào)用,當該部分沒有正確定義或由于某些確定性原因根本不能存在時。它的意思是“一個真正為零的部件,而不是僅僅因為實驗設計或測量儀器沒有記錄為零而記錄為零的部件已經(jīng)足夠靈敏,能夠檢測到該部件的痕跡“。例如,真正代表特定樣本中沒有分類群的零屬于結(jié)構(gòu)零。在微生物組文獻中,除了取樣和結(jié)構(gòu)零之外,還有四舍五入的零。連續(xù)變量大多出現(xiàn)四舍五入的零。這是由于抽樣不足造成的。實際上,它不是真正的零,而是表示低于特定最大可能舍入誤差或低于檢測值或限值的觀測值。微生物組數(shù)據(jù)中存在許多零的原因可能是由于結(jié)構(gòu)本身和采樣(例如,生物和技術(shù)的可變性)。零可能來自結(jié)構(gòu)本身。分類群或OTUS豐度經(jīng)常被夸大為零,因為分類群(OTUS)是依賴于主題的,每個主題都有一個獨特的分類群/OTUS組成。在樣本中觀察到分類單元或OTU的零計數(shù)是因為分類單元(OTU)在物理上或生物上在主體中不存在(結(jié)構(gòu)上的零)。零計數(shù)是由于真正發(fā)現(xiàn)了低豐度的分類群,這些分類群只存在于少數(shù)樣本中。例如,標記基因研究中最多的分類群(OTU)很少。因此,它們沒有出現(xiàn)在大量的樣本中。采樣導致在給定實驗中未觀察到或未檢測到的分類群(OTU)。首先,在大多數(shù)實驗中,零可能來自測序偽像和樣本之間高度可變的測序深度。其次,當測量給定的組件時,也會出現(xiàn)零。例如,當受影響的變量出現(xiàn)概率低且計數(shù)總數(shù)也相對較低時,分量可能低于檢測限值。在數(shù)據(jù)處理中也會出現(xiàn)零。例如,微生物組數(shù)據(jù)通常通過將觀察到的計數(shù)除以reads總數(shù)來轉(zhuǎn)換成比例的組成矢量。由于稀有類群的存在,如果已知的參考序列不同或使用不同的歸一化方法,在比對和歸一化過程中可能會出現(xiàn)許多計數(shù)為零的條目。
2.4 微生物組數(shù)據(jù)過度分散和零膨脹示例
下表是過度分散和零膨脹分類群(OTUS)豐度數(shù)據(jù)的示例。物種級別的數(shù)據(jù)來自對32名未懷孕和22名孕婦的陰道微生物區(qū)系的病例對照縱向研究,這些婦女在足月(38-42周)分娩。物種豐度數(shù)據(jù)有許多零。0的比例最低的是乳桿菌,占14.44%,最高的是無尾鏈球菌,占73.78%。這28個物種的平均給出了58.57%的零。對于每個物種,方差遠遠大于其平均值,表明數(shù)據(jù)中存在過度離散性。

2.5 微生物組數(shù)據(jù)模型的挑戰(zhàn)
具有系統(tǒng)發(fā)育樹結(jié)構(gòu)的微生物組數(shù)據(jù)是高維的,不確定的,過度分散的,通常是稀疏的,有許多零點。對這些類型的特征數(shù)據(jù)進行建模給傳統(tǒng)的統(tǒng)計工具帶來了巨大的挑戰(zhàn)。統(tǒng)計學上的挑戰(zhàn)包括①如何合并分類群/OTUS系統(tǒng)發(fā)育樹信息;②如何降維并解決大p和小n問題;③如何處理稀有類群(OTUS);④如何對過度分散和零膨脹的微生物組數(shù)據(jù)進行建模。例如,人類腸道中細菌的豐富程度具有較低分類水平上越來越多的零和右傾的特點。零值和小值是稀疏性的一個主要來源。
稀疏性是16S rRNA序列數(shù)據(jù)分析中的一個挑戰(zhàn),因此,多個零點的稀疏性問題是微生物組數(shù)據(jù)分析中的一個中心課題。首先,具有多個零的稀疏性給參數(shù)模型帶來了關(guān)鍵挑戰(zhàn),以便為有意義的推斷做出準確的方差估計,即使這樣的估計在主要由零組成的樣本上基本上也是不可能的。例如,當分類群稀疏且有許多零時,分類群或OTUS豐度的分布和分類群或OTUS發(fā)生概率的分布都是傾斜的,這導致零膨脹。由于零膨脹,帶過多零點的類群豐度不能用任何標準參數(shù)模型來正確分析,例如正態(tài)分布、二項分布、泊松分布、負二項分布和貝塔分布。其次,具有多個零點的稀疏性也使得非參數(shù)方法失效。非參數(shù)方法基于秩或中值;因此,通常對異常值不敏感或更“穩(wěn)健”,避免做出可能被稀疏樣本歪曲的方差估計。在多個分類單元零點多、可用樣本少的情況下,用非參數(shù)方法對低豐度分類單元進行推斷能力不足。綜上所述,傳統(tǒng)的參數(shù)模型和非參數(shù)方法都不適合分析零點較多的稀疏微生物數(shù)據(jù)。因此,分析含有過多零點的稀疏微生物組數(shù)據(jù)是一個真正的挑戰(zhàn)。不考慮過多的零點可能會導致參數(shù)估計有偏差和誤導性推斷。
2.6?總結(jié)
本文總結(jié)了微生物組數(shù)據(jù)的結(jié)構(gòu)和特點。給出了OTU(分類群)表,提供真實的微生物群結(jié)構(gòu)和分布情況。微生物組數(shù)據(jù)是成分組成的、高維的、不確定的、過度分散的,而且通常是稀疏的,零點過多。這些功能挑戰(zhàn)了標準的統(tǒng)計工具,使得參數(shù)模型和非參數(shù)模型都無效。