1. 隨機(jī)森林模型
隨機(jī)森林是一種基于決策樹(Decisiontree)的高效的機(jī)器學(xué)習(xí)算法,可以用于對樣本進(jìn)行分類(Classification),也可以用于回歸分析(Regression)。
它屬于非線性分類器,因此可以挖掘變量之間復(fù)雜的非線性的相互依賴關(guān)系。通過隨機(jī)森林分析,可以找出能夠區(qū)分兩組樣本間差異關(guān)鍵OTU。
Feature Importance Scores表格-來源于隨機(jī)森林結(jié)果
記錄了各OTU對組間差異的貢獻(xiàn)值大小。

注:一般地,選取Mean_decrease_in_accuracy值大于0.05的OTU,作進(jìn)一步分析;對于組間差異較小的樣本,該值可能會降至0.03。
2. 交叉驗(yàn)證分析
交叉驗(yàn)證(Crossvalidation),是一種統(tǒng)計(jì)學(xué)上將數(shù)據(jù)樣本切割成較小子集的實(shí)用方法。先在一個子集上做分析,而其它子集則用來做后續(xù)對此分析的確認(rèn)及驗(yàn)證。一開始的子集被稱為訓(xùn)練集。而其它的子集則被稱為驗(yàn)證集或測試集。
其中最常見的為k-foldercross-validation,它指的是將所有數(shù)據(jù)分成k個子集,每個子集均做一次測試集,其余的作為訓(xùn)練集。交叉驗(yàn)證重復(fù)k次,每次選擇一個子集作為測試集,并將k次的平均交叉驗(yàn)證識別正確率作為結(jié)果。
所有的樣本都被作為了訓(xùn)練集和測試集,每個樣本都被驗(yàn)證一次。
對隨機(jī)森林方法篩選出的關(guān)鍵OTU的組合進(jìn)行遍歷,以期用最少的OTU數(shù)目組合構(gòu)建一個錯誤率最低高效分類器。
一般地,對隨機(jī)森林分析篩選出的關(guān)鍵OTU,按照不同組合進(jìn)行10倍交叉驗(yàn)證分析,找出能夠最準(zhǔn)確區(qū)分組間差異的最少的OTU組合,再做進(jìn)一步的分析,如ROC分析等。

注:圖中橫坐標(biāo)表示不同數(shù)量的OTU組合,縱坐標(biāo)表示該數(shù)量OTU組合下分類的錯誤率。OTU組合數(shù)越少,且錯誤率越低,則該OTU組合被認(rèn)為是能夠區(qū)分組間差異的最少的OTU組合。
3. ROC曲線
接收者操作特征曲線(Receiveroperating characteristic curve,ROC 曲線)也是一種有效的有監(jiān)督學(xué)習(xí)方法。ROC分析屬于二元分類算法,用來處理只有兩種分類的問題,可以用于選擇最佳的判別模型,選擇最佳的診斷界限值。
可依據(jù)專業(yè)知識,對疾病組和參照組測定結(jié)果進(jìn)行分析,確定測定值的上下限、組距以及截?cái)帱c(diǎn)(cut-offpoint),按選擇的組距間隔列出累積頻數(shù)分布表,分別計(jì)算出所有截?cái)帱c(diǎn)的敏感性(Sensetivity)、特異性和假陽性率(1-特異性:Specificity)。以敏感性為縱坐標(biāo)代表真陽性率,(1-特異性)為橫坐標(biāo)代表假陽性率,作圖繪成ROC曲線。ROC曲線越靠近左上角,診斷的準(zhǔn)確性就越高。亦可通過分別計(jì)算各個試驗(yàn)的ROC曲線下的面積(AUC)進(jìn)行比較,哪一種試驗(yàn)的AUC最大,則哪一種試驗(yàn)的診斷價值最佳。

注:圖中橫坐標(biāo)為假陽性率false positive rate(FPR):Specificity,縱坐標(biāo)為真陽性率true positive rate(TPR):Sensetivity。最靠近左上角的ROC曲線的點(diǎn)是錯誤最少的最好閾值,其假陽性和假陰性的總數(shù)最少。ROC曲線下的面積值在1.0和0.5之間。在AUC>0.5的情況下,AUC越接近于1,說明診斷效果越好。AUC在 0.5~0.7時有較低準(zhǔn)確性,AUC在0.7~0.9時有一定準(zhǔn)確性,AUC在0.9以上時有較高準(zhǔn)確性。AUC=0.5時,說明診斷方法完全不起作用,無診斷價值。AUC<0.5不符合真實(shí)情況,在實(shí)際中極少出現(xiàn)。
4. Wilcoxon秩和檢驗(yàn)分析
Wilcoxonrank-sum test,也叫曼-惠特尼U檢驗(yàn)(Mann–WhitneyU test),是兩組獨(dú)立樣本非參數(shù)檢驗(yàn)的一種方法。其原假設(shè)為兩組獨(dú)立樣本來自的兩總體分布無顯著差異,通過對兩組樣本平均秩的研究來實(shí)現(xiàn)判斷兩總體的分布是否存在差異,該分析可以對兩組樣品的物種進(jìn)行顯著性差異分析,并對p值計(jì)算假發(fā)現(xiàn)率(FDR)q值。

注:mean分別為兩組樣品物種的平均相對豐度,sd分別是兩組樣本物種相對豐度的標(biāo)準(zhǔn)差。P值為對兩組檢驗(yàn)原假設(shè)為真的概率值,p<0.05表示存在差異,p<0.01表示差異顯著,q值為假發(fā)現(xiàn)率。
5. 差異菌群Heatmap分析
以10倍交叉驗(yàn)證(10-foldcross-validation)估計(jì)泛化誤差(Generalizationerror)的大小,其余參數(shù)使用默認(rèn)設(shè)置。建模結(jié)果同時包含“基線”誤差(Baselineerror)的期望值,即數(shù)據(jù)集中屬于最優(yōu)勢分類的樣本全部被錯誤分類的概率。每個OTU根據(jù)其被移除后模型預(yù)報(bào)錯誤率增加的大小確定其重要度數(shù)值,重要度越高,該OTU對模型預(yù)報(bào)準(zhǔn)確率的貢獻(xiàn)越大。
根據(jù)挑選出來的差異OTU,根據(jù)其在每個樣品中的豐度信息,對物種進(jìn)行聚類,繪制成熱圖,便于觀察哪些物種在哪些樣品中聚集較多或含量較低。

注:圖中越接近藍(lán)色表示物種豐度越低,越接近橙紅色表示豐度越高。左邊的聚類樹是根據(jù)各物種間的spearman相關(guān)性距離進(jìn)行聚類;上邊的聚類樹是采用樣本間距離算法中最常用的Bray-Curtis算法進(jìn)行聚類。
6. 兩組樣本W(wǎng)elch’s t-test分析
兩組不同方差的樣本可使用Welch’st-test進(jìn)行差異比較分析,通過此分析可獲得在兩組中有顯著性差異的物種[或差異基因豐度—適用于元(宏)基因組]。

注:上圖所示為不同基因豐度(或物種)在兩組樣品中的豐度比例,中間所示為95%置信度區(qū)間內(nèi),物種豐度的差異比例,最右邊的值為p值,p值<0.05,表示差異顯著。
7. Shannon多樣性指數(shù)比較盒狀圖
將不同分類或環(huán)境的多組樣本的Shannon多樣性指數(shù)進(jìn)行四分位計(jì)算,比較不同樣本組的組間Shannon指數(shù)差異。同時進(jìn)行非參數(shù)Mann-Whitney判斷樣本組間的顯著性差異。

注:橫坐標(biāo)表示樣本分組,縱坐標(biāo)表示相對應(yīng)的Alpha多樣性指數(shù)值;圖形可以顯示5個統(tǒng)計(jì)量(最小值,第一個四分位,中位數(shù),第三個中位數(shù)和最大值,及由下到上5條線)。p<0.05,表示差異顯著;P<0.01,表示差異極顯著。
8. 基于距離的箱式圖
將不同分類或環(huán)境的多組樣本的距離進(jìn)行四分位計(jì)算,比較不同樣本組的組內(nèi)和組間的距離分布差異。同時進(jìn)行multipleStudent's two-sample t-tests判斷樣本組間差異的顯著性。
箱式圖的作用:識別數(shù)據(jù)異常值;粗略估計(jì)和判斷數(shù)據(jù)特征;比較幾批數(shù)據(jù)的形狀,同一數(shù)軸上,幾批數(shù)據(jù)的箱形圖并行排列,幾批數(shù)據(jù)的中位數(shù)、尾長、異常值、分布區(qū)間等形狀信息一目了然。
箱線圖(Boxplot)也稱箱須圖(Box-whiskerPlot),是利用數(shù)據(jù)中的五個統(tǒng)計(jì)量:最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)與最大值來描述數(shù)據(jù)的一種方法,它也可以粗略地看出數(shù)據(jù)是否具有對稱性,分布的分散程度等信息,特別可以用于對幾組樣本的比較。簡單箱線圖由五部分組成,分別是最小值、中位數(shù)、最大值和兩個四分位數(shù)。

注:第一四分位數(shù) (Q1),又稱“下四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。第二四分位數(shù) (Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。 第三四分位數(shù) (Q3),又稱“上四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。
9. LEfSe分析
LEfSe是一種用于發(fā)現(xiàn)高維生物標(biāo)識和揭示基因組特征的軟件。包括基因,代謝和分類,用于區(qū)別兩個或兩個以上生物條件(或者是類群)。該算法強(qiáng)調(diào)的是統(tǒng)計(jì)意義和生物相關(guān)性。讓研究人員能夠識別不同豐度的特征以及相關(guān)聯(lián)的類別。
LEfSe通過生物學(xué)統(tǒng)計(jì)差異使其具有強(qiáng)大的識別功能。然后,它執(zhí)行額外的測試,以評估這些差異是否符合預(yù)期的生物學(xué)行為。
具體來說,首先使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test(非參數(shù)因子克魯斯卡爾—沃利斯和秩驗(yàn)檢)檢測具有顯著豐度差異特征,并找到與豐度有顯著性差異的類群。最后,LEfSe采用線性判別分析(LDA)來估算每個組分(物種)豐度對差異效果影響的大小。

說明:左邊的圖為統(tǒng)計(jì)兩個組別當(dāng)中有顯著作用的微生物類群通過LDA分析(線性回歸分析)后獲得的LDA分值。右邊的圖為聚類樹,節(jié)點(diǎn)大小表示豐度,默認(rèn)從門到屬依次向外排列。紅色區(qū)域和綠色區(qū)域表示不同分組,樹枝中紅色節(jié)點(diǎn)表示在紅色組別中起到重要作用的微生物類群,綠色節(jié)點(diǎn)表示在綠色組別中起到重要作用的微生物類群,黃色節(jié)點(diǎn)表示的是在兩組中均沒有起到重要作用的微生物類群。圖中英文字母表示的物種名稱在右側(cè)圖例中進(jìn)行展示。
10. ANOSIM相似性分析
相似性分析(ANOSIM)是一種非參數(shù)檢驗(yàn),用來檢驗(yàn)組間(兩組或多組)的差異是否顯著大于組內(nèi)差異,從而判斷分組是否有意義。首先利用Bray-Curtis算法計(jì)算兩兩樣品間的距離,然后將所有距離從小到大進(jìn)行排序,按以下公式計(jì)算R值,之后將樣品進(jìn)行置換,重新計(jì)算R*值,R*大于R的概率即為P值。

其中,
r ? _b:表示組間(Between groups)距離排名的平均值;
r ? _w:表示組內(nèi)(Within groups)距離排名的平均值;
n:表示樣品總數(shù)。
Table. Anosimanalysis

注:理論上,R值范圍為-1到+1,實(shí)際中R值一般從0到1,R值接近1表示組間差異越大于組內(nèi)差異,R值接近0則表示組間和組內(nèi)沒有明顯差異。P值則反映了分析結(jié)果的統(tǒng)計(jì)學(xué)顯著性,P值越小,表明各樣本分組之間的差異顯著性越高,P< 0.05表示統(tǒng)計(jì)具有顯著性;Number of permutation表示置換次數(shù)。
11. Adonis多因素方差分析
Adonis又稱置換多因素方差分析(permutationalMANOSVA)或非參數(shù)多因素方差分析(nonparametricMANOVA)。它利用半度量(如Bray-Curtis)或度量距離矩陣(如Euclidean)對總方差進(jìn)行分解,分析不同分組因素對樣品差異的解釋度,并使用置換檢驗(yàn)對劃分的統(tǒng)計(jì)學(xué)意義進(jìn)行顯著性分析。
Table permutational MANOVA analysis

注:
Group:表示分組;
Df:表示自由度;
SumsOfSqs:總方差,又稱離差平方和;
MeanSqs:平均方差,即SumsOfSqs/Df;
F.Model:F檢驗(yàn)值;
R2:表示不同分組對樣品差異的解釋度,即分組方差與總方差的比值,即分組所能解釋的原始數(shù)據(jù)中差異的比例,R2越大表示分組對差異的解釋度越高;
Pr(>F):通過置換檢驗(yàn)獲得的P值,P值越小,表明組間差異顯著性越強(qiáng)。