99er精品,久久大香蕉久久

1. 隨機(jī)森林模型

隨機(jī)森林是一種基于決策樹（Decisiontree）的高效的機(jī)器學(xué)習(xí)算法，可以用于對樣本進(jìn)行分類（Classification），也可以用于回歸分析（Regression）。

它屬于非線性分類器，因此可以挖掘變量之間復(fù)雜的非線性的相互依賴關(guān)系。通過隨機(jī)森林分析，可以找出能夠區(qū)分兩組樣本間差異關(guān)鍵OTU。

Feature Importance Scores表格-來源于隨機(jī)森林結(jié)果

記錄了各OTU對組間差異的貢獻(xiàn)值大小。

注：一般地，選取Mean_decrease_in_accuracy值大于0.05的OTU，作進(jìn)一步分析；對于組間差異較小的樣本，該值可能會降至0.03。

2. 交叉驗(yàn)證分析

交叉驗(yàn)證（Crossvalidation)，是一種統(tǒng)計(jì)學(xué)上將數(shù)據(jù)樣本切割成較小子集的實(shí)用方法。先在一個子集上做分析，而其它子集則用來做后續(xù)對此分析的確認(rèn)及驗(yàn)證。一開始的子集被稱為訓(xùn)練集。而其它的子集則被稱為驗(yàn)證集或測試集。

其中最常見的為k-foldercross-validation，它指的是將所有數(shù)據(jù)分成k個子集，每個子集均做一次測試集，其余的作為訓(xùn)練集。交叉驗(yàn)證重復(fù)k次，每次選擇一個子集作為測試集，并將k次的平均交叉驗(yàn)證識別正確率作為結(jié)果。

所有的樣本都被作為了訓(xùn)練集和測試集，每個樣本都被驗(yàn)證一次。

對隨機(jī)森林方法篩選出的關(guān)鍵OTU的組合進(jìn)行遍歷，以期用最少的OTU數(shù)目組合構(gòu)建一個錯誤率最低高效分類器。

一般地，對隨機(jī)森林分析篩選出的關(guān)鍵OTU，按照不同組合進(jìn)行10倍交叉驗(yàn)證分析，找出能夠最準(zhǔn)確區(qū)分組間差異的最少的OTU組合，再做進(jìn)一步的分析，如ROC分析等。

注：圖中橫坐標(biāo)表示不同數(shù)量的OTU組合，縱坐標(biāo)表示該數(shù)量OTU組合下分類的錯誤率。OTU組合數(shù)越少，且錯誤率越低，則該OTU組合被認(rèn)為是能夠區(qū)分組間差異的最少的OTU組合。

3. ROC曲線

接收者操作特征曲線（Receiveroperating characteristic curve，ROC 曲線）也是一種有效的有監(jiān)督學(xué)習(xí)方法。ROC分析屬于二元分類算法，用來處理只有兩種分類的問題，可以用于選擇最佳的判別模型,選擇最佳的診斷界限值。

可依據(jù)專業(yè)知識，對疾病組和參照組測定結(jié)果進(jìn)行分析，確定測定值的上下限、組距以及截?cái)帱c(diǎn)(cut-offpoint)，按選擇的組距間隔列出累積頻數(shù)分布表，分別計(jì)算出所有截?cái)帱c(diǎn)的敏感性(Sensetivity)、特異性和假陽性率(1-特異性:Specificity)。以敏感性為縱坐標(biāo)代表真陽性率，(1-特異性)為橫坐標(biāo)代表假陽性率，作圖繪成ROC曲線。ROC曲線越靠近左上角，診斷的準(zhǔn)確性就越高。亦可通過分別計(jì)算各個試驗(yàn)的ROC曲線下的面積(AUC)進(jìn)行比較，哪一種試驗(yàn)的AUC最大，則哪一種試驗(yàn)的診斷價值最佳。

注：圖中橫坐標(biāo)為假陽性率false positive rate（FPR）：Specificity，縱坐標(biāo)為真陽性率true positive rate（TPR）：Sensetivity。最靠近左上角的ROC曲線的點(diǎn)是錯誤最少的最好閾值，其假陽性和假陰性的總數(shù)最少。ROC曲線下的面積值在1.0和0.5之間。在AUC>0.5的情況下，AUC越接近于1，說明診斷效果越好。AUC在 0.5~0.7時有較低準(zhǔn)確性，AUC在0.7~0.9時有一定準(zhǔn)確性，AUC在0.9以上時有較高準(zhǔn)確性。AUC=0.5時，說明診斷方法完全不起作用，無診斷價值。AUC<0.5不符合真實(shí)情況，在實(shí)際中極少出現(xiàn)。

4. Wilcoxon秩和檢驗(yàn)分析

Wilcoxonrank-sum test，也叫曼-惠特尼U檢驗(yàn)（Mann–WhitneyU test），是兩組獨(dú)立樣本非參數(shù)檢驗(yàn)的一種方法。其原假設(shè)為兩組獨(dú)立樣本來自的兩總體分布無顯著差異，通過對兩組樣本平均秩的研究來實(shí)現(xiàn)判斷兩總體的分布是否存在差異，該分析可以對兩組樣品的物種進(jìn)行顯著性差異分析，并對p值計(jì)算假發(fā)現(xiàn)率（FDR）q值。

注：mean分別為兩組樣品物種的平均相對豐度，sd分別是兩組樣本物種相對豐度的標(biāo)準(zhǔn)差。P值為對兩組檢驗(yàn)原假設(shè)為真的概率值，p<0.05表示存在差異，p<0.01表示差異顯著，q值為假發(fā)現(xiàn)率。

5. 差異菌群Heatmap分析

以10倍交叉驗(yàn)證（10-foldcross-validation）估計(jì)泛化誤差（Generalizationerror）的大小，其余參數(shù)使用默認(rèn)設(shè)置。建模結(jié)果同時包含“基線”誤差（Baselineerror）的期望值，即數(shù)據(jù)集中屬于最優(yōu)勢分類的樣本全部被錯誤分類的概率。每個OTU根據(jù)其被移除后模型預(yù)報(bào)錯誤率增加的大小確定其重要度數(shù)值，重要度越高，該OTU對模型預(yù)報(bào)準(zhǔn)確率的貢獻(xiàn)越大。

根據(jù)挑選出來的差異OTU，根據(jù)其在每個樣品中的豐度信息，對物種進(jìn)行聚類，繪制成熱圖，便于觀察哪些物種在哪些樣品中聚集較多或含量較低。

注：圖中越接近藍(lán)色表示物種豐度越低，越接近橙紅色表示豐度越高。左邊的聚類樹是根據(jù)各物種間的spearman相關(guān)性距離進(jìn)行聚類；上邊的聚類樹是采用樣本間距離算法中最常用的Bray-Curtis算法進(jìn)行聚類。

6. 兩組樣本W(wǎng)elch’s t-test分析

兩組不同方差的樣本可使用Welch’st-test進(jìn)行差異比較分析，通過此分析可獲得在兩組中有顯著性差異的物種[或差異基因豐度—適用于元（宏）基因組]。

注：上圖所示為不同基因豐度（或物種）在兩組樣品中的豐度比例，中間所示為95%置信度區(qū)間內(nèi)，物種豐度的差異比例，最右邊的值為p值，p值＜0.05，表示差異顯著。

7. Shannon多樣性指數(shù)比較盒狀圖

將不同分類或環(huán)境的多組樣本的Shannon多樣性指數(shù)進(jìn)行四分位計(jì)算，比較不同樣本組的組間Shannon指數(shù)差異。同時進(jìn)行非參數(shù)Mann-Whitney判斷樣本組間的顯著性差異。

注：橫坐標(biāo)表示樣本分組，縱坐標(biāo)表示相對應(yīng)的Alpha多樣性指數(shù)值；圖形可以顯示5個統(tǒng)計(jì)量（最小值，第一個四分位，中位數(shù)，第三個中位數(shù)和最大值，及由下到上5條線）。p＜0.05，表示差異顯著；P<0.01，表示差異極顯著。

8. 基于距離的箱式圖

將不同分類或環(huán)境的多組樣本的距離進(jìn)行四分位計(jì)算，比較不同樣本組的組內(nèi)和組間的距離分布差異。同時進(jìn)行multipleStudent's two-sample t-tests判斷樣本組間差異的顯著性。

箱式圖的作用：識別數(shù)據(jù)異常值；粗略估計(jì)和判斷數(shù)據(jù)特征；比較幾批數(shù)據(jù)的形狀，同一數(shù)軸上，幾批數(shù)據(jù)的箱形圖并行排列，幾批數(shù)據(jù)的中位數(shù)、尾長、異常值、分布區(qū)間等形狀信息一目了然。

箱線圖（Boxplot）也稱箱須圖（Box-whiskerPlot），是利用數(shù)據(jù)中的五個統(tǒng)計(jì)量：最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)與最大值來描述數(shù)據(jù)的一種方法，它也可以粗略地看出數(shù)據(jù)是否具有對稱性，分布的分散程度等信息，特別可以用于對幾組樣本的比較。簡單箱線圖由五部分組成，分別是最小值、中位數(shù)、最大值和兩個四分位數(shù)。

注：第一四分位數(shù) (Q1)，又稱“下四分位數(shù)”，等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。第二四分位數(shù) (Q2)，又稱“中位數(shù)”，等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。第三四分位數(shù) (Q3)，又稱“上四分位數(shù)”，等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。

9. LEfSe分析

LEfSe是一種用于發(fā)現(xiàn)高維生物標(biāo)識和揭示基因組特征的軟件。包括基因，代謝和分類，用于區(qū)別兩個或兩個以上生物條件（或者是類群）。該算法強(qiáng)調(diào)的是統(tǒng)計(jì)意義和生物相關(guān)性。讓研究人員能夠識別不同豐度的特征以及相關(guān)聯(lián)的類別。

LEfSe通過生物學(xué)統(tǒng)計(jì)差異使其具有強(qiáng)大的識別功能。然后，它執(zhí)行額外的測試，以評估這些差異是否符合預(yù)期的生物學(xué)行為。

具體來說，首先使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test（非參數(shù)因子克魯斯卡爾—沃利斯和秩驗(yàn)檢）檢測具有顯著豐度差異特征，并找到與豐度有顯著性差異的類群。最后，LEfSe采用線性判別分析（LDA）來估算每個組分（物種）豐度對差異效果影響的大小。

說明：左邊的圖為統(tǒng)計(jì)兩個組別當(dāng)中有顯著作用的微生物類群通過LDA分析（線性回歸分析）后獲得的LDA分值。右邊的圖為聚類樹，節(jié)點(diǎn)大小表示豐度，默認(rèn)從門到屬依次向外排列。紅色區(qū)域和綠色區(qū)域表示不同分組，樹枝中紅色節(jié)點(diǎn)表示在紅色組別中起到重要作用的微生物類群，綠色節(jié)點(diǎn)表示在綠色組別中起到重要作用的微生物類群，黃色節(jié)點(diǎn)表示的是在兩組中均沒有起到重要作用的微生物類群。圖中英文字母表示的物種名稱在右側(cè)圖例中進(jìn)行展示。

10. ANOSIM相似性分析

相似性分析(ANOSIM)是一種非參數(shù)檢驗(yàn)，用來檢驗(yàn)組間（兩組或多組）的差異是否顯著大于組內(nèi)差異，從而判斷分組是否有意義。首先利用Bray-Curtis算法計(jì)算兩兩樣品間的距離，然后將所有距離從小到大進(jìn)行排序，按以下公式計(jì)算R值，之后將樣品進(jìn)行置換，重新計(jì)算R*值，R*大于R的概率即為P值。

其中，

r ? _b：表示組間（Between groups）距離排名的平均值；

r ? _w：表示組內(nèi)（Within groups）距離排名的平均值；

n：表示樣品總數(shù)。

Table. Anosimanalysis

注：理論上，R值范圍為-1到+1，實(shí)際中R值一般從0到1，R值接近1表示組間差異越大于組內(nèi)差異，R值接近0則表示組間和組內(nèi)沒有明顯差異。P值則反映了分析結(jié)果的統(tǒng)計(jì)學(xué)顯著性，P值越小，表明各樣本分組之間的差異顯著性越高，P< 0.05表示統(tǒng)計(jì)具有顯著性；Number of permutation表示置換次數(shù)。

11. Adonis多因素方差分析

Adonis又稱置換多因素方差分析（permutationalMANOSVA）或非參數(shù)多因素方差分析（nonparametricMANOVA）。它利用半度量(如Bray-Curtis)或度量距離矩陣(如Euclidean)對總方差進(jìn)行分解，分析不同分組因素對樣品差異的解釋度，并使用置換檢驗(yàn)對劃分的統(tǒng)計(jì)學(xué)意義進(jìn)行顯著性分析。

Table permutational MANOVA analysis

注：

Group：表示分組；

Df：表示自由度；

SumsOfSqs：總方差，又稱離差平方和；

MeanSqs：平均方差，即SumsOfSqs/Df；

F.Model：F檢驗(yàn)值；

R2：表示不同分組對樣品差異的解釋度，即分組方差與總方差的比值，即分組所能解釋的原始數(shù)據(jù)中差異的比例，R2越大表示分組對差異的解釋度越高；

Pr(>F)：通過置換檢驗(yàn)獲得的P值，P值越小，表明組間差異顯著性越強(qiáng)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

微生物多樣研究—差異分析

微生物多樣研究—差異分析

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

微生物多樣研究—差異分析

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av