R語言:UPGMA聚類分析和樹狀圖

導(dǎo)讀

非加權(quán)組平均法(unweighted pair-group method with arithmetic means, UPGMA或average linkage)是一種較常用的聚類分析方法,可用于分析分類問題,也常被用于微生物多樣性研究。下面介紹用R語言中的UPGMA函數(shù)分析微生物多樣性數(shù)據(jù)和結(jié)果可視化的方法,內(nèi)容如下:1)模擬(樣品、豐度)矩陣數(shù)據(jù);2)計(jì)算bray curtis相異指數(shù)和UPGMA聚類;3)繪制樹狀圖。

1 模擬(樣品、豐度)矩陣數(shù)據(jù)

set.seed(1995)  
# 隨機(jī)種子

data=matrix(abs(round(rnorm(200, mean=1000, sd=500))), 20, 10)  
# 隨機(jī)正整數(shù),20行,20列

colnames(data)=paste("Species", 1:10, sep=".")  
# 列名-細(xì)菌

rownames(data)=paste("Sample", 1:20, sep=".")  
# 行名-樣品

data_norm=data
for(i in 1:20){
    sample_sum=apply(data, 1, sum)
    for(j in 1:10){
        data_norm[i,j]=data[i,j]/sample_sum[i]
    }
}
# 標(biāo)準(zhǔn)化

data_norm
# 模擬完成的標(biāo)準(zhǔn)化矩陣數(shù)據(jù)如下:

               Species.1   Species.2  Species.3  Species.4 ... Species.10
    Sample.1  0.14032835 0.076767862 0.12225993 0.08713198 
    Sample.2  0.08434712 0.116281427 0.14405921 0.12976480 
    Sample.3  0.09997205 0.026460449 0.11571788 0.10006522 
    Sample.4  0.10753751 0.102236996 0.03449825 0.12766149 
    ...
    Sample.20

2 計(jì)算bray curtis相異指數(shù)和UPGMA聚類

用R語言vegan包中的vegdist函數(shù)分析菌群豐度數(shù)據(jù),計(jì)算樣品之間的bray curtis相異指數(shù)(Dissimilarity index),接著用phangorn包中的upgma函數(shù)進(jìn)行樣品聚類分析。vegdist函數(shù)中可供選擇的dissimilarity算法有很多,如:"manhattan", "euclidean", "canberra", "bray", "kulczynski", "jaccard", "gower", "altGower", "morisita", "horn", "mountford", "raup" , "binomial", "chao", "cao" or "mahalanobis",其中"bray"即bray curtis在微生物多樣性研究中最為常用,故用之。

library("vegan")
library("phangorn")
up=upgma(vegdist(data_norm, method="bray"))
# 使用bray curtis dissimilarity算法和upgma聚類算法

3 繪制樹狀圖

plot畫圖函數(shù)中可供選擇的樹狀圖類型有:“phylogram”, “cladogram”, “fan”, “unrooted”, “radial”。利用par函數(shù)mfrow參數(shù)可將多張圖片組合到一起,mai參數(shù)可調(diào)整每張圖片的大?。ň噙呴L度)。

pdf('upgma.pdf')

opar=par(no.readonly=TRUE)
# 生成圖形參數(shù)列表
par(mfrow=c(3, 2), col.main="red", family="serif")
# par設(shè)置:按行填充,3行,2列,標(biāo)題顏色,字體(羅馬)
par(mai=c(0.2, 0.2, 0.2, 0.2))
# par設(shè)置:每個(gè)圖形距邊距離(英寸)

plot(up, main="by default")
plot(up, type="phylogram", main="phylogram")  # 默認(rèn)
plot(up, type="cladogram", main="cladogram")
plot(up, type="fan", main="fan")
plot(up, type="unrooted", main="unrooted")
plot(up, type="radial", main="radial")

par(opar)
# 關(guān)閉par
dev.off()
# 關(guān)閉畫板

打開結(jié)果upgma.pdf可得如下結(jié)果:

圖片.png

同步發(fā)布于微信公眾號(hào):微生態(tài)

\color{green}{????原創(chuàng)文章,碼字不易,轉(zhuǎn)載請(qǐng)注明出處????}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 本章代碼聚類分析是一種數(shù)據(jù)歸約技術(shù),旨在揭露一個(gè)數(shù)據(jù)集中觀測(cè)值的子集。它可以把大量的觀測(cè) 值歸約為若干個(gè)類。這里的...
    生信擺渡閱讀 3,649評(píng)論 1 12
  • 原文鏈接(可關(guān)注公眾號(hào)微生態(tài)與微進(jìn)化索取示例數(shù)據(jù)): 層次聚類與聚類樹 比較聚類:我該劃分多少個(gè)聚類簇? 聚類分析...
    SYSU星空閱讀 3,339評(píng)論 2 24
  • 一、β-多樣性分析 1.樣品間距離計(jì)算 樣品間的物種豐度分布差異程度可通過統(tǒng)計(jì)學(xué)中的距離進(jìn)行量化分析,使用統(tǒng)計(jì)算法...
    JarySun閱讀 25,863評(píng)論 0 19
  • **微生物群落多樣性的基本概念**環(huán)境中微生物的群落結(jié)構(gòu)及多樣性和微生物的功能及代謝機(jī)理是微生物生態(tài)學(xué)的研究熱點(diǎn)。...
    相見很不晚閱讀 10,510評(píng)論 1 47
  • 久違的晴天,家長會(huì)。 家長大會(huì)開好到教室時(shí),離放學(xué)已經(jīng)沒多少時(shí)間了。班主任說已經(jīng)安排了三個(gè)家長分享經(jīng)驗(yàn)。 放學(xué)鈴聲...
    飄雪兒5閱讀 7,810評(píng)論 16 22

友情鏈接更多精彩內(nèi)容