
1、de novo OTU 聚類,是將所有序列直接按照兩兩之間的相似度,劃分成一個(gè)個(gè)OTU,選取該OTU中豐度最高的序列作為該OTU的代表序列,然后用代表序列比對(duì)參考數(shù)據(jù)庫(kù),獲得該OTU的物種注釋。常用數(shù)據(jù)庫(kù)有RDP、Silva及Greengene,由于GreenGene和RDP數(shù)據(jù)庫(kù)一直沒有更新,一般采用Silva數(shù)據(jù)庫(kù)進(jìn)行分析。
OTU注釋數(shù)據(jù)庫(kù) 優(yōu)點(diǎn):不依賴參考數(shù)據(jù)庫(kù),尤其是所研究的樣品中含有的已知物種較少,如極端環(huán)境中。
缺點(diǎn):受測(cè)序錯(cuò)誤及嵌合體影響較大,說白了就是有些序列并非真實(shí)存在,是實(shí)驗(yàn)過程產(chǎn)生的“假序列”,用這種方法聚類時(shí)就會(huì)被誤認(rèn)為是一個(gè)獨(dú)立的OTU,不過可以通過去嵌合體等分析手段緩解。
2、closed-reference聚類,這種方法是將序列與參考數(shù)據(jù)庫(kù)直接比對(duì),比對(duì)到同一參考序列的作為一個(gè)OTU,在OTU聚類的同時(shí),也獲得了該OTU的物種注釋信息。
優(yōu)點(diǎn):所獲得的OTU可信度高;另外,由于不同文章中檢測(cè)的16S區(qū)域不同,如果要合并分析,不能用de novo OTU picking的方法聚類,因此只能用close-reference方法聚類。
缺點(diǎn):只能得到已知物種的序列,丟失未知物種的信息。
3 、open-reference OTU聚類,具有上述兩種聚類方法的特點(diǎn),即將序列與參考序列比對(duì),未比對(duì)上的序列再進(jìn)行de novo聚類。兼具上述兩種方法的優(yōu)點(diǎn),但無法用于不同16S區(qū)域的合并分析。
由于目前的參考數(shù)據(jù)庫(kù)信息有限,所以O(shè)TU的注釋結(jié)果中常見到一些uncultured*之類的沒有分類信息。