ASV和OTU有什么不同?哪個更好?

遇到了一個16S的課題,于是開始認真學習ASV和OTU的差別,順手整理一下。

擴增子測序和鳥槍法測序已經(jīng)成為微生物組領(lǐng)域最常見的研究手段。盡管鳥槍法測序可以為我們提供更高分辨率和更全面的物種信息以及基因信息,但是該方法的成本高昂,對運算資源和樣本的要求也更高。比如,生物量較低的樣本通常難以滿足鳥槍法測序?qū)颖綝NA量的要求,往往會通過全基因組擴增法(WGA)提高DNA量,然而WGA容易引入誤差,對樣本測序結(jié)果會造成一定的影響。因此,當前仍有許多研究采用16S或ITS等方法來探究不同地方的微生物組。

然而,使用擴增子測序法得到的結(jié)果,也就是當我們靶向檢測某段基因序列的時候,更容易受到測序錯誤引起的SNV的影響,從而導致序列分類錯誤,最終造成檢測到相似、但不正確的微生物,或錯誤地以為發(fā)現(xiàn)了新的微生物。而在全基因組測序的情況下,這種由于測序錯誤引起的SNV的影響就比較小,通常不會影響序列最終的比對結(jié)果。

針對擴增子測序的這一問題,目前有兩種常用的分析策略——OTU和ASV,來降低測序錯誤造成的影響。近年來,我們可以發(fā)現(xiàn),越來越多的文章開始采用ASV,而拋棄OTU。那么,ASV和OTU之間到底有什么差別呢?

首先從擴增子測序(以16S rDNA測序為例)說起。

下述內(nèi)容主要來源于ZYMO RESEARCH的視頻:https://www.zymoresearch.com/blogs/blog/microbiome-informatics-otu-vs-asv

Target Sequencing

擴增子測序是Target Sequencing的一種,其目的是通過對細菌的16S rDNA區(qū)域進行擴增測序,來區(qū)分不同的物種。那么為何要選擇16S rDNA呢?或者說我們應(yīng)該選擇怎樣的區(qū)域,才能確定一個樣本的物種組成呢?


圖片來源:ZYMO RESEARCH

第一,考慮到要檢測不同物種,那么被檢測的區(qū)域一定是能夠特異性代表某一物種的區(qū)域,也就是高變區(qū)域。
第二,考慮到要用同樣的引物擴增不同物種,所以這個高變區(qū)域兩端要具有一段在不同物種間高度保守的區(qū)域。
第三,最好對這一區(qū)域已經(jīng)有比較充分的研究和理解,這樣也能保證有相應(yīng)的數(shù)據(jù)庫納入被測區(qū)域的序列,以進行物種注釋。

總結(jié)而言,就是以下4點:
(1) Sequencable highly conserved regions surrounding variable regions.
(2) Present in potential target species.
(3) Reasonably well-characterized and understood.
(4) Large existing database of reference sequences already avaliable.

而16S rDNA就是滿足上述要求的一段區(qū)域。其產(chǎn)生的RNA,也就是16S rRNA實際上是原核生物的核糖體中30S亞基的組成部分。

然而,16S rDNA測序米面臨著一些挑戰(zhàn),其中一個重要的挑戰(zhàn)來源于測序的不完美。雖然二代測序的準確率已經(jīng)非常高了,但是依然無法做到100%的準確性。而三代測序如Nanopore測序的準確性就更加低。而且這些錯誤并不是隨機分布的,往往在某些區(qū)域更容易出現(xiàn)錯誤。
而這些由測序?qū)е碌腻e誤,可能會導致物種注釋錯誤,甚至讓我們誤以為發(fā)現(xiàn)了新物種。為了應(yīng)對這種錯誤,研究人員先后提出了OTU和ASV兩種手段。

什么是OTU

接下來讓我們先聊一聊OTU。OTU本質(zhì)上是就是一種聚類的方式,具體操作有3種策略:
(1)De Novo: 不依賴于數(shù)據(jù)庫,基于自有數(shù)據(jù)進行聚類。不依賴于數(shù)據(jù)庫,當樣本數(shù)據(jù)發(fā)生變化時,結(jié)果可能會發(fā)生明顯變化。
(2)Open Reference:依賴于數(shù)據(jù)庫,將自有數(shù)據(jù)與數(shù)據(jù)庫提供的代表性序列進行聚類,可以與其聚成一類的被視為統(tǒng)一物種,無法與其聚成一類給予新的標識。
(3)Closed Reference:依賴于數(shù)據(jù)庫,將自有數(shù)據(jù)與數(shù)據(jù)庫提供的代表性序列進行聚類,可以與其聚成一類的被視為統(tǒng)一物種,無法與其聚成一類的數(shù)據(jù)被丟棄。速度快,但是結(jié)果取決于數(shù)據(jù)庫的質(zhì)量。

圖片來源:ZYMO RESEARCH

通常在聚類時,將identity設(shè)置為97%及以上。然后聚成一類的序列就被視作為一個OTU。

測序錯誤?

但是,如果存在測序錯誤呢?
假如我們發(fā)現(xiàn)有這樣三段序列,它們之間只有幾個堿基的差異,測序獲得的Count數(shù)上也顯著不同:中間的棕色測到了10,000次,紫色的15次,粉色的2次。


圖片來源:ZYMO RESEARCH

那么結(jié)合測序的準確率,我們可以建立error model,獲得一個期望值,并計算pvalue,以判斷哪些是真實存在的序列,哪些是測序錯誤導致的。

圖片來源:ZYMO RESEARCH

在判斷哪些是測序錯誤的序列之后,我們就可以將這些序列從我們的數(shù)據(jù)中剔除,獲得真實準確的序列。

而上述過程其實就是ASV的核心。

什么是ASV

那么ASV和OTU之間有什么異同呢?

圖片來源:ZYMO RESEARCH

實際上,簡單來講ASV就是在去除了錯誤序列之后,將Identity的標準設(shè)為100%進行聚類。因為不存在測序錯誤的情況下,即你的數(shù)據(jù)全都是真實的,那么也就意味著只有相同序列才是來自于同一個物種的,所以此時的identity應(yīng)該設(shè)置為100%。

ASV相比于OTU具有多個優(yōu)點:
(1)因為identity為100%,所以當你增加樣本時,或者與其他研究的ASV數(shù)據(jù)結(jié)果進行比較時,結(jié)果具有一致性和可比性。
(2)只有在進行物種注釋的時候才需要參考基因組。
(3)每一個ASV對應(yīng)一個準確的序列。當不同物種對應(yīng)同一個ASV的時候,意味著它們之間這一段序列具有一致性,即共有這一段序列。
(4)更容易檢測嵌合體。

不過ASV也并非完全沒有問題,比如樣本中存在某些極低豐度的物種,可能會被當成測序錯誤而被剔除。

此外,ASV好用重要前提是你的數(shù)據(jù)能夠建立一個合適的error model,準確檢測到錯誤的序列。

今天就講到這里啦~如有什么錯誤,歡迎大家指正。

參考文獻:

  1. Blaxter M, Mann J, Chapman T, et al. Defining operational taxonomic units using DNA barcode data. Philos Trans R Soc Lond B Biol Sci. Oct 29 2005;360(1462):1935-43. doi:10.1098/rstb.2005.1725
  2. Kunin V, Engelbrektson A, Ochman H, Hugenholtz P. Wrinkles in the rare biosphere: pyrosequencing errors can lead to artificial inflation of diversity estimates. Environ Microbiol. Jan 2010;12(1):118-23. doi:10.1111/j.1462-2920.2009.02051.x
  3. Callahan BJ, Wong J, Heiner C, et al. High-throughput amplicon sequencing of the full-length 16S rRNA gene with single-nucleotide resolution. Nucleic Acids Research. 2019;47(18):e103-e103. doi:10.1093/nar/gkz569
  4. Callahan BJ, McMurdie PJ, Holmes SP. Exact sequence variants should replace operational taxonomic units in marker-gene data analysis. The ISME Journal. 2017/12/01 2017;11(12):2639-2643. doi:10.1038/ismej.2017.119
  5. Caruso V, Song X, Asquith M, Karstens L. Performance of Microbiome Sequence Inference Methods in Environments with Varying Biomass. mSystems. 2019;4(1):e00163-18. doi:10.1128/mSystems.00163-18
  6. Gevers D, Knight R, Petrosino JF, et al. The Human Microbiome Project: a community resource for the healthy human microbiome. PLoS Biol. 2012;10(8):e1001377-e1001377. doi:10.1371/journal.pbio.1001377
  7. Edgar RC. Accuracy of microbial community diversity estimated by closed- and open-reference OTUs. PeerJ. 2017;5:e3889. doi:10.7717/peerj.3889
  8. Callahan BJ, McMurdie PJ, Rosen MJ, Han AW, Johnson AJ, Holmes SP. DADA2: High-resolution sample inference from Illumina amplicon data. Nat Methods. Jul 2016;13(7):581-3. doi:10.1038/nmeth.3869
  9. Nearing JT, Douglas GM, Comeau AM, Langille MGI. Denoising the Denoisers: an independent evaluation of microbiome sequence error-correction approaches. PeerJ. 2018;6:e5364-e5364. doi:10.7717/peerj.5364
  10. Amir A, McDonald D, Navas-Molina JA, et al. Deblur Rapidly Resolves Single-Nucleotide Community Sequence Patterns. mSystems. Mar-Apr 2017;2(2)doi:10.1128/mSystems.00191-16
  11. Edgar RC. UNOISE2: improved error-correction for Illumina 16S and ITS amplicon sequencing. bioRxiv. 2016:081257. doi:10.1101/081257
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容