咬文嚼字之mapping&alignment

寫在前面的廢話

有時候我在讀文獻時,明明前面用的是alignment,但是接下來又使用了mapping。起初,我認為二者意思相同,后來發(fā)現(xiàn)沒那么簡單。無奈之下只能自己搜集資料思考二者的區(qū)別……


心情復(fù)雜

太長不看系列

  • alignment:講究細節(jié),需要知道比對的具體情況
  • mapping:只看整體,不關(guān)注比對的具體情況

廢話超多系列

alignment vs. mapping

alignment與mapping之間的區(qū)別

當(dāng)我們要比對(align)一個read時,我們不僅要知道它在基因組中可能出現(xiàn)的位置,而且還要知道對應(yīng)位置的確切堿基。舉一個例子,一個read seq1很有可能來源于1號染色體,其坐標位置從123到140。seq1read中的前7個堿基與參考基因組精確比對上,接著有3個堿基的插入,接著剩余的堿基read seq1和參考基因組比對上。

上面的例子中,我們知道這個reads比對的具體信息(具體位置,是否錯配,有無indel等),此時我們對這種比對情況稱之為alignment。

而當(dāng)我們匹配(mapping)一個read時,我們僅僅需要知道read它來自哪里,而不關(guān)心read和reference之間的確切比對。

比如科研工作者的脫發(fā)現(xiàn)象。當(dāng)我說我禿了,你不用關(guān)心我掉了多少頭發(fā),還剩多少頭發(fā),你只需要知道我禿了這一情況就可以了

挺禿然的

早先,比對(alignment)和匹配(mapping)經(jīng)常會被誤用。但是像Kallisto和Salmon之類的工具改變了這一情況,因為他們將reads assign到基因、功能以及其他的什么東西上,而不需要知道其中確切的比對信息。這樣做的方式有兩個優(yōu)點:

  • 更快
  • 我們通常不關(guān)心比對,這在一些應(yīng)用/工具中是一個很大的優(yōu)勢

Kallisto:一個用于single cell & bulk RNA-seq數(shù)據(jù)的轉(zhuǎn)錄本定量工具
Salmon:與Kallisto類似的一個工具

不同種類的alignment

既然講到了alignment,那我們就繼續(xù)看看alignment帶上不同的形容詞,都有什么不同的含義。

  • pairwise alignment:兩個序列之間的比對
  • Multiple sequence alignment:兩個及以上序列之間的比對
  • Short read aligners:就是尋常說的pairwise

alignment quality vs. mapping quality

我們都知道比對之后,會有比對的質(zhì)量,那么mapping和alignment的質(zhì)量有什么不同呢?作為一個認真努力的科研工作者,那我必須深挖一下這個問題。


image.png
  • alignment quality:是指reads比對到參考基因組上的匹配質(zhì)量
  • mapping quality:是reads正確匹配到基因組位置的置信度(可能性)

比如,將一個read比對到基因組上,這個read在該基因組上的若干個位置都有很完美的比對。此時alignment quality是很高的,而mapping quality是比較低的。

depth vs. coverage

既然都講到了比對,那么測序深度和覆蓋度就不得不提一下了。

  • depth(測序深度):通常是指整個基因組。(測序的reads數(shù) * reads 的長度)/單倍體基因組的長度
  • coverage(覆蓋度):通常是指某個具體位點的深度。比如:測序過程中,某一個區(qū)域(比如,某個基因,某一個堿基位置等)所覆蓋的reads數(shù)

coverage取決于具體的比對算法。比如:有的算法會在這里剛好匹配,有的認為在這里存在錯配,有的則插入一個gap……

正如上面所述,二者應(yīng)該是有區(qū)別的。但是大部分文獻都會將其混用,如果沒有前后文的對照,你很有可能會誤解作者的意思。

那么該怎么辦呢?怎么辦呢?通常有三個方法:

  1. 利用前后文語境,猜測此處的含義
  2. 看到coverage首先把它當(dāng)作覆蓋度,看到depth首先把它當(dāng)作測序深度

此外,需要注意的一點是,depth/coverage經(jīng)常會和其他詞語聯(lián)合使用,這個時候就需要靠經(jīng)驗總結(jié)了。我知道你們肯定懶得總結(jié),所以我在這里給出了自己總結(jié)的的一些小tips

  • breadth of coverage(覆蓋范圍):在給定測序深度的情況下,基因組堿基得覆蓋百分比
  • Depth of coverage:等同于coverage
  • Sequence depth:等同于depth
image.png
Reference
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容