寫在前面的廢話
有時候我在讀文獻時,明明前面用的是alignment,但是接下來又使用了mapping。起初,我認為二者意思相同,后來發(fā)現(xiàn)沒那么簡單。無奈之下只能自己搜集資料思考二者的區(qū)別……

太長不看系列
- alignment:講究細節(jié),需要知道比對的具體情況
- mapping:只看整體,不關(guān)注比對的具體情況
廢話超多系列
alignment vs. mapping
alignment與mapping之間的區(qū)別
當(dāng)我們要比對(align)一個read時,我們不僅要知道它在基因組中可能出現(xiàn)的位置,而且還要知道對應(yīng)位置的確切堿基。舉一個例子,一個read seq1很有可能來源于1號染色體,其坐標位置從123到140。seq1read中的前7個堿基與參考基因組精確比對上,接著有3個堿基的插入,接著剩余的堿基read seq1和參考基因組比對上。
上面的例子中,我們知道這個reads比對的具體信息(具體位置,是否錯配,有無indel等),此時我們對這種比對情況稱之為alignment。
而當(dāng)我們匹配(mapping)一個read時,我們僅僅需要知道read它來自哪里,而不關(guān)心read和reference之間的確切比對。
比如科研工作者的脫發(fā)現(xiàn)象。當(dāng)我說我禿了,你不用關(guān)心我掉了多少頭發(fā),還剩多少頭發(fā),你只需要知道我禿了這一情況就可以了

早先,比對(alignment)和匹配(mapping)經(jīng)常會被誤用。但是像Kallisto和Salmon之類的工具改變了這一情況,因為他們將reads assign到基因、功能以及其他的什么東西上,而不需要知道其中確切的比對信息。這樣做的方式有兩個優(yōu)點:
- 更快
- 我們通常不關(guān)心比對,這在一些應(yīng)用/工具中是一個很大的優(yōu)勢
Kallisto:一個用于single cell & bulk RNA-seq數(shù)據(jù)的轉(zhuǎn)錄本定量工具
Salmon:與Kallisto類似的一個工具
不同種類的alignment
既然講到了alignment,那我們就繼續(xù)看看alignment帶上不同的形容詞,都有什么不同的含義。
- pairwise alignment:兩個序列之間的比對
- Multiple sequence alignment:兩個及以上序列之間的比對
- Short read aligners:就是尋常說的pairwise
alignment quality vs. mapping quality
我們都知道比對之后,會有比對的質(zhì)量,那么mapping和alignment的質(zhì)量有什么不同呢?作為一個認真努力的科研工作者,那我必須深挖一下這個問題。

- alignment quality:是指reads比對到參考基因組上的匹配質(zhì)量
- mapping quality:是reads正確匹配到基因組位置的置信度(可能性)
比如,將一個read比對到基因組上,這個read在該基因組上的若干個位置都有很完美的比對。此時alignment quality是很高的,而mapping quality是比較低的。
depth vs. coverage
既然都講到了比對,那么測序深度和覆蓋度就不得不提一下了。
- depth(測序深度):通常是指整個基因組。(測序的reads數(shù) * reads 的長度)/單倍體基因組的長度
- coverage(覆蓋度):通常是指某個具體位點的深度。比如:測序過程中,某一個區(qū)域(比如,某個基因,某一個堿基位置等)所覆蓋的reads數(shù)
coverage取決于具體的比對算法。比如:有的算法會在這里剛好匹配,有的認為在這里存在錯配,有的則插入一個gap……
正如上面所述,二者應(yīng)該是有區(qū)別的。但是大部分文獻都會將其混用,如果沒有前后文的對照,你很有可能會誤解作者的意思。
那么該怎么辦呢?怎么辦呢?通常有三個方法:
- 利用前后文語境,猜測此處的含義
- 看到coverage首先把它當(dāng)作覆蓋度,看到depth首先把它當(dāng)作測序深度
此外,需要注意的一點是,depth/coverage經(jīng)常會和其他詞語聯(lián)合使用,這個時候就需要靠經(jīng)驗總結(jié)了。我知道你們肯定懶得總結(jié),所以我在這里給出了自己總結(jié)的的一些小tips
- breadth of coverage(覆蓋范圍):在給定測序深度的情況下,基因組堿基得覆蓋百分比
- Depth of coverage:等同于coverage
- Sequence depth:等同于depth

Reference
- Sequencing depth and coverage: key considerations in genomic analyses
- https://www.biostars.org/p/6571/
- https://bitesizebio.com/34461/ngs-depth-coverage-deep-sequencing/