轉(zhuǎn)自 https://yangguang8112.github.io/2017/03/09/%E6%B5%8B%E5%BA%8F%E9%94%99%E8%AF%AF%E7%8E%87/
為什么read1和read2前幾個堿基的錯誤率較高?
測序儀先測完read1全長,才跳轉(zhuǎn)測read2,測序儀自身在剛啟動或關(guān)閉時不太穩(wěn)定,圖像識別質(zhì)量比較差,尤其是第一個堿基與最后一個堿基,測序質(zhì)量最差,緊挨著的幾個堿基測序質(zhì)量也偏高,一是測序儀從剛開始的不穩(wěn)定到穩(wěn)定,有一個過渡的過程。另外接頭空載,也會導(dǎo)致錯誤率上升。(ILLUMILA工程師的說法)
這是因為隨機引物擴增的偏好性導(dǎo)致的。隨機引物擴增偏好使得前邊一些堿基的堿基含量不平衡,因而在base-calling的時候算法不準(zhǔn)確,導(dǎo)致了錯誤率高。 所謂的開機儀器不穩(wěn)定其實解釋不了read2開始堿基錯誤率也高的問題。 DNA文庫沒有這種隨機引物反轉(zhuǎn)的過程,因而起始的幾個堿基的錯誤率就沒有明顯高。 也是同樣的道理,WGBS文庫因為堿基含量的不平衡,而導(dǎo)致錯誤率更高,在測序的時候就需要加入平衡文庫。
隨著測序的進行,flowcell可能會受到熒光的損害之類的,因而測read2的時候flowcell已經(jīng)和read1的時候不同了,因此read2的錯誤率會更高一些。當(dāng)然熒光損害的說法也不太能找到根據(jù),而測過read1之后,可能flowcell變得更臟了卻是很好理解的。
為什么隨著read延長,測序錯誤率呈現(xiàn)升高趨勢?read2錯誤率要普遍高于read1錯誤率?
測序過程中,每個cycle在熒光基團淬滅,去3’端保護基團時,沒有完全去除,導(dǎo)致在延伸過程滯留,或者是加入了無3’端保護的堿基,導(dǎo)致延伸超前,滯留和超前引起延伸步調(diào)不一致,這是一個累積的過程,越是往后,超前或滯后的累積越多,測序錯誤率也就越高。另外,整個測序過程耗時較長,酶活性及試劑的有效性會隨著時間的延長而降低,測序過程先測read1,后測read2,所以read2的錯誤率要稍高于read1。另外,若待測片段中存在反向互補序列,容易發(fā)生折疊,導(dǎo)致堿基在合成時錯配(測序原理為邊合成邊測序)。對于特異性序列GGC,若后面的堿基是G,GGC這種結(jié)構(gòu)引起聚合酶偏好性的改變,會使錯誤率增高。
參考文獻
Metzker M L. Sequencing technologies—the next generation[J]. Nature reviews genetics, 2010, 11(1): 31-46.
Nakamura K, Oshima T, Morimoto T, et al. Sequence-specific error profile of Illumina sequencers[J]. Nucleic acids research, 2011: gkr344.
Dohm J C, Lottaz C, Borodina T, et al. Substantial biases in ultra-short read data sets from high-throughput DNA sequencing[J]. Nucleic acids research, 2008, 36(16): e105-e105.