本文回答以下兩個(gè)問(wèn)題:
1. 根據(jù)掃描得到的光點(diǎn)圖,如何判斷一個(gè)位置上的堿基是什么
2. 評(píng)估1中判斷的可靠性
插圖全部來(lái)自【陳巍學(xué)基因】視頻2:HiSeq工作原理,本文是對(duì)該視頻的學(xué)習(xí)筆記
1. 四種堿基的判讀規(guī)則




- C > 0.6 即 Ia/Ib > 1.5,該位置的堿基是“好堿基”
- Ia :光點(diǎn)中占比最高的熒光素含量
- Ib :光點(diǎn)中占比第二的熒光素含量
- Pass Filter:前25個(gè)堿基中,壞堿基的個(gè)數(shù)小于等于1,則該read的Pass Filter=pass,否則不pass

- 對(duì)data進(jìn)行Pass Filter的目的:去掉多克隆cluster
- 多克隆cluster中光點(diǎn)上,占比最高的熒光素含量與占比第二的熒光素含量相近,判讀誤差大,無(wú)法確定到底是哪種堿基
- PF rate = Pass Filter的reads數(shù)目/總的測(cè)到的reads數(shù)目
- 上樣密度過(guò)高,PF rate 會(huì)下降(多克隆cluster會(huì)增多)
2. 評(píng)估堿基判讀
Quality Score
-
評(píng)價(jià)一個(gè)位置上堿基判讀可靠性的指標(biāo),評(píng)價(jià)堿基誤判的可能性
-
Q30比例 = 達(dá)到或超過(guò)Q30的數(shù)據(jù) / 總的Pass Filter的數(shù)據(jù)



linux環(huán)境下FASTQ文件預(yù)覽

