關(guān)于Duplicate 在二代測(cè)序中的定義:
Duplicate ,字面意思是重復(fù),在二代測(cè)序中,特指測(cè)序得到的reads 是 “重復(fù) ”的,這個(gè)重復(fù)的定義主要基于兩方面,一個(gè)是reads比對(duì)到基因組的位置與堿基是否完全一致,二是比對(duì)到參考基因組的方向(二代雙端測(cè)序,是FR reads,即read one 是 forward, read two 經(jīng)橋式擴(kuò)增后測(cè)序是 reverse)是否完全一致,滿足這兩點(diǎn)一致的時(shí)候,就被認(rèn)為是duplicate。
關(guān)于Duplicate的產(chǎn)生:
PCR 擴(kuò)增產(chǎn)生相同的片段(PCR duplicate)
儀器原理的原因,首先根據(jù)reads 比對(duì)位置,堿基相似度,方向等原因找出一樣比對(duì)的duplicate reads,這其中就包括了PCR duplicate與Optical duplicate,然后duplicate group的reads會(huì)相互比較,看read pair 是不是在同一個(gè)測(cè)序tile,并且read在flowcell上的的x, y坐標(biāo)小于一定的閾值(同一個(gè)測(cè)序tile的即是相距太近,讀出堿基一樣,會(huì)儀器產(chǎn)生的optical duplicate,picard的閾值,OPTICAL_DUPLICATE_PIXEL_DISTANCE默認(rèn)為100)。Optical duplicate 產(chǎn)生的主要原因是同一個(gè)大的cluster的reads被誤識(shí)別成不同的cluster 的時(shí)候,此時(shí)他們距離應(yīng)該很近本來(lái)是一組數(shù)據(jù),但是卻產(chǎn)生了多組數(shù)據(jù)。Optical duplicate arises where the image analysis software mistakenly identifies two points on the flowcell as being centers of different clusters, when in fact they are both locations within a single large cluster.
關(guān)于Duplicate的去除:
首先,去除duplicate的原因,是因?yàn)樵跍y(cè)序分析是,duplicate的reads是來(lái)源于同一條原始的read,相當(dāng)于是同一個(gè)信息,假如某個(gè)位置有100條reads覆蓋,90條是duplicate,其實(shí)這個(gè)位置就相當(dāng)于90條reads的信息是一個(gè)有用信息,如果這個(gè)原始read因?yàn)闇y(cè)序的問(wèn)題發(fā)生了一個(gè)突變,不考慮duplicate的話,就是90個(gè)突變,很容易被作為假陽(yáng)性檢出(90/100),而如果考慮是duplicate,這90個(gè)read僅被作為一個(gè)信息(1/10),就不太會(huì)被檢出了。
其次,去除duplicate最常用的軟件是Picard,實(shí)際測(cè)試(Picard Version: 1.111(1901))的現(xiàn)象為,重復(fù) reads 較少的時(shí)候,不會(huì)被標(biāo)記duplicate,但是較多的時(shí)候卻會(huì)被標(biāo)記,而且測(cè)試顯示,多次duplicate時(shí),至少會(huì)有兩對(duì)不被標(biāo)記,經(jīng)測(cè)試推測(cè):1:標(biāo)記duplicate也是有duplicate次數(shù)的限制的,顯示3條的時(shí)候都是不標(biāo)記的,4次的時(shí)候就標(biāo)記,推測(cè)限制就是4次;2:標(biāo)記duplicate,至少會(huì)剩兩對(duì)不標(biāo)記,因?yàn)?8次重復(fù)的數(shù)據(jù)與36次重復(fù)的數(shù)據(jù),都是兩對(duì)不標(biāo)記。
測(cè)試細(xì)節(jié):
圖1: 3次重復(fù)時(shí),flag不標(biāo)記,推測(cè)有最低dup次數(shù)限制

圖2:4次重復(fù)時(shí),標(biāo)記兩行,推測(cè)最低限制就是4次

圖3:18次重復(fù)時(shí),與36次重復(fù)時(shí),均剩兩對(duì)不標(biāo)記,推測(cè)至少剩兩對(duì)不標(biāo)記
18次重復(fù):

36次重復(fù):

20181226 補(bǔ)充更新:
之前一直認(rèn)為Dup只會(huì)雙端同時(shí)被標(biāo)記,實(shí)際由于某些測(cè)試,發(fā)現(xiàn)也會(huì)存在單端read被標(biāo)記成dup的情況(目前并沒(méi)有把所有可能性拿出來(lái)看,看了一些reads對(duì),推測(cè)是因?yàn)榱硪欢吮葘?duì)不上時(shí)才會(huì)存在)。
以下兩圖,均為成對(duì)reads中,一條無(wú)法比對(duì)到基因(*號(hào)的是沒(méi)有比對(duì)上的read)。


華大對(duì)dup的解釋: