CNV簡介:
拷貝數(shù)異常(copy number variations, CNVs)是屬于基因組結(jié)構(gòu)變異(structural variation),根據(jù)大小可分為兩個層次:顯微水平(microscopic)和亞顯微水平(submicroscopic)。顯微水平的基因組結(jié)構(gòu)變異主要是指顯微鏡下可見的染色體畸變, 包括 整倍體或非整倍體、缺失、插入、倒位、易位、脆性位點(diǎn)等結(jié)構(gòu)變異。亞微水平的基因組結(jié)構(gòu)變異是指 DNA 片 段 長 度 在 1Kb-3Mb 的基因組結(jié)構(gòu)變異, 包括缺失、插入、重復(fù)、重排、倒 位、DNA 拷貝數(shù)目變化等,這些統(tǒng)稱為 CNV (也稱為拷貝數(shù)多態(tài)性(copy number polymorphisms, CNPs)。
CNV 檢測策略:
對于分析CNV,目前已經(jīng)開發(fā)出了很多的檢測軟件。經(jīng)典策略為Read-pair, split-read,read-depth和assembly。先簡單介紹一下這四個策略的原理:
Read-pair(RP):
- 原理:RP是最早出現(xiàn)的算法,利用雙端測序插入片段長度分布來檢測CNV, 也稱之為PEM,pair end mapping方法。當(dāng)插入片段長度過長或者過短(高于或低于閾值)時,說明相比于參考基因組來說,樣本基因組結(jié)構(gòu)出現(xiàn)了插入或者缺失。
- 缺陷:受到測序讀長的影響,該方法適用于檢測中等長度的insertion和deletion, 對過小的插入不敏感,而且比較依賴比對的準(zhǔn)確性,無法分析低復(fù)雜度的segmental duplication區(qū)域。
- 軟件:BreakDancer、PEMer、Ulysses。
Split-read(SR):
- 原理:對于長片段缺失或插入,在于參考基因組比對時,會出現(xiàn)比對不上的情況。SR方法利用一端能夠比對,另外一端比對不上的reads來識別CNV。另外一端比對不上,可能是存在CNV, 通過將單獨(dú)的reads進(jìn)行拆分,使其能夠正確比對到參考基因組上,拆分的點(diǎn)就是CNV的斷裂點(diǎn)。
- 缺陷:只利用了單端reads, 讀長進(jìn)一步受到限制,所以該方法只適用于檢測小規(guī)模的插入和缺失。另外,該策略也依賴比對結(jié)果的準(zhǔn)確性。
- 軟件:Pindel,PRISM,SVseq2,Gustaf。
Read-Depth(RD):
- 原理:RD方法的原理基于檢測區(qū)域拷貝數(shù)和其測序深度的相關(guān)性進(jìn)行分析。一般情況下,缺失表示該區(qū)域的測序深度較低,插入?yún)^(qū)域的測序深度則相反。對應(yīng)檢測區(qū)域,采用滑窗的方式進(jìn)行測序深度分布統(tǒng)計(jì),由于測序?qū)τ诓煌珿C含量的區(qū)域會有一定的偏好性,因此在統(tǒng)計(jì)時需要用利用gc含量在校正區(qū)域原始的測序深度。該算法采用滑動窗口的方式,統(tǒng)計(jì)每個窗口內(nèi)的矯正后測序深度分布,利用校正之后的RD值,對鄰近的bin進(jìn)行聚類,理論上聚為一類的bin具有相同的cnv拷貝數(shù)。該方法一般需要與基線進(jìn)行比較,對CNV做出更為準(zhǔn)確的判斷。該理論為主流的分析策略。
- 缺陷:滑動窗口的大小對結(jié)果影響較大,當(dāng)窗口很大時,一些長度很短的CNV信號就會被掩蓋。
- 軟件:CNVnator,ERDS,ReadDepth,CNVrd2,CNVkit,ExomeDepth,DECoN等。
Assembly(AS):
- 原理:AS方法利用測序得到的短序列進(jìn)行組裝,將組裝的contig與參考基因組進(jìn)行比較,從而確定發(fā)生了結(jié)構(gòu)變異的區(qū)域。
- 缺陷:組裝的精確依賴測序讀長和算法的準(zhǔn)確度,而且組裝對硬件資源的消耗特別大,并不是一個理想的CNV檢測的算法。