【基因組】組裝及原理

sequence assembly

1. DNA測序技術(shù)

第一代:sanger

第二代:高通量 illumina, 454測序,等

2.5代:lon torrent/proton 測序

第三代:pacbio

2.mate-pair(大長度) 文庫的構(gòu)建

≥2k 片段→加接頭→環(huán)化→打斷→短片段→回收帶標(biāo)記的片段對較短的片段進行測序

3. 各測序平臺特性

Illumina

reads:49-300bp
錯誤率 1%左右,3‘端會高一點
pair-end文庫(170-40kb)

數(shù)據(jù)格式 4行:(fastq)

  1. reads id,@開頭
  2. 序列信息,N代表不確定
  3. 質(zhì)量值的id,一般和 reads 的 id 相同
  4. 質(zhì)量值的信息(ASCII 碼-64 = 質(zhì)量值)

成對的 reads 對應(yīng)的行號是一樣的。

454

reads:700bp(peak),平均 500
error and indel 錯誤
pair-end 1kb-20kb

數(shù)據(jù)格式:

  1. 序列信息:fasta格式,> 開頭 id
  2. 質(zhì)量信息:存放于另一個文件中,> 號開頭,直接用數(shù)值表示

4. 組裝的基本思路

策略1:

分級組裝:人類基因組
缺點:實驗環(huán)節(jié)較慢,需要圖譜,消耗高
優(yōu)點:算法簡單,質(zhì)量高

策略2:

鳥槍法(whole-genome shotgun):
優(yōu)點:實驗簡單,花費低
缺點:計算能力要求,質(zhì)量低

5. 基本概念

overlap:重合部分
contig:組裝的初級序列
pair-end:中間有未知的區(qū)域
scaffold:

6. 基因組大小的估計

流式細胞儀

Kmer 分析

根據(jù)近源物種估計,得到基礎(chǔ)值,得到一些測序數(shù)據(jù),利用Kmer估計

1. 泊松分布 poisson distribution

測序深度:基因組中每個堿基被測序的頻率。一般情況下,個體測序:30 層

假設(shè)基因組大小為G,隨機測序,read 的長度為L,當(dāng)生成一個read 的時候,一個固定堿基被測到的概率是 L/G, reads 的總量為n_r.

L/G 非常小,而 n_r 非常大,每個堿基被測到的頻率的期望:
d_n = L/G * n_r
它服從泊松分布(n 很大而 p 很小的二項分布)。

Kmer:固定長度的核苷酸序列,奇數(shù)(避免正反鏈一致,中間的肯定不一樣)

假設(shè)基因組中 K 是獨一無二的,則 G 大小的基因組中的 Kmer 的數(shù)量也為G,reads 的長度為 L,則一個固定的 Kmer 被測到的概率為(L- K + 1)/G(因為L上可以有L-K+1個Kmer)。

L-K+1/G 很小,而 n_r 非常大,每個Kmer被測到的頻率的期望和總個數(shù):
d_k = (L-K+1)/G * n_r
n_k = (L-K+1) * n_r
可推導(dǎo)出:
G = n_k/d_k
d_n/d_k = L/(L-K+1)

image.png

圖片為,reads為100時,Kmer長度為25,在d_n 為 40時, d_k 為30.4。
100/(100-25+1) * 40 = 30.4
基因組大小 G = n_k/d_k

7. Kmer 的其他應(yīng)用

下圖為一個比較簡單的基因組的Kmer分布

image.png

下面較復(fù)雜:

最前面:測序錯誤造成。
兩個峰值:一個峰高,一個峰低(高雜合基因組造成,深度正好差一倍)。
尾部:由于重復(fù)片段造成的。


image.png

下面:

同樣兩個峰,80處有個小峰,基因組帶有高重復(fù)率,但是雜合度不高。


image.png

Kmer在組裝上的應(yīng)用

組裝基于 Kmer 而非 reads

長度為17的Kmer,相鄰有16bp是相同的。

read 上的Kmer數(shù): L-K+1

8. 基于二代測序結(jié)果的組裝

一些名詞:

image.png

Illumina

原理:根據(jù)Kmer(Kmer 圖)

軟件:SOAPdenovo(華大)、velvet ABySS、ALLPATH-LG

以SOAPdenovo為例:

  1. 構(gòu)建圖(De bruijn graph)


    image.png

    中間的數(shù)字顯示出現(xiàn)的次數(shù)


    image.png
  2. 簡化圖,并獲得contigs
    去掉低頻kmer鏈接(測序錯誤造成的)
    利用各種方法去掉其他的錯誤
    最終使 reads 連接成為 contigs
  3. 將 pair-end mapping 到 contigs 上
    a. 將pair-end 定位到 contigs(完整的序列(長于Kmer),存在于reads和contig上)
    b. 測序方向的問題。
    c. 估計gap的大小,用 N 填充。
  4. 構(gòu)建 scaffolds
  5. pair-end 中間 gap 的填充(延伸contig)
    a. 利用pair-end 的數(shù)據(jù)
    b. 長reads可以跨過洞

sanger/454測序

方法:overlap-layout-consensus

代表軟件:Newber、Celera、Phrap

高雜合基因組

fosmid 文庫 + 鳥槍法(牡蠣為例),花費高,周期長
BAC克隆(華大) + 鳥槍法,花費高,周期長
Ultra-Deep de novo,高深度測序 (下一節(jié)),花費少,效果差,周期短

9. 高深度測序原理及方法

利用Kmer分布圖(峰),識別出 unique Kmer 和 repeat Kmer

image.png

10. 影響組裝的因素

1. 測序錯誤

N太多(超過 10%,5%,3%,視數(shù)據(jù)多少而定),去掉

測序質(zhì)量

接頭序列,reads和接頭比對

小的 insert size

去除 PCR duplication

測序錯誤引起的問題

Kmer 峰的前移

糾正
包含錯誤位點的Kmer出現(xiàn)的頻率低,識別出,一次替換為其他三個堿基,直至Kmer的出現(xiàn)頻率變高。

為了不人為改變造成錯誤,一般一個reads只改一個

先糾錯 再進行 contigs 的組裝

2. 重復(fù)序列

N50和N90 推測影響

3. 雜合

N50和N90 推測影響

如果雜合度超過千分之5,就要考慮是否考慮 高深度測序等。

11. 輔助組裝的技術(shù)

  1. Fosmid-end/ BAC-end
  2. 遺傳圖譜和物理圖譜
  3. optical mapping,酶切,獲得片段長度,輔助組裝
  4. The Irys System (BioNano),密度高
    可以偵測 gap 的大小及錯誤的插入

盡量將組裝結(jié)果,連接到假染色體上。

12. 評價基因組

基于長度

N50:contigs從長到短排序,累加到總長50及以上是,那個conig的長度。
N90:同理

genome 的覆蓋度(80%以上)

基于準(zhǔn)確度

與EST 或 轉(zhuǎn)錄組數(shù)據(jù) 比對
golden standard (比如 fosmid 等)
同源方法,與同源物種或模式生物比較基因模式

GC 深度和 測序深度的分析

下圖,紅圈部分,可能是y染色體


image.png

下圖,紅圈部分,左右兩端的小圈區(qū)域,GC高的部分可能是細菌污染(可以過濾掉相關(guān)reads)


image.png
image.png

gap 可能的產(chǎn)生原因:repeat 造成的深度高

基因顛倒,證明是否正確

基因結(jié)構(gòu)預(yù)測,與近源物種比較

13 SOAPdenovo 組裝流程

1. 下機數(shù)據(jù)準(zhǔn)備

后有index,用于區(qū)分樣品

質(zhì)量值:Q = -10 log10P,ASCII碼,減64
PE(pair-end) reads:成對的reads(paired-end reads 和 mate-pair reads)
SE(single-end) reads

2. 過濾,數(shù)據(jù)質(zhì)控

Q20,占全部堿基的80以上。

過濾 adaptor:fastq轉(zhuǎn)化為fasta,利用nucmer將接頭序列與reads相比較,過濾掉adaptor(SOAPfilter)

過濾低質(zhì)量的reads:

N 占太多的 過濾掉(10%)

過濾掉 small insert 的 reads

兩端的堿基準(zhǔn)確率可能較低(兩個reads,A,T不相等),可以剪掉

3. 下機數(shù)據(jù)糾錯

KmerFraq_AR_ 軟件
-K 設(shè)置成17,可以估計出小于16G的基因組
關(guān)注最后一個文件,標(biāo)記各種kmer選項。

4. 基因組大小和雜合度的估計

需要軟件
命令:./KmerFreq_AR_v2.0 -k 17 -t 4 -p species fq.lst

5. SOAPdenovo

配制文件,格式在官網(wǎng)上有介紹

avg_ins: 插入片段的長度

reverse_seq:是否環(huán)化,0 或 1

... ...

6. SOAPaligner

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容